- این فصل شامل موارد زیر است:
- گامهای لازم برای چارچوببندی یک مسئله یادگیری ماشین
- گامهای لازم برای توسعه یک مدل عملیاتی
- گامهای لازم برای استقرار مدل در محیط تولید و نگهداری آن
مقدمه
مثالهای قبلی ما فرض بر این داشتند که از قبل یک مجموعه داده برچسبگذاری شده در اختیار داریم و میتوانیم بلافاصله آموزش مدل را آغاز کنیم. در دنیای واقعی، اغلب اینطور نیست. شما از یک مجموعه داده شروع نمیکنید، بلکه از یک مسئله شروع میکنید.
تصور کنید که شرکت مشاوره یادگیری ماشین خود را راهاندازی کردهاید. شرکت را ثبت میکنید، یک وبسایت فانتزی راهاندازی میکنید، به شبکه خود اطلاع میدهید. پروژهها سرازیر میشوند:
- یک موتور جستجوی عکس شخصیسازی شده برای یک شبکه اجتماعی اشتراکگذاری عکس—کلمه “عروسی” را تایپ کنید و تمام عکسهایی را که در عروسیها گرفتهاید، بدون نیاز به هیچگونه برچسبگذاری دستی، بازیابی کنید.
- پرچمگذاری محتوای متنی هرزنامه(spam) و توهینآمیز در میان پستهای یک اپلیکیشن چت نوپا.
- ساخت یک سیستم توصیهگر موسیقی برای کاربران یک رادیو آنلاین.
- تشخیص تقلب کارت اعتباری برای یک وبسایت تجارت الکترونیک.
- پیشبینی نرخ کلیک بر روی تبلیغات نمایشی برای تصمیمگیری اینکه کدام تبلیغ در زمان مشخص به کاربر مشخصی نمایش داده شود.
- علامت گذاری کوکیهای غیرعادی روی تسمه نقاله خط تولید کلوچه.
- استفاده از تصاویر ماهوارهای برای پیشبینی مکان سایتهای باستانشناسی هنوز ناشناخته هستند.
——————————————————————
توجه به اخلاق
شما ممکن است گاهی با پروژههایی مواجه شوید که از نظر اخلاقی مشکوک هستند، مانند “ساخت هوش مصنوعی که میزان قابل اعتماد بودن فردی را از روی عکس چهرهاش رتبهبندی یا ارزیابی کند.” اول از همه، اعتبار چنین پروژهای زیر سوال است: مشخص نیست چرا قابل اعتماد بودن باید در چهره کسی منعکس شود. دوم اینکه، چنین وظیفهای راه را به روی انواع مشکلات اخلاقی باز میکند.
جمعآوری یک مجموعه داده برای این کار به معنای ثبت تعصبات و پیشداوریهای افرادی خواهد بود که عکسها را برچسبگذاری میکنند. مدلهایی که شما روی چنین دادههایی آموزش میدهید، صرفاً همین تعصبات را در یک الگوریتم جعبه سیاه کدگذاری میکنند که به آنها پوششی نازک از مشروعیت میبخشد. در جامعهای که تا حد زیادی از نظر فناوری بیسواد است، مانند جامعه ما، “الگوریتم هوش مصنوعی گفت این فرد قابل اعتماد نیست” به طرز عجیبی به نظر میرسد که وزن و عینیت بیشتری نسبت به “جان اسمیت گفت این فرد قابل اعتماد نیست” دارد، با وجود اینکه اولی یک تقریب یادگرفتهشده از دومی است. مدل شما بدترین جنبههای قضاوت انسانی را در مقیاس وسیع پولشویی کرده و عملیاتی خواهد کرد، با اثرات منفی بر زندگی افراد واقعی.
فناوری هرگز خنثی نیست. اگر کار شما تأثیری بر جهان دارد، این تأثیر یک جهتگیری اخلاقی نیز دارد: انتخابهای فنی، انتخابهای اخلاقی نیز هستند. همیشه در مورد ارزشهایی که میخواهید کارتان از آنها حمایت کند، سنجیده عمل کنید.
—————————————————————————————
بسیار راحت خواهد بود اگر میتوانستید مجموعه داده صحیح را از keras.datasets وارد کنید و شروع به برازش مدلهای یادگیری عمیق کنید. متأسفانه، در دنیای واقعی باید از صفر شروع کنید.
در این فصل، شما با یک طرح کلی گام به گام جهانی آشنا خواهید شد که میتوانید از آن برای رویکرد و حل هر مسئله یادگیری ماشین، مانند مواردی که در لیست قبلی ذکر شد، استفاده کنید. این الگو همه آنچه را که در فصلهای ۴ و ۵ آموختهاید گرد هم آورده و تثبیت میکند و چارچوب گستردهتری را به شما ارائه میدهد که آنچه در فصلهای بعدی خواهید آموخت را مستحکم میسازد.
گردش کار جهانی یادگیری ماشین به طور کلی در سه بخش ساختار یافته است:
۱. تعریف وظیفه — دامنه مسئله و منطق کسبوکار زیربنایی درخواست مشتری را درک کنید. یک مجموعه داده جمعآوری کنید، بفهمید دادهها چه چیزی را نشان میدهند، و نحوه سنجش موفقیت در وظیفه را انتخاب کنید.
۲. توسعه مدل — دادههای خود را آماده کنید تا توسط یک مدل یادگیری ماشین پردازش شوند، یک پروتکل ارزیابی مدل و یک خط پایه ساده برای شکست دادن انتخاب کنید، یک مدل اولیه آموزش دهید که قدرت تعمیم داشته باشد و بتواند بیشبرازش کند، و سپس مدل خود را منظم و تنظیم کنید تا به بهترین عملکرد تعمیم ممکن دست یابید.
۳. استقرار مدل — کار خود را به ذینفعان (stakeholders) ارائه دهید، مدل را به یک وب سرور، یک برنامه موبایل، یک صفحه وب، یا یک دستگاه تعبیهشده (embedded device) ارسال کنید، عملکرد مدل را در محیط واقعی پایش کنید، و شروع به جمعآوری دادههایی کنید که برای ساخت مدل نسل بعدی به آنها نیاز خواهید داشت.
بیایید وارد جزئیات شویم.
تعریف وظیفه
شما نمیتوانید بدون درک عمیق از بافت آنچه انجام میدهید، کار خوبی انجام دهید. چرا مشتری شما در تلاش است این مسئله خاص را حل کند؟ چه ارزشی از این راهحل کسب خواهد کرد — مدل شما چگونه استفاده خواهد شد و چگونه در فرآیندهای کسبوکار مشتری شما جای میگیرد؟ چه نوع دادهای در دسترس است یا میتواند جمعآوری شود؟ چه نوع وظیفه یادگیری ماشین را میتوان به مسئله کسبوکار نگاشت کرد؟
چارچوببندی مسئله (Frame the Problem)
چارچوببندی یک مسئله یادگیری ماشین معمولاً شامل بحثهای مفصل زیادی با ذینفعان (stakeholders) است. در اینجا سؤالاتی مطرح میشوند که باید در صدر ذهنتان باشند:
- دادههای ورودی شما چه خواهند بود؟ چه چیزی را میخواهید پیشبینی کنید؟ شما تنها زمانی میتوانید چیزی را پیشبینی کنید که دادههای آموزشی در دسترس داشته باشید: برای مثال، تنها زمانی میتوانید احساس یک نقد فیلم را طبقهبندی کنید که هم نقد فیلم و هم حاشیهنویسی احساسی مربوط به آن در دسترس باشند. به همین دلیل، در دسترس بودن دادهها معمولاً عامل محدودکننده در این مرحله است. در بسیاری از موارد، باید خودتان به جمعآوری و حاشیهنویسی مجموعهدادههای جدید متوسل شوید (که در بخش بعدی به آن خواهیم پرداخت).
- با چه نوع وظیفه یادگیری ماشینی روبرو هستید؟ آیا طبقهبندی دودویی است؟ طبقهبندی چندکلاسه؟ رگرسیون اسکالر؟ رگرسیون برداری؟ طبقهبندی چندکلاسه و چندبرچسبی؟ تقسیمبندی تصویر (Image segmentation)؟ رتبهبندی (Ranking)؟ یا چیز دیگری، مانند خوشهبندی، تولید (generation) یا یادگیری تقویتی؟ در برخی موارد، ممکن است یادگیری ماشین حتی بهترین راه برای درک دادهها نباشد و باید از چیز دیگری مانند تحلیل آماری قدیمی و ساده استفاده کنید.
- پروژه موتور جستجوی عکس یک وظیفه طبقهبندی چندکلاسه و چندبرچسبی است.
- پروژه تشخیص هرزنامه یک وظیفه طبقهبندی دودویی است. اگر “محتوای توهینآمیز” را به عنوان یک کلاس جداگانه تعریف کنید، یک وظیفه طبقهبندی سه حالته است.
- موتور توصیهگر موسیقی به نظر میرسد که نه از طریق یادگیری عمیق، بلکه از طریق تجزیه ماتریس (matrix factorization) (فیلترینگ مشارکتی) بهتر مدیریت میشود.
- پروژه تشخیص تقلب کارت اعتباری یک وظیفه طبقهبندی دودویی است.
- پروژه پیشبینی نرخ کلیک یک وظیفه رگرسیون اسکالر است.
- تشخیص کلوچههای (کوکیهای) غیرعادی یک وظیفه طبقهبندی دودویی است، اما به عنوان مرحله اول به یک مدل تشخیص شیء (object detection model) نیز نیاز دارد تا کلوچهها را در تصاویر خام به درستی برش دهد. توجه داشته باشید که مجموعه تکنیکهای یادگیری ماشین شناخته شده به عنوان “تشخیص ناهنجاری” در این محیط مناسب نخواهد بود!
- پروژه یافتن سایتهای باستانشناسی جدید از تصاویر ماهوارهای یک وظیفه رتبهبندی شباهت تصویر است: شما باید تصاویر جدیدی را بازیابی کنید که بیشترین شباهت را به سایتهای باستانشناسی شناخته شده دارند.
- راهحلهای موجود چگونهاند؟ شاید مشتری شما از قبل یک الگوریتم دستساز داشته باشد که فیلترینگ هرزنامه یا تشخیص تقلب کارت اعتباری را با تعداد زیادی دستور if تو در تو مدیریت میکند. شاید یک انسان در حال حاضر مسئول مدیریت دستی فرآیند مورد نظر باشد—نظارت بر نوار نقاله در کارخانه کلوچه و حذف دستی کلوچههای بد، یا ساختن لیستهای پخش توصیههای آهنگ برای ارسال به کاربرانی که یک هنرمند خاص را دوست داشتند. باید مطمئن شوید که سیستمهای موجود و نحوه کار آنها را درک میکنید.
- آیا محدودیتهای خاصی وجود دارد که باید با آنها کنار بیایید؟ برای مثال، ممکن است متوجه شوید که برنامهای که برای آن یک سیستم تشخیص هرزنامه میسازید، به شدت رمزگذاری شده سرتاسری است، بنابراین مدل تشخیص هرزنامه باید روی تلفن کاربر نهایی قرار گیرد و روی یک مجموعه داده خارجی آموزش داده شود. شاید مدل فیلتر کلوچه دارای محدودیتهای تأخیر (latency) باشد که نیاز به اجرای آن بر روی یک دستگاه تعبیهشده (embedded device) در کارخانه دارد تا یک سرور از راه دور. باید تمام زمینهای که کار شما در آن قرار میگیرد را درک کنید.
هنگامی که تحقیقات خود را انجام دادید، باید بدانید ورودیهای شما چه خواهند بود، هدفهای شما چه خواهند بود، و مسئله به چه نوع گستردهای از وظیفه یادگیری ماشین نگاشت میشود. از فرضیاتی که در این مرحله انجام میدهید آگاه باشید:
- شما فرض میکنید که هدفهای شما میتوانند با توجه به ورودیهای شما پیشبینی شوند.
- شما فرض میکنید که دادههای موجود (یا دادههایی که به زودی جمعآوری خواهید کرد) به اندازه کافی آموزنده هستند تا رابطه بین ورودیها و هدفها را یاد بگیرند.
تا زمانی که یک مدل عملیاتی نداشته باشید، اینها صرفاً فرضیاتی هستند که منتظر تأیید یا ابطال هستند. همه مسائل را نمیتوان با یادگیری ماشین حل کرد؛ صرف اینکه شما مثالهایی از ورودیهای X و هدفهای Y را گردآوری کردهاید، به معنای آن نیست که X اطلاعات کافی برای پیشبینی Y را دارد. برای مثال، اگر در حال تلاش برای پیشبینی حرکات یک سهام در بازار بورس با توجه به سابقه قیمت اخیر آن هستید، بعید است موفق شوید، زیرا سابقه قیمت اطلاعات پیشبینیکننده زیادی ندارد.
جمعآوری یک مجموعه داده
هنگامی که ماهیت وظیفه را درک کردید و میدانید ورودیها و هدفهای شما چه خواهند بود، زمان جمعآوری داده فرا میرسد—طاقتفرساترین، زمانبرترین و پرهزینهترین بخش بیشتر پروژههای یادگیری ماشین.
- پروژه موتور جستجوی عکس مستلزم آن است که ابتدا مجموعهای از برچسبهایی را که میخواهید طبقهبندی کنید، انتخاب کنید—مثلاً ۱۰,۰۰۰ دسته رایج تصویر. سپس باید صدها هزار تصویر آپلودشده توسط کاربران قبلی خود را به صورت دستی با برچسبهایی از این مجموعه برچسبگذاری کنید.
- برای پروژه تشخیص هرزنامه برنامه چت، از آنجا که چتهای کاربران به صورت سرتاسری رمزگذاری شدهاند، نمیتوانید از محتویات آنها برای آموزش مدل استفاده کنید. باید به یک مجموعه داده جداگانه شامل دهها هزار پست رسانه اجتماعی فیلترنشده دسترسی پیدا کنید و آنها را به صورت دستی به عنوان هرزنامه، توهینآمیز یا قابل قبول برچسبگذاری کنید.
- برای موتور توصیهگر موسیقی، میتوانید صرفاً از “لایک” کاربران خود استفاده کنید. نیازی به جمعآوری داده جدید نیست. به همین ترتیب برای پروژه پیشبینی نرخ کلیک: شما سابقه گستردهای از نرخ کلیک برای تبلیغات گذشته خود دارید که به سالها قبل بازمیگردد.
- برای مدل علات گذاری کوکی، نیاز خواهید داشت که دوربینهایی را بالای تسمه های نقاله نصب کنید تا دهها هزار تصویر جمعآوری شود، و سپس کسی باید این تصاویر را به صورت دستی برچسبگذاری کند. افرادی که در حال حاضر میدانند چگونه این کار را انجام دهند در کارخانه کلوچه کار میکنند، اما این کار خیلی دشوار به نظر نمیرسد. باید بتوانید افراد را برای انجام آن آموزش دهید.
- پروژه تصاویر ماهوارهای نیازمند تیمی از باستانشناسان خواهد بود تا یک پایگاه داده از سایتهای مورد علاقه موجود جمعآوری کنند، و برای هر سایت باید تصاویر ماهوارهای موجود که در شرایط آب و هوایی مختلف گرفته شدهاند را پیدا کنید. برای به دست آوردن یک مدل خوب، به هزاران سایت مختلف نیاز خواهید داشت.
در فصل ۵ آموختید که توانایی یک مدل برای تعمیم (generalization) تقریباً به طور کامل از ویژگیهای دادههایی که بر روی آنها آموزش دیده است—تعداد نقاط دادهای که دارید، قابلیت اطمینان برچسبهای شما، کیفیت ویژگیهای شما—ناشی میشود. یک مجموعه داده خوب دارایی است که ارزش مراقبت و سرمایهگذاری را دارد. اگر ۵۰ ساعت زمان اضافی برای یک پروژه به دست آورید، به احتمال زیاد موثرترین راه برای تخصیص آن، جمعآوری دادههای بیشتر است تا جستجو برای بهبودهای افزایشی مدل.
نکتهای که “دادهها بیش از الگوریتمها اهمیت دارند” به مشهورترین شکل در مقاله سال ۲۰۰۹ محققان گوگل با عنوان “اثربخشی نامعقول داده” (The Unreasonable Effectiveness of Data) بیان شد (این عنوان برگرفته از مقاله معروف سال ۱۹۶۰ با عنوان “اثربخشی نامعقول ریاضیات در علوم طبیعی” توسط یوجین ویگنر است). این قبل از محبوبیت یادگیری عمیق بود، اما به طرز شگفتآوری، ظهور یادگیری عمیق تنها اهمیت دادهها را بیشتر کرده است.
اگر در حال انجام یادگیری نظارتشده (supervised learning) هستید، پس از جمعآوری ورودیها (مانند تصاویر) به حاشیهنویسی برای آنها (مانند برچسبها برای آن تصاویر) نیاز خواهید داشت—هدفهایی که مدل خود را برای پیشبینی آنها آموزش خواهید داد. گاهی اوقات، حاشیهنویسیها میتوانند به صورت خودکار بازیابی شوند، مانند مواردی برای وظیفه توصیهگر موسیقی یا وظیفه پیشبینی نرخ کلیک. اما اغلب باید دادههای خود را به صورت دستی حاشیهنویسی کنید. این یک فرآیند پرکار است.
سرمایهگذاری در زیرساخت حاشیهنویسی داده (Data Annotation Infrastructure)
فرآیند حاشیهنویسی داده شما، کیفیت هدفهایتان را تعیین میکند که به نوبه خود کیفیت مدل شما را مشخص میسازد. گزینههایی را که در دسترس دارید، با دقت بررسی کنید:
- آیا باید خودتان دادهها را حاشیهنویسی کنید؟
- آیا باید از پلتفرمهای برونسپاری جمعی (crowdsourcing) مانند Mechanical Turk برای جمعآوری برچسبها استفاده کنید؟
- آیا باید از خدمات یک شرکت تخصصی برچسبگذاری داده استفاده کنید؟
برونسپاری به طور بالقوه میتواند در زمان و پول شما صرفهجویی کند، اما کنترل را از شما میگیرد. استفاده از چیزی شبیه Mechanical Turk احتمالاً ارزان خواهد بود و مقیاسپذیری خوبی دارد، اما حاشیهنویسیهای شما ممکن است در نهایت بسیار نویزدار باشند.
برای انتخاب بهترین گزینه، محدودیتهایی را که با آنها کار میکنید در نظر بگیرید:
- آیا برچسبگذاران داده نیاز به متخصصان موضوع (subject matter experts) دارند، یا هر کسی میتواند دادهها را حاشیهنویسی کند؟ برچسبهای یک مسئله طبقهبندی تصویر گربه در مقابل سگ را هر کسی میتواند انتخاب کند، اما برچسبهای یک وظیفه طبقهبندی نژاد سگ به دانش تخصصی نیاز دارند. در همین حال، حاشیهنویسی اسکنهای CT از شکستگی استخوان تقریباً به مدرک پزشکی نیاز دارد.
- اگر حاشیهنویسی داده نیاز به دانش تخصصی دارد، آیا میتوانید افراد را برای انجام آن آموزش دهید؟ اگر نه، چگونه میتوانید به کارشناسان مربوطه دسترسی پیدا کنید؟
- آیا خود شما نحوه کارشناسان در ارائه حاشیهنویسیها را درک میکنید؟ اگر درک نمیکنید، باید مجموعه داده خود را به عنوان یک جعبه سیاه (black box) در نظر بگیرید و قادر به انجام مهندسی ویژگی (feature engineering) دستی نخواهید بود—این حیاتی نیست، اما میتواند محدودکننده باشد.
اگر تصمیم به برچسبگذاری دادههای خود به صورت داخلی گرفتید، از خود بپرسید که از چه نرمافزاری برای ثبت حاشیهنویسیها استفاده خواهید کرد. ممکن است نیاز باشد خودتان آن نرمافزار را توسعه دهید. نرمافزار حاشیهنویسی داده کارآمد، زمان زیادی را برای شما صرفهجویی میکند، بنابراین سرمایهگذاری زودهنگام در آن در یک پروژه ارزشمند است.
مراقب داده های غیرمفید باشید
مدلهای یادگیری ماشین تنها میتوانند ورودیهایی را که شبیه به آنچه قبلاً دیدهاند، درک کنند. به همین دلیل، بسیار حیاتی است که دادههای مورد استفاده برای آموزش، نماینده (representative) دادههای تولیدی (production data) باشند. این نگرانی باید اساس تمام کارهای جمعآوری داده شما باشد.
فرض کنید در حال توسعه اپلیکیشنی هستید که کاربران میتوانند از یک بشقاب غذا عکس بگیرند تا نام غذا را پیدا کنند. شما مدلی را با استفاده از عکسهای یک شبکه اجتماعی اشتراکگذاری عکس که در بین علاقهمندان به غذا (foodies) محبوب است، آموزش میدهید. در زمان استقرار (deployment)، بازخورد کاربران عصبانی شروع به سرازیر شدن میکند: برنامه شما در ۸ مورد از ۱۰ مورد، پاسخ اشتباه میدهد. چه اتفاقی افتاده است؟ دقت شما در مجموعه آزمایش بالای ۹۰٪ بود! یک نگاه سریع به دادههای آپلودشده توسط کاربران نشان میدهد که آپلودهای عکس با موبایل از غذاهای تصادفی از رستورانهای تصادفی که با گوشیهای هوشمند تصادفی گرفته شدهاند، اصلاً شبیه عکسهای با کیفیت حرفهای، با نور خوب و اشتهاآوری که مدل را با آنها آموزش دادید، نیستند: دادههای آموزشی شما نماینده دادههای تولیدی نبودند. این یک گناه کبیره است—به جهنم یادگیری ماشین خوش آمدید.
در صورت امکان، دادهها را مستقیماً از محیطی که مدل شما در آن استفاده خواهد شد، جمعآوری کنید. یک مدل طبقهبندی احساسات نقد فیلم باید روی نقدهای جدید IMDB استفاده شود، نه روی نقدهای رستوران Yelp، و نه روی بهروزرسانیهای وضعیت توییتر. اگر میخواهید احساس یک توییت را رتبهبندی کنید، با جمعآوری و حاشیهنویسی توییتهای واقعی از مجموعهای مشابه کاربران که در محیط تولید انتظار دارید، شروع کنید. اگر آموزش روی دادههای تولیدی امکانپذیر نیست، پس مطمئن شوید که تفاوت دادههای آموزشی و تولیدی خود را کاملاً درک میکنید و به طور فعال برای اصلاح این تفاوتها اقدام میکنید.
پدیده مرتبطی که باید از آن آگاه باشید، انحراف مفهوم (concept drift) است. شما تقریباً در تمام مسائل دنیای واقعی، به ویژه آنهایی که با دادههای تولیدشده توسط کاربر سروکار دارند، با انحراف مفهوم روبرو خواهید شد. انحراف مفهوم زمانی رخ میدهد که ویژگیهای دادههای تولیدی در طول زمان تغییر میکنند و باعث کاهش تدریجی دقت مدل میشوند. یک موتور توصیهگر موسیقی که در سال ۲۰۱۳ آموزش دیده است، ممکن است امروز خیلی مؤثر نباشد. به همین ترتیب، مجموعه داده IMDB که با آن کار کردید در سال ۲۰۱۱ جمعآوری شده بود، و مدلی که بر روی آن آموزش دیده بود، احتمالاً در مورد نقدهای سال ۲۰۲۰ به خوبی نقدهای سال ۲۰۱۲ عمل نخواهد کرد، زیرا واژگان، عبارات، و ژانرهای فیلم در طول زمان تکامل مییابند. انحراف مفهوم به ویژه در زمینههای خصمانه مانند تشخیص تقلب کارت اعتباری، که الگوهای تقلب تقریباً هر روز تغییر میکنند، شدید است. مقابله با انحراف مفهوم سریع نیازمند جمعآوری مداوم داده، حاشیهنویسی، و بازآموزی مدل است.
به خاطر داشته باشید که یادگیری ماشین تنها میتواند الگوهایی را که در دادههای آموزشی شما وجود دارند، حفظ کند. شما فقط میتوانید آنچه را که قبلاً دیدهاید، تشخیص دهید. استفاده از یادگیری ماشین آموزشدیده بر روی دادههای گذشته برای پیشبینی آینده، این فرض را مطرح میکند که آینده مانند گذشته رفتار خواهد کرد. این اغلب اینطور نیست
——————————————————————————————
مسئله نمونهگیری جهت دار (Sampling Bias)
یکی از موارد بهویژه موذیانه و رایج دادههای غیرنماینده، سوگیری نمونهگیری (sampling bias) است. نمونهگیری جهت دار زمانی رخ میدهد که فرآیند جمعآوری دادههای شما با آنچه سعی در پیشبینی آن دارید، تعامل داشته باشد و منجر به اندازهگیریهای سوگیرانه شود. یک مثال تاریخی مشهور در انتخابات ریاستجمهوری سال ۱۹۴۸ آمریکا اتفاق افتاد. در شب انتخابات، روزنامه شیکاگو تریبون تیتر “دیویی ترومن را شکست داد” را چاپ کرد. صبح روز بعد، ترومن به عنوان برنده اعلام شد. سردبیر تریبون به نتایج یک نظرسنجی تلفنی اعتماد کرده بود — اما کاربران تلفن در سال ۱۹۴۸ یک نمونه تصادفی و نماینده از جمعیت رأیدهنده نبودند. آنها به احتمال زیاد ثروتمندتر، محافظهکارتر و متمایل به رأی دادن به دیویی، نامزد جمهوریخواه، بودند.

——————————————————————————————
درک دادههای خود
برخورد با یک مجموعه داده به عنوان یک جعبه سیاه (black box) کار بسیار نادرستی است. قبل از شروع آموزش مدلها، باید دادههای خود را بررسی و بصریسازی (explore and visualize) کنید تا بینشهایی در مورد آنچه که آن را پیشبینیکننده میسازد، به دست آورید. این کار به مهندسی ویژگی (feature engineering) کمک میکند و مسائل احتمالی را غربال میکند.
- اگر دادههای شما شامل تصاویر یا متن زبان طبیعی است، نگاهی مستقیم به چند نمونه (و برچسبهای آنها) بیندازید.
- اگر دادههای شما شامل ویژگیهای عددی است، ایده خوبی است که هیستوگرام مقادیر ویژگیها را رسم کنید تا دامنهی مقادیر گرفتهشده و فراوانی مقادیر مختلف را درک کنید.
- اگر دادههای شما شامل اطلاعات مکانی است، آن را روی نقشه رسم کنید. آیا الگوهای واضحی ظاهر میشوند؟
- آیا برخی از نمونهها مقادیر از دست رفته (missing values) برای برخی ویژگیها دارند؟ اگر چنین است، باید هنگام آمادهسازی دادهها با این مشکل کنار بیایید (نحوه انجام این کار را در بخش بعدی پوشش خواهیم داد).
- اگر وظیفه شما یک مسئله طبقهبندی است، تعداد نمونههای هر کلاس را در دادههای خود چاپ کنید. آیا کلاسها تقریباً به طور مساوی نمایش داده شدهاند؟ اگر نه، باید این عدم توازن (imbalance) را در نظر بگیرید.
- نشت (فاش شدن)هدف (target leaking) را بررسی کنید: وجود ویژگیهایی در دادههای شما که اطلاعاتی در مورد هدفها ارائه میدهند و ممکن است در محیط تولید در دسترس نباشند. اگر مدلی را بر روی سوابق پزشکی آموزش میدهید تا پیشبینی کنید آیا فردی در آینده برای سرطان درمان خواهد شد یا خیر، و سوابق شامل ویژگی “این فرد به سرطان تشخیص داده شده است” باشد، آنگاه هدفهای شما به طور مصنوعی به دادههایتان نشت میکنند. همیشه از خود بپرسید، آیا هر ویژگی در دادههای شما چیزی است که در همان شکل در محیط تولید نیز در دسترس خواهد بود؟
انتخاب یک معیار موفقیت
برای کنترل چیزی، باید بتوانید آن را مشاهده کنید. برای دستیابی به موفقیت در یک پروژه، ابتدا باید آنچه را که “موفقیت” مینامید تعریف کنید. دقت (Accuracy)؟ صحت و بازیابی (Precision and recall)؟ نرخ حفظ مشتری (Customer retention rate)؟ معیار موفقیت شما تمام انتخابهای فنی شما را در طول پروژه هدایت خواهد کرد. این معیار باید مستقیماً با اهداف سطح بالاتر شما، مانند موفقیت کسبوکار مشتریتان، همسو باشد.
برای مسائل طبقهبندی متوازن (balanced classification problems)، که در آن هر کلاس به طور مساوی محتمل است، دقت (accuracy) و مساحت زیر منحنی مشخصه عملکرد گیرنده (ROC AUC)، معیارهای رایجی هستند. برای مسائل عدم توازن کلاس (class-imbalanced problems)، مسائل رتبهبندی، یا طبقهبندی چندبرچسبی، میتوانید از صحت و بازیابی و همچنین یک شکل وزندار از دقت یا ROC AUC استفاده کنید. و غیرعادی نیست که مجبور شوید معیار سفارشی خود را برای اندازهگیری موفقیت تعریف کنید. برای درک تنوع معیارهای موفقیت یادگیری ماشین و نحوه ارتباط آنها با دامنههای مسئله مختلف، مرور رقابتهای علم داده در Kaggle (https://kaggle.com) مفید است؛ آنها طیف گستردهای از مسائل و معیارهای ارزیابی را به نمایش میگذارند.
توسعه مدل
هنگامی که میدانید چگونه پیشرفت خود را اندازهگیری خواهید کرد، میتوانید توسعه مدل را آغاز کنید. بیشتر آموزشها و پروژههای تحقیقاتی فرض میکنند که این تنها گام است—تعریف مسئله و جمعآوری مجموعه داده را که فرض میشود قبلاً انجام شدهاند، نادیده میگیرند و استقرار و نگهداری مدل را که فرض میشود توسط شخص دیگری انجام میشود، نیز نادیده میگیرند. در واقع، توسعه مدل تنها یک گام در گردش کار یادگیری ماشین است، و اگر از من بپرسید، دشوارترین آن نیست. دشوارترین کارها در یادگیری ماشین، چارچوببندی مسائل و جمعآوری، حاشیهنویسی و پاکسازی دادهها هستند. پس شاد باشید—آنچه در ادامه میآید در مقایسه آسان خواهد بود!
آمادهسازی دادهها
همانطور که قبلاً آموختهاید، مدلهای یادگیری عمیق معمولاً دادههای خام را مستقیماً دریافت نمیکنند. پیشپردازش داده (Data preprocessing) با هدف مناسبتر کردن دادههای خام موجود برای شبکههای عصبی انجام میشود. این شامل برداریسازی (vectorization)، نرمالسازی (normalization)، یا مدیریت مقادیر از دست رفته (handling missing values) است. بسیاری از تکنیکهای پیشپردازش مختص دامنه هستند (برای مثال، مختص دادههای متنی یا دادههای تصویری)؛ ما آنها را در فصلهای بعدی، همانطور که در مثالهای عملی با آنها روبرو میشویم، پوشش خواهیم داد. فعلاً، مبانیای را که در تمام دامنههای داده مشترک هستند، مرور خواهیم کرد.
بردار سازی (Vectorization)
همه ورودیها و هدفها در یک شبکه عصبی معمولاً باید تنسورهایی از دادههای ممیز شناور (یا، در موارد خاص، تنسورهایی از اعداد صحیح یا رشتهها) باشند. هر نوع دادهای که نیاز به پردازش آن دارید — صدا، تصاویر، متن — باید ابتدا به تنسور تبدیل شود، گامی که برداریسازی داده (data vectorization) نامیده میشود. برای مثال، در دو مثال قبلی طبقهبندی متن در فصل ۴، ما با متنی شروع کردیم که به صورت لیستهایی از اعداد صحیح (نشاندهنده دنبالهای از کلمات) نمایش داده میشد، و از کدگذاری یک-داغ (one-hot encoding) برای تبدیل آنها به تنسوری از دادههای float32 استفاده کردیم. در مثالهای طبقهبندی ارقام و پیشبینی قیمت خانه، دادهها به صورت برداریشده بودند، بنابراین توانستیم این مرحله را نادیده بگیریم.
نرمالسازی مقدار (Value Normalization)
در مثال طبقهبندی ارقام MNIST از فصل ۲، ما با دادههای تصویری شروع کردیم که به صورت اعداد صحیح در محدوده ۰ تا ۲۵۵ کدگذاری شده بودند و مقادیر مقیاس خاکستری را نشان میدادند. قبل از اینکه این دادهها را به شبکه خود وارد کنیم، باید آنها را به float32 تبدیل کرده و بر ۲۵۵ تقسیم میکردیم تا به مقادیر ممیز شناور در محدوده ۰ تا ۱ برسیم. به طور مشابه، هنگام پیشبینی قیمت خانه، با ویژگیهایی شروع کردیم که دامنههای متنوعی داشتند—برخی ویژگیها مقادیر ممیز شناور کوچکی داشتند و برخی دیگر مقادیر صحیح نسبتاً بزرگی داشتند. قبل از اینکه این دادهها را به شبکه خود وارد کنیم، باید هر ویژگی را به طور مستقل نرمالسازی میکردیم تا دارای انحراف معیار ۱ و میانگین ۰ باشد.
به طور کلی، وارد کردن دادههایی به یک شبکه عصبی که مقادیر نسبتاً بزرگی (برای مثال، اعداد صحیح چندرقمی، که بسیار بزرگتر از مقادیر اولیه وزنهای یک شبکه هستند) یا دادههای ناهمگون (برای مثال، دادههایی که یک ویژگی در محدوده ۰ تا ۱ و دیگری در محدوده ۱۰۰ تا ۲۰۰ است) را میپذیرند، ایمن نیست. انجام این کار میتواند باعث بهروزرسانیهای گرادیان بزرگی شود که از همگرایی شبکه جلوگیری میکند. برای آسانتر کردن یادگیری برای شبکه شما، دادههای شما باید ویژگیهای زیر را داشته باشند:
- مقادیر کوچک داشته باشند — معمولاً، بیشتر مقادیر باید در محدوده ۰ تا ۱ باشند.
- همگون باشند — همه ویژگیها باید مقادیری در تقریباً یک محدوده مشابه داشته باشند.
علاوه بر این، روش نرمالسازی دقیقتر زیر رایج است و میتواند کمک کند، اگرچه همیشه ضروری نیست (برای مثال، ما این کار را در مثال طبقهبندی ارقام انجام ندادیم):
- هر ویژگی را به طور مستقل نرمالسازی کنید تا میانگین آن ۰ باشد.
- هر ویژگی را به طور مستقل نرمالسازی کنید تا انحراف معیار آن ۱ باشد.
این کار با آرایههای NumPy آسان است:
mean = train_data.mean(axis=0)
train_data -= mean
std = train_data.std(axis=0)
train_data /= std
test_data -= mean
test_data /= std
با فرض اینکه x یک ماتریس داده دوبعدی با شکل (تعداد نمونهها، تعداد ویژگیها) باشد
مدیریت مقادیر از دست رفته
ممکنه گاهی اوقات توی دادههاتون مقادیر از دست رفتهای داشته باشید. مثلاً، در مثال قیمت خونه، اولین ویژگی (ستون با شاخص ۰ در دادهها) نرخ جرم و جنایت سرانه بود. اگه این ویژگی برای همه نمونهها موجود نبود چی؟ اون وقت توی دادههای آموزشی یا تستتون مقادیر از دست رفته داشتید.
میشه اون ویژگی رو کلاً نادیده گرفت، اما لزوماً نیازی به این کار نیست.
- اگه ویژگی دستهای (categorical) هست، بهتره یک دسته جدید ایجاد کنید که به معنای “مقدار از دست رفته است” باشه. مدل به صورت خودکار یاد میگیره که این مسئله چه تأثیری روی هدفها داره.
- اگه ویژگی عددی (numerical) هست، از وارد کردن یک مقدار تصادفی مثل “۰” خودداری کنید. چون ممکنه یک ناپیوستگی توی فضای نهفتهای که ویژگیهاتون ایجاد میکنن به وجود بیاره و تعمیمپذیری مدل آموزشدیده رو سختتر کنه. در عوض، بهتره مقدار از دست رفته رو با میانگین یا میانه اون ویژگی در مجموعه داده جایگزین کنید. حتی میشه یه مدل رو آموزش داد تا مقدار اون ویژگی رو با توجه به مقادیر بقیه ویژگیها پیشبینی کنه.
یادتون باشه که اگه انتظار مقادیر دستهای از دست رفته توی دادههای تست رو دارید، اما شبکه روی دادههایی بدون هیچ مقدار از دست رفته آموزش دیده، شبکه یاد نگرفته که مقادیر از دست رفته رو نادیده بگیره! توی این شرایط، باید به صورت مصنوعی نمونههای آموزشی با ورودیهای از دست رفته ایجاد کنید: چند بار از نمونههای آموزشی کپی بگیرید و بعضی از ویژگیهای دستهای رو که فکر میکنید ممکنه توی دادههای تست از دست رفته باشن، حذف کنید.
انتخاب پروتکل ارزیابی
همانطور که در فصل قبل آموختید، هدف یک مدل، دستیابی به تعمیم (generalization) است و هر تصمیمی که در طول فرآیند توسعه مدل میگیرید، توسط معیارهای اعتبارسنجی که به دنبال اندازهگیری عملکرد تعمیم هستند، هدایت میشود. هدف پروتکل اعتبارسنجی شما، تخمین دقیق معیار موفقیت انتخابی شما (مانند دقت) بر روی دادههای واقعی تولیدی است. قابلیت اطمینان این فرآیند برای ساخت یک مدل مفید حیاتی است.
در فصل ۵، ما سه پروتکل ارزیابی رایج را بررسی کردیم:
- حفظ یک مجموعه اعتبارسنجی هولدآوت (Holdout validation set) — این روش زمانی مناسب است که دادههای زیادی دارید.
- انجام اعتبارسنجی متقاطع K-fold — این انتخاب زمانی درست است که نمونههای بسیار کمی برای قابل اعتماد بودن اعتبارسنجی هولدآوت دارید.
- انجام اعتبارسنجی K-fold تکراری — این روش برای انجام ارزیابی مدل با دقت بالا زمانی که داده کمی در دسترس است، به کار میرود.
یکی از اینها را انتخاب کنید. در بیشتر موارد، اولین گزینه به اندازه کافی خوب عمل خواهد کرد. با این حال، همانطور که آموختید، همیشه به نمایندگی مجموعه اعتبارسنجی خود توجه داشته باشید و مراقب باشید که نمونههای تکراری بین مجموعه آموزشی و مجموعه اعتبارسنجی خود نداشته باشید.
شکست دادن یک خط پایه (Beat a Baseline)یا غلبه بر یک مبنا
هنگامی که شروع به کار روی خود مدل میکنید، هدف اولیه شما دستیابی به قدرت آماری (statistical power) است، همانطور که در فصل ۵ دیدید: یعنی توسعه یک مدل کوچک که قادر به شکست دادن یک خط پایه ساده باشد.
در این مرحله، سه مورد مهمی که باید روی آنها تمرکز کنید:
- مهندسی ویژگی (Feature Engineering) — ویژگیهای غیرآموزنده را فیلتر کنید (انتخاب ویژگی) و از دانش خود درباره مسئله برای توسعه ویژگیهای جدید که احتمالاً مفید هستند، استفاده کنید.
- انتخاب پیشفرضهای معماری صحیح (Selecting the correct architecture priors) — از چه نوع معماری مدلی استفاده خواهید کرد؟ یک شبکه کاملاً متصل، یک شبکه کانولوشنی (convnet)، یک شبکه عصبی بازگشتی (recurrent neural network)، یک ترنسفورمر (Transformer)؟ آیا یادگیری عمیق اصلاً رویکرد خوبی برای این وظیفه است، یا باید از چیز دیگری استفاده کنید؟
- انتخاب یک پیکربندی آموزشی به اندازه کافی خوب (Selecting a good-enough training configuration) — از چه تابع زیانی باید استفاده کنید؟ چه اندازه دستهای (batch size) و نرخ یادگیری (learning rate)؟
————————————————————————————
انتخاب تابع زیان مناسب
اغلب اوقات، بهینهسازی مستقیم برای معیاری که موفقیت در یک مسئله را اندازهگیری میکند، امکانپذیر نیست. گاهی اوقات راه آسانی برای تبدیل یک معیار به یک تابع زیان وجود ندارد؛ توابع زیان، در هر صورت، باید با توجه به تنها یک مینی-بچ (mini-batch) از دادهها (در حالت ایدهآل، یک تابع زیان باید برای تنها یک نقطه داده قابل محاسبه باشد) قابل محاسبه باشند و باید مشتقپذیر (differentiable) باشند (در غیر این صورت، نمیتوانید از پسانتشار (backpropagation) برای آموزش شبکه خود استفاده کنید). برای مثال، معیار طبقهبندی پرکاربرد ROC AUC را نمیتوان مستقیماً بهینه کرد. از این رو، در وظایف طبقهبندی، معمولاً برای یک معیار جایگزین (proxy metric) برای ROC AUC، مانند cross-entropy، بهینهسازی میشود. به طور کلی، میتوانید امیدوار باشید که هرچه cross-entropy کمتر شود، ROC AUC بالاتر خواهد بود.
جدول زیر میتواند به شما در انتخاب فعالسازی لایه آخر و تابع زیان برای چند نوع مسئله رایج کمک کند.
انتخاب فعالسازی لایه آخر و تابع زیان مناسب برای مدل شما
| نوع مسئله (Problem type) | تابع فعالسازی لایه آخر (Last-layer activation) | تابع خطا (Loss function) |
| طبقهبندی دودویی (Binary classification) | sigmoid | binary_crossentropy |
| طبقهبندی چندکلاسه، تکبرچسبی (Multiclass, single-label classification) | softmax | categorical_crossentropy |
| طبقهبندی چندکلاسه، چندبرچسبی (Multiclass, multilabel classification) | sigmoid | binary_crossentropy |
—————————————————————————————
برای اکثر مسائل، قالبهای از پیش موجودی وجود دارد که میتوانید از آنها شروع کنید. شما اولین نفری نیستید که سعی میکنید یک تشخیصدهنده هرزنامه، یک موتور توصیهگر موسیقی یا یک طبقهبند تصویر بسازید. مطمئن شوید که پیشینه تحقیق (prior art) را بررسی میکنید تا تکنیکهای مهندسی ویژگی و معماریهای مدل را که به احتمال زیاد در وظیفه شما خوب عمل میکنند، شناسایی کنید. توجه داشته باشید که همیشه نمیتوان به قدرت آماری (statistical power) دست یافت. اگر پس از تلاش با چندین معماری معقول، نمیتوانید یک خط پایه ساده را شکست دهید، ممکن است پاسخ به سوالی که میپرسید در دادههای ورودی وجود نداشته باشد. به خاطر داشته باشید که شما دو فرضیه را مطرح میکنید:
- شما فرض میکنید که خروجیهای شما میتوانند با توجه به ورودیهای شما پیشبینی شوند.
- شما فرض میکنید که دادههای موجود به اندازه کافی آموزنده هستند تا رابطه بین ورودیها و خروجیها را یاد بگیرند.
ممکن است این فرضیات نادرست باشند، در این صورت باید به نقطه شروع برگردید.
مقیاسبندی به بالا: توسعه مدلی که بیشبرازش میکند
هنگامی که مدلی با قدرت آماری (statistical power) به دست آوردهاید، سوال این است که آیا مدل شما به اندازه کافی قدرتمند است؟ آیا لایهها و پارامترهای کافی برای مدلسازی صحیح مسئله مورد نظر را دارد؟ برای مثال، یک مدل رگرسیون لجستیک در MNIST قدرت آماری دارد، اما برای حل خوب مسئله کافی نخواهد بود. به یاد داشته باشید که کشمکش جهانی در یادگیری ماشین بین بهینهسازی و تعمیم است. مدل ایدهآل مدلی است که دقیقاً در مرز بین کمبرازش (underfitting) و بیشبرازش (overfitting)، بین ظرفیت ناکافی و ظرفیت بیش از حد قرار دارد. برای اینکه بفهمید این مرز کجاست، ابتدا باید از آن عبور کنید.
برای اینکه بفهمید چقدر مدل بزرگی نیاز دارید، باید مدلی را توسعه دهید که بیشبرازش کند. این کار نسبتاً آسان است، همانطور که در فصل ۵ آموختید:
۱. لایهها را اضافه کنید.
۲. لایهها را بزرگتر کنید.
۳. برای دورههای (epochs) بیشتری آموزش دهید.
همیشه زیان آموزش و زیان اعتبارسنجی، و همچنین مقادیر آموزش و اعتبارسنجی را برای هر معیاری که برایتان مهم است، پایش کنید. هنگامی که مشاهده کردید عملکرد مدل روی دادههای اعتبارسنجی شروع به کاهش میکند، به بیشبرازش دست یافتهاید.
منظمسازی و تنظیم مدل
هنگامی که به قدرت آماری (statistical power) دست یافتید و قادر به بیشبرازش (overfit) هستید، میدانید که در مسیر درستی قرار دارید. در این مرحله، هدف شما به حداکثر رساندن عملکرد تعمیم (generalization performance) میشود.
این مرحله بیشترین زمان را خواهد برد: شما بارها مدل خود را تغییر میدهید، آن را آموزش میدهید، روی دادههای اعتبارسنجی خود (در این مرحله نه دادههای آزمایش) ارزیابی میکنید، دوباره آن را تغییر میدهید و تکرار میکنید تا زمانی که مدل به بهترین شکل ممکن برسد. در اینجا کارهایی که باید امتحان کنید:
- معماریهای مختلف را امتحان کنید؛ لایهها را اضافه یا حذف کنید.
- دراپاوت (dropout) اضافه کنید.
- اگر مدل شما کوچک است، منظمسازی L1 یا L2 اضافه کنید.
- فراپارامترهای (hyperparameters) مختلف (مانند تعداد واحدها در هر لایه یا نرخ یادگیری بهینهساز) را امتحان کنید تا پیکربندی بهینه را بیابید.
- به صورت اختیاری، روی سازماندهی داده (data curation) یا مهندسی ویژگی (feature engineering) تکرار کنید: دادههای بیشتری جمعآوری و حاشیهنویسی کنید، ویژگیهای بهتر توسعه دهید، یا ویژگیهایی که مفید به نظر نمیرسند را حذف کنید.
میتوان بخش بزرگی از این کار را با استفاده از نرمافزار تنظیم خودکار فراپارامترها، مانند KerasTuner، خودکار کرد. این موضوع را در فصل ۱۳ پوشش خواهیم داد.
به موارد زیر توجه داشته باشید: هر بار که از بازخورد فرآیند اعتبارسنجی خود برای تنظیم مدل استفاده میکنید، اطلاعاتی درباره فرآیند اعتبارسنجی به مدل نشت میکند. تکرار چندباره این کار بیضرر است؛ اما اگر به طور سیستماتیک در طول تکرارهای زیاد انجام شود، در نهایت باعث میشود مدل شما به فرآیند اعتبارسنجی بیشبرازش کند (حتی با وجود اینکه هیچ مدلی مستقیماً روی هیچ یک از دادههای اعتبارسنجی آموزش داده نمیشود). این امر باعث کاهش قابلیت اطمینان فرآیند ارزیابی میشود.
هنگامی که یک پیکربندی مدل رضایتبخش را توسعه دادید، میتوانید مدل نهایی تولید خود را بر روی تمام دادههای موجود (آموزش و اعتبارسنجی) آموزش دهید و برای آخرین بار آن را روی مجموعه آزمایش ارزیابی کنید. اگر مشخص شود که عملکرد روی مجموعه آزمایش به طور قابل توجهی بدتر از عملکرد اندازهگیری شده در دادههای اعتبارسنجی است، این ممکن است به این معنی باشد که یا رویه اعتبارسنجی شما در نهایت قابل اعتماد نبوده است، یا اینکه در حین تنظیم پارامترهای مدل شروع به بیشبرازش روی دادههای اعتبارسنجی کردهاید. در این صورت، ممکن است بخواهید به یک پروتکل ارزیابی قابل اعتمادتر (مانند اعتبارسنجی K-fold تکراری) روی آورید.
استقرار مدل (Deploy the Model)
مدل شما با موفقیت ارزیابی نهایی خود را در مجموعه آزمایش پشت سر گذاشته است — آماده است تا مستقر شود و زندگی پربار خود را آغاز کند.
توضیح کار به ذینفعان و تعیین انتظارات
موفقیت و اعتماد مشتری در گرو برآورده کردن یا فراتر رفتن مداوم از انتظارات مردم است. سیستمی که شما ارائه میدهید تنها نیمی از این تصویر است؛ نیمه دیگر، تعیین انتظارات مناسب قبل از راهاندازی است.
انتظارات افراد غیرمتخصص نسبت به سیستمهای هوش مصنوعی اغلب غیرواقعی است. برای مثال، ممکن است انتظار داشته باشند که سیستم وظیفه خود را “درک میکند” و قادر به اعمال عقل سلیم انسانی در چارچوب آن وظیفه است. برای رفع این مشکل، باید نمایش برخی مثالها از حالتهای شکست مدل خود را در نظر بگیرید (برای مثال، نشان دهید که نمونههای طبقهبندی شده اشتباه چگونه به نظر میرسند، به خصوص آنهایی که طبقهبندی اشتباهشان تعجبآور به نظر میرسد).
آنها همچنین ممکن است انتظار عملکرد در سطح انسان را داشته باشند، به خصوص برای فرآیندهایی که قبلاً توسط انسانها انجام میشدند. بیشتر مدلهای یادگیری ماشین، به دلیل اینکه (به طور ناقص) برای تقریب برچسبهای تولید شده توسط انسان آموزش دیدهاند، هرگز به آن سطح نمیرسند. شما باید انتظارات عملکرد مدل را به وضوح منتقل کنید. از استفاده از عبارات انتزاعی مانند “مدل دارای ۹۸٪ دقت است” (که بیشتر مردم به طور ذهنی آن را ۱۰۰٪ گرد میکنند) خودداری کنید و ترجیح دهید، برای مثال، در مورد نرخهای مثبت کاذب و منفی کاذب صحبت کنید. میتوانید بگویید، “با این تنظیمات، مدل تشخیص تقلب نرخ منفی کاذب ۵٪ و نرخ مثبت کاذب ۲.۵٪ خواهد داشت. هر روز، به طور متوسط ۲۰۰ تراکنش معتبر به عنوان تقلبی پرچمگذاری شده و برای بررسی دستی ارسال میشوند، و به طور متوسط ۱۴ تراکنش تقلبی از دست میروند. به طور متوسط ۲۶۶ تراکنش تقلبی به درستی شناسایی میشوند.” عملکرد مدل را به وضوح با اهداف کسبوکار مرتبط کنید.
شما همچنین باید مطمئن شوید که با ذینفعان در مورد انتخاب پارامترهای کلیدی راهاندازی بحث کنید — برای مثال، آستانه احتمالی که در آن یک تراکنش باید پرچمگذاری شود (آستانههای مختلف نرخهای منفی کاذب و مثبت کاذب متفاوتی را تولید خواهند کرد). چنین تصمیماتی شامل موازنههایی هستند که تنها با درک عمیق از بافت کسبوکار قابل مدیریت هستند.
ارسال یک مدل استنباطی
یک پروژه یادگیری ماشین زمانی به پایان نمیرسد که شما به یک نوتبوک Colab میرسید که میتواند یک مدل آموزشدیده را ذخیره کند. شما به ندرت دقیقاً همان شیء مدل پایتون را که در طول آموزش دستکاری کردید، به تولید میرسانید.
اول، ممکن است بخواهید مدل خود را به چیزی غیر از پایتون صادر کنید:
- محیط تولید شما ممکن است اصلاً از پایتون پشتیبانی نکند — برای مثال، اگر یک برنامه موبایل یا یک سیستم تعبیهشده باشد.
- اگر بقیه برنامه به زبان پایتون نباشد (میتواند به JavaScript، ++ C ، و غیره باشد)، استفاده از پایتون برای سرویسدهی یک مدل ممکن است سربار قابل توجهی را به همراه داشته باشد.
دوم، از آنجایی که مدل تولیدی شما فقط برای خروجی دادن پیشبینیها (فازی که استنباط نامیده میشود)، و نه برای آموزش، استفاده خواهد شد، میتوانید بهینهسازیهای مختلفی را انجام دهید که میتوانند مدل را سریعتر کرده و مصرف حافظه آن را کاهش دهند.
بیایید نگاهی سریع به گزینههای مختلف استقرار مدل که در دسترس دارید، بیندازیم.
استقرار مدل به عنوان یک REST API
این شاید رایجترین راه برای تبدیل یک مدل به یک محصول باشد: TensorFlow را روی یک سرور یا نمونه ابری نصب کنید و پیشبینیهای مدل را از طریق یک REST API پرسوجو کنید. میتوانید اپلیکیشن سرویسدهی خود را با استفاده از Flask (یا هر کتابخانه توسعه وب پایتون دیگر) بسازید، یا از کتابخانه خود TensorFlow برای ارسال مدلها به عنوان API، به نام TensorFlow Serving (www.tensorflow.org/tfx/guide/serving)، استفاده کنید. با TensorFlow Serving، میتوانید یک مدل Keras را در چند دقیقه مستقر کنید.
شما باید از این پیکربندی استقرار در موارد زیر استفاده کنید:
- کاربردی که پیشبینی مدل را مصرف خواهد کرد، دسترسی قابل اعتمادی به اینترنت خواهد داشت (بدیهی است). برای مثال، اگر کاربرد شما یک برنامه موبایل است، سرویسدهی پیشبینیها از یک API راه دور به این معنی است که برنامه در حالت پرواز یا در محیطی با اتصال کم قابل استفاده نخواهد بود.
- کاربرد الزامات تأخیر (latency) سختگیرانهای ندارد: رفت و برگشت درخواست، استنباط و پاسخ معمولاً حدود 500 میلیثانیه طول میکشد.
- دادههای ورودی ارسال شده برای استنباط بسیار حساس نیستند: دادهها باید به صورت رمزگشایی نشده روی سرور در دسترس باشند، زیرا مدل باید آنها را ببیند (اما توجه داشته باشید که باید از رمزگذاری SSL برای درخواست و پاسخ HTTP استفاده کنید).
برای مثال، پروژه موتور جستجوی تصویر، سیستم توصیهگر موسیقی، پروژه تشخیص تقلب کارت اعتباری و پروژه تصاویر ماهوارهای، همگی برای سرویسدهی از طریق REST API مناسب هستند.
یک سوال مهم هنگام استقرار مدل به عنوان یک REST API این است که آیا میخواهید کد را خودتان میزبانی کنید یا میخواهید از یک سرویس ابری شخص ثالث کاملاً مدیریتشده استفاده کنید. برای مثال، Cloud AI Platform، محصول گوگل، به شما امکان میدهد مدل TensorFlow خود را به سادگی در Google Cloud Storage (GCS) آپلود کنید و یک نقطه پایانی API برای پرسوجو از آن به شما میدهد. این سرویس به جزئیات عملی بسیاری مانند دستهبندی پیشبینیها، توازن بار و مقیاسبندی رسیدگی میکند.
استقرار مدل روی یک دستگاه
گاهی اوقات، ممکن است نیاز داشته باشید مدل شما روی همان دستگاهی که برنامه استفادهکننده از آن را اجرا میکند، قرار گیرد—شاید یک گوشی هوشمند، یک CPU ARM تعبیهشده روی یک ربات، یا یک میکروکنترلر روی یک دستگاه کوچک. ممکن است دوربینی را دیده باشید که قادر به تشخیص خودکار افراد و چهرهها در صحنههایی است که شما به سمت آن گرفتهاید: این احتمالاً یک مدل یادگیری عمیق کوچک بود که مستقیماً روی دوربین اجرا میشد.
شما باید از این پیکربندی در موارد زیر استفاده کنید:
- مدل شما دارای محدودیتهای تأخیر سختگیرانه است یا نیاز به اجرا در محیطی با اتصال کم دارد. اگر در حال ساخت یک برنامه واقعیت افزوده فراگیر هستید، پرسوجو از یک سرور راه دور گزینه مناسبی نیست.
- مدل شما میتواند به اندازه کافی کوچک شود تا تحت محدودیتهای حافظه و توان دستگاه هدف اجرا شود. میتوانید از TensorFlow Model Optimization Toolkit برای کمک به این کار استفاده کنید (www.tensorflow.org/model_optimization).
- دستیابی به بالاترین دقت ممکن برای وظیفه شما حیاتی نیست. همیشه یک موازنه بین کارایی زمان اجرا و دقت وجود دارد، بنابراین محدودیتهای حافظه و توان اغلب شما را ملزم میکند مدلی را ارسال کنید که به خوبی بهترین مدلی نیست که میتوانید روی یک GPU بزرگ اجرا کنید.
- دادههای ورودی به شدت حساس هستند و بنابراین نباید در یک سرور راه دور رمزگشایی شوند.
مدل تشخیص هرزنامه ما باید به عنوان بخشی از برنامه چت روی گوشی هوشمند کاربر نهایی اجرا شود، زیرا پیامها به صورت سرتاسری رمزگذاری شدهاند و بنابراین توسط مدلی که از راه دور میزبانی میشود، قابل خواندن نیستند. به همین ترتیب، مدل تشخیص کوکی معیوب محدودیتهای تأخیر سختگیرانهای دارد و باید در کارخانه اجرا شود. خوشبختانه، در این مورد، ما هیچ محدودیت توان یا فضا نداریم، بنابراین میتوانیم مدل را روی GPU اجرا کنیم.
برای استقرار یک مدل Keras روی گوشی هوشمند یا دستگاه تعبیهشده، راهحل اصلی شما TensorFlow Lite (www.tensorflow.org/lite) است. این یک چارچوب برای استنباط یادگیری عمیق کارآمد روی دستگاه است که روی گوشیهای هوشمند Android و iOS، و همچنین کامپیوترهای مبتنی بر ARM64، Raspberry Pi، یا برخی میکروکنترلرها اجرا میشود. این شامل یک مبدل است که میتواند به سادگی مدل Keras شما را به فرمت TensorFlow Lite تبدیل کند.
استقرار مدل در مرورگر
یادگیری عمیق اغلب در برنامههای جاوا اسکریپت مبتنی بر مرورگر یا دسکتاپ استفاده میشود. در حالی که معمولاً امکانپذیر است که برنامه یک مدل راه دور را از طریق REST API پرسوجو کند، مزایای کلیدی در اجرای مستقیم مدل در مرورگر، روی کامپیوتر کاربر (با استفاده از منابع GPU در صورت در دسترس بودن) وجود دارد.
از این تنظیمات در موارد زیر استفاده کنید:
- میخواهید محاسبات را به کاربر نهایی منتقل کنید، که میتواند هزینههای سرور را به طرز چشمگیری کاهش دهد.
- دادههای ورودی باید روی کامپیوتر یا گوشی کاربر نهایی بمانند. برای مثال، در پروژه تشخیص هرزنامه ما، نسخه وب و نسخه دسکتاپ برنامه چت (که به عنوان یک برنامه کراسپلتفرم نوشته شده در جاوا اسکریپت پیادهسازی شده است) باید از یک مدل اجرا شده محلی استفاده کنند.
- برنامه شما دارای محدودیتهای تأخیر سختگیرانه است. در حالی که مدلی که روی لپتاپ یا گوشی هوشمند کاربر نهایی اجرا میشود احتمالاً کندتر از مدلی است که روی یک GPU بزرگ در سرور شما اجرا میشود، اما شما ۱۰۰ میلیثانیه اضافی رفت و برگشت شبکه را ندارید.
- نیاز دارید برنامه شما پس از دانلود و کش شدن مدل، بدون اتصال کار کند.
شما فقط در صورتی باید این گزینه را انتخاب کنید که مدل شما به اندازه کافی کوچک باشد که CPU، GPU یا RAM لپتاپ یا گوشی هوشمند کاربر شما را اشغال نکند. علاوه بر این، از آنجایی که کل مدل روی دستگاه کاربر دانلود میشود، باید مطمئن شوید که هیچ چیز در مورد مدل نیازی به محرمانه ماندن ندارد. توجه داشته باشید که با توجه به یک مدل یادگیری عمیق آموزشدیده، معمولاً امکان بازیابی برخی اطلاعات در مورد دادههای آموزشی وجود دارد: بهتر است مدل آموزشدیده خود را در صورتی که روی دادههای حساس آموزش دیده است، عمومی نکنید. برای استقرار یک مدل در جاوا اسکریپت، اکوسیستم TensorFlow شامل TensorFlow.js (www.tensorflow.org/js) است، یک کتابخانه جاوا اسکریپت برای یادگیری عمیق که تقریباً تمام API Keras (که در ابتدا با نام کاری WebKeras توسعه یافته بود) و همچنین بسیاری از APIهای TensorFlow سطح پایینتر را پیادهسازی میکند. میتوانید به راحتی یک مدل Keras ذخیره شده را به TensorFlow.js وارد کنید تا آن را به عنوان بخشی از برنامه جاوا اسکریپت مبتنی بر مرورگر یا برنامه دسکتاپ Electron خود پرسوجو کنید.
بهینهسازی مدل استنباطی
بهینهسازی مدل شما برای استنباط، به ویژه هنگام استقرار در محیطی با محدودیتهای سختگیرانه در توان و حافظه موجود (گوشیهای هوشمند و دستگاههای تعبیهشده) یا برای کاربردهایی با الزامات تأخیر پایین، اهمیت ویژهای دارد. شما همیشه باید به دنبال بهینهسازی مدل خود قبل از وارد کردن آن به TensorFlow.js یا صادر کردن آن به TensorFlow Lite باشید.
دو تکنیک بهینهسازی محبوب وجود دارد که میتوانید اعمال کنید:
- هرس وزن (Weight pruning) — هر ضریب در یک تنسور وزن به یک اندازه در پیشبینیها نقش ندارد. میتوان با نگهداشتن تنها مهمترین ضرایب، تعداد پارامترها را در لایههای مدل شما به طور قابل توجهی کاهش داد. این کار حافظه و ردپای محاسباتی مدل شما را کاهش میدهد، با هزینه کوچکی در معیارهای عملکرد. با تصمیمگیری در مورد میزان هرسی که میخواهید اعمال کنید، شما کنترل موازنه بین اندازه و دقت را در دست دارید.
- کوانتیزاسیون وزن (Weight quantization) — مدلهای یادگیری عمیق با وزنهای ممیز شناور تکدقت (float32) آموزش داده میشوند. با این حال، میتوان وزنها را به اعداد صحیح ۸ بیتی علامتدار (int8) کوانتیزه کرد تا یک مدل فقط برای استنباط به دست آید که یک چهارم اندازه اصلی است اما دقت نزدیک به مدل اصلی را حفظ میکند.
اکوسیستم TensorFlow شامل یک کیت ابزار هرس وزن و کوانتیزاسیون (www.tensorflow.org/model_optimization) است که به طور عمیقی با API Keras یکپارچه شده است.
پایش یا نظارت مدل شما در محیط واقعی
شما یک مدل استنباطی را صادر کردهاید، آن را در برنامه خود یکپارچه کردهاید و یک اجرای آزمایشی روی دادههای تولیدی انجام دادهاید — مدل دقیقاً همانطور که انتظار داشتید عمل کرده است. شما تستهای واحد و همچنین کد ثبت و پایش وضعیت را نوشتهاید — عالی. اکنون زمان فشار دادن دکمه قرمز بزرگ و استقرار در محیط تولید است.
حتی این هم پایان کار نیست. پس از استقرار یک مدل، باید به پایش رفتار آن، عملکرد آن بر روی دادههای جدید، تعامل آن با بقیه برنامه، و تأثیر نهایی آن بر معیارهای کسبوکار ادامه دهید.
- آیا مشارکت کاربر در رادیو آنلاین شما پس از استقرار سیستم توصیهگر موسیقی جدید افزایش یافته یا کاهش یافته است؟ آیا میانگین نرخ کلیک بر روی تبلیغات پس از تغییر به مدل جدید پیشبینی نرخ کلیک افزایش یافته است؟ استفاده از تست A/B تصادفی را برای جدا کردن تأثیر خود مدل از سایر تغییرات در نظر بگیرید: زیرمجموعهای از موارد باید از طریق مدل جدید پردازش شوند، در حالی که زیرمجموعه کنترلی دیگر باید به روند قدیمی ادامه دهد. هنگامی که تعداد کافی از موارد پردازش شدند، تفاوت در نتایج بین این دو احتمالاً به مدل قابل انتساب است.
- در صورت امکان، یک بازبینی دستی منظم از پیشبینیهای مدل بر روی دادههای تولیدی انجام دهید. به طور کلی امکانپذیر است که از همان زیرساخت برای حاشیهنویسی دادهها استفاده کنید: بخشی از دادههای تولیدی را برای حاشیهنویسی دستی ارسال کنید و پیشبینیهای مدل را با حاشیهنویسیهای جدید مقایسه کنید. برای مثال، باید حتماً این کار را برای موتور جستجوی تصویر و سیستم پرچمگذاری کوکیهای معیوب انجام دهید.
- هنگامی که بازبینیهای دستی غیرممکن است، روشهای ارزیابی جایگزین مانند نظرسنجی از کاربران را در نظر بگیرید (برای مثال، در مورد سیستم پرچمگذاری هرزنامه و محتوای توهینآمیز).
نگهداری مدل شما
در نهایت، هیچ مدلی برای همیشه دوام نمیآورد. شما قبلاً در مورد انحراف مفهوم (concept drift) آموختهاید: با گذشت زمان، ویژگیهای دادههای تولیدی شما تغییر میکند و به تدریج عملکرد و ارتباط مدل شما را کاهش میدهد. طول عمر سیستم توصیهگر موسیقی شما بر حسب هفتهها شمرده میشود. برای سیستمهای تشخیص تقلب کارت اعتباری، این زمان روزها خواهد بود. در بهترین حالت برای موتور جستجوی تصویر، چند سال.
به محض راهاندازی مدل شما، باید آماده آموزش نسل بعدی باشید که جایگزین آن خواهد شد. به همین ترتیب،
- مراقب تغییرات در دادههای تولیدی باشید. آیا ویژگیهای جدیدی در دسترس قرار میگیرند؟ آیا باید مجموعه برچسبها را گسترش دهید یا به نحو دیگری ویرایش کنید؟
- به جمعآوری و حاشیهنویسی دادهها ادامه دهید و خط لوله حاشیهنویسی خود را در طول زمان بهبود بخشید. به ویژه، باید توجه ویژهای به جمعآوری نمونههایی داشته باشید که برای مدل فعلی شما طبقهبندی آنها دشوار به نظر میرسد — چنین نمونههایی به احتمال زیاد به بهبود عملکرد کمک میکنند.
این به گردش کار جهانی یادگیری ماشین پایان میدهد — چیزهای زیادی برای به خاطر سپردن وجود دارد. برای متخصص شدن زمان و تجربه لازم است، اما نگران نباشید، شما از چند فصل پیش عاقلتر شدهاید. شما اکنون با تصویر بزرگ — کل طیف آنچه پروژههای یادگیری ماشین شامل میشوند — آشنا هستید. در حالی که بیشتر این کتاب بر توسعه مدل تمرکز خواهد کرد، اکنون آگاه هستید که این تنها بخشی از کل گردش کار است. همیشه تصویر بزرگ را در ذهن داشته باشید!
خلاصه
- هنگامی که یک پروژه جدید یادگیری ماشین را به عهده میگیرید، ابتدا مسئله موجود را تعریف کنید:
- زمینه گستردهتر آنچه را که قصد انجام آن را دارید درک کنید — هدف نهایی چیست و محدودیتها کدامند؟
- یک مجموعه داده جمعآوری و حاشیهنویسی کنید؛ اطمینان حاصل کنید که دادههای خود را عمیقاً درک میکنید.
- نحوه اندازهگیری موفقیت برای مسئله خود را انتخاب کنید — چه معیارهایی را در دادههای اعتبارسنجی خود پایش خواهید کرد؟
- هنگامی که مسئله را درک کردید و یک مجموعه داده مناسب دارید، یک مدل توسعه دهید:
- دادههای خود را آماده کنید.
- پروتکل ارزیابی خود را انتخاب کنید: اعتبارسنجی هولدآوت؟ اعتبارسنجی K-fold؟ از کدام بخش از دادهها باید برای اعتبارسنجی استفاده کنید؟
- به قدرت آماری دست یابید: یک خط پایه ساده را شکست دهید.
- مقیاس را بالا ببرید: مدلی را توسعه دهید که بتواند بیشبرازش کند.
- مدل خود را منظمسازی (regularize) کنید و فراپارامترهای آن را بر اساس عملکرد روی دادههای اعتبارسنجی تنظیم کنید. بسیاری از تحقیقات یادگیری ماشین تمایل دارند فقط روی این مرحله تمرکز کنند، اما تصویر بزرگ را در ذهن داشته باشید.
- هنگامی که مدل شما آماده است و عملکرد خوبی روی دادههای آزمایش نشان میدهد، زمان استقرار (deployment) است:
- ابتدا، مطمئن شوید که انتظارات مناسبی را با ذینفعان تعیین میکنید.
- یک مدل نهایی را برای استنباط (inference) بهینهسازی کنید و مدل را به محیط استقرار انتخابی خود ارسال کنید – سرور وب، موبایل، مرورگر، دستگاه تعبیهشده و غیره.
- عملکرد مدل خود را در محیط تولید پایش کنید و به جمعآوری داده ادامه دهید تا بتوانید نسل بعدی مدل را توسعه دهید.



