فصل پنجم: توابع زیان (Loss Functions)
مقدمه
در فصلهای پیشین، مدلهای رگرسیون خطی، شبکههای عصبی کمعمق و عمیق معرفی شدند که هر کدام خانوادهای از توابع را برای نگاشت ورودی به خروجی ارائه میدهند. این فصل به تعریف معیار «بهترین نگاشت» میپردازد و توابع از دست دادن (Loss Functions) را به عنوان ابزاری برای اندازهگیری عدم تطابق بین پیشبینیهای مدل و دادههای واقعی معرفی میکند. هدف نهایی، یافتن پارامترهای مدلی است که این تابع را به حداقل برساند.
1. حداکثر احتمال
۱.۱ دیدگاه احتمالاتی
مدلهای یادگیری ماشین را میتوان بهعنوان محاسبهکنندهی توزیع احتمال شرطی
در نظر گرفت. در این دیدگاه، هدف این است که پارامترهای مدل
طوری تنظیم شوند که احتمال دادههای آموزشی
تحت این توزیع بیشینه شود. این رویکرد به معیار حداکثر احتمال (Maximum Likelihood Estimation) معروف است.
۱.۲ مفروضات کلیدی
دو فرض اصلی در این روش وجود دارد:
توزیع یکسان: دادهها به طور یکسان توزیع شدهاند.
استقلال شرطی: توزیعهای
مستقل از یکدیگر هستند.
این مفروضات با اصطلاح i.i.d. خلاصه میشوند.
۱.۳ تبدیل به مسئله کمینهسازی
برای سهولت محاسبات، معمولاً به جای بیشینهسازی احتمال، لگاریتم احتمال منفی را کمینه میکنیم. این کار به دلایل زیر انجام میشود:
جمعپذیری عبارتها به جای ضرب؛
جلوگیری از مشکلات عددی با مقادیر خیلی کوچک؛
حفظ نقاط اکسترمم بهدلیل یکنوایی تابع لگاریتم.
2. دستورالعمل ساخت توابع از دست دادن
برای طراحی توابع از دست دادن بر پایه حداکثر احتمال، مراحل زیر طی میشود:
انتخاب توزیع احتمال: توزیعی مناسب برای خروجی
انتخاب میشود.
پارامترسازی مدل: مدل
برای پیشبینی پارامترهای آن توزیع (مثلاً میانگین) طراحی میشود.
بهینهسازی پارامترها: با کمینهسازی تابع زیان (منفی لگاریتم احتمال)، پارامترهای مدل یاد گرفته میشوند.
استنتاج: در پیشبینی، یا کل توزیع بازگردانده میشود یا نقطه بیشینه احتمال بهعنوان خروجی استفاده میشود.
3. مثالهای کاربردی
۳.۱ رگرسیون تکمتغیره
توزیع انتخاب شده: نرمال با پارامترهای
(میانگین) و
(واریانس).
مدل:
، با فرض ثابت بودن
.
تابع زیان (تابع مربعات):
۳.۲ رگرسیون ناهمسان
در صورتی که واریانس به ورودی وابسته باشد، مدل دو خروجی دارد:
برای مثبتبودن واریانس، خروجی دوم مدل معمولاً مربع میشود.
۳.۳ طبقهبندی باینری
توزیع انتخاب شده: برنولی با پارامتر
.
مدل:
، که در آن
.
تابع زیان (آنتروپی متقاطع باینری):
۳.۴ طبقهبندی چندکلاسه
توزیع انتخاب شده: categorical با پارامترهای
مدل: خروجیها با تابع softmax نرمالسازی میشوند.
تابع زیان:
4. خروجیهای چندگانه
برای مسائل با چند خروجی، معمولاً فرض میشود خروجیها مستقل از هم هستند. بنابراین:
5. آنتروپی متقاطع و حداکثر احتمال
آنتروپی متقاطع معیاری برای فاصله بین توزیع دادهها و پیشبینی مدل است. کمینهکردن آن معادل با بیشینهسازی احتمال دادهها تحت مدل خواهد بود. به همین دلیل، این تابع پایه نظری مهمی در یادگیری ماشین دارد.
6. جمعبندی
در این فصل، چارچوبی سیستماتیک برای ساخت توابع از دست دادن بر مبنای اصول احتمالاتی ارائه شد. بسته به نوع دادهها و مدل، توزیع مناسب انتخاب و پارامترهای آن پیشبینی میشوند. این ساختار در رگرسیون، طبقهبندی و مسائل پیچیدهتر کاربرد گستردهای دارد و زمینه را برای آموزش مدلهای پیشرفته فراهم میسازد.