فصل پنجم: توابع زیان (Loss Functions)

black-swan-theory

مقدمه

در فصل‌های پیشین، مدل‌های رگرسیون خطی، شبکه‌های عصبی کم‌عمق و عمیق معرفی شدند که هر کدام خانواده‌ای از توابع را برای نگاشت ورودی به خروجی ارائه می‌دهند. این فصل به تعریف معیار «بهترین نگاشت» می‌پردازد و توابع از دست دادن (Loss Functions) را به عنوان ابزاری برای اندازه‌گیری عدم تطابق بین پیش‌بینی‌های مدل و داده‌های واقعی معرفی می‌کند. هدف نهایی، یافتن پارامترهای مدلی است که این تابع را به حداقل برساند.

 

1. حداکثر احتمال

۱.۱ دیدگاه احتمالاتی

مدل‌های یادگیری ماشین را می‌توان به‌عنوان محاسبه‌کننده‌ی توزیع احتمال شرطی

Pr(yx)\Pr(y|x)

در نظر گرفت. در این دیدگاه، هدف این است که پارامترهای مدل

ϕ\phi

طوری تنظیم شوند که احتمال داده‌های آموزشی

{xi,yi}\{x_i, y_i\}

تحت این توزیع بیشینه شود. این رویکرد به معیار حداکثر احتمال (Maximum Likelihood Estimation) معروف است.

۱.۲ مفروضات کلیدی

دو فرض اصلی در این روش وجود دارد:

  1. توزیع یکسان: داده‌ها به طور یکسان توزیع شده‌اند.

  2. استقلال شرطی: توزیع‌های

    Pr(yixi)\Pr(y_i|x_i)

    مستقل از یکدیگر هستند.
    این مفروضات با اصطلاح i.i.d. خلاصه می‌شوند.

۱.۳ تبدیل به مسئله کمینه‌سازی

برای سهولت محاسبات، معمولاً به جای بیشینه‌سازی احتمال، لگاریتم احتمال منفی را کمینه می‌کنیم. این کار به دلایل زیر انجام می‌شود:

  • جمع‌پذیری عبارت‌ها به جای ضرب؛

  • جلوگیری از مشکلات عددی با مقادیر خیلی کوچک؛

  • حفظ نقاط اکسترمم به‌دلیل یکنوایی تابع لگاریتم.

 

2. دستورالعمل ساخت توابع از دست دادن

برای طراحی توابع از دست دادن بر پایه حداکثر احتمال، مراحل زیر طی می‌شود:

  1. انتخاب توزیع احتمال: توزیعی مناسب برای خروجی

    yy

    انتخاب می‌شود.

  2. پارامترسازی مدل: مدل

    f(x,ϕ)f(x, \phi)

    برای پیش‌بینی پارامترهای آن توزیع (مثلاً میانگین) طراحی می‌شود.

  3. بهینه‌سازی پارامترها: با کمینه‌سازی تابع زیان (منفی لگاریتم احتمال)، پارامترهای مدل یاد گرفته می‌شوند.

  4. استنتاج: در پیش‌بینی، یا کل توزیع بازگردانده می‌شود یا نقطه بیشینه‌ احتمال به‌عنوان خروجی استفاده می‌شود.

 

3. مثال‌های کاربردی

۳.۱ رگرسیون تک‌متغیره

  • توزیع انتخاب شده: نرمال با پارامترهای

    μ\mu

    (میانگین) و

    σ2\sigma^2

    (واریانس).

  • مدل:

    μ=f(x,ϕ)\mu = f(x, \phi)

    ، با فرض ثابت بودن

    σ2\sigma^2

    .

  • تابع زیان (تابع مربعات):

L[ϕ]=i=1I(yif(xi,ϕ))2L[\phi] = \sum_{i=1}^I (y_i – f(x_i, \phi))^2

 

۳.۲ رگرسیون ناهمسان

در صورتی که واریانس به ورودی وابسته باشد، مدل دو خروجی دارد:

μ=f1(x,ϕ),σ2=f2(x,ϕ)2\mu = f_1(x, \phi), \quad \sigma^2 = f_2(x, \phi)^2

 

برای مثبت‌بودن واریانس، خروجی دوم مدل معمولاً مربع می‌شود.

۳.۳ طبقه‌بندی باینری

  • توزیع انتخاب شده: برنولی با پارامتر

    λ\lambda

    .

  • مدل:

    λ=sig(f(x,ϕ))\lambda = \text{sig}(f(x, \phi))

    ، که در آن

    sig(z)=11+ez\text{sig}(z) = \frac{1}{1 + e^{-z}}

    .

  • تابع زیان (آنتروپی متقاطع باینری):

L[ϕ]=i=1I[yilog(λi)+(1yi)log(1λi)]L[\phi] = -\sum_{i=1}^I \left[ y_i \log(\lambda_i) + (1 – y_i) \log(1 – \lambda_i) \right]

 

۳.۴ طبقه‌بندی چندکلاسه

  • توزیع انتخاب شده: categorical با پارامترهای

    λ1,,λK\lambda_1, \dots, \lambda_K
  • مدل: خروجی‌ها با تابع softmax نرمال‌سازی می‌شوند.

  • تابع زیان:

L[ϕ]=i=1Ilog(softmaxyi(f(xi,ϕ)))L[\phi] = -\sum_{i=1}^I \log \left( \text{softmax}_{y_i}(f(x_i, \phi)) \right)

 

 

4. خروجی‌های چندگانه

برای مسائل با چند خروجی، معمولاً فرض می‌شود خروجی‌ها مستقل از هم هستند. بنابراین:

L[ϕ]=i=1Id=1DlogPr(yidfd(xi,ϕ))L[\phi] = -\sum_{i=1}^I \sum_{d=1}^D \log \Pr(y_{id} | f_d(x_i, \phi))

 

 

5. آنتروپی متقاطع و حداکثر احتمال

آنتروپی متقاطع معیاری برای فاصله بین توزیع داده‌ها و پیش‌بینی مدل است. کمینه‌کردن آن معادل با بیشینه‌سازی احتمال داده‌ها تحت مدل خواهد بود. به همین دلیل، این تابع پایه نظری مهمی در یادگیری ماشین دارد.

 

6. جمع‌بندی

در این فصل، چارچوبی سیستماتیک برای ساخت توابع از دست دادن بر مبنای اصول احتمالاتی ارائه شد. بسته به نوع داده‌ها و مدل، توزیع مناسب انتخاب و پارامترهای آن پیش‌بینی می‌شوند. این ساختار در رگرسیون، طبقه‌بندی و مسائل پیچیده‌تر کاربرد گسترده‌ای دارد و زمینه را برای آموزش مدل‌های پیشرفته فراهم می‌سازد.