فصل نهم: منظم سازی

black-swan-theory

مقدمه

در فصل قبل، مفهوم شکاف عملکرد بین داده‌های آموزش و آزمون و دلایل آن مانند بیش‌برازش و محدودیت‌های مدل در مناطق بدون داده بررسی شد. این فصل به معرفی تکنیک‌های منظم‌سازی می‌پردازد که هدف آن کاهش این شکاف و بهبود تعمیم مدل است. منظم‌سازی شامل روش‌های صریح و ضمنی است که با اعمال محدودیت‌های اضافی بر مدل، از پیچیدگی بی‌رویه آن جلوگیری می‌کنند.

 

1. منظم‌سازی صریح

منظم‌سازی صریح با افزودن عباراتی به تابع ضرر، پارامترهای مدل را به سمت مقادیر خاصی سوق می‌دهد. این روش‌ها مستقیماً بر فرآیند آموزش تأثیر می‌گذارند.

1.1  تفسیر احتمالی

از دیدگاه احتمالی، منظم‌سازی را می‌توان به عنوان یک توزیع پیشین بر پارامترها تفسیر کرد. در این چارچوب، هدف، بیشینه‌سازی درست‌نمایی پسین (MAP) است که ترکیبی از داده‌ها و دانش پیشین را شامل می‌شود. برای مثال، تابع جریمه به شکل زیر است:

λg[ϕ]\lambda \cdot g[\phi]

که معادل منفی لگاریتم توزیع پیشین محسوب می‌شود.

1.2. تنظیم L2L_2

رایج‌ترین روش منظم‌سازی، تنظیم L2L_2 است که مجموع مربعات پارامترها را جریمه می‌کند:

ϕ^=argminϕ(i=1Ii[xi,yi]+λjϕj2)\hat{\phi} = \arg\min_{\phi} \left( \sum_{i=1}^{I} \ell_i[x_i, y_i] + \lambda \sum_{j} \phi_j^2 \right)

این روش با محدود کردن بزرگی وزن‌ها، توابع خروجی را نرم‌تر می‌کند و از بیش‌برازش جلوگیری می‌نماید. تنظیم L2L_2 به نام‌های دیگری مانند رگرسیون ریج یا هنجار فروبنیوس نیز شناخته می‌شود.

 

2. منظم‌سازی ضمنی

برخلاف روش‌های صریح، منظم‌سازی ضمنی ناشی از ذات الگوریتم‌های بهینه‌سازی مانند نزول گرادیان و نزول گرادیان تصادفی (SGD) است.

2.1. نزول گرادیان

در نزول گرادیان با اندازه گام محدود، مسیر بهینه‌سازی از کمینه واقعی تابع ضرر منحرف می‌شود. این انحراف را می‌توان به صورت افزوده شدن یک جمله جریمه به تابع ضرر مدل کرد:

L~GD[ϕ]=L[ϕ]+α4Lϕ2\tilde{L}_{\text{GD}}[\phi] = L[\phi] + \frac{\alpha}{4} \left\| \frac{\partial L}{\partial \phi} \right\|^2

این جمله باعث می‌شود مدل از مناطق با گرادیان‌های بزرگ فاصله بگیرد و در نتیجه پیچیدگی کمتری پیدا کند.

2.2. نزول گرادیان تصادفی (SGD)

در SGD، علاوه بر جریمه گرادیان، واریانس گرادیان‌های دسته‌ای نیز به‌طور ضمنی جریمه می‌شود. این امر باعث می‌شود مدل به سمت راه‌حل‌هایی هدایت شود که در آن‌ها همه دسته‌ها به خوبی برازش شده‌اند و نه فقط برخی از آن‌ها. این ویژگی یکی از دلایل تعمیم بهتر SGD نسبت به نزول گرادیان دسته‌ای کامل است.

 

3. روش‌های اکتشافی برای بهبود تعمیم

علاوه بر منظم‌سازی صریح و ضمنی، روش‌های اکتشافی دیگری نیز برای بهبود عملکرد مدل وجود دارند.

3.1.  توقف زودهنگام (Early Stopping)

توقف آموزش پیش از همگرایی کامل، از بیش‌برازش جلوگیری می‌کند. این روش با محدود کردن زمان آموزش، اجازه نمی‌دهد مدل به داده‌های نویزی بیش‌ازحد حساس شود. توقف زودهنگام را می‌توان به عنوان یک شکل از منظم‌سازی L2L_2 نیز تفسیر کرد.

3.2. گروه‌بندی (Ensembling)

ترکیب پیش‌بینی‌های چندین مدل مستقل، واریانس خطا را کاهش می‌دهد. روش‌هایی مانند بگینگ (نمونه‌برداری مجدد از داده‌ها) یا میانگین‌گیری از مدل‌هایی با معماری‌های متفاوت، از جمله این تکنیک‌ها هستند.

3.3. حذف تصادفی (Dropout)

در این روش، در هر تکرار آموزشی زیرمجموعه‌ای تصادفی از واحدهای پنهان غیرفعال می‌شوند. این کار باعث می‌شود مدل به هیچ واحد خاصی وابسته نشود و وزن‌ها به سمت مقادیر کوچک‌تر سوق یابند. در مرحله استنتاج، از قانون مقیاس‌بندی وزن‌ها برای جبران این غیرفعال‌سازی استفاده می‌شود.

3.4. اعمال نویز

اضافه کردن نویز به ورودی‌ها، وزن‌ها یا برچسب‌ها، مدل را در برابر تغییرات کوچک مقاوم می‌کند. برای مثال، هموارسازی برچسب (Label Smoothing) با توزیع مجدد احتمال برچسب‌ها، از اطمینان بیش‌ازحد مدل به پیش‌بینی‌ها جلوگیری می‌نماید.

3.5. یادگیری انتقالی و چندوظیفه‌ای

یادگیری انتقالی از دانش مدل آموزش‌دیده روی یک وظیفه مرتبط برای بهبود عملکرد در وظیفه هدف استفاده می‌کند. در یادگیری چندوظیفه‌ای، مدل به طور هم‌زمان چندین کار را یاد می‌گیرد، که این امر می‌تواند به بهبود تعمیم منجر شود.

3.6. افزایش داده‌ها (Data Augmentation)

با اعمال تبدیل‌های مختلف روی داده‌های آموزشی (مانند چرخش، مقیاس‌بندی یا تغییر رنگ در تصاویر)، حجم مؤثر داده افزایش می‌یابد. این روش به مدل کمک می‌کند تا نسبت به تغییرات نامربوط در داده‌ها بی‌تفاوت شود.

 

4. نتیجه‌گیری

منظم‌سازی یکی از ارکان اساسی یادگیری ماشین است که با کنترل پیچیدگی مدل، از بیش‌برازش جلوگیری می‌کند. این فصل نشان داد که چگونه روش‌های صریح (مانند تنظیم L2L_2) و ضمنی (مانند SGD) همراه با تکنیک‌های اکتشافی (مانند Dropout و افزایش داده‌ها) می‌توانند به بهبود تعمیم مدل کمک کنند. انتخاب روش مناسب به ماهیت داده‌ها و هدف مدل بستگی دارد، اما ترکیب این تکنیک‌ها اغلب به نتایج بهتری منجر می‌شود.