فصل نهم: منظم سازی

مقدمه

در فصل قبل، مفهوم شکاف عملکرد بین داده‌های آموزش و آزمون و دلایل آن مانند بیش‌برازش و محدودیت‌های مدل در مناطق بدون داده بررسی شد. این فصل به معرفی تکنیک‌های منظم‌سازی می‌پردازد که هدف آن کاهش این شکاف و بهبود تعمیم مدل است. منظم‌سازی شامل روش‌های صریح و ضمنی است که با اعمال محدودیت‌های اضافی بر مدل، از پیچیدگی بی‌رویه آن جلوگیری می‌کنند.

1. منظم‌سازی صریح

منظم‌سازی صریح با افزودن عباراتی به تابع ضرر، پارامترهای مدل را به سمت مقادیر خاصی سوق می‌دهد. این روش‌ها مستقیماً بر فرآیند آموزش تأثیر می‌گذارند.

1.1 تفسیر احتمالی

از دیدگاه احتمالی، منظم‌سازی را می‌توان به عنوان یک توزیع پیشین بر پارامترها تفسیر کرد. در این چارچوب، هدف، بیشینه‌سازی درست‌نمایی پسین (MAP) است که ترکیبی از داده‌ها و دانش پیشین را شامل می‌شود. برای مثال، تابع جریمه به شکل زیر است:

$\lambda \cdot g[\phi]$

که معادل منفی لگاریتم توزیع پیشین محسوب می‌شود.

1.2. تنظیم $L_2$

رایج‌ترین روش منظم‌سازی، تنظیم $L_2$ است که مجموع مربعات پارامترها را جریمه می‌کند:

$\hat{\phi} = \arg\min_{\phi} \left( \sum_{i=1}^{I} \ell_i[x_i, y_i] + \lambda \sum_{j} \phi_j^2 \right)$

این روش با محدود کردن بزرگی وزن‌ها، توابع خروجی را نرم‌تر می‌کند و از بیش‌برازش جلوگیری می‌نماید. تنظیم $L_2$ به نام‌های دیگری مانند رگرسیون ریج یا هنجار فروبنیوس نیز شناخته می‌شود.

2. منظم‌سازی ضمنی

برخلاف روش‌های صریح، منظم‌سازی ضمنی ناشی از ذات الگوریتم‌های بهینه‌سازی مانند نزول گرادیان و نزول گرادیان تصادفی (SGD) است.

2.1. نزول گرادیان

در نزول گرادیان با اندازه گام محدود، مسیر بهینه‌سازی از کمینه واقعی تابع ضرر منحرف می‌شود. این انحراف را می‌توان به صورت افزوده شدن یک جمله جریمه به تابع ضرر مدل کرد:

$\tilde{L}_{\text{GD}}[\phi] = L[\phi] + \frac{\alpha}{4} \left\| \frac{\partial L}{\partial \phi} \right\|^2$

این جمله باعث می‌شود مدل از مناطق با گرادیان‌های بزرگ فاصله بگیرد و در نتیجه پیچیدگی کمتری پیدا کند.

2.2. نزول گرادیان تصادفی (SGD)

در SGD، علاوه بر جریمه گرادیان، واریانس گرادیان‌های دسته‌ای نیز به‌طور ضمنی جریمه می‌شود. این امر باعث می‌شود مدل به سمت راه‌حل‌هایی هدایت شود که در آن‌ها همه دسته‌ها به خوبی برازش شده‌اند و نه فقط برخی از آن‌ها. این ویژگی یکی از دلایل تعمیم بهتر SGD نسبت به نزول گرادیان دسته‌ای کامل است.

3. روش‌های اکتشافی برای بهبود تعمیم

علاوه بر منظم‌سازی صریح و ضمنی، روش‌های اکتشافی دیگری نیز برای بهبود عملکرد مدل وجود دارند.

3.1. توقف زودهنگام (Early Stopping)

توقف آموزش پیش از همگرایی کامل، از بیش‌برازش جلوگیری می‌کند. این روش با محدود کردن زمان آموزش، اجازه نمی‌دهد مدل به داده‌های نویزی بیش‌ازحد حساس شود. توقف زودهنگام را می‌توان به عنوان یک شکل از منظم‌سازی $L_2$ نیز تفسیر کرد.

3.2. گروه‌بندی (Ensembling)

ترکیب پیش‌بینی‌های چندین مدل مستقل، واریانس خطا را کاهش می‌دهد. روش‌هایی مانند بگینگ (نمونه‌برداری مجدد از داده‌ها) یا میانگین‌گیری از مدل‌هایی با معماری‌های متفاوت، از جمله این تکنیک‌ها هستند.

3.3. حذف تصادفی (Dropout)

در این روش، در هر تکرار آموزشی زیرمجموعه‌ای تصادفی از واحدهای پنهان غیرفعال می‌شوند. این کار باعث می‌شود مدل به هیچ واحد خاصی وابسته نشود و وزن‌ها به سمت مقادیر کوچک‌تر سوق یابند. در مرحله استنتاج، از قانون مقیاس‌بندی وزن‌ها برای جبران این غیرفعال‌سازی استفاده می‌شود.

3.4. اعمال نویز

اضافه کردن نویز به ورودی‌ها، وزن‌ها یا برچسب‌ها، مدل را در برابر تغییرات کوچک مقاوم می‌کند. برای مثال، هموارسازی برچسب (Label Smoothing) با توزیع مجدد احتمال برچسب‌ها، از اطمینان بیش‌ازحد مدل به پیش‌بینی‌ها جلوگیری می‌نماید.

3.5. یادگیری انتقالی و چندوظیفه‌ای

یادگیری انتقالی از دانش مدل آموزش‌دیده روی یک وظیفه مرتبط برای بهبود عملکرد در وظیفه هدف استفاده می‌کند. در یادگیری چندوظیفه‌ای، مدل به طور هم‌زمان چندین کار را یاد می‌گیرد، که این امر می‌تواند به بهبود تعمیم منجر شود.

3.6. افزایش داده‌ها (Data Augmentation)

با اعمال تبدیل‌های مختلف روی داده‌های آموزشی (مانند چرخش، مقیاس‌بندی یا تغییر رنگ در تصاویر)، حجم مؤثر داده افزایش می‌یابد. این روش به مدل کمک می‌کند تا نسبت به تغییرات نامربوط در داده‌ها بی‌تفاوت شود.

4. نتیجه‌گیری

منظم‌سازی یکی از ارکان اساسی یادگیری ماشین است که با کنترل پیچیدگی مدل، از بیش‌برازش جلوگیری می‌کند. این فصل نشان داد که چگونه روش‌های صریح (مانند تنظیم $L_2$ ) و ضمنی (مانند SGD) همراه با تکنیک‌های اکتشافی (مانند Dropout و افزایش داده‌ها) می‌توانند به بهبود تعمیم مدل کمک کنند. انتخاب روش مناسب به ماهیت داده‌ها و هدف مدل بستگی دارد، اما ترکیب این تکنیک‌ها اغلب به نتایج بهتری منجر می‌شود.

دکتر محمدرضا عاطفی

دکتر محمدرضا عاطفی

فصل نهم: منظم سازی

مقدمه

1. منظم‌سازی صریح

1.1 تفسیر احتمالی

$\lambda \cdot g[\phi]$

1.2. تنظیم $L_2$

$\hat{\phi} = \arg\min_{\phi} \left( \sum_{i=1}^{I} \ell_i[x_i, y_i] + \lambda \sum_{j} \phi_j^2 \right)$

2. منظم‌سازی ضمنی

2.1. نزول گرادیان

$\tilde{L}_{\text{GD}}[\phi] = L[\phi] + \frac{\alpha}{4} \left\| \frac{\partial L}{\partial \phi} \right\|^2$

2.2. نزول گرادیان تصادفی (SGD)

3. روش‌های اکتشافی برای بهبود تعمیم

3.1. توقف زودهنگام (Early Stopping)

3.2. گروه‌بندی (Ensembling)

3.3. حذف تصادفی (Dropout)

3.4. اعمال نویز

3.5. یادگیری انتقالی و چندوظیفه‌ای

3.6. افزایش داده‌ها (Data Augmentation)

4. نتیجه‌گیری

درخواست خدمات

فصل نهم: منظم سازی

مقدمه

1. منظم‌سازی صریح

1.1 تفسیر احتمالی

λ⋅g[ϕ]\lambda \cdot g[\phi]

1.2. تنظیم L2L_2

ϕ^=arg⁡min⁡ϕ(∑i=1Iℓi[xi,yi]+λ∑jϕj2)\hat{\phi} = \arg\min_{\phi} \left( \sum_{i=1}^{I} \ell_i[x_i, y_i] + \lambda \sum_{j} \phi_j^2 \right)

2. منظم‌سازی ضمنی

2.1. نزول گرادیان

L~GD[ϕ]=L[ϕ]+α4∥∂L∂ϕ∥2\tilde{L}_{\text{GD}}[\phi] = L[\phi] + \frac{\alpha}{4} \left\| \frac{\partial L}{\partial \phi} \right\|^2

2.2. نزول گرادیان تصادفی (SGD)

3. روش‌های اکتشافی برای بهبود تعمیم

3.1. توقف زودهنگام (Early Stopping)

3.2. گروه‌بندی (Ensembling)

3.3. حذف تصادفی (Dropout)

3.4. اعمال نویز

3.5. یادگیری انتقالی و چندوظیفه‌ای

3.6. افزایش داده‌ها (Data Augmentation)

4. نتیجه‌گیری

$\lambda \cdot g[\phi]$

1.2. تنظیم $L_2$

$\hat{\phi} = \arg\min_{\phi} \left( \sum_{i=1}^{I} \ell_i[x_i, y_i] + \lambda \sum_{j} \phi_j^2 \right)$

$\tilde{L}_{\text{GD}}[\phi] = L[\phi] + \frac{\alpha}{4} \left\| \frac{\partial L}{\partial \phi} \right\|^2$