فصل نهم: منظم سازی
مقدمه
در فصل قبل، مفهوم شکاف عملکرد بین دادههای آموزش و آزمون و دلایل آن مانند بیشبرازش و محدودیتهای مدل در مناطق بدون داده بررسی شد. این فصل به معرفی تکنیکهای منظمسازی میپردازد که هدف آن کاهش این شکاف و بهبود تعمیم مدل است. منظمسازی شامل روشهای صریح و ضمنی است که با اعمال محدودیتهای اضافی بر مدل، از پیچیدگی بیرویه آن جلوگیری میکنند.
1. منظمسازی صریح
منظمسازی صریح با افزودن عباراتی به تابع ضرر، پارامترهای مدل را به سمت مقادیر خاصی سوق میدهد. این روشها مستقیماً بر فرآیند آموزش تأثیر میگذارند.
1.1 تفسیر احتمالی
از دیدگاه احتمالی، منظمسازی را میتوان به عنوان یک توزیع پیشین بر پارامترها تفسیر کرد. در این چارچوب، هدف، بیشینهسازی درستنمایی پسین (MAP) است که ترکیبی از دادهها و دانش پیشین را شامل میشود. برای مثال، تابع جریمه به شکل زیر است:
که معادل منفی لگاریتم توزیع پیشین محسوب میشود.
1.2. تنظیم
رایجترین روش منظمسازی، تنظیم است که مجموع مربعات پارامترها را جریمه میکند:
این روش با محدود کردن بزرگی وزنها، توابع خروجی را نرمتر میکند و از بیشبرازش جلوگیری مینماید. تنظیم به نامهای دیگری مانند رگرسیون ریج یا هنجار فروبنیوس نیز شناخته میشود.
2. منظمسازی ضمنی
برخلاف روشهای صریح، منظمسازی ضمنی ناشی از ذات الگوریتمهای بهینهسازی مانند نزول گرادیان و نزول گرادیان تصادفی (SGD) است.
2.1. نزول گرادیان
در نزول گرادیان با اندازه گام محدود، مسیر بهینهسازی از کمینه واقعی تابع ضرر منحرف میشود. این انحراف را میتوان به صورت افزوده شدن یک جمله جریمه به تابع ضرر مدل کرد:
این جمله باعث میشود مدل از مناطق با گرادیانهای بزرگ فاصله بگیرد و در نتیجه پیچیدگی کمتری پیدا کند.
2.2. نزول گرادیان تصادفی (SGD)
در SGD، علاوه بر جریمه گرادیان، واریانس گرادیانهای دستهای نیز بهطور ضمنی جریمه میشود. این امر باعث میشود مدل به سمت راهحلهایی هدایت شود که در آنها همه دستهها به خوبی برازش شدهاند و نه فقط برخی از آنها. این ویژگی یکی از دلایل تعمیم بهتر SGD نسبت به نزول گرادیان دستهای کامل است.
3. روشهای اکتشافی برای بهبود تعمیم
علاوه بر منظمسازی صریح و ضمنی، روشهای اکتشافی دیگری نیز برای بهبود عملکرد مدل وجود دارند.
3.1. توقف زودهنگام (Early Stopping)
توقف آموزش پیش از همگرایی کامل، از بیشبرازش جلوگیری میکند. این روش با محدود کردن زمان آموزش، اجازه نمیدهد مدل به دادههای نویزی بیشازحد حساس شود. توقف زودهنگام را میتوان به عنوان یک شکل از منظمسازی نیز تفسیر کرد.
3.2. گروهبندی (Ensembling)
ترکیب پیشبینیهای چندین مدل مستقل، واریانس خطا را کاهش میدهد. روشهایی مانند بگینگ (نمونهبرداری مجدد از دادهها) یا میانگینگیری از مدلهایی با معماریهای متفاوت، از جمله این تکنیکها هستند.
3.3. حذف تصادفی (Dropout)
در این روش، در هر تکرار آموزشی زیرمجموعهای تصادفی از واحدهای پنهان غیرفعال میشوند. این کار باعث میشود مدل به هیچ واحد خاصی وابسته نشود و وزنها به سمت مقادیر کوچکتر سوق یابند. در مرحله استنتاج، از قانون مقیاسبندی وزنها برای جبران این غیرفعالسازی استفاده میشود.
3.4. اعمال نویز
اضافه کردن نویز به ورودیها، وزنها یا برچسبها، مدل را در برابر تغییرات کوچک مقاوم میکند. برای مثال، هموارسازی برچسب (Label Smoothing) با توزیع مجدد احتمال برچسبها، از اطمینان بیشازحد مدل به پیشبینیها جلوگیری مینماید.
3.5. یادگیری انتقالی و چندوظیفهای
یادگیری انتقالی از دانش مدل آموزشدیده روی یک وظیفه مرتبط برای بهبود عملکرد در وظیفه هدف استفاده میکند. در یادگیری چندوظیفهای، مدل به طور همزمان چندین کار را یاد میگیرد، که این امر میتواند به بهبود تعمیم منجر شود.
3.6. افزایش دادهها (Data Augmentation)
با اعمال تبدیلهای مختلف روی دادههای آموزشی (مانند چرخش، مقیاسبندی یا تغییر رنگ در تصاویر)، حجم مؤثر داده افزایش مییابد. این روش به مدل کمک میکند تا نسبت به تغییرات نامربوط در دادهها بیتفاوت شود.
4. نتیجهگیری
منظمسازی یکی از ارکان اساسی یادگیری ماشین است که با کنترل پیچیدگی مدل، از بیشبرازش جلوگیری میکند. این فصل نشان داد که چگونه روشهای صریح (مانند تنظیم ) و ضمنی (مانند SGD) همراه با تکنیکهای اکتشافی (مانند Dropout و افزایش دادهها) میتوانند به بهبود تعمیم مدل کمک کنند. انتخاب روش مناسب به ماهیت دادهها و هدف مدل بستگی دارد، اما ترکیب این تکنیکها اغلب به نتایج بهتری منجر میشود.