فصل شانزدهم: عادیسازی جریانها
مقدمه
در فصل قبل، شبکههای متخاصم مولد (GAN) معرفی شدند که مدلهای تولیدی هستند که از طریق یک شبکه عمیق، نمونههای جدیدی ایجاد میکنند. با این حال، GANها توزیع احتمال مشخصی بر روی نمونههای داده تعریف نمیکنند، بنابراین ارزیابی احتمال تعلق یک نمونه جدید به مجموعه داده دشوار است. در این فصل، جریانهای عادی (Normalizing Flows) معرفی میشوند که قادرند هم نمونهبرداری کنند و هم احتمال نمونههای جدید را محاسبه نمایند. این مدلها با تبدیل یک توزیع ساده به یک توزیع پیچیدهتر، امکان مدلسازی دقیقتر توزیع دادهها را فراهم میکنند.
1. مثال یکبعدی
جریانهای عادیسازی، مدلهای مولد احتمالی هستند که یک توزیع احتمال را با دادههای آموزشی تطبیق میدهند. برای درک بهتر، یک توزیع یکبعدی را در نظر بگیرید. این مدلسازی با یک توزیع پایه ساده روی متغیر پنهان آغاز میشود و سپس تابع اعمال میشود، به طوری که پارامترهای طوری انتخاب شوند که توزیع مورد نظر را داشته باشد. نمونهبرداری از این مدل ساده است: ابتدا انتخاب میشود و سپس محاسبه میگردد.
1.1. اندازهگیری احتمال
محاسبه احتمال نقطه داده چالشبرانگیزتر است. با اعمال تابع روی متغیر تصادفی با چگالی ، چگالی احتمال در مناطقی که تابع کشیده میشود کاهش و در مناطقی که فشرده میشود افزایش مییابد. این تغییرات به بزرگی گرادیان تابع بستگی دارد. احتمال داده تحت توزیع تبدیلشده به صورت زیر محاسبه میشود:
که در آن است.
1.2. نگاشت رو به جلو و معکوس
برای نمونهبرداری از توزیع، به نگاشت رو به جلو نیاز داریم، اما برای اندازهگیری احتمال، باید معکوس را محاسبه کنیم. بنابراین، تابع باید معکوسپذیر باشد. نگاشت رو به جلو جهت مولد و نگاشت معکوس جهت عادیکننده نامیده میشود.
1.3. یادگیری
برای یادگیری توزیع، پارامترهای را به گونهای مییابیم که احتمال دادههای آموزشی را بیشینه کند. این کار با کمینهسازی منفی لگاریتم احتمال انجام میشود:
2. مورد عمومی
در این بخش، مدل به توزیعهای چندمتغیره تعمیم داده میشود. با استفاده از یک تابع که توسط یک شبکه عصبی عمیق تعریف شده است، متغیر تصادفی به متغیر تبدیل میشود. احتمال نمونه تحت این توزیع به صورت زیر است:
که در آن و عبارت اول دترمینان معکوس ماتریس ژاکوبین است.
2.1. نگاشت رو به جلو با شبکه عصبی عمیق
نگاشت رو به جلو معمولاً از ترکیب چند لایه معکوسپذیر تشکیل شده است. معکوس تابع کلی از ترکیب معکوس هر لایه (با ترتیب معکوس) بدست میآید. دترمینان ژاکوبین نیز با ضرب دترمینانهای هر لایه محاسبه میشود.
3. لایههای شبکه معکوسپذیر
برای عملی بودن جریانهای عادیسازی، لایههای شبکه باید ویژگیهای زیر را داشته باشند:
۱. قابلیت بیان بالا برای تبدیل توزیع پایه به توزیع پیچیده
۲. معکوسپذیری
۳. محاسبه کارآمد معکوس
۴. محاسبه کارآمد دترمینان ژاکوبین
3.1. جریانهای خطی
فرم کلی آنها به صورت است. اگر ماتریس معکوسپذیر باشد، این تبدیل برگشتپذیر است. دترمینان و معکوس آن بهویژه برای ماتریسهای مورب یا مثلثی بهسادگی قابل محاسبهاند. اما این جریانها به تنهایی برای مدلسازی توزیعهای پیچیده کافی نیستند.
3.2. جریانهای عنصری
در این جریانها یک تابع غیرخطی بهصورت نقطهای به هر عنصر ورودی اعمال میشود:
این جریانها سادهاند اما تعامل بین ابعاد را مدل نمیکنند.
3.3. جریانهای جفت
در این روش، ورودی به دو بخش تقسیم میشود:
بخش اول بدون تغییر باقی میماند و بخش دوم به شکل مشروط تغییر مییابد. این روش محاسبه معکوس و دترمینان را ساده میسازد.
3.4. جریانهای خودبازگشتی
در این مدل، هر بعد خروجی بر اساس ابعاد قبلی ورودی تعریف میشود:
این مدلها قدرت بیان بالایی دارند اما معکوس کردن آنها پرهزینه است.
3.5. جریانهای باقیمانده
این جریانها از ساختار شبکههای باقیمانده الهام گرفتهاند و معمولاً فرم زیر را دارند:
در شرایط خاصی این نگاشت معکوسپذیر است، اما دترمینان ژاکوبین بهسادگی قابل محاسبه نیست.
4. جریانهای چندمقیاسی
در جریانهای چندمقیاسی، مدل بهصورت مرحلهای ابعاد نهان را گسترش میدهد. این روش باعث بهبود کارایی نمونهبرداری و تخمین احتمال میشود.
5. کاربردها
5.1. مدلسازی چگالی
جریانهای عادی تنها مدلهای مولدی هستند که میتوانند احتمال دقیق نمونهها را محاسبه کنند. این ویژگی در تشخیص ناهنجاری بسیار مفید است.
5.2. سنتز داده
مدلهایی مانند GLOW از جریانهای عادی برای تولید تصاویر با کیفیت بالا استفاده میکنند. این مدلها همچنین امکان درونیابی بین تصاویر را فراهم میسازند.
5.3. تقریب توزیعهای دیگر
جریانهای عادی میتوانند برای تقریب توزیعهایی که ارزیابی آنها آسان ولی نمونهبرداری دشوار است، مفید باشند.
نتیجهگیری
جریانهای عادیسازی ابزار قدرتمندی برای مدلسازی توزیعهای پیچیده هستند که هم امکان نمونهبرداری و هم محاسبه احتمال را فراهم میکنند. با استفاده از توابع معکوسپذیر و محاسبه دترمینان ژاکوبین، این مدلها در بسیاری از کاربردهای عملی یادگیری ماشین مؤثر ظاهر شدهاند.