فصل هفدهم: رمزگذارهای خودکار متغیر (VAE)
در این فصل، به بررسی مدلهای مولد، به ویژه رمزگذارهای خودکار متغیر (VAE) میپردازیم. این مدلها قادر به یادگیری توزیع دادهها و تولید نمونههای جدید هستند. در ادامه، مفاهیم اصلی، روشهای یادگیری، و کاربردهای VAE را به صورت جامع و ساختارمند توضیح خواهیم داد.
۱. مقدمهای بر مدلهای مولد
مدلهای مولد مانند شبکههای متخاصم مولد (GAN) و رمزگذارهای خودکار متغیر (VAE)، ابزارهایی برای تولید دادههای جدید هستند. در حالی که GANها از طریق رقابت بین دو شبکه کار میکنند، VAEها بر پایه مدلهای احتمالی ساخته شدهاند. هدف VAE یادگیری توزیع دادهها است، اما برخلاف GANها، این مدلها قادر به محاسبه دقیق احتمال نمونههای جدید نیستند.
۲. مدلهای متغیر پنهان
مدلهای متغیر پنهان، توزیع دادهها را به صورت غیرمستقیم و با استفاده از متغیرهای پنهان توصیف میکنند. این مدلها توزیع مشترک را تعریف میکنند و سپس با حاشیهسازی روی ، توزیع را به دست میآورند:
۲.۱. مثال: مخلوط گاوسیها
در یک مخلوط گاوسی، متغیر پنهان گسسته است و توزیع یک توزیع طبقهبندی شده است. احتمال نیز معمولاً یک توزیع گاوسی با میانگین و واریانس است. با جمعزدن روی مقادیر ، توزیع پیچیدهتری برای به دست میآید.
۳. مدل متغیر نهفته غیرخطی
در این مدل، هم داده و هم متغیر نهفته پیوسته و چندمتغیره هستند. توزیع پیشین یک نرمال چندمتغیره استاندارد است:
احتمال نیز یک توزیع گاوسی با میانگین غیرخطی و کوواریانس است. تابع توسط یک شبکه عصبی با پارامترهای مدل میشود.
۳.۱. تولید نمونههای جدید
برای تولید نمونههای جدید:
یک نمونه از میکشیم.
آن را از طریق شبکه عبور میدهیم تا میانگین محاسبه شود.
نمونه را از تولید میکنیم.
۴. آموزش مدلهای VAE
آموزش VAE با حداکثر کردن احتمال دادهها انجام میشود، اما محاسبه مستقیم دشوار است. برای حل این مشکل، از کران پایین شواهد (ELBO) استفاده میکنیم.
۴.۱. نابرابری جنسن
نابرابری جنسن برای توابع مقعر مانند لگاریتم بیان میکند:
این نابرابری به ما کمک میکند تا ELBO را تعریف کنیم.
۴.۲. استخراج ELBO
با استفاده از نابرابری جنسن، کران پایین زیر را برای به دست میآوریم:
۴.۳. تفسیر ELBO
ELBO را میتوان به صورت زیر تجزیه کرد:
جمله اول (خطای بازسازی): میزان تطابق دادههای تولیدشده با دادههای واقعی را اندازه میگیرد.
جمله دوم (واگرایی KL): فاصله بین توزیع کمکی و توزیع پیشین را اندازه میگیرد.
۵. تقریب متغیر و معماری VAE
برای محاسبه ELBO، از تقریب متغیر استفاده میکنیم. توزیع را به صورت یک گاوسی با میانگین و ماتریس کوواریانس در نظر میگیریم که توسط یک شبکه عصبی (رمزگذار) محاسبه میشود.
۵.۱. الگوریتم VAE
رمزگذار: داده را به پارامترهای و نگاشت میکند.
نمونهبرداری: یک نمونه از میکشیم.
رمزگشا: را به داده بازسازیشده تبدیل میکند.
محاسبه ELBO: خطای بازسازی و واگرایی KL را محاسبه و مدل را بهینه میکنیم.
۵.۲. ترفند پارامترسازی مجدد
برای امکانپذیر کردن انتشار معکوس، از ترفند پارامترسازی مجدد استفاده میکنیم:
این روش مرحله نمونهبرداری را از گراف محاسباتی جدا میکند.
۶. کاربردهای VAE
VAEها در زمینههای مختلفی کاربرد دارند، از جمله:
۶.۱. تولید نمونههای جدید
با نمونهبرداری از و عبور آن از رمزگشا، میتوان نمونههای جدیدی تولید کرد.
۶.۲. سنتز مجدد
با تغییر نمایش دادهها در فضای پنهان، میتوان ویژگیهای دادهها را دستکاری کرد (مثلاً تغییر حالت چهره در تصاویر).
۶.۳. گسستگی نمایش نهفته
با تنظیم توزیع متغیرهای پنهان، میتوان ابعاد مستقل معناداری در فضای نهفته ایجاد کرد.
۷. چالشها و راهحلها
کیفیت نمونهها: نمونههای تولیدشده توسط VAE ممکن است تار یا نویزی باشند. استفاده از مدلهای پیچیدهتر مانند VAE سلسلهمراتبی میتواند این مشکل را کاهش دهد.
فروپاشی خلفی: زمانی رخ میدهد که رمزگذار توزیع پیشین را نادیده بگیرد. راهحلهایی مانند افزایش تدریجی وزن واگرایی KL پیشنهاد شدهاست.
گسستگی نمایش نهفته: با افزودن عبارات منظمسازی به تابع هزینه، میتوان ابعاد مستقل معناداری در فضای نهفته ایجاد کرد.
۸. نتیجهگیری
رمزگذارهای خودکار متغیر (VAE) ابزارهای قدرتمندی برای مدلسازی توزیع دادهها و تولید نمونههای جدید هستند. این مدلها با استفاده از تقریب متغیر و بهینهسازی کران پایین شواهد (ELBO)، امکان یادگیری مدلهای پیچیده را فراهم میکنند. اگرچه VAEها چالشهایی مانند کیفیت نمونهها و فروپاشی خلفی دارند، اما با روشهای پیشرفتهتر میتوان این مشکلات را کاهش داد. این مدلها کاربردهای گستردهای در پردازش تصویر، متن، و دادههای چندرسانهای دارند.