فصل هجدهم: مدل‌های انتشار

black-swan-theory

مقدمه

مدل‌های انتشار (Diffusion Models) به‌عنوان یکی از پیشرفته‌ترین روش‌های تولید داده در یادگیری ماشین شناخته می‌شوند. این مدل‌ها برخلاف مدل‌های متخاصم مولد (GANs) که در فصل ۱۵ بررسی شدند، یک توزیع احتمالی روی داده‌ها تعریف می‌کنند. همچنین، برخلاف جریان‌های عادی (Normalizing Flows) که در فصل ۱۶ مورد بحث قرار گرفتند، نیاز به معماری‌های محدودکننده ندارند. مدل‌های انتشار از نظر ساختاری شباهت‌هایی با رمزگذارهای خودکار متغیر (VAEs) دارند، اما با تفاوت‌های اساسی در روش یادگیری و تولید نمونه.

 

1. مبانی نظری مدل‌های انتشار

1.1. ساختار کلی مدل

یک مدل انتشار از دو جزء اصلی تشکیل شده است:

۱. رمزگذار (فرآیند رو به جلو): یک فرآیند از پیش تعیین‌شده که به‌تدریج داده‌های ورودی را با نویز مخلوط می‌کند.
۲. رمزگشا (فرآیند معکوس): یک فرآیند یادگیری که سعی می‌کند نویز را در هر مرحله حذف کند.

1.2. فرآیند رو به جلو

فرآیند رو به جلو یک زنجیره مارکوف است که در هر مرحله مقدار کمی نویز به داده اضافه می‌کند. این فرآیند با معادله زیر توصیف می‌شود:

zt=1βtzt1+βtϵt\mathbf{z}_t = \sqrt{1 – \beta_t} \cdot \mathbf{z}_{t-1} + \sqrt{\beta_t} \cdot \boldsymbol{\epsilon}_t

که در آن:

  • βt\beta_t پارامترهای برنامه نویز هستند

  • ϵtN(0,I)\boldsymbol{\epsilon}_t \sim \mathcal{N}(0, \mathbf{I})

1.3. هسته انتشار

یکی از مفاهیم کلیدی در مدل‌های انتشار، هسته انتشار (Diffusion Kernel) است که امکان نمونه‌گیری مستقیم از q(ztx)q(\mathbf{z}_t|\mathbf{x}) را بدون محاسبه متغیرهای میانی فراهم می‌کند:

q(ztx)=N(zt;αtx,(1αt)I)q(\mathbf{z}_t|\mathbf{x}) = \mathcal{N}(\mathbf{z}_t; \sqrt{\alpha_t} \cdot \mathbf{x}, (1 – \alpha_t)\mathbf{I})

1.4. فرآیند معکوس

فرآیند معکوس سعی می‌کند با یادگیری نگاشت‌های احتمالی، نویز را در هر مرحله حذف کند. این فرآیند با تقریب توزیع‌های شرطی پیچیده با توزیع‌های نرمال انجام می‌شود:

Pr(zt1zt,ϕt)=N(zt1;ft[zt,ϕt],σ2I)Pr(\mathbf{z}_{t-1}|\mathbf{z}_t, \phi_t) = \mathcal{N}(\mathbf{z}_{t-1}; \mathbf{f}_t[\mathbf{z}_t, \phi_t], \sigma^2 \mathbf{I})

 

2. آموزش مدل‌های انتشار

2.1. کران پایین شواهد (ELBO)

مانند VAEs، از کران پایین شواهد (ELBO) برای آموزش مدل استفاده می‌شود:

ELBO=Eq(z1x)[logPr(xz1,ϕ1)]t=2TDKL(q(zt1zt,x)Pr(zt1zt,ϕt))\text{ELBO} = \mathbb{E}_{q(\mathbf{z}_1|\mathbf{x})} \left[ \log Pr(\mathbf{x}|\mathbf{z}_1, \phi_1) \right] – \sum_{t=2}^{T} D_{\text{KL}} \left( q(\mathbf{z}_{t-1}|\mathbf{z}_t, \mathbf{x}) \, \| \, Pr(\mathbf{z}_{t-1}|\mathbf{z}_t, \phi_t) \right)

2.2. پارامترسازی مجدد

برای بهبود عملکرد مدل، دو نوع پارامترسازی مجدد انجام می‌شود:

۱. پارامترسازی مجدد هدف: بازنویسی هدف به صورت پیش‌بینی نویز
۲. پارامترسازی مجدد شبکه: جایگزینی مدل پیش‌بینی zt1\mathbf{z}_{t-1} با مدل پیش‌بینی نویز

در این صورت، تابع تلفات نهایی به صورت زیر ساده می‌شود:

L=i=1It=1Tgt[zit,ϕt]ϵit2\mathcal{L} = \sum_{i=1}^{I} \sum_{t=1}^{T} \left\| \mathbf{g}_t[\mathbf{z}_{it}, \phi_t] – \boldsymbol{\epsilon}_{it} \right\|^2

 

3. پیاده‌سازی و کاربردها

3.1. معماری شبکه

برای داده‌های تصویری، معمولاً از U-Net استفاده می‌شود که شامل:

  • یک رمزگذار برای کاهش مقیاس و افزایش کانال‌ها

  • یک رمزگشا برای افزایش مقیاس و کاهش کانال‌ها

  • اتصالات بین لایه‌های متناظر در رمزگذار و رمزگشا برای انتقال اطلاعات محلی

3.2. بهبود سرعت تولید

روش‌های مختلفی برای بهبود سرعت تولید نمونه‌ها ارائه شده است:

  • مدل‌های ضمنی انتشار (DDIM)

  • نمونه‌گیری تسریع‌شده

  • استفاده از معادلات دیفرانسیل معمولی (ODEs)

3.3. تولید مشروط

مدل‌های انتشار را می‌توان برای تولید مشروط بر اطلاعات مختلفی تنظیم کرد، مانند:

  • برچسب‌های کلاس

  • تصاویر با وضوح پایین‌تر

  • متن (تولید تصویر از متن)

با استفاده از روش‌هایی مانند:

  • راهنمایی طبقه‌بندی‌کننده (Classifier Guidance)

  • راهنمایی بدون طبقه‌بندی (Classifier-Free Guidance)

  • تولید آبشاری (Cascaded Generation)

 

4. مزایا و معایب

4.1. مزایا

  • تولید نمونه‌هایی با کیفیت بسیار بالا

  • پایداری در آموزش نسبت به GANها

  • پایه احتمالی قوی برای یادگیری

4.2. معایب

  • سرعت پایین در تولید نمونه‌ها

  • نیاز به مراحل زمانی زیاد

  • فضای نهفته فاقد تفسیر معنایی واضح

 

5. نتیجه‌گیری

مدل‌های انتشار با ترکیب مفاهیم نظری عمیق و معماری‌های هوشمندانه، به یکی از قدرتمندترین روش‌های تولید داده تبدیل شده‌اند. اگرچه چالش‌هایی مانند سرعت پایین تولید نمونه وجود دارد، اما پیشرفت‌های اخیر در این حوزه نشان می‌دهد که مدل‌های انتشار پتانسیل بالایی برای کاربردهای متنوع، به ویژه در پردازش تصویر و تولید محتوای چندرسانه‌ای دارند. درک عمیق مبانی نظری این مدل‌ها برای پژوهشگران و مهندسان یادگیری ماشین ضروری است.