فصل هفتم: گرادیان و مقداردهی اولیه

مقدمه

در این فصل، به دو مفهوم اساسی در آموزش شبکه‌های عصبی عمیق پرداخته می‌شود: محاسبه گرادیان‌ها و مقداردهی اولیه پارامترها. این دو عامل، نقشی حیاتی در موفقیت فرآیند آموزش دارند. الگوریتم‌های بهینه‌سازی مانند نزول گرادیان تصادفی (SGD) برای به‌روزرسانی مؤثر پارامترها، به گرادیان‌های دقیق و مقداردهی اولیه مناسب نیاز دارند تا از بروز مشکلاتی نظیر ناپدید شدن یا انفجار گرادیان‌ها جلوگیری شود.

1. تعریف مسئله

شبکه‌های عصبی عمیق از چندین لایه تشکیل شده‌اند که هر لایه دارای وزن‌ها $(\Omega)$ و بایاس‌ها $(\beta)$ است. هدف اصلی، یافتن مجموعه‌ای از پارامترهاست که تابع تلفات $(\ell)$ را کمینه کنند. برای این منظور، باید مشتق تابع تلفات نسبت به پارامترها محاسبه شود. این کار، خصوصاً در شبکه‌هایی با میلیون‌ها پارامتر، چالش‌برانگیز است.

2. محاسبه مشتقات با الگوریتم پس‌انتشار

2.1. ایده اصلی پس‌انتشار

الگوریتم پس‌انتشار (Backpropagation) یک روش مؤثر برای محاسبه گرادیان‌ها در شبکه‌های عصبی است. این الگوریتم شامل دو مرحله اصلی است:

پاس رو به جلو (Forward Pass): محاسبه خروجی شبکه و ذخیره مقادیر میانی مانند فعال‌سازی‌ها.
پاس رو به عقب (Backward Pass): محاسبه گرادیان‌ها با استفاده از قاعده زنجیره‌ای و داده‌های ذخیره‌شده در مرحله‌ی قبل.

2.2. مثال ساده برای درک شهودی

برای فهم بهتر، فرض کنید یک مدل ساده شامل توابعی مانند $\sin$ ، $\exp$ و $\cos$ داریم. محاسبه دستی گرادیان‌ها در چنین مدلی بسیار پیچیده است، اما الگوریتم پس‌انتشار با استفاده مرحله‌ای از نتایج میانی، محاسبات را ساده و کارآمد می‌سازد.

2.3. تعمیم به شبکه‌های عصبی عمیق

در شبکه‌های عمیق، وزن‌ها و بایاس‌ها به‌صورت ماتریس و بردار هستند و گرادیان‌ها باید به‌صورت ماتریسی محاسبه شوند. برای مثال:

مشتق تابع تلفات نسبت به وزن‌ها

$\frac{\partial \ell}{\partial \Omega} = g \cdot a$

که در آن:

$g$ : گرادیان لایه بعدی نسبت به ورودی این لایه (یا مشتق تابع تلفات نسبت به خروجی لایه)
$a$ : فعال‌سازی لایه قبلی

مشتق تابع تلفات نسبت به بایاس‌ها

$\frac{\partial \ell}{\partial \beta} = g$

در این حالت، چون بایاس به‌صورت افزایشی عمل می‌کند، مشتق آن فقط شامل گرادیان است.

2.4. چالش‌های پیاده‌سازی

مصرف حافظه: ذخیره مقادیر میانی در پاس رو به جلو، حافظه زیادی مصرف می‌کند.
بهینه‌سازی محاسبات: استفاده از کتابخانه‌هایی مانند PyTorch و TensorFlow که از تمایز خودکار (Automatic Differentiation) پشتیبانی می‌کنند، این چالش‌ها را به‌طور مؤثری حل می‌کند.

3. مقداردهی اولیه پارامترها

3.1. اهمیت مقداردهی اولیه

مقداردهی اولیه نادرست ممکن است منجر به دو مشکل رایج شود:

ناپدید شدن گرادیان‌ها (Vanishing Gradients): گرادیان‌ها بسیار کوچک می‌شوند و پارامترها به‌درستی به‌روزرسانی نمی‌شوند.
انفجار گرادیان‌ها (Exploding Gradients): گرادیان‌ها بسیار بزرگ شده و فرآیند آموزش بی‌ثبات می‌شود.

3.2. مقداردهی اولیه هوشمند

برای پیش‌گیری از این مشکلات، از روش‌هایی مانند مقداردهی اولیه He استفاده می‌شود. در این روش، واریانس اولیه وزن‌ها به‌صورت زیر تنظیم می‌شود:

$\sigma^2 = \frac{2}{D_h}$

که در آن $D_h$ تعداد نرون‌های لایه قبلی است.

این مقداردهی اولیه تضمین می‌کند که واریانس فعال‌سازی‌ها در پاس رو به جلو و واریانس گرادیان‌ها در پاس رو به عقب پایدار باقی بماند.

3.3. مقداردهی اولیه برای لایه‌های غیرمربع

در صورتی که ابعاد لایه‌های ورودی و خروجی با یکدیگر متفاوت باشند، می‌توان از فرمول زیر استفاده کرد:

$\sigma^2 = \frac{4}{D_h + D_h’}$

که در آن:

$D_h$ : تعداد نرون‌های لایه قبلی
$D_h’$ : تعداد نرون‌های لایه بعدی

4. پیاده‌سازی عملی

4.1. نمونه کد آموزشی

با استفاده از چارچوب‌هایی مانند PyTorch، پیاده‌سازی مراحل آموزش بسیار ساده است. مراحل کلی شامل:

تعریف مدل و مقداردهی اولیه پارامترها
محاسبه تابع تلفات و اجرای loss.backward() برای محاسبه گرادیان‌ها
به‌روزرسانی پارامترها با استفاده از بهینه‌سازی مانند SGD

4.2. نکات کلیدی

نرخ یادگیری: انتخاب نرخ یادگیری مناسب، و در صورت نیاز، کاهش آن در طول آموزش
توابع فعال‌سازی: انتخاب مناسب مانند ReLU همراه با مقداردهی اولیه صحیح، تأثیر مستقیمی بر عملکرد مدل دارد.

5. نتیجه‌گیری

محاسبه مؤثر گرادیان‌ها با استفاده از الگوریتم پس‌انتشار و مقداردهی اولیه هوشمند، دو رکن اساسی در آموزش موفق شبکه‌های عصبی عمیق هستند. درک دقیق این مفاهیم نه‌تنها به طراحی بهتر مدل‌ها کمک می‌کند، بلکه از بروز مشکلات متداولی مانند ناپدید شدن یا انفجار گرادیان‌ها نیز جلوگیری می‌کند. با بهره‌گیری از ابزارهای مدرنی چون PyTorch و TensorFlow، می‌توان این مفاهیم را به‌شکل عملی و مؤثر پیاده‌سازی کرد.

دکتر محمدرضا عاطفی

دکتر محمدرضا عاطفی

فصل هفتم: گرادیان و مقداردهی اولیه

مقدمه

1. تعریف مسئله

2. محاسبه مشتقات با الگوریتم پس‌انتشار

2.1. ایده اصلی پس‌انتشار

2.2. مثال ساده برای درک شهودی

2.3. تعمیم به شبکه‌های عصبی عمیق

مشتق تابع تلفات نسبت به وزن‌ها

$\frac{\partial \ell}{\partial \Omega} = g \cdot a$

مشتق تابع تلفات نسبت به بایاس‌ها

$\frac{\partial \ell}{\partial \beta} = g$

2.4. چالش‌های پیاده‌سازی

3. مقداردهی اولیه پارامترها

3.1. اهمیت مقداردهی اولیه

3.2. مقداردهی اولیه هوشمند

$\sigma^2 = \frac{2}{D_h}$

3.3. مقداردهی اولیه برای لایه‌های غیرمربع

$\sigma^2 = \frac{4}{D_h + D_h’}$

4. پیاده‌سازی عملی

4.1. نمونه کد آموزشی

4.2. نکات کلیدی

5. نتیجه‌گیری

درخواست خدمات

فصل هفتم: گرادیان و مقداردهی اولیه

مقدمه

1. تعریف مسئله

2. محاسبه مشتقات با الگوریتم پس‌انتشار

2.1. ایده اصلی پس‌انتشار

2.2. مثال ساده برای درک شهودی

2.3. تعمیم به شبکه‌های عصبی عمیق

مشتق تابع تلفات نسبت به وزن‌ها

∂ℓ∂Ω=g⋅a\frac{\partial \ell}{\partial \Omega} = g \cdot a

مشتق تابع تلفات نسبت به بایاس‌ها

∂ℓ∂β=g\frac{\partial \ell}{\partial \beta} = g

2.4. چالش‌های پیاده‌سازی

3. مقداردهی اولیه پارامترها

3.1. اهمیت مقداردهی اولیه

3.2. مقداردهی اولیه هوشمند

σ2=2Dh\sigma^2 = \frac{2}{D_h}

3.3. مقداردهی اولیه برای لایه‌های غیرمربع

σ2=4Dh+Dh′\sigma^2 = \frac{4}{D_h + D_h’}

4. پیاده‌سازی عملی

4.1. نمونه کد آموزشی

4.2. نکات کلیدی

5. نتیجه‌گیری

$\frac{\partial \ell}{\partial \Omega} = g \cdot a$

$\frac{\partial \ell}{\partial \beta} = g$

$\sigma^2 = \frac{2}{D_h}$

$\sigma^2 = \frac{4}{D_h + D_h’}$