فصل سوم: شبکه‌های عصبی کم‌عمق

chapter-3

مقدمه

فصل سوم این کتاب به معرفی و بررسی شبکه‌های عصبی کم‌عمق می‌پردازد. این شبکه‌ها که دارای یک لایه پنهان هستند، به عنوان مدل‌هایی قدرتمند برای تقریب توابع پیچیده شناخته می‌شوند. در ادامه، اصول عملکرد، ساختار ریاضی، و ویژگی‌های کلیدی این شبکه‌ها به تفصیل بررسی می‌شود.

 

۱. معرفی شبکه‌های عصبی کم‌عمق

شبکه‌های عصبی کم‌عمق، توابعی با پارامترهای قابل یادگیری هستند که ورودی‌های چندمتغیره را به خروجی‌های چندمتغیره ترسیم می‌کنند. این مدل‌ها برخلاف رگرسیون خطی ساده، قادر به توصیف روابط غیرخطی بین ورودی و خروجی هستند. ساختار کلی این شبکه‌ها شامل سه بخش اصلی است:

  • لایه ورودی: داده‌های ورودی را دریافت می‌کند.

  • لایه پنهان: محاسبات غیرخطی را انجام می‌دهد.

  • لایه خروجی: نتایج نهایی را تولید می‌کند.

۱.۱ مثال کاربردی

برای درک بهتر، یک شبکه عصبی با یک ورودی اسکالر xx و یک خروجی اسکالر yy در نظر گرفته می‌شود. این شبکه دارای ده پارامتر است:

ϕ={ϕ0,ϕ1,ϕ2,ϕ3,θ10,θ11,θ20,θ21,θ30,θ31}\boldsymbol{\phi} = \{ \phi_0, \phi_1, \phi_2, \phi_3, \theta_{10}, \theta_{11}, \theta_{20}, \theta_{21}, \theta_{30}, \theta_{31} \}

که معادله آن به شکل زیر است:

y=ϕ0+ϕ1a(θ10+θ11x)+ϕ2a(θ20+θ21x)+ϕ3a(θ30+θ31x)y = \phi_0 + \phi_1 a(\theta_{10} + \theta_{11} x) + \phi_2 a(\theta_{20} + \theta_{21} x) + \phi_3 a(\theta_{30} + \theta_{31} x)

در اینجا a[]a[\cdot] تابع فعال‌سازی است.

 

۲. تابع فعال‌سازی و نقش آن

تابع فعال‌سازی a[]a[\cdot] یکی از اجزای حیاتی شبکه‌های عصبی است که غیرخطی بودن را به مدل تزریق می‌کند. رایج‌ترین تابع فعال‌سازی، واحد خطی اصلاح‌شده (ReLU) است:

a[z]=ReLU(z)=max(0,z)a[z] = \text{ReLU}(z) = \max(0, z)

این تابع مقادیر منفی را صفر و مقادیر مثبت را بدون تغییر عبور می‌دهد.

۲.۱ جایگزین‌های تابع فعال‌سازی

اگرچه ReLU پرکاربردترین تابع فعال‌سازی است، توابع دیگری نیز استفاده می‌شوند، از جمله:

  • سیگموئید:

    a[z]=11+eza[z] = \frac{1}{1 + e^{-z}}
  • تانژانت هذلولی:

    a[z]=tanh(z)a[z] = \tanh(z)

هر یک از این توابع دارای ویژگی‌ها، مزایا و محدودیت‌های خاص خود هستند.

 

۳. قضیه تقریب جهانی

یکی از مهم‌ترین نتایج نظری درباره شبکه‌های عصبی کم‌عمق، قضیه تقریب جهانی (Universal Approximation Theorem) است. این قضیه بیان می‌کند:

«یک شبکه عصبی با یک لایه پنهان و تعداد کافی واحد پنهان می‌تواند هر تابع پیوسته تعریف‌شده روی یک زیرمجموعه فشرده از Rn\mathbb{R}^n را با دقت دلخواه تقریب بزند.»

۳.۱ تفسیر عملی

این قضیه تضمین می‌کند که شبکه‌های عصبی کم‌عمق توانایی مدل‌سازی روابط پیچیده بین ورودی و خروجی را دارند، مشروط بر اینکه تعداد واحدهای پنهان کافی باشد. برای مثال، در شکل ۳.۵ مشاهده می‌شود که با افزایش تعداد واحدهای پنهان، مدل به تدریج به تابع هدف نزدیک‌تر می‌شود.

 

۴. ورودی‌ها و خروجی‌های چندمتغیره

شبکه‌های عصبی کم‌عمق می‌توانند ورودی‌ها و خروجی‌های چندمتغیره را نیز پردازش کنند.

۴.۱ خروجی‌های چندمتغیره

برای تولید خروجی‌های چندمتغیره، از ترکیب خطی متفاوتی از واحدهای پنهان برای هر خروجی استفاده می‌شود. به عنوان مثال، برای یک شبکه با چهار واحد پنهان و دو خروجی:

y1=ϕ10+ϕ11h1+ϕ12h2+ϕ13h3+ϕ14h4y_1 = \phi_{10} + \phi_{11} h_1 + \phi_{12} h_2 + \phi_{13} h_3 + \phi_{14} h_4 y2=ϕ20+ϕ21h1+ϕ22h2+ϕ23h3+ϕ24h4y_2 = \phi_{20} + \phi_{21} h_1 + \phi_{22} h_2 + \phi_{23} h_3 + \phi_{24} h_4

۴.۲ ورودی‌های چندمتغیره

برای پردازش ورودی‌های چندمتغیره، هر واحد پنهان ترکیبی خطی از تمام ورودی‌ها را محاسبه می‌کند. مثلاً برای ورودی دوبعدی x=[x1,x2]T\mathbf{x} = [x_1, x_2]^T داریم:

h1=a(θ10+θ11x1+θ12x2)h_1 = a(\theta_{10} + \theta_{11} x_1 + \theta_{12} x_2) h2=a(θ20+θ21x1+θ22x2)h_2 = a(\theta_{20} + \theta_{21} x_1 + \theta_{22} x_2) h3=a(θ30+θ31x1+θ32x2)h_3 = a(\theta_{30} + \theta_{31} x_1 + \theta_{32} x_2)

 

۵. اصطلاحات و مفاهیم کلیدی

برخی از مفاهیم کلیدی در شبکه‌های عصبی کم‌عمق:

  • لایه پنهان: لایه‌ای بین ورودی و خروجی که محاسبات غیرخطی را انجام می‌دهد.

  • نورون یا واحد پنهان: هر یک از گره‌های لایه پنهان.

  • پیش‌فعال‌سازی: مقدار ورودی به نورون قبل از اعمال تابع فعال‌سازی.

  • فعال‌سازی: خروجی نورون پس از اعمال تابع فعال‌سازی.

  • وزن‌ها: ضرایب خطی در ترکیب ورودی‌ها.

  • بایاس: مقدار ثابت اضافه‌شده به خروجی نورون.

 

۶. جمع‌بندی

شبکه‌های عصبی کم‌عمق با یک لایه پنهان، ابزارهایی قدرتمند برای مدل‌سازی روابط غیرخطی بین ورودی و خروجی هستند. این شبکه‌ها با استفاده از توابع فعال‌سازی مانند ReLU، قادر به تقریب توابع پیچیده با دقت بالا هستند. قضیه تقریب جهانی پشتوانه نظری این توانایی را فراهم می‌کند. در فصل بعد، شبکه‌های عصبی عمیق (دارای چندین لایه پنهان) مورد بررسی قرار خواهند گرفت.