فصل دوم: یادگیری تحت نظارت

مقدمه

یادگیری تحت نظارت به‌عنوان یکی از ارکان اصلی یادگیری ماشین، چارچوبی نظام‌مند برای استخراج الگوها از داده‌های برچسب‌دار ارائه می‌دهد. در این رویکرد، هدف یادگیری تابعی است که بتواند رابطه بین متغیرهای ورودی و خروجی را با دقت مناسبی مدل‌سازی کند. این فرآیند مستلزم درک سه عنصر اساسی است: ساختار مدل، معیار ارزیابی عملکرد، و روش بهینه‌سازی پارامترها.

تعریف ریاضی مدل یادگیری نظارت‌شده

مدل یادگیری نظارت‌شده را می‌توان به‌صورت رابطه زیر نمایش داد:

$y = f(x; \theta)$

که در آن:

$x \in \mathbb{R}^d$ : بردار ورودی با بعد $d$
$y \in \mathbb{R}^m$ : بردار خروجی با بعد $m$
$\theta \in \mathbb{R}^p$ : پارامترهای مدل با بعد $p$
$f: \mathbb{R}^d \rightarrow \mathbb{R}^m$ : تابع مدل با ساختار از پیش تعیین‌شده

رگرسیون خطی: مطالعه موردی

فرمول‌بندی ریاضی

مدل رگرسیون خطی به صورت زیر بیان می‌شود:

$y = \theta_0 + \theta_1 x + \varepsilon$

که در آن:

$\theta_0$ : عرض از مبدأ
$\theta_1$ : ضریب شیب
$\varepsilon$ : خطای تصادفی با توزیع نرمال

مفاهیم هندسی و آماری

از دیدگاه هندسی، این مدل به دنبال یافتن خطی است که کمترین فاصله را با داده‌ها داشته باشد. از دیدگاه آماری، این مدل تخمینی از مقدار شرطی $\mathbb{E}[y|x]$ تحت فرض خطی بودن رابطه ارائه می‌دهد.

گسترش به فضای چندبعدی

رگرسیون خطی در فضای چند بعدی به صورت زیر تعمیم می‌یابد:

$y = \theta_0 + \sum_{i=1}^{d} \theta_i x_i + \varepsilon$

تابع هزینه و بهینه‌سازی پارامترها

تابع هزینه حداقل مربعات

تابع هزینه $J(\theta)$ به صورت زیر تعریف می‌شود:

$J(\theta) = \frac{1}{2n} \sum_{i=1}^{n} (y_i – f(x_i; \theta))^2$

ویژگی‌های مهم:

محدب بودن: تضمین وجود جواب بهینه سراسری
مشتق‌پذیری: امکان استفاده از گرادیان
تفسیرپذیری آماری: ارتباط با تابع درست‌نمایی گوسی

روش‌های بهینه‌سازی

حل تحلیلی (برای مدل خطی):

$\hat{\theta} = (X^T X)^{-1} X^T y$

نزول گرادیانی (روش تکراری):

$\theta \leftarrow \theta – \alpha \nabla J(\theta)$

که در آن $\alpha$ نرخ یادگیری است.

روش‌های مرتبه دوم مانند نیوتن-رافسون با استفاده از ماتریس هِسیان.

ارزیابی مدل و چالش‌های عملی

تقسیم‌بندی داده‌ها

آموزش (60-80%): برای یادگیری پارامترها
اعتبارسنجی (10-20%): برای تنظیم ابرپارامترها
آزمون (10-20%): برای ارزیابی نهایی

معیارهای ارزیابی

برای رگرسیون:
- MSE: میانگین مربعات خطا
- $R^2$ : ضریب تعیین
برای طبقه‌بندی:
- Accuracy: دقت کلی
- Precision و Recall

مشکلات متداول

1. کم‌برازش (Underfitting)

نشانه‌ها: خطای بالا در هر دو مجموعه آموزش و آزمون
راهکارها:
- افزایش پیچیدگی مدل
- افزودن ویژگی‌های مرتبط
- کاهش منظم‌سازی

2. بیش‌برازش (Overfitting)

نشانه‌ها: خطای کم در آموزش، ولی زیاد در آزمون
راهکارها:
- جمع‌آوری داده بیشتر
- استفاده از تکنیک‌های منظم‌سازی
- کاهش پیچیدگی مدل

مقایسه مدل‌های مولد و تمایزی

مدل‌های تمایزی

مدل‌سازی مستقیم $P(y|x)$
نیاز به داده برچسب‌دار
کارایی بالا در پیش‌بینی

مدل‌های مولد

مدل‌سازی $P(x, y)$
توانایی تولید داده
نیاز به داده بیشتر
درک بهتر ساختار داده‌ها

پیاده‌سازی عملی و ملاحظات محاسباتی

پیش‌پردازش داده‌ها

نرمال‌سازی: تبدیل داده به بازه [0,1] یا استانداردسازی
مدیریت داده گمشده: حذف یا جایگزینی
مهندسی ویژگی: استخراج ویژگی‌های معنادار

بهینه‌سازی محاسباتی

محاسبات برداری: بهره‌گیری از عملیات ماتریسی
محاسبات موازی: استفاده از چند پردازنده
یادگیری خوشه‌ای: الگوریتم‌های خاص برای داده‌های حجیم

نتیجه‌گیری و چشم‌انداز

یادگیری تحت نظارت یکی از بنیان‌های اساسی یادگیری ماشین است. درک صحیح آن زمینه‌ساز فهم مدل‌های پیشرفته‌تری مانند شبکه‌های عصبی است. انتخاب ساختار مناسب، تابع هزینه صحیح و روش بهینه‌سازی مؤثر، عوامل کلیدی در عملکرد نهایی مدل هستند.

نکات کلیدی برای درک عمیق‌تر

رابطه دیدگاه هندسی و آماری
انتخاب تابع هزینه مناسب
توازن بین پیچیدگی مدل و توان تعمیم
تفاوت‌های بنیادین مدل‌های مولد و تمایزی
ملاحظات عملی در پیاده‌سازی و مقیاس‌پذیری الگوریتم‌ها

دکتر محمدرضا عاطفی

دکتر محمدرضا عاطفی

فصل دوم: یادگیری تحت نظارت

مقدمه

تعریف ریاضی مدل یادگیری نظارت‌شده

$y = f(x; \theta)$

رگرسیون خطی: مطالعه موردی

فرمول‌بندی ریاضی

$y = \theta_0 + \theta_1 x + \varepsilon$

مفاهیم هندسی و آماری

گسترش به فضای چندبعدی

$y = \theta_0 + \sum_{i=1}^{d} \theta_i x_i + \varepsilon$

تابع هزینه و بهینه‌سازی پارامترها

تابع هزینه حداقل مربعات

$J(\theta) = \frac{1}{2n} \sum_{i=1}^{n} (y_i – f(x_i; \theta))^2$

روش‌های بهینه‌سازی

$\hat{\theta} = (X^T X)^{-1} X^T y$

$\theta \leftarrow \theta – \alpha \nabla J(\theta)$

ارزیابی مدل و چالش‌های عملی

تقسیم‌بندی داده‌ها

معیارهای ارزیابی

مشکلات متداول

1. کم‌برازش (Underfitting)

2. بیش‌برازش (Overfitting)

مقایسه مدل‌های مولد و تمایزی

مدل‌های تمایزی

مدل‌های مولد

پیاده‌سازی عملی و ملاحظات محاسباتی

پیش‌پردازش داده‌ها

بهینه‌سازی محاسباتی

نتیجه‌گیری و چشم‌انداز

نکات کلیدی برای درک عمیق‌تر

درخواست خدمات

فصل دوم: یادگیری تحت نظارت

مقدمه

تعریف ریاضی مدل یادگیری نظارت‌شده

y=f(x;θ)y = f(x; \theta)

رگرسیون خطی: مطالعه موردی

فرمول‌بندی ریاضی

y=θ0+θ1x+εy = \theta_0 + \theta_1 x + \varepsilon

مفاهیم هندسی و آماری

گسترش به فضای چندبعدی

y=θ0+∑i=1dθixi+εy = \theta_0 + \sum_{i=1}^{d} \theta_i x_i + \varepsilon

تابع هزینه و بهینه‌سازی پارامترها

تابع هزینه حداقل مربعات

J(θ)=12n∑i=1n(yi−f(xi;θ))2J(\theta) = \frac{1}{2n} \sum_{i=1}^{n} (y_i – f(x_i; \theta))^2

روش‌های بهینه‌سازی

θ^=(XTX)−1XTy\hat{\theta} = (X^T X)^{-1} X^T y

θ←θ−α∇J(θ)\theta \leftarrow \theta – \alpha \nabla J(\theta)

ارزیابی مدل و چالش‌های عملی

تقسیم‌بندی داده‌ها

معیارهای ارزیابی

مشکلات متداول

1. کم‌برازش (Underfitting)

2. بیش‌برازش (Overfitting)

مقایسه مدل‌های مولد و تمایزی

مدل‌های تمایزی

مدل‌های مولد

پیاده‌سازی عملی و ملاحظات محاسباتی

پیش‌پردازش داده‌ها

بهینه‌سازی محاسباتی

نتیجه‌گیری و چشم‌انداز

نکات کلیدی برای درک عمیق‌تر

$y = f(x; \theta)$

$y = \theta_0 + \theta_1 x + \varepsilon$

$y = \theta_0 + \sum_{i=1}^{d} \theta_i x_i + \varepsilon$

$J(\theta) = \frac{1}{2n} \sum_{i=1}^{n} (y_i – f(x_i; \theta))^2$

$\hat{\theta} = (X^T X)^{-1} X^T y$

$\theta \leftarrow \theta – \alpha \nabla J(\theta)$