کتاب درک یادگیری عمیق

کتاب درک یادگیری عمیق از سیمون پرینس، کتابی جامع و ساختاریافته است که مفاهیم یادگیری عمیق را از پایه تا پیشرفته با زبانی روشن توضیح می دهد. ابتدا اصول اولیه شبکه های عصبی را معرفی کرده، سپس به معماریهای پیشرفته مانند CNNها، RNNها و ترنسفورمرها می پردازد.

نویسنده با ترکیب مبانی نظری و مثالهای عملی، هم به تحلیل ریاضی مدلها پرداخته و هم چالشهای آموزش و بهینه سازی را بررسی می کند. کتاب با پوشش موضوعات پیشرفته مانند یادگیری تقویتی و مسائل اخلاقی، منبعی ارزشمند برای مبتدیان و متخصصان است.

برای مشاهده این کتاب در سایت آمازون اینجا کلیک کنید.

معرفی سرفصل های کتاب درک یادگیری عمیق

کتاب “درک یادگیری عمیق” با رویکردی نظام‌مند و جامع به آموزش مفاهیم اساسی و پیشرفته یادگیری عمیق می‌پردازد. ساختار این کتاب به گونه‌ای طراحی شده که خواننده را گام به گام از مبانی اولیه تا موضوعات پیشرفته هدایت می‌کند. در ادامه به بررسی سرفصل‌های اصلی این کتاب می‌پردازیم: (می توانید با انتخاب هر سرفصل، محتویات آن را مشاهده کنید.)

فصل اول: معرفی مدل‌های یادگیری عمیق و اصول اولیه آن‌ها

فصل اول کتاب “درک یادگیری عمیق” به عنوان پایه‌ای برای ورود به دنیای یادگیری عمیق عمل می‌کند. این فصل به طور جامع به معرفی مدل‌های بنیادین یادگیری عمیق می‌پردازد و سازوکار آن‌ها را تشریح می‌کند. همچنین، این بخش به مباحث کلیدی مانند نحوه آموزش مؤثر این مدل‌ها، روش‌های دقیق برای سنجش عملکرد آن‌ها در وظایف مختلف، و تکنیک‌های متنوعی که می‌توان برای بهبود و بهینه‌سازی کارایی این مدل‌ها به کار برد، می‌پردازد.

فصل دوم: یادگیری تحت نظارت

این فصل به مدل‌های یادگیری نظارت‌شده می‌پردازد که ورودی‌ها (مثل سن و مسافت پیموده شده خودرو) را به خروجی‌ها (مثل قیمت) نگاشت می‌کنند. با استفاده از یک مثال ساده (رگرسیون خطی y = φ₀ + φ₁x)، فرآیند آموزش مدل شامل کمینه‌سازی تابع ضرر (مجموع مربعات خطاها) توضیح داده می‌شود. هدف، یافتن پارامترهای بهینه (φ) است که پیش‌بینی‌های مدل را با داده‌های آموزشی هماهنگ می‌کند. در نهایت، ارزیابی مدل با داده‌های تست برای سنجش تعمیم‌پذیری آن انجام می‌شود.

فصل سوم: شبکه‌های عصبی کم‌عمق

فصل سوم به معرفی شبکه‌های عصبی کم‌عمق می‌پردازد که از یک لایه پنهان تشکیل شده‌اند. این شبکه‌ها قادر به تقریب توابع پیوسته با دقت دلخواه هستند و از توابع فعال‌سازی مانند ReLU برای ایجاد روابط غیرخطی استفاده می‌کنند.

فصل چهارم: شبکه‌های عصبی عمیق

فصل چهارم شبکه‌های عصبی عمیق را بررسی می‌کند که دارای چندین لایه پنهان هستند. این شبکه‌ها توانایی بیشتری در مدل‌سازی توابع پیچیده دارند و می‌توانند مناطق خطی بیشتری نسبت به شبکه‌های کم‌عمق ایجاد کنند.

فصل پنجم: توابع زیان (Loss Functions)

این فصل به بررسی توابع زیان (Loss Functions) در مدل‌های یادگیری ماشین می‌پردازد. هدف اصلی این توابع، اندازه‌گیری عدم تطابق بین پیش‌بینی‌های مدل و مقادیر واقعی داده‌های آموزشی است. فصل با معرفی چارچوبی برای ساخت توابع ضرر بر اساس روش حداکثر درستنمایی (Maximum Likelihood) آغاز می‌شود و نشان می‌دهد که چگونه می‌توان این توابع را برای انواع مختلف مسائل یادگیری ماشین، مانند رگرسیون، طبقه‌بندی باینری، و طبقه‌بندی چند کلاسه طراحی کرد.

فصل ششم: برازش مدل ها

این فصل به بررسی روش‌های بهینه‌سازی پارامترهای مدل‌های یادگیری ماشین، به ویژه شبکه‌های عصبی، می‌پردازد. هدف اصلی یافتن پارامترهایی است که تابع ضرر (Loss Function) را به حداقل برسانند. روش‌های اصلی مورد بحث شامل نزول گرادیان (Gradient Descent)، نزول گرادیان تصادفی (Stochastic Gradient Descent یا SGD)، و الگوریتم‌های پیشرفته‌تر مانند Adam هستند. این فصل همچنین چالش‌های مرتبط با توابع غیرمحدب، حداقل‌های محلی، و نقاط زینی را بررسی می‌کند و راه‌حل‌هایی مانند استفاده از تکانه (Momentum) و نرخ یادگیری تطبیقی ارائه می‌دهد

فصل هفتم: گرادیان و مقداردهی اولیه

این فصل به روشهای محاسبه کارآمد گرادیانها با الگوریتم پسانتشار و اهمیت مقداردهی اولیه صحیح پارامترها برای جلوگیری از مشکلات آموزش شبکه های عصبی میپردازد.

فصل هشتم: اندازه‌گیری عملکرد

این فصل به بررسی روش‌های ارزیابی عملکرد مدل‌های شبکه عصبی می‌پردازد. ابتدا با معرفی مجموعه داده‌های آموزشی و آزمایشی، اهمیت تعمیم‌پذیری مدل و چالش‌های آن را شرح می‌دهد. سپس سه منبع اصلی خطا (نویز، بایاس، و واریانس) و تأثیر آنها بر عملکرد مدل تحلیل می‌شود. در ادامه، مفهوم مبادله بایاس-واریانس و پدیده “دو تبار” (Double Descent) مورد بحث قرار می‌گیرد. فصل با روش‌های انتخاب فراپارامترها و بهینه‌سازی آنها به پایان می‌رسد.

فصل نهم: منظم سازی

این فصل به بررسی روش‌های منظم‌سازی در یادگیری ماشین می‌پردازد، از جمله منظم‌سازی صریح و ضمنی، و تکنیک‌های اکتشافی مانند توقف زودهنگام و Dropout. همچنین روش‌هایی مانند یادگیری انتقالی و افزایش داده‌ها برای بهبود تعمیم مدل معرفی می‌شوند. این فصل بر اهمیت کاهش بیش‌برازش و بهبود عملکرد مدل در داده‌های جدید تأکید دارد.

فصل دهم: شبکه‌های کانولوشنی

این فصل به معرفی شبکه‌های کانولوشنی (CNN) می‌پردازد که برای پردازش داده‌های تصویری طراحی شده‌اند. در مقایسه با شبکه‌های کاملاً متصل، CNNها از وزن‌های مشترک و اتصالات پراکنده استفاده می‌کنند که باعث کاهش تعداد پارامترها و بهبود کارایی در پردازش تصاویر می‌شود. همچنین، مفاهیم مهمی مانند عدم تغییر در برابر ترجمه، معادل‌سازی، و روش‌های نمونه‌برداری و کاهش اندازه تصاویر در این فصل بررسی شده‌اند.

فصل یازدهم: بهبود عملکرد در شبکه‌های عمیق

این فصل به بررسی چالش‌های آموزش شبکه‌های عصبی عمیق و معرفی بلوک‌های باقیمانده (Residual Blocks) می‌پردازد. با افزایش عمق شبکه‌ها، مشکلاتی مانند ناپدید شدن یا انفجار گرادیان‌ها و کاهش عملکرد به وجود می‌آید. بلوک‌های باقیمانده با افزودن اتصالات پرش (Skip Connections) این مشکلات را کاهش می‌دهند و امکان آموزش شبکه‌های بسیار عمیق را فراهم می‌کنند. همچنین، استفاده از نرمال‌سازی دسته‌ای (Batch Normalization) به تثبیت فرآیند آموزش کمک می‌کند. این روش‌ها در معماری‌های معروفی مانند ResNet، DenseNet و U-Net به کار رفته‌اند و عملکرد را در وظایف مختلف بهبود بخشیده‌اند.

فصل دوازدهم: ترانسفورماتورها و کاربردهای آنها در پردازش زبان طبیعی و بینایی کامپیوتر

این فصل به معرفی ترانسفورماتورها می پردازد، معماری ای که ابتدا برای پردازش زبان طبیعی (NLP) طراحی شد اما امروزه در حوزههای مختلفی مانند بینایی کامپیوتر نیز کاربرد دارد. این فصل ابتدا مفاهیم پایه مانند خودتوجهی و توجه چندسر را توضیح می دهد، سپس مدلهای مختلف ترانسفورماتور شامل رمزگذارها (مانند BERT)، رمزگشاها (مانند GPT-3) و ترکیب رمزگذار-رمزگشا را بررسی میکند. همچنین، چالشهای پردازش دنبالههای طولانی و تطبیق ترانسفورماتورها برای پردازش تصاویر مورد بحث قرار میگیرد. در نهایت، کاربردهای عملی این مدلها در وظایفی مانند ترجمه ماشینی، تولید متن، و طبقهبندی تصویر ارائه می شود.

فصل سیزدهم: گراف شبکه‌های عصبی

این فصل به معرفی شبکه‌های عصبی گراف می‌پردازد که برای پردازش داده‌های ساختارمند به شکل گراف طراحی شده‌اند. این مدلها با جمع‌آوری اطلاعات از همسایگان هر گره، تعبیه‌های معناداری ایجاد می‌کنند و در کاربردهایی مانند شبکه‌های اجتماعی و تحلیل مولکول‌ها استفاده می‌شوند. چالش‌های اصلی شامل تغییرپذیری توپولوژی گراف و مقیاس‌پذیری است.

فصل چهاردهم: یادگیری بدون نظارت

فصل چهارده به معرفی یادگیری بدون نظارت می‌پردازد، جایی که مدل‌ها بدون استفاده از برچسب‌ها، ساختار داده‌ها را یاد می‌گیرند. این فصل بر مدل‌های مولد تمرکز دارد که نمونه‌های جدیدی مشابه داده‌های آموزشی تولید می‌کنند. چهار مدل اصلی شامل شبکه‌های متخاصم مولد (GAN)، رمزگذارهای خودکار متغیر (VAE)، جریان‌های عادی و مدل‌های انتشار مورد بحث قرار می‌گیرند. همچنین معیارهای ارزیابی عملکرد این مدل‌ها و ویژگی‌های مطلوب آنها بررسی می‌شود.

فصل پانزدهم: شبکه‌های متخاصم مولد (GAN)

این فصل به شبکه‌های متخاصم مولد (GAN) اختصاص دارد که نمونه‌های جدیدی تولید می‌کنند که از داده‌های واقعی قابل تشخیص نیستند. این فصل نحوه آموزش GAN‌ها، چالش‌های آن مانند ناپدید شدن گرادیان و فروپاشی حالت، و راه‌حل‌هایی مانند فاصله واسرشتاین را پوشش می‌دهد. همچنین معماری‌های پیشرفته مانند DCGAN، رشد پیشرونده و StyleGAN معرفی می‌شوند. کاربردهای GAN در ترجمه تصویر و تولید مشروط نیز بررسی می‌شود.

فصل شانزدهم: عادی‌سازی جریان‌ها

این فصل به معرفی مدل‌های مولد مبتنی بر عادی‌سازی جریان‌ها می‌پردازد که با تبدیل یک توزیع ساده (مانند توزیع نرمال) به یک توزیع پیچیده‌تر، امکان نمونه‌برداری و ارزیابی دقیق احتمال نمونه‌های جدید را فراهم می‌کنند. برخلاف شبکه‌های متخاصم مولد (GAN)، این مدل‌ها قادر به تعریف توزیع احتمال روی داده‌ها هستند. از جمله مباحث مطرح‌شده در این فصل می‌توان به تبدیل‌های یک‌بعدی و چندمتغیره، نقشه‌برداری معکوس، یادگیری مدل، و انواع لایه‌های شبکه معکوس (مانند جریان‌های خطی، عنصری، جفت، خودبازگشتی، و باقیمانده) اشاره کرد. همچنین کاربردهای عادی‌سازی جریان‌ها در مدل‌سازی چگالی، سنتز تصاویر، و تقریب توزیع‌های دیگر بررسی شده‌است.

فصل هفدهم: رمزگذارهای خودکار متغیر (VAE)

این فصل به معرفی رمزگذارهای خودکار متغیر (VAE) به عنوان مدل‌های مولد احتمالی می‌پردازد که برای یادگیری توزیع داده‌ها طراحی شده‌اند. برخلاف شبکه‌های متخاصم مولد (GAN)، VAE‌ها از یک رویکرد احتمالی برای تولید نمونه‌های جدید استفاده می‌کنند. در این فصل، ابتدا مدل‌های متغیر پنهان و سپس مدل متغیر نهفته غیرخطی معرفی می‌شوند. همچنین، روش‌های یادگیری مانند کران پایین شواهد (ELBO) و تقریب متغیر مورد بحث قرار می‌گیرند. در نهایت، کاربردهای VAE در تولید نمونه‌ها، سنتز مجدد، و گسستگی فضای پنهان ارائه می‌شود.

فصل هجدهم: مدل‌های انتشار

مدل‌های انتشار با ترکیب تدریجی داده و نویز (رمزگذار) و یادگیری حذف نویز (رمزگشا)، نمونه‌های باکیفیت تولید می‌کنند. آموزش آن‌ها مبتنی بر کران احتمالی (ELBO) است و در تولید تصویر کاربرد دارند، اما کند هستند. روش‌هایی مثل پارامترسازی مجدد و تولید مشروط (مثلاً با متن) کیفیت و کارایی را افزایش می‌دهند.

فصل نوزدهم: یادگیری تقویتی

یادگیری تقویتی (RL) روشی برای آموزش عامل‌ها از طریق تعامل با محیط و بهینه‌سازی پاداش‌هاست. این فصل مفاهیم اصلی مانند فرآیندهای مارکوف (MDP)، سیاست‌ها و توابع ارزش را پوشش می‌دهد و روش‌های مختلفی مانند برنامه‌نویسی پویا، مونت کارلو و TD را بررسی می‌کند. همچنین، کاربرد یادگیری عمیق در RL و روش‌های جدید مانند یادگیری آفلاین و ترانسفورماتورهای تصمیم‌گیری ارائه شده‌اند.

فصل بیستم: چرا یادگیری عمیق کار می کند؟

این فصل توضیح می دهد که یادگیری عمیق به دلیل پارامترهای زیاد و ساختار مناسب شبکه به راحتی آموزش می بیند و به داده های جدید تعمیم می یابد، هرچند دلیل دقیق آن هنوز کاملاً روشن نیست.

دکتر محمدرضا عاطفی