یادگیری عمیق (Deep Learning)

دکتر محمدرضا عاطفی
منتشر شده در 4 نوامبر 2025

یادگیری عمیق

فصل اول

مقدمه

هوش مصنوعی یا AI به ساختن سیستم هایی مربوط می شود که رفتار هوشمند را شبیه سازی می کنند. طیف وسیعی از رویکردها، از جمله رویکردهای مبتنی بر منطق، جستجو و استدلال احتمالی را در بر می گیرد. یادگیری ماشینی زیرمجموعه‌ای از هوش مصنوعی است که تصمیم‌گیری را با تطبیق مدل‌های ریاضی با داده‌های مشاهده شده می‌آموزد. این منطقه رشد انفجاری داشته است و اکنون (به اشتباه) تقریباً مترادف با اصطلاح هوش مصنوعی است.

شبکه عصبی عمیق نوعی مدل یادگیری ماشینی است و زمانی که بر روی داده‌ها نصب شود، به آن یادگیری عمیق گفته می‌شود. در زمان نگارش، شبکه‌های عمیق قدرتمندترین و کاربردی‌ترین مدل‌های یادگیری ماشین هستند و اغلب در زندگی روزمره با آن‌ها مواجه می‌شوند. ترجمه متن از زبان دیگر با استفاده از الگوریتم پردازش زبان طبیعی، جستجوی اینترنت برای تصاویر یک شی خاص با استفاده از سیستم بینایی کامپیوتری، یا مکالمه با دستیار دیجیتال از طریق رابط تشخیص گفتار، امری عادی است. همه این برنامه ها با یادگیری عمیق طراحی شده اند.

همانطور که از عنوان پیداست، هدف این کتاب این است که به خواننده تازه وارد در این زمینه کمک کند تا اصول یادگیری عمیق را درک کند. کتاب نه به طرز وحشتناکی نظری است (هیچ مدرکی وجود ندارد) و نه بسیار عملی (تقریباً هیچ کدی وجود ندارد). هدف توضیح ایده های اساسی است. پس از مصرف این جلد، خواننده می‌تواند یادگیری عمیق را در موقعیت‌های جدیدی که هیچ دستور العملی برای موفقیت وجود ندارد، اعمال کند.

روش های یادگیری ماشینی را می توان به طور کلی به سه حوزه تقسیم کرد: یادگیری تحت نظارت، بدون نظارت و تقویتی. در زمان نگارش، روش‌های پیشرفته در هر سه حوزه بر یادگیری عمیق متکی هستند (شکل 1.1). این فصل مقدماتی این سه حوزه را در سطح بالایی توصیف می‌کند و این طبقه‌بندی نیز به‌طور ضعیف در سازماندهی کتاب منعکس شده است. چه بخواهیم چه نخواهیم، یادگیری عمیق آماده است تا دنیای ما را تغییر دهد و این تغییر همه مثبت نخواهد بود. از این رو، این فصل همچنین حاوی آغازگر مختصری در مورد اخلاق هوش مصنوعی است. ما با توصیه هایی در مورد چگونگی استفاده حداکثری از این کتاب به پایان می رسیم.

1.1 یادگیری تحت نظارت

مدل‌های یادگیری نظارت شده، نقشه‌برداری از داده‌های ورودی به پیش‌بینی خروجی را تعریف می‌کنند. در بخش‌های بعدی، ورودی‌ها، خروجی‌ها، خود مدل و منظور از «آموزش» مدل را مورد بحث قرار می‌دهیم.

شکل 1.1 یادگیری ماشینی حوزه ای از هوش مصنوعی است

که مدل های ریاضی را با داده های مشاهده شده مطابقت می دهد.

می توان آن را به طور کلی به یادگیری تحت نظارت،

یادگیری بدون نظارت و یادگیری تقویتی تقسیم کرد.

شبکه‌های عصبی عمیق به هر یک از این حوزه‌ها کمک می‌کنند.

شکل 1.1یادگیری ماشینی حوزه ای از هوش مصنوعی است که مدل های ریاضی را با داده های مشاهده شده مطابقت می دهد. می توان آن را به طور کلی به یادگیری تحت نظارت، یادگیری بدون نظارت و یادگیری تقویتی تقسیم کرد. شبکه‌های عصبی عمیق به هر یک از این حوزه‌ها کمک می‌کنند.

1.1.1 مشکلات رگرسیون و طبقه بندی

شکل 1.2 چندین مشکل رگرسیون و طبقه بندی را نشان می دهد. در هر مورد، یک ورودی واقعی معنادار وجود دارد (یک جمله، یک فایل صوتی، یک تصویر، و غیره)، و این به عنوان بردار اعداد رمزگذاری می شود. این بردار ورودی مدل را تشکیل می دهد. مدل ورودی را به یک بردار خروجی نگاشت می کند که سپس به یک پیش بینی معنی دار دنیای واقعی “ترجمه” می شود. در حال حاضر، ما روی ورودی ها و خروجی ها تمرکز می کنیم و مدل را به عنوان یک جعبه سیاه در نظر می گیریم که بردار اعداد را جذب می کند و بردار دیگری از اعداد را برمی گرداند.

مدل شکل 1.2a قیمت یک خانه را بر اساس ویژگی های ورودی مانند متراژ مربع و تعداد اتاق خواب ها پیش بینی می کند. این یک مشکل رگرسیونی است زیرا مدل یک عدد پیوسته (به جای تخصیص دسته) را برمی گرداند. در مقابل، مدل 1.2b ساختار شیمیایی یک مولکول را به عنوان ورودی می گیرد و هم نقطه ذوب و هم نقطه جوش را پیش بینی می کند. این یک مشکل رگرسیون چند متغیره است زیرا بیش از یک عدد را پیش‌بینی می‌کند.

مدل در شکل 1.2c یک رشته متنی حاوی بررسی رستوران را به عنوان ورودی دریافت می کند و مثبت یا منفی بودن بررسی را پیش بینی می کند. این یک مشکل طبقه بندی باینری است زیرا مدل سعی می کند ورودی را به یکی از دو دسته اختصاص دهد. بردار خروجی شامل احتمالاتی است که ورودی به هر دسته تعلق دارد. شکل‌های 1.2d و 1.2e مشکلات طبقه‌بندی چند کلاسه را نشان می‌دهند. در اینجا، مدل ورودی را به یکی از N > 2 دسته ها اختصاص می دهد. در حالت اول، ورودی یک فایل صوتی است و مدل پیش‌بینی می‌کند که شامل کدام سبک موسیقی است. در حالت دوم، ورودی یک تصویر است و مدل پیش‌بینی می‌کند که شامل کدام شی است. در هر مورد، مدل یک بردار به اندازه N برمی گرداند که احتمالات دسته های N را در بر می گیرد.

1.1.2 ورودی ها

داده های ورودی در شکل 1.2 بسیار متفاوت است. در مثال قیمت گذاری خانه، ورودی یک بردار با طول ثابت است که حاوی مقادیری است که ویژگی را مشخص می کند. این نمونه ای از داده های جدولی است زیرا ساختار داخلی ندارد. اگر ترتیب ورودی ها را تغییر دهیم و یک مدل جدید بسازیم، انتظار داریم پیش بینی مدل ثابت بماند.

برعکس، ورودی در مثال بررسی رستوران یک متن است. این ممکن است بسته به تعداد کلمات در بررسی و ورودی اینجا متغیر باشد

شکل 1.2 مشکلات رگرسیون و طبقه بندی. الف) این مدل رگرسیون بردار اعدادی را می گیرد که مشخصه یک ویژگی است و قیمت آن را پیش بینی می کند. ب) این مدل رگرسیون چند متغیره ساختار یک مولکول شیمیایی را می گیرد و نقطه ذوب و جوش آن را پیش بینی می کند. ج) این مدل طبقه‌بندی باینری یک بررسی رستوران را می‌گیرد و آن را به عنوان مثبت یا منفی طبقه‌بندی می‌کند. د) این مشکل طبقه بندی چند کلاسه، قطعه ای از صدا را به یکی از ژانرهای N اختصاص می دهد. ه) دومین مسئله طبقه‌بندی چند کلاسه که در آن مدل یک تصویر را بر اساس کدام یک از N شیء ممکن ممکن است در خود داشته باشد طبقه‌بندی می‌کند.

شکل 1.3 مدل یادگیری ماشینی. این مدل خانواده ای از روابط را نشان می دهد که ورودی (سن کودک) را به خروجی (قد کودک) مرتبط می کند. رابطه خاص با استفاده از داده های آموزشی انتخاب می شود که از جفت ورودی/خروجی (نقاط نارنجی) تشکیل شده است. هنگامی که مدل را آموزش می‌دهیم، از طریق روابط احتمالی به دنبال رابطه‌ای می‌گردیم که داده‌ها را به خوبی توصیف کند. در اینجا، مدل آموزش دیده منحنی فیروزه ای است و می توان از آن برای محاسبه قد برای هر سنی استفاده کرد.

نظم مهم است؛ همسرم مرغ را خورد با مرغی که همسرم را خورد یکی نیست. متن باید قبل از ارسال به مدل به شکل عددی کدگذاری شود. در اینجا، ما از یک واژگان ثابت به اندازه 10000 استفاده می کنیم و به سادگی کلمات شاخص را به هم الحاق می کنیم.

برای مثال طبقه‌بندی موسیقی، بردار ورودی ممکن است اندازه ثابتی داشته باشد (شاید یک کلیپ 10 ثانیه‌ای) اما ابعاد بسیار بالایی دارد. صدای دیجیتال معمولاً با فرکانس 44.1 کیلوهرتز نمونه برداری می شود و با اعداد صحیح 16 بیتی نمایش داده می شود، بنابراین یک کلیپ ده ثانیه ای از 441000 عدد صحیح تشکیل شده است. واضح است که مدل‌های یادگیری تحت نظارت باید بتوانند ورودی‌های قابل توجهی را پردازش کنند. ورودی در مثال طبقه بندی تصویر (که شامل مقادیر RGB به هم پیوسته در هر پیکسل است) نیز بسیار زیاد است. علاوه بر این، ساختار آن به طور طبیعی دو بعدی است. دو پیکسل بالا و پایین با هم ارتباط نزدیکی دارند، حتی اگر در بردار ورودی مجاور نباشند.

در نهایت، ورودی مدلی را در نظر بگیرید که نقطه ذوب و جوش مولکول را پیش بینی می کند. یک مولکول ممکن است دارای تعداد متفاوتی از اتم ها باشد که می تواند به روش های مختلف مرتبط باشد. در این حالت، مدل باید هم ساختار هندسی مولکول و هم اتم های سازنده را به مدل وارد کند.

1.1.3 مدل های یادگیری ماشینی

تا به حال، ما با مدل یادگیری ماشینی به عنوان یک جعبه سیاه برخورد می کردیم که یک بردار ورودی می گیرد و یک بردار خروجی را برمی گرداند. اما دقیقاً چه چیزی در این جعبه سیاه وجود دارد؟ مدلی را برای پیش بینی قد کودک از سن آنها در نظر بگیرید (شکل 1.3). یادگیری ماشینی مدل یک معادله ریاضی است که توضیح می دهد که چگونه میانگین قد بر اساس سن تغییر می کند (منحنی فیروزه ای در شکل 1.3). وقتی سن را از طریق این معادله اجرا می کنیم، ارتفاع را برمی گرداند. به عنوان مثال، اگر سن 10 سال باشد، پیش بینی می کنیم که قد 139 سانتی متر باشد.

به‌طور دقیق‌تر، مدل خانواده‌ای از معادلات را نشان می‌دهد که ورودی را به خروجی نگاشت می‌کنند (یعنی خانواده‌ای از منحنی‌های مختلف فیروزه‌ای). معادله خاص (منحنی) با استفاده از داده های آموزشی (نمونه هایی از جفت ورودی/خروجی) انتخاب می شود. در شکل 1.3، این جفت ها با نقاط نارنجی نشان داده شده اند و می بینیم که مدل (خط فیروزه ای) این داده ها را به طور منطقی توصیف می کند. وقتی در مورد آموزش یا برازش یک مدل صحبت می کنیم، منظور ما این است که از طریق خانواده معادلات ممکن (منحنی های فیروزه ای احتمالی) مربوط به ورودی به خروجی را جستجو می کنیم تا معادله ای را پیدا کنیم که داده های آموزشی را با دقت بیشتری توصیف می کند.

نتیجه این است که مدل‌های شکل 1.2 برای آموزش به جفت‌های ورودی/خروجی برچسب‌دار نیاز دارند. به عنوان مثال، مدل طبقه بندی موسیقی به تعداد زیادی کلیپ صوتی نیاز دارد که در آن یک متخصص انسانی ژانر هر کدام را شناسایی کرده باشد. این جفت‌های ورودی/خروجی نقش یک معلم یا سرپرست را برای فرآیند آموزش بر عهده می‌گیرند و این باعث ایجاد اصطلاح یادگیری تحت نظارت می‌شود.

1.1.4 شبکه های عصبی عمیق

این کتاب به شبکه‌های عصبی عمیق می‌پردازد که نوع خاصی از مدل یادگیری ماشین هستند. آنها معادلاتی هستند که می توانند خانواده بسیار گسترده ای از روابط بین ورودی و خروجی را نشان دهند و جستجو در این خانواده برای یافتن رابطه ای که داده های آموزشی را توصیف می کند بسیار آسان است.

شبکه‌های عصبی عمیق می‌توانند ورودی‌های بسیار بزرگ، با طول متغیر و دارای انواع ساختارهای داخلی را پردازش کنند. آنها می توانند اعداد حقیقی منفرد (رگرسیون)، اعداد چندگانه (رگرسیون چند متغیره)، یا احتمالات را در دو یا چند کلاس (به ترتیب طبقه بندی باینری و چند کلاسه) تولید کنند. همانطور که در بخش بعدی خواهیم دید، خروجی های آنها نیز ممکن است بسیار بزرگ، با طول متغیر و دارای ساختار داخلی باشند. احتمالاً تصور معادلات با این ویژگی ها دشوار است و خواننده باید فعلاً تلاش کند تا ناباوری را متوقف کند.

1.1.5 خروجی های ساخت یافته

شکل 1.4a یک مدل طبقه بندی باینری چند متغیره را برای تقسیم بندی معنایی نشان می دهد. در اینجا، به هر پیکسل از یک تصویر ورودی یک برچسب باینری اختصاص داده می شود که نشان می دهد متعلق به یک گاو است یا پس زمینه. شکل 1.4b یک مدل رگرسیون چند متغیره را نشان می دهد که در آن ورودی تصویری از یک صحنه خیابان و خروجی عمق در هر پیکسل است. در هر دو مورد، خروجی با ابعاد بالا و ساختار یافته است. با این حال، این ساختار نزدیک به ورودی گره خورده است و می توان از آن بهره برداری کرد. اگر یک پیکسل به عنوان “گاو” برچسب گذاری شود، همسایه ای با مقدار RGB مشابه احتمالاً همان برچسب را دارد. شکل‌های 1.4c–e سه مدل را نشان می‌دهند که در آن خروجی ساختار پیچیده‌ای دارد که چندان نزدیک به ورودی نیست. شکل 1.4c مدلی را نشان می دهد که در آن ورودی یک فایل صوتی و خروجی کلمات رونویسی شده از آن فایل است. شکل 1.4d یک ترجمه است.

شکل 1.4 وظایف یادگیری تحت نظارت با خروجی های ساختاریافته. الف) این مدل تقسیم بندی معنایی یک تصویر RGB را به یک تصویر باینری نگاشت می کند که نشان می دهد هر پیکسل به پس زمینه یا یک گاو تعلق دارد (اقتباس از Noh و همکاران، 2015).

ب) این مدل تخمین عمق تک چشمی یک تصویر RGB را به یک تصویر خروجی که در آن هر پیکسل نشان دهنده عمق است نگاشت می کند (اقتباس از Cordts و همکاران، 2016).

ج) این مدل رونویسی صوتی یک نمونه صوتی را به رونویسی از کلمات گفته شده در صدا نگاشت می کند. د) این مدل ترجمه یک رشته متن انگلیسی را به ترجمه فرانسوی آن ترسیم می کند. ه) این مدل سنتز تصویر یک عنوان را به یک تصویر نگاشت می کند (مثال از https://openai.com/dall-e-2/). در هر مورد، خروجی دارای ساختار یا دستور زبان پیچیده داخلی است. در برخی موارد، بسیاری از خروجی ها با ورودی سازگار هستند. مدلی که در آن ورودی متنی به زبان انگلیسی است و خروجی شامل ترجمه فرانسوی است. شکل 1.4e یک کار بسیار چالش برانگیز را نشان می دهد که در آن ورودی متن توصیفی است و مدل باید تصویری مطابق با این توصیف تولید کند.

در اصل، سه وظیفه اخیر را می توان در چارچوب استاندارد یادگیری نظارت شده انجام داد، اما به دو دلیل دشوارتر هستند. اول، خروجی ممکن است واقعا مبهم باشد. چندین ترجمه معتبر از یک جمله انگلیسی به یک جمله فرانسوی و چندین تصویر وجود دارد که با هر عنوانی سازگار است. دوم، خروجی شامل ساختار قابل توجهی است. همه رشته‌های کلمات جملات معتبر انگلیسی و فرانسوی را نمی‌سازند، و همه مجموعه‌های مقادیر RGB تصاویر قابل قبولی ایجاد نمی‌کنند. علاوه بر یادگیری نقشه برداری، باید به “گرامر” خروجی نیز احترام بگذاریم.

خوشبختانه، این “گرامر” را می توان بدون نیاز به برچسب های خروجی یاد گرفت. به عنوان مثال، ما می‌توانیم با یادگیری آمار مجموعه بزرگی از داده‌های متنی، نحوه تشکیل جملات معتبر انگلیسی را بیاموزیم. این ارتباط با بخش بعدی کتاب، که مدل های یادگیری بدون نظارت را در نظر می گیرد، فراهم می کند.

1.2 یادگیری بدون نظارت

ساختن یک مدل از داده‌های ورودی بدون برچسب‌های خروجی مربوطه، یادگیری بدون نظارت نامیده می‌شود. عدم وجود برچسب های خروجی به این معنی است که نمی توان “نظارت” داشت. هدف به جای یادگیری نگاشت از ورودی به خروجی، توصیف یا درک ساختار داده است. همانطور که در مورد یادگیری نظارت شده بود، داده ها ممکن است ویژگی های بسیار متفاوتی داشته باشند. ممکن است گسسته یا پیوسته، کم بعدی یا با ابعاد بالا و طول ثابت یا متغیر باشد.

1.2.1 مدل های مولد

این کتاب بر روی مدل‌های بدون نظارت مولد تمرکز دارد، که یاد می‌گیرند نمونه‌های داده جدیدی را که از نظر آماری از داده‌های آموزشی قابل تشخیص نیستند، ترکیب کنند. برخی از مدل‌های تولیدی به صراحت توزیع احتمال را بر روی داده‌های ورودی توصیف می‌کنند و در اینجا نمونه‌های جدیدی با نمونه‌گیری از این توزیع تولید می‌شوند. دیگران صرفاً مکانیزمی را برای تولید نمونه های جدید بدون توضیح صریح توزیع آنها یاد می گیرند.

مدل های مولد پیشرفته می توانند نمونه هایی را ترکیب کنند که بسیار قابل قبول هستند اما از نمونه های آموزشی متمایز هستند. آنها به ویژه در تولید تصاویر (شکل 1.5) و متن (شکل 1.6) موفق بوده اند. آنها همچنین می توانند داده ها را تحت این محدودیت که برخی از خروجی ها از پیش تعیین شده اند ترکیب کنند (تولید شرطی نامیده می شود). به عنوان مثال می توان به رنگ آمیزی تصویر (شکل 1.7) و تکمیل متن (شکل 1.8) اشاره کرد. در واقع، مدل های مولد مدرن برای متن آنقدر قدرتمند هستند که می توانند هوشمندانه به نظر برسند. با توجه به متنی که با یک سؤال همراه است، مدل اغلب می‌تواند پاسخ گمشده را با ایجاد محتمل‌ترین تکمیل سند «پر» کند. با این حال، در واقعیت، مدل فقط از آمار زبان می‌داند و اهمیت پاسخ‌های آن را درک نمی‌کند.

شکل 1.5 مدل های تولیدی برای تصاویر. سمت چپ: دو تصویر از یک مدل آموزش دیده بر روی تصاویر گربه ها تولید شد. اینها گربه های واقعی نیستند، بلکه نمونه هایی از یک مدل احتمال هستند. راست: دو تصویر تولید شده از یک مدل آموزش دیده بر روی تصاویر ساختمان ها. اقتباس از کاراس و همکاران. (2020b).

وقتی به لبه جنگل رسیدم ماه طلوع کرده بود و نوری که از میان درختان عبور می کرد نقره ای و سرد بود. لرزیدم، هرچند سردم نبود، و قدم هایم را تندتر کردم. قبلاً هرگز آنقدر از روستا دور نشده بودم و مطمئن نبودم چه انتظاری داشته باشم. ساعت ها راه می رفتم و خسته و گرسنه بودم. آنقدر با عجله رفته بودم که نه فکر می کردم نه غذایی بسته بندی کنم و نه فکر می کردم اسلحه بیاورم. من بی سلاح و تنها در جای عجیبی بودم و نمی دانستم چه کار می کنم.
آنقدر راه می رفتم که تمام حس زمان را از دست داده بودم و نمی دانستم چقدر جلو آمده ام. فقط می دانستم که باید ادامه دهم. من باید او را پیدا می کردم. داشتم نزدیک میشدم میتونستم حسش کنم او در همان نزدیکی بود، و او در مشکل بود. قبل از اینکه خیلی دیر شود باید او را پیدا می کردم و به او کمک می کردم.

شکل 1.6 داستان کوتاه از یک مدل تولیدی از داده های متنی ترکیب شده است. مدل یک توزیع احتمال را توصیف می کند که یک احتمال را به هر رشته خروجی اختصاص می دهد. نمونه‌برداری از مدل رشته‌هایی ایجاد می‌کند که از آمار داده‌های آموزشی (اینجا، داستان‌های کوتاه) پیروی می‌کنند، اما قبلاً هرگز دیده نشده‌اند.

شکل 1.7 رنگ آمیزی. در تصویر اصلی (سمت چپ)، پسر توسط کابل های فلزی پوشیده شده است. این نواحی نامطلوب (مرکز) حذف می شوند و مدل مولد یک تصویر جدید (راست) را تحت این محدودیت که پیکسل های باقی مانده باید ثابت بمانند، ترکیب می کند. برگرفته از Saharia et al. (2022a).

قبل از اولین سخنرانی ام در دانشگاه باث کمی عصبی بودم. به نظر می رسید که صدها دانش آموز وجود داشتند و آنها ترسناک به نظر می رسیدند. به سمت سخنرانی رفتم و می خواستم صحبت کنم که اتفاق عجیبی افتاد.
ناگهان اتاق پر شد از صدایی کر کننده، مثل غرش غول پیکر. آنقدر بلند بود که دیگر چیزی نمی شنیدم و مجبور شدم گوش هایم را بپوشانم. می‌توانستم دانشجویان را ببینم که گیج و ترسیده به اطراف نگاه می‌کنند. سپس به همان سرعتی که شروع شد، صدا قطع شد و اتاق دوباره ساکت شد.
چند لحظه آنجا ایستادم و سعی کردم آنچه را که اتفاق افتاده است بفهمم. بعد متوجه شدم که دانش آموزان همگی به من خیره شده اند و منتظرند من چیزی بگویم. سعی کردم چیزی شوخ‌آمیز یا هوشمندانه برای گفتن بیاندیشم، اما ذهنم خالی بود. بنابراین من فقط گفتم: “خب، عجیب بود” و سپس سخنرانی خود را شروع کردم.

شکل 1.8 ترکیب متن مشروط. با توجه به متن اولیه (به رنگ مشکی)، مدل‌های تولیدی متن می‌توانند رشته را با ترکیب بخشی «از دست رفته» باقی‌مانده از رشته ادامه دهند. تولید شده توسط GPT3 (براون و همکاران، 2020).

شکل 1.9 تنوع چهره انسان. صورت انسان تقریباً شامل 42 عضله است، بنابراین می توان بیشتر تغییرات در تصاویر یک فرد را در نور یکسان تنها با 42 عدد توصیف کرد. به طور کلی، مجموعه داده‌های تصاویر، موسیقی و متن را می‌توان با تعداد نسبتاً کمی از متغیرهای زیربنایی توصیف کرد، اگرچه معمولاً پیوند دادن آنها با مکانیسم‌های فیزیکی خاص دشوارتر است. تصاویر از پایگاه داده Dynamic FACES (هلند و همکاران، 2019).

1.2.2 متغیرهای پنهان

برخی (اما نه همه) مدل‌های تولیدی از این مشاهدات استفاده می‌کنند که داده‌ها می‌توانند ابعاد کمتری نسبت به تعداد خام متغیرهای مشاهده‌شده داشته باشند. برای مثال، تعداد جملات انگلیسی معتبر و معنی دار به طور قابل توجهی کمتر از تعداد رشته هایی است که با رسم کلمات به صورت تصادفی ایجاد می شود. به طور مشابه، تصاویر دنیای واقعی زیرمجموعه کوچکی از تصاویر هستند که می توانند با رسم مقادیر تصادفی RGB برای هر پیکسل ایجاد شوند. این به این دلیل است که تصاویر توسط فرآیندهای فیزیکی تولید می شوند (شکل 1.9 را ببینید).

این منجر به این ایده می‌شود که می‌توانیم هر نمونه داده را با استفاده از تعداد کمتری از متغیرهای پنهان زیربنایی توصیف کنیم. در اینجا، نقش یادگیری عمیق توصیف نگاشت بین این متغیرهای پنهان و داده ها است. متغیرهای پنهان معمولاً دارای یک ساده هستند

شکل 1.10 متغیرهای پنهان. بسیاری از مدل‌های مولد از یک مدل یادگیری عمیق برای توصیف رابطه بین یک متغیر «مخفی» با ابعاد پایین و داده‌های با ابعاد بالا استفاده می‌کنند. متغیرهای پنهان دارای یک توزیع احتمال ساده بر اساس طراحی هستند. از این رو، نمونه‌های جدیدی را می‌توان با نمونه‌گیری از توزیع ساده بر روی متغیرهای پنهان و سپس استفاده از مدل یادگیری عمیق برای نگاشت نمونه به فضای داده مشاهده‌شده تولید کرد.

شکل 1.11 درونیابی تصویر. در هر ردیف، تصاویر چپ و راست واقعی هستند و سه تصویر در بین، دنباله ای از درون یابی ایجاد شده توسط یک مدل تولیدی را نشان می دهند. مدل‌های تولیدی که زیربنای این درون‌یابی‌ها هستند، آموخته‌اند که همه تصاویر را می‌توان توسط مجموعه‌ای از متغیرهای پنهان زیربنایی ایجاد کرد. با پیدا کردن این متغیرها برای دو تصویر واقعی، درون یابی مقادیر آنها و سپس استفاده از این متغیرهای میانی برای ایجاد تصاویر جدید، می توانیم نتایج میانی تولید کنیم که هم از نظر بصری قابل قبول هستند و هم ویژگی های دو تصویر اصلی را ترکیب می کنند. ردیف بالا اقتباس شده از Sauer و همکاران. (2022). ردیف پایین اقتباس شده از رامش و همکاران. (2022).

شکل 1.12 چندین تصویر تولید شده از عنوان “خرس عروسکی روی اسکیت برد در میدان تایمز.” تولید شده توسط DALL·E-2 (رامش و همکاران، 2022).

توزیع احتمال بر اساس طراحی با نمونه برداری از این توزیع و عبور نتیجه از طریق مدل یادگیری عمیق، می توانیم نمونه های جدیدی ایجاد کنیم (شکل 1.10).

این مدل ها به روش های جدیدی برای دستکاری داده های واقعی منجر می شوند. برای مثال، یافتن متغیرهای پنهانی را در نظر بگیرید که زیربنای دو مثال واقعی هستند. ما می‌توانیم بین این مثال‌ها با درون‌یابی بین نمایش‌های نهفته آنها و نگاشت موقعیت‌های میانی به فضای داده، بین‌یابی کنیم (شکل 1.11).

1.2.3 اتصال یادگیری تحت نظارت و بدون نظارت

مدل‌های مولد با متغیرهای پنهان نیز می‌توانند از مدل‌های یادگیری نظارت‌شده استفاده کنند که در آن خروجی‌ها ساختار دارند (شکل 1.4). برای مثال، یادگیری پیش‌بینی تصاویر مربوط به عنوان را در نظر بگیرید. به جای نگاشت مستقیم متن ورودی به یک تصویر، می‌توانیم رابطه بین متغیرهای پنهانی که متن را توضیح می‌دهند و متغیرهای پنهانی که تصویر را توضیح می‌دهند، بیاموزیم.

این سه مزیت دارد. اول، ممکن است به جفت های متن/تصویر کمتری برای یادگیری این نگاشت نیاز داشته باشیم، اکنون که ورودی ها و خروجی ها ابعاد کمتری دارند. دوم، ما به احتمال زیاد تصویری معقول ایجاد می کنیم. هر مقدار معقولی از متغیرهای پنهان باید چیزی را تولید کند که شبیه یک مثال قابل قبول باشد. سوم، اگر تصادفی بودن را برای نگاشت بین دو مجموعه متغیر پنهان یا نگاشت از متغیرهای پنهان به تصویر معرفی کنیم، آنگاه می‌توانیم چندین تصویر تولید کنیم که همگی با عنوان به خوبی توضیح داده شده‌اند (شکل 1.12).

1.3 یادگیری تقویتی

حوزه نهایی یادگیری ماشینی یادگیری تقویتی است. این پارادایم ایده عاملی را معرفی می کند که در یک جهان زندگی می کند و می تواند در هر مرحله زمانی اعمال خاصی را انجام دهد. اقدامات وضعیت سیستم را تغییر می دهند اما نه لزوماً به روشی قطعی. انجام یک اقدام همچنین می تواند پاداش و هدف یادگیری تقویتی را ایجاد کند

این است که نماینده یاد بگیرد اقداماتی را انتخاب کند که به طور متوسط منجر به پاداش بالا می شود.

یک عارضه این است که پاداش ممکن است مدتی پس از انجام عمل رخ دهد، بنابراین مرتبط کردن پاداش با یک عمل ساده نیست. این به عنوان مشکل تخصیص اعتبار زمانی شناخته می شود. همان طور که عامل یاد می گیرد، باید اکتشاف و بهره برداری از آنچه را که قبلاً می داند، مبادله کند. شاید نماینده قبلاً یاد گرفته باشد که چگونه جوایز متوسطی دریافت کند. آیا باید از این استراتژی پیروی کند (از آنچه می داند بهره برداری کند)، یا باید اقدامات مختلفی را امتحان کند تا ببیند آیا می تواند بهبود یابد (کاوش در فرصت های دیگر)؟.

1.3.1 دو مثال

آموزش حرکت به یک ربات انسان نما را در نظر بگیرید. ربات می تواند تعداد محدودی از اعمال را در یک زمان معین انجام دهد (حرکت مفاصل مختلف) و اینها وضعیت جهان (حالت آن) را تغییر می دهد. ما ممکن است به ربات برای رسیدن به پست های بازرسی در مسیر مانع پاداش دهیم. برای رسیدن به هر ایست بازرسی، باید اقدامات زیادی انجام دهد، و مشخص نیست که کدام یک در هنگام دریافت پاداش نقش داشته اند و کدام نامربوط بوده است. این نمونه ای از مشکل تخصیص اعتبار زمانی است.

مثال دوم یادگیری بازی شطرنج است. باز هم، عامل مجموعه ای از اقدامات معتبر (حرکات شطرنج) در هر زمان معین دارد. با این حال، این اقدامات وضعیت سیستم را به شیوه ای غیر قطعی تغییر می دهد. برای هر انتخاب عمل، بازیکن حریف ممکن است با حرکات مختلف پاسخ دهد. در اینجا، ممکن است یک ساختار پاداش بر اساس گرفتن مهره ها تنظیم کنیم یا فقط یک جایزه در پایان بازی برای برنده شدن داشته باشیم. در مورد دوم، مشکل تخصیص اعتبار زمانی شدید است. سیستم باید بیاموزد که کدام یک از بسیاری از حرکت های انجام شده برای موفقیت یا شکست موثر بوده است.

مبادله اکتشاف و بهره برداری نیز در این دو مثال آشکار است. ربات ممکن است کشف کرده باشد که می تواند با دراز کشیدن به پهلو و فشار دادن با یک پا پیشرفت کند. این استراتژی ربات را حرکت می دهد و پاداش می دهد، اما بسیار کندتر از راه حل بهینه: تعادل روی پاها و راه رفتن. بنابراین، بین بهره‌برداری از آنچه از قبل می‌داند (نحوه سر خوردن به طرز ناخوشایند روی زمین) و کاوش در فضای اعمال (که ممکن است منجر به حرکت بسیار سریع‌تر شود) انتخاب می‌کند. به طور مشابه، در مثال شطرنج، عامل ممکن است یک توالی معقول از حرکات باز را یاد بگیرد. آیا باید از این دانش بهره برداری کند یا سکانس های آغازین مختلف را بررسی کند؟

شاید مشخص نباشد که یادگیری عمیق چگونه در چارچوب یادگیری تقویتی قرار می گیرد. چندین رویکرد ممکن وجود دارد، اما یک تکنیک استفاده از شبکه‌های عمیق برای ایجاد نقشه‌برداری از وضعیت جهانی مشاهده‌شده به یک اقدام است. این به عنوان یک شبکه سیاست شناخته می شود. در مثال ربات، شبکه خط مشی نقشه برداری را از اندازه گیری های حسگر خود تا حرکات مشترک می آموزد. در مثال شطرنج، شبکه یک نقشه برداری از وضعیت فعلی تخته تا انتخاب حرکت را یاد می گیرد (شکل 1.13).

1.4 اخلاق در هوش مصنوعی

نوشتن این کتاب بدون بحث در مورد پیامدهای اخلاقی هوش مصنوعی غیرمسئولانه خواهد بود. این فناوری قدرتمند جهان را به حداقل تغییر خواهد داد

شکل 1.13 شبکه های خط مشی برای یادگیری تقویتی. یکی از راه‌های گنجاندن شبکه‌های عصبی عمیق در یادگیری تقویتی، استفاده از آن‌ها برای تعریف نقشه‌برداری از حالت (در اینجا موقعیت روی صفحه شطرنج) به اقدامات (حرکات ممکن) است. این نقشه برداری به عنوان یک سیاست شناخته می شود.

به اندازه برق، موتور احتراق داخلی، ترانزیستور یا اینترنت. مزایای بالقوه در مراقبت‌های بهداشتی، طراحی، سرگرمی، حمل‌ونقل، آموزش و تقریباً هر حوزه تجاری بسیار زیاد است. با این حال، دانشمندان و مهندسان اغلب به طور غیرواقعی نسبت به نتایج کار خود خوش بین هستند و پتانسیل آسیب به همان اندازه زیاد است. پاراگراف های زیر پنج نگرانی را برجسته می کنند.

تعصب و انصاف:

اگر سیستمی را آموزش دهیم که سطوح حقوق افراد را بر اساس داده های تاریخی پیش بینی کند، آنگاه این سیستم سوگیری های تاریخی را بازتولید می کند. برای مثال، احتمالاً پیش‌بینی می‌کند که زنان باید کمتر از مردان حقوق بگیرند. چندین مورد از این قبیل قبلاً به اخبار بین‌المللی تبدیل شده‌اند: یک سیستم هوش مصنوعی برای حل فوق‌العاده تصاویر چهره باعث می‌شود افراد غیرسفیدپوست سفیدتر به نظر برسند. سیستمی برای تولید تصاویر زمانی که از آنها خواسته شد تصاویر وکلا را ترکیب کنند، تنها تصاویر مردان را تولید می کرد. استفاده بی دقت از تصمیم گیری الگوریتمی با استفاده از هوش مصنوعی، پتانسیل ایجاد یا تشدید سوگیری های موجود را دارد. برای بحث بیشتر به Binns (2018) مراجعه کنید.

توضیح پذیری:

سیستم های یادگیری عمیق تصمیم می گیرند، اما ما معمولاً دقیقاً نمی دانیم چگونه یا بر اساس چه اطلاعاتی. آنها ممکن است حاوی میلیاردها پارامتر باشند و هیچ راهی وجود ندارد که بتوانیم بر اساس بررسی نحوه عملکرد آنها را بفهمیم. این امر منجر به ایجاد زیرشاخه هوش مصنوعی قابل توضیح شده است. یکی از زمینه های نسبتاً موفق، تولید توضیحات محلی است. ما نمی‌توانیم کل سیستم را توضیح دهیم، اما می‌توانیم توصیفی قابل تفسیر از چرایی تصمیم‌گیری خاص ارائه کنیم. با این حال، هنوز ناشناخته باقی مانده است که آیا می توان سیستم های تصمیم گیری پیچیده ای ساخت که برای کاربران یا حتی سازندگان آنها کاملاً شفاف باشد. گرنان و همکاران را ببینید. (2022) برای اطلاعات بیشتر.

تسلیحات هوش مصنوعی:

تمام فناوری های مهم به طور مستقیم یا غیرمستقیم در جنگ به کار گرفته شده اند. متأسفانه، به نظر می رسد درگیری خشونت آمیز یکی از ویژگی های اجتناب ناپذیر رفتار انسان است. هوش مصنوعی مسلماً قدرتمندترین فناوری ساخته شده است و بدون شک به طور گسترده در زمینه نظامی به کار گرفته خواهد شد. در واقع، این در حال حاضر اتفاق می افتد (Heikkilä، 2022)

تمرکز قدرت:

قوی‌ترین شرکت‌های جهان سرمایه‌گذاری هنگفتی روی هوش مصنوعی انجام می‌دهند و به دلیل علاقه خیرخواهانه به بهبود وضعیت نسل بشر نیست. آنها می‌دانند که این فناوری‌ها به آنها اجازه می‌دهد تا سودهای هنگفتی به دست آورند. مانند هر فناوری پیشرفته، یادگیری عمیق احتمالاً قدرت را در دستان معدود سازمان هایی که آن را کنترل می کنند متمرکز می کند. خودکارسازی مشاغلی که در حال حاضر توسط انسان انجام می شود، محیط اقتصادی را تغییر می دهد و به طور نامتناسبی بر معیشت کارگران کم دستمزد با مهارت های کمتر تأثیر می گذارد. خوش‌بین‌ها استدلال می‌کنند که اختلالات مشابه در طول انقلاب صنعتی رخ داده و منجر به ساعات کاری کوتاه‌تر شده است. حقیقت این است که ما به سادگی نمی دانیم که پذیرش گسترده هوش مصنوعی چه تأثیراتی بر جامعه خواهد داشت (به دیوید، 2015 مراجعه کنید).

خطر وجودی:

عمده خطرات وجودی برای نوع بشر همه ناشی از فناوری است. تغییرات آب و هوایی ناشی از صنعتی شدن بوده است. سلاح های هسته ای از مطالعه فیزیک ناشی می شوند. همه‌گیری‌ها محتمل‌تر و سریع‌تر گسترش می‌یابند، زیرا نوآوری‌ها در حمل‌ونقل، کشاورزی و ساخت‌وساز به جمعیت بزرگ‌تر، متراکم‌تر و به هم پیوسته‌تری اجازه داده است. هوش مصنوعی خطرات وجودی جدیدی را به همراه دارد. ما باید در مورد ساختن سیستم هایی که توانایی و گسترش بیشتری نسبت به انسان دارند بسیار محتاط باشیم. در خوشبینانه ترین حالت، قدرت گسترده ای را در اختیار صاحبان قرار می دهد. در بدبینانه ترین حالت، ما قادر به کنترل آن یا حتی درک انگیزه های آن نخواهیم بود (به Tegmark، 2018 مراجعه کنید).

این فهرست به دور از جامعیت است. هوش مصنوعی همچنین می تواند نظارت، اطلاعات نادرست، نقض حریم خصوصی، تقلب و دستکاری در بازارهای مالی را فعال کند و انرژی مورد نیاز برای آموزش سیستم های هوش مصنوعی به تغییرات آب و هوایی کمک می کند. علاوه بر این، این نگرانی ها حدس و گمان نیستند. نمونه‌های زیادی از کاربردهای اخلاقی مشکوک هوش مصنوعی وجود دارد (برای یک فهرست جزئی با دائو، 2021 مشورت کنید). علاوه بر این، تاریخ اخیر اینترنت نشان داده است که چگونه فناوری جدید می تواند به روش های غیرمنتظره ای باعث آسیب شود. جامعه آنلاین دهه هشتاد و اوایل دهه نود به سختی می‌توانست گسترش اخبار جعلی، هرزنامه‌ها، آزار و اذیت آنلاین، کلاهبرداری، آزار و اذیت سایبری، فرهنگ اینسل، دستکاری سیاسی، دکس کردن، رادیکال‌سازی آنلاین و پورن انتقام‌جویانه را پیش‌بینی کند.

هرکسی که در حال مطالعه یا تحقیق (یا نوشتن کتاب در مورد) هوش مصنوعی است باید به این فکر کند که دانشمندان تا چه حد در مورد استفاده از فناوری خود پاسخگو هستند. ما باید در نظر بگیریم که سرمایه داری در درجه اول توسعه هوش مصنوعی را هدایت می کند و پیشرفت های قانونی و استقرار برای منافع اجتماعی احتمالاً به طور قابل توجهی عقب است. ما باید به این موضوع فکر کنیم که آیا به عنوان دانشمندان و مهندسان امکان کنترل پیشرفت در این زمینه و کاهش احتمال آسیب وجود دارد یا خیر. ما باید در نظر بگیریم که برای چه نوع سازمان هایی آماده کار هستیم. آنها چقدر در تعهد خود به کاهش آسیب های احتمالی هوش مصنوعی جدی هستند؟ آیا آنها صرفاً برای کاهش ریسک شهرت «شست و شوی اخلاقی» هستند یا در واقع مکانیسم هایی را برای توقف پروژه های مشکوک اخلاقی اجرا می کنند؟