یادگیری عمیق
فصل اول
مقدمه
هوش مصنوعی یا AI به ساختن سیستم هایی مربوط می شود که رفتار هوشمند را شبیه سازی می کنند. طیف وسیعی از رویکردها، از جمله رویکردهای مبتنی بر منطق، جستجو و استدلال احتمالی را در بر می گیرد. یادگیری ماشینی زیرمجموعهای از هوش مصنوعی است که تصمیمگیری را با تطبیق مدلهای ریاضی با دادههای مشاهده شده میآموزد. این منطقه رشد انفجاری داشته است و اکنون (به اشتباه) تقریباً مترادف با اصطلاح هوش مصنوعی است.
شبکه عصبی عمیق نوعی مدل یادگیری ماشینی است و زمانی که بر روی دادهها نصب شود، به آن یادگیری عمیق گفته میشود. در زمان نگارش، شبکههای عمیق قدرتمندترین و کاربردیترین مدلهای یادگیری ماشین هستند و اغلب در زندگی روزمره با آنها مواجه میشوند. ترجمه متن از زبان دیگر با استفاده از الگوریتم پردازش زبان طبیعی، جستجوی اینترنت برای تصاویر یک شی خاص با استفاده از سیستم بینایی کامپیوتری، یا مکالمه با دستیار دیجیتال از طریق رابط تشخیص گفتار، امری عادی است. همه این برنامه ها با یادگیری عمیق طراحی شده اند.
همانطور که از عنوان پیداست، هدف این کتاب این است که به خواننده تازه وارد در این زمینه کمک کند تا اصول یادگیری عمیق را درک کند. کتاب نه به طرز وحشتناکی نظری است (هیچ مدرکی وجود ندارد) و نه بسیار عملی (تقریباً هیچ کدی وجود ندارد). هدف توضیح ایده های اساسی است. پس از مصرف این جلد، خواننده میتواند یادگیری عمیق را در موقعیتهای جدیدی که هیچ دستور العملی برای موفقیت وجود ندارد، اعمال کند.
روش های یادگیری ماشینی را می توان به طور کلی به سه حوزه تقسیم کرد: یادگیری تحت نظارت، بدون نظارت و تقویتی. در زمان نگارش، روشهای پیشرفته در هر سه حوزه بر یادگیری عمیق متکی هستند (شکل 1.1). این فصل مقدماتی این سه حوزه را در سطح بالایی توصیف میکند و این طبقهبندی نیز بهطور ضعیف در سازماندهی کتاب منعکس شده است. چه بخواهیم چه نخواهیم، یادگیری عمیق آماده است تا دنیای ما را تغییر دهد و این تغییر همه مثبت نخواهد بود. از این رو، این فصل همچنین حاوی آغازگر مختصری در مورد اخلاق هوش مصنوعی است. ما با توصیه هایی در مورد چگونگی استفاده حداکثری از این کتاب به پایان می رسیم.
1.1 یادگیری تحت نظارت
مدلهای یادگیری نظارت شده، نقشهبرداری از دادههای ورودی به پیشبینی خروجی را تعریف میکنند. در بخشهای بعدی، ورودیها، خروجیها، خود مدل و منظور از «آموزش» مدل را مورد بحث قرار میدهیم.
شکل 1.1 یادگیری ماشینی حوزه ای از هوش مصنوعی است
که مدل های ریاضی را با داده های مشاهده شده مطابقت می دهد.
می توان آن را به طور کلی به یادگیری تحت نظارت،
یادگیری بدون نظارت و یادگیری تقویتی تقسیم کرد.
شبکههای عصبی عمیق به هر یک از این حوزهها کمک میکنند.

شکل 1.1یادگیری ماشینی حوزه ای از هوش مصنوعی است که مدل های ریاضی را با داده های مشاهده شده مطابقت می دهد. می توان آن را به طور کلی به یادگیری تحت نظارت، یادگیری بدون نظارت و یادگیری تقویتی تقسیم کرد. شبکههای عصبی عمیق به هر یک از این حوزهها کمک میکنند.
1.1.1 مشکلات رگرسیون و طبقه بندی
شکل 1.2 چندین مشکل رگرسیون و طبقه بندی را نشان می دهد. در هر مورد، یک ورودی واقعی معنادار وجود دارد (یک جمله، یک فایل صوتی، یک تصویر، و غیره)، و این به عنوان بردار اعداد رمزگذاری می شود. این بردار ورودی مدل را تشکیل می دهد. مدل ورودی را به یک بردار خروجی نگاشت می کند که سپس به یک پیش بینی معنی دار دنیای واقعی “ترجمه” می شود. در حال حاضر، ما روی ورودی ها و خروجی ها تمرکز می کنیم و مدل را به عنوان یک جعبه سیاه در نظر می گیریم که بردار اعداد را جذب می کند و بردار دیگری از اعداد را برمی گرداند.
مدل شکل 1.2a قیمت یک خانه را بر اساس ویژگی های ورودی مانند متراژ مربع و تعداد اتاق خواب ها پیش بینی می کند. این یک مشکل رگرسیونی است زیرا مدل یک عدد پیوسته (به جای تخصیص دسته) را برمی گرداند. در مقابل، مدل 1.2b ساختار شیمیایی یک مولکول را به عنوان ورودی می گیرد و هم نقطه ذوب و هم نقطه جوش را پیش بینی می کند. این یک مشکل رگرسیون چند متغیره است زیرا بیش از یک عدد را پیشبینی میکند.
مدل در شکل 1.2c یک رشته متنی حاوی بررسی رستوران را به عنوان ورودی دریافت می کند و مثبت یا منفی بودن بررسی را پیش بینی می کند. این یک مشکل طبقه بندی باینری است زیرا مدل سعی می کند ورودی را به یکی از دو دسته اختصاص دهد. بردار خروجی شامل احتمالاتی است که ورودی به هر دسته تعلق دارد. شکلهای 1.2d و 1.2e مشکلات طبقهبندی چند کلاسه را نشان میدهند. در اینجا، مدل ورودی را به یکی از N > 2 دسته ها اختصاص می دهد. در حالت اول، ورودی یک فایل صوتی است و مدل پیشبینی میکند که شامل کدام سبک موسیقی است. در حالت دوم، ورودی یک تصویر است و مدل پیشبینی میکند که شامل کدام شی است. در هر مورد، مدل یک بردار به اندازه N برمی گرداند که احتمالات دسته های N را در بر می گیرد.
1.1.2 ورودی ها
داده های ورودی در شکل 1.2 بسیار متفاوت است. در مثال قیمت گذاری خانه، ورودی یک بردار با طول ثابت است که حاوی مقادیری است که ویژگی را مشخص می کند. این نمونه ای از داده های جدولی است زیرا ساختار داخلی ندارد. اگر ترتیب ورودی ها را تغییر دهیم و یک مدل جدید بسازیم، انتظار داریم پیش بینی مدل ثابت بماند.
برعکس، ورودی در مثال بررسی رستوران یک متن است. این ممکن است بسته به تعداد کلمات در بررسی و ورودی اینجا متغیر باشد

شکل 1.2 مشکلات رگرسیون و طبقه بندی. الف) این مدل رگرسیون بردار اعدادی را می گیرد که مشخصه یک ویژگی است و قیمت آن را پیش بینی می کند. ب) این مدل رگرسیون چند متغیره ساختار یک مولکول شیمیایی را می گیرد و نقطه ذوب و جوش آن را پیش بینی می کند. ج) این مدل طبقهبندی باینری یک بررسی رستوران را میگیرد و آن را به عنوان مثبت یا منفی طبقهبندی میکند. د) این مشکل طبقه بندی چند کلاسه، قطعه ای از صدا را به یکی از ژانرهای N اختصاص می دهد. ه) دومین مسئله طبقهبندی چند کلاسه که در آن مدل یک تصویر را بر اساس کدام یک از N شیء ممکن ممکن است در خود داشته باشد طبقهبندی میکند.

شکل 1.3 مدل یادگیری ماشینی. این مدل خانواده ای از روابط را نشان می دهد که ورودی (سن کودک) را به خروجی (قد کودک) مرتبط می کند. رابطه خاص با استفاده از داده های آموزشی انتخاب می شود که از جفت ورودی/خروجی (نقاط نارنجی) تشکیل شده است. هنگامی که مدل را آموزش میدهیم، از طریق روابط احتمالی به دنبال رابطهای میگردیم که دادهها را به خوبی توصیف کند. در اینجا، مدل آموزش دیده منحنی فیروزه ای است و می توان از آن برای محاسبه قد برای هر سنی استفاده کرد.
نظم مهم است؛ همسرم مرغ را خورد با مرغی که همسرم را خورد یکی نیست. متن باید قبل از ارسال به مدل به شکل عددی کدگذاری شود. در اینجا، ما از یک واژگان ثابت به اندازه 10000 استفاده می کنیم و به سادگی کلمات شاخص را به هم الحاق می کنیم.
برای مثال طبقهبندی موسیقی، بردار ورودی ممکن است اندازه ثابتی داشته باشد (شاید یک کلیپ 10 ثانیهای) اما ابعاد بسیار بالایی دارد. صدای دیجیتال معمولاً با فرکانس 44.1 کیلوهرتز نمونه برداری می شود و با اعداد صحیح 16 بیتی نمایش داده می شود، بنابراین یک کلیپ ده ثانیه ای از 441000 عدد صحیح تشکیل شده است. واضح است که مدلهای یادگیری تحت نظارت باید بتوانند ورودیهای قابل توجهی را پردازش کنند. ورودی در مثال طبقه بندی تصویر (که شامل مقادیر RGB به هم پیوسته در هر پیکسل است) نیز بسیار زیاد است. علاوه بر این، ساختار آن به طور طبیعی دو بعدی است. دو پیکسل بالا و پایین با هم ارتباط نزدیکی دارند، حتی اگر در بردار ورودی مجاور نباشند.
در نهایت، ورودی مدلی را در نظر بگیرید که نقطه ذوب و جوش مولکول را پیش بینی می کند. یک مولکول ممکن است دارای تعداد متفاوتی از اتم ها باشد که می تواند به روش های مختلف مرتبط باشد. در این حالت، مدل باید هم ساختار هندسی مولکول و هم اتم های سازنده را به مدل وارد کند.
1.1.3 مدل های یادگیری ماشینی
تا به حال، ما با مدل یادگیری ماشینی به عنوان یک جعبه سیاه برخورد می کردیم که یک بردار ورودی می گیرد و یک بردار خروجی را برمی گرداند. اما دقیقاً چه چیزی در این جعبه سیاه وجود دارد؟ مدلی را برای پیش بینی قد کودک از سن آنها در نظر بگیرید (شکل 1.3). یادگیری ماشینی مدل یک معادله ریاضی است که توضیح می دهد که چگونه میانگین قد بر اساس سن تغییر می کند (منحنی فیروزه ای در شکل 1.3). وقتی سن را از طریق این معادله اجرا می کنیم، ارتفاع را برمی گرداند. به عنوان مثال، اگر سن 10 سال باشد، پیش بینی می کنیم که قد 139 سانتی متر باشد.
بهطور دقیقتر، مدل خانوادهای از معادلات را نشان میدهد که ورودی را به خروجی نگاشت میکنند (یعنی خانوادهای از منحنیهای مختلف فیروزهای). معادله خاص (منحنی) با استفاده از داده های آموزشی (نمونه هایی از جفت ورودی/خروجی) انتخاب می شود. در شکل 1.3، این جفت ها با نقاط نارنجی نشان داده شده اند و می بینیم که مدل (خط فیروزه ای) این داده ها را به طور منطقی توصیف می کند. وقتی در مورد آموزش یا برازش یک مدل صحبت می کنیم، منظور ما این است که از طریق خانواده معادلات ممکن (منحنی های فیروزه ای احتمالی) مربوط به ورودی به خروجی را جستجو می کنیم تا معادله ای را پیدا کنیم که داده های آموزشی را با دقت بیشتری توصیف می کند.
نتیجه این است که مدلهای شکل 1.2 برای آموزش به جفتهای ورودی/خروجی برچسبدار نیاز دارند. به عنوان مثال، مدل طبقه بندی موسیقی به تعداد زیادی کلیپ صوتی نیاز دارد که در آن یک متخصص انسانی ژانر هر کدام را شناسایی کرده باشد. این جفتهای ورودی/خروجی نقش یک معلم یا سرپرست را برای فرآیند آموزش بر عهده میگیرند و این باعث ایجاد اصطلاح یادگیری تحت نظارت میشود.
1.1.4 شبکه های عصبی عمیق
این کتاب به شبکههای عصبی عمیق میپردازد که نوع خاصی از مدل یادگیری ماشین هستند. آنها معادلاتی هستند که می توانند خانواده بسیار گسترده ای از روابط بین ورودی و خروجی را نشان دهند و جستجو در این خانواده برای یافتن رابطه ای که داده های آموزشی را توصیف می کند بسیار آسان است.
شبکههای عصبی عمیق میتوانند ورودیهای بسیار بزرگ، با طول متغیر و دارای انواع ساختارهای داخلی را پردازش کنند. آنها می توانند اعداد حقیقی منفرد (رگرسیون)، اعداد چندگانه (رگرسیون چند متغیره)، یا احتمالات را در دو یا چند کلاس (به ترتیب طبقه بندی باینری و چند کلاسه) تولید کنند. همانطور که در بخش بعدی خواهیم دید، خروجی های آنها نیز ممکن است بسیار بزرگ، با طول متغیر و دارای ساختار داخلی باشند. احتمالاً تصور معادلات با این ویژگی ها دشوار است و خواننده باید فعلاً تلاش کند تا ناباوری را متوقف کند.
1.1.5 خروجی های ساخت یافته
شکل 1.4a یک مدل طبقه بندی باینری چند متغیره را برای تقسیم بندی معنایی نشان می دهد. در اینجا، به هر پیکسل از یک تصویر ورودی یک برچسب باینری اختصاص داده می شود که نشان می دهد متعلق به یک گاو است یا پس زمینه. شکل 1.4b یک مدل رگرسیون چند متغیره را نشان می دهد که در آن ورودی تصویری از یک صحنه خیابان و خروجی عمق در هر پیکسل است. در هر دو مورد، خروجی با ابعاد بالا و ساختار یافته است. با این حال، این ساختار نزدیک به ورودی گره خورده است و می توان از آن بهره برداری کرد. اگر یک پیکسل به عنوان “گاو” برچسب گذاری شود، همسایه ای با مقدار RGB مشابه احتمالاً همان برچسب را دارد. شکلهای 1.4c–e سه مدل را نشان میدهند که در آن خروجی ساختار پیچیدهای دارد که چندان نزدیک به ورودی نیست. شکل 1.4c مدلی را نشان می دهد که در آن ورودی یک فایل صوتی و خروجی کلمات رونویسی شده از آن فایل است. شکل 1.4d یک ترجمه است.

شکل 1.4 وظایف یادگیری تحت نظارت با خروجی های ساختاریافته. الف) این مدل تقسیم بندی معنایی یک تصویر RGB را به یک تصویر باینری نگاشت می کند که نشان می دهد هر پیکسل به پس زمینه یا یک گاو تعلق دارد (اقتباس از Noh و همکاران، 2015).
ب) این مدل تخمین عمق تک چشمی یک تصویر RGB را به یک تصویر خروجی که در آن هر پیکسل نشان دهنده عمق است نگاشت می کند (اقتباس از Cordts و همکاران، 2016).
ج) این مدل رونویسی صوتی یک نمونه صوتی را به رونویسی از کلمات گفته شده در صدا نگاشت می کند. د) این مدل ترجمه یک رشته متن انگلیسی را به ترجمه فرانسوی آن ترسیم می کند. ه) این مدل سنتز تصویر یک عنوان را به یک تصویر نگاشت می کند (مثال از https://openai.com/dall-e-2/). در هر مورد، خروجی دارای ساختار یا دستور زبان پیچیده داخلی است. در برخی موارد، بسیاری از خروجی ها با ورودی سازگار هستند. مدلی که در آن ورودی متنی به زبان انگلیسی است و خروجی شامل ترجمه فرانسوی است. شکل 1.4e یک کار بسیار چالش برانگیز را نشان می دهد که در آن ورودی متن توصیفی است و مدل باید تصویری مطابق با این توصیف تولید کند.
در اصل، سه وظیفه اخیر را می توان در چارچوب استاندارد یادگیری نظارت شده انجام داد، اما به دو دلیل دشوارتر هستند. اول، خروجی ممکن است واقعا مبهم باشد. چندین ترجمه معتبر از یک جمله انگلیسی به یک جمله فرانسوی و چندین تصویر وجود دارد که با هر عنوانی سازگار است. دوم، خروجی شامل ساختار قابل توجهی است. همه رشتههای کلمات جملات معتبر انگلیسی و فرانسوی را نمیسازند، و همه مجموعههای مقادیر RGB تصاویر قابل قبولی ایجاد نمیکنند. علاوه بر یادگیری نقشه برداری، باید به “گرامر” خروجی نیز احترام بگذاریم.
خوشبختانه، این “گرامر” را می توان بدون نیاز به برچسب های خروجی یاد گرفت. به عنوان مثال، ما میتوانیم با یادگیری آمار مجموعه بزرگی از دادههای متنی، نحوه تشکیل جملات معتبر انگلیسی را بیاموزیم. این ارتباط با بخش بعدی کتاب، که مدل های یادگیری بدون نظارت را در نظر می گیرد، فراهم می کند.
1.2 یادگیری بدون نظارت
ساختن یک مدل از دادههای ورودی بدون برچسبهای خروجی مربوطه، یادگیری بدون نظارت نامیده میشود. عدم وجود برچسب های خروجی به این معنی است که نمی توان “نظارت” داشت. هدف به جای یادگیری نگاشت از ورودی به خروجی، توصیف یا درک ساختار داده است. همانطور که در مورد یادگیری نظارت شده بود، داده ها ممکن است ویژگی های بسیار متفاوتی داشته باشند. ممکن است گسسته یا پیوسته، کم بعدی یا با ابعاد بالا و طول ثابت یا متغیر باشد.
1.2.1 مدل های مولد
این کتاب بر روی مدلهای بدون نظارت مولد تمرکز دارد، که یاد میگیرند نمونههای داده جدیدی را که از نظر آماری از دادههای آموزشی قابل تشخیص نیستند، ترکیب کنند. برخی از مدلهای تولیدی به صراحت توزیع احتمال را بر روی دادههای ورودی توصیف میکنند و در اینجا نمونههای جدیدی با نمونهگیری از این توزیع تولید میشوند. دیگران صرفاً مکانیزمی را برای تولید نمونه های جدید بدون توضیح صریح توزیع آنها یاد می گیرند.
مدل های مولد پیشرفته می توانند نمونه هایی را ترکیب کنند که بسیار قابل قبول هستند اما از نمونه های آموزشی متمایز هستند. آنها به ویژه در تولید تصاویر (شکل 1.5) و متن (شکل 1.6) موفق بوده اند. آنها همچنین می توانند داده ها را تحت این محدودیت که برخی از خروجی ها از پیش تعیین شده اند ترکیب کنند (تولید شرطی نامیده می شود). به عنوان مثال می توان به رنگ آمیزی تصویر (شکل 1.7) و تکمیل متن (شکل 1.8) اشاره کرد. در واقع، مدل های مولد مدرن برای متن آنقدر قدرتمند هستند که می توانند هوشمندانه به نظر برسند. با توجه به متنی که با یک سؤال همراه است، مدل اغلب میتواند پاسخ گمشده را با ایجاد محتملترین تکمیل سند «پر» کند. با این حال، در واقعیت، مدل فقط از آمار زبان میداند و اهمیت پاسخهای آن را درک نمیکند.

شکل 1.5 مدل های تولیدی برای تصاویر. سمت چپ: دو تصویر از یک مدل آموزش دیده بر روی تصاویر گربه ها تولید شد. اینها گربه های واقعی نیستند، بلکه نمونه هایی از یک مدل احتمال هستند. راست: دو تصویر تولید شده از یک مدل آموزش دیده بر روی تصاویر ساختمان ها. اقتباس از کاراس و همکاران. (2020b).
وقتی به لبه جنگل رسیدم ماه طلوع کرده بود و نوری که از میان درختان عبور می کرد نقره ای و سرد بود. لرزیدم، هرچند سردم نبود، و قدم هایم را تندتر کردم. قبلاً هرگز آنقدر از روستا دور نشده بودم و مطمئن نبودم چه انتظاری داشته باشم. ساعت ها راه می رفتم و خسته و گرسنه بودم. آنقدر با عجله رفته بودم که نه فکر می کردم نه غذایی بسته بندی کنم و نه فکر می کردم اسلحه بیاورم. من بی سلاح و تنها در جای عجیبی بودم و نمی دانستم چه کار می کنم.
آنقدر راه می رفتم که تمام حس زمان را از دست داده بودم و نمی دانستم چقدر جلو آمده ام. فقط می دانستم که باید ادامه دهم. من باید او را پیدا می کردم. داشتم نزدیک میشدم میتونستم حسش کنم او در همان نزدیکی بود، و او در مشکل بود. قبل از اینکه خیلی دیر شود باید او را پیدا می کردم و به او کمک می کردم.
شکل 1.6 داستان کوتاه از یک مدل تولیدی از داده های متنی ترکیب شده است. مدل یک توزیع احتمال را توصیف می کند که یک احتمال را به هر رشته خروجی اختصاص می دهد. نمونهبرداری از مدل رشتههایی ایجاد میکند که از آمار دادههای آموزشی (اینجا، داستانهای کوتاه) پیروی میکنند، اما قبلاً هرگز دیده نشدهاند.

شکل 1.7 رنگ آمیزی. در تصویر اصلی (سمت چپ)، پسر توسط کابل های فلزی پوشیده شده است. این نواحی نامطلوب (مرکز) حذف می شوند و مدل مولد یک تصویر جدید (راست) را تحت این محدودیت که پیکسل های باقی مانده باید ثابت بمانند، ترکیب می کند. برگرفته از Saharia et al. (2022a).
قبل از اولین سخنرانی ام در دانشگاه باث کمی عصبی بودم. به نظر می رسید که صدها دانش آموز وجود داشتند و آنها ترسناک به نظر می رسیدند. به سمت سخنرانی رفتم و می خواستم صحبت کنم که اتفاق عجیبی افتاد.
ناگهان اتاق پر شد از صدایی کر کننده، مثل غرش غول پیکر. آنقدر بلند بود که دیگر چیزی نمی شنیدم و مجبور شدم گوش هایم را بپوشانم. میتوانستم دانشجویان را ببینم که گیج و ترسیده به اطراف نگاه میکنند. سپس به همان سرعتی که شروع شد، صدا قطع شد و اتاق دوباره ساکت شد.
چند لحظه آنجا ایستادم و سعی کردم آنچه را که اتفاق افتاده است بفهمم. بعد متوجه شدم که دانش آموزان همگی به من خیره شده اند و منتظرند من چیزی بگویم. سعی کردم چیزی شوخآمیز یا هوشمندانه برای گفتن بیاندیشم، اما ذهنم خالی بود. بنابراین من فقط گفتم: “خب، عجیب بود” و سپس سخنرانی خود را شروع کردم.
شکل 1.8 ترکیب متن مشروط. با توجه به متن اولیه (به رنگ مشکی)، مدلهای تولیدی متن میتوانند رشته را با ترکیب بخشی «از دست رفته» باقیمانده از رشته ادامه دهند. تولید شده توسط GPT3 (براون و همکاران، 2020).

شکل 1.9 تنوع چهره انسان. صورت انسان تقریباً شامل 42 عضله است، بنابراین می توان بیشتر تغییرات در تصاویر یک فرد را در نور یکسان تنها با 42 عدد توصیف کرد. به طور کلی، مجموعه دادههای تصاویر، موسیقی و متن را میتوان با تعداد نسبتاً کمی از متغیرهای زیربنایی توصیف کرد، اگرچه معمولاً پیوند دادن آنها با مکانیسمهای فیزیکی خاص دشوارتر است. تصاویر از پایگاه داده Dynamic FACES (هلند و همکاران، 2019).
1.2.2 متغیرهای پنهان
برخی (اما نه همه) مدلهای تولیدی از این مشاهدات استفاده میکنند که دادهها میتوانند ابعاد کمتری نسبت به تعداد خام متغیرهای مشاهدهشده داشته باشند. برای مثال، تعداد جملات انگلیسی معتبر و معنی دار به طور قابل توجهی کمتر از تعداد رشته هایی است که با رسم کلمات به صورت تصادفی ایجاد می شود. به طور مشابه، تصاویر دنیای واقعی زیرمجموعه کوچکی از تصاویر هستند که می توانند با رسم مقادیر تصادفی RGB برای هر پیکسل ایجاد شوند. این به این دلیل است که تصاویر توسط فرآیندهای فیزیکی تولید می شوند (شکل 1.9 را ببینید).
این منجر به این ایده میشود که میتوانیم هر نمونه داده را با استفاده از تعداد کمتری از متغیرهای پنهان زیربنایی توصیف کنیم. در اینجا، نقش یادگیری عمیق توصیف نگاشت بین این متغیرهای پنهان و داده ها است. متغیرهای پنهان معمولاً دارای یک ساده هستند

شکل 1.10 متغیرهای پنهان. بسیاری از مدلهای مولد از یک مدل یادگیری عمیق برای توصیف رابطه بین یک متغیر «مخفی» با ابعاد پایین و دادههای با ابعاد بالا استفاده میکنند. متغیرهای پنهان دارای یک توزیع احتمال ساده بر اساس طراحی هستند. از این رو، نمونههای جدیدی را میتوان با نمونهگیری از توزیع ساده بر روی متغیرهای پنهان و سپس استفاده از مدل یادگیری عمیق برای نگاشت نمونه به فضای داده مشاهدهشده تولید کرد.


شکل 1.11 درونیابی تصویر. در هر ردیف، تصاویر چپ و راست واقعی هستند و سه تصویر در بین، دنباله ای از درون یابی ایجاد شده توسط یک مدل تولیدی را نشان می دهند. مدلهای تولیدی که زیربنای این درونیابیها هستند، آموختهاند که همه تصاویر را میتوان توسط مجموعهای از متغیرهای پنهان زیربنایی ایجاد کرد. با پیدا کردن این متغیرها برای دو تصویر واقعی، درون یابی مقادیر آنها و سپس استفاده از این متغیرهای میانی برای ایجاد تصاویر جدید، می توانیم نتایج میانی تولید کنیم که هم از نظر بصری قابل قبول هستند و هم ویژگی های دو تصویر اصلی را ترکیب می کنند. ردیف بالا اقتباس شده از Sauer و همکاران. (2022). ردیف پایین اقتباس شده از رامش و همکاران. (2022).

شکل 1.12 چندین تصویر تولید شده از عنوان “خرس عروسکی روی اسکیت برد در میدان تایمز.” تولید شده توسط DALL·E-2 (رامش و همکاران، 2022).
توزیع احتمال بر اساس طراحی با نمونه برداری از این توزیع و عبور نتیجه از طریق مدل یادگیری عمیق، می توانیم نمونه های جدیدی ایجاد کنیم (شکل 1.10).
این مدل ها به روش های جدیدی برای دستکاری داده های واقعی منجر می شوند. برای مثال، یافتن متغیرهای پنهانی را در نظر بگیرید که زیربنای دو مثال واقعی هستند. ما میتوانیم بین این مثالها با درونیابی بین نمایشهای نهفته آنها و نگاشت موقعیتهای میانی به فضای داده، بینیابی کنیم (شکل 1.11).
1.2.3 اتصال یادگیری تحت نظارت و بدون نظارت
مدلهای مولد با متغیرهای پنهان نیز میتوانند از مدلهای یادگیری نظارتشده استفاده کنند که در آن خروجیها ساختار دارند (شکل 1.4). برای مثال، یادگیری پیشبینی تصاویر مربوط به عنوان را در نظر بگیرید. به جای نگاشت مستقیم متن ورودی به یک تصویر، میتوانیم رابطه بین متغیرهای پنهانی که متن را توضیح میدهند و متغیرهای پنهانی که تصویر را توضیح میدهند، بیاموزیم.
این سه مزیت دارد. اول، ممکن است به جفت های متن/تصویر کمتری برای یادگیری این نگاشت نیاز داشته باشیم، اکنون که ورودی ها و خروجی ها ابعاد کمتری دارند. دوم، ما به احتمال زیاد تصویری معقول ایجاد می کنیم. هر مقدار معقولی از متغیرهای پنهان باید چیزی را تولید کند که شبیه یک مثال قابل قبول باشد. سوم، اگر تصادفی بودن را برای نگاشت بین دو مجموعه متغیر پنهان یا نگاشت از متغیرهای پنهان به تصویر معرفی کنیم، آنگاه میتوانیم چندین تصویر تولید کنیم که همگی با عنوان به خوبی توضیح داده شدهاند (شکل 1.12).
1.3 یادگیری تقویتی
حوزه نهایی یادگیری ماشینی یادگیری تقویتی است. این پارادایم ایده عاملی را معرفی می کند که در یک جهان زندگی می کند و می تواند در هر مرحله زمانی اعمال خاصی را انجام دهد. اقدامات وضعیت سیستم را تغییر می دهند اما نه لزوماً به روشی قطعی. انجام یک اقدام همچنین می تواند پاداش و هدف یادگیری تقویتی را ایجاد کند
این است که نماینده یاد بگیرد اقداماتی را انتخاب کند که به طور متوسط منجر به پاداش بالا می شود.
یک عارضه این است که پاداش ممکن است مدتی پس از انجام عمل رخ دهد، بنابراین مرتبط کردن پاداش با یک عمل ساده نیست. این به عنوان مشکل تخصیص اعتبار زمانی شناخته می شود. همان طور که عامل یاد می گیرد، باید اکتشاف و بهره برداری از آنچه را که قبلاً می داند، مبادله کند. شاید نماینده قبلاً یاد گرفته باشد که چگونه جوایز متوسطی دریافت کند. آیا باید از این استراتژی پیروی کند (از آنچه می داند بهره برداری کند)، یا باید اقدامات مختلفی را امتحان کند تا ببیند آیا می تواند بهبود یابد (کاوش در فرصت های دیگر)؟.
1.3.1 دو مثال
آموزش حرکت به یک ربات انسان نما را در نظر بگیرید. ربات می تواند تعداد محدودی از اعمال را در یک زمان معین انجام دهد (حرکت مفاصل مختلف) و اینها وضعیت جهان (حالت آن) را تغییر می دهد. ما ممکن است به ربات برای رسیدن به پست های بازرسی در مسیر مانع پاداش دهیم. برای رسیدن به هر ایست بازرسی، باید اقدامات زیادی انجام دهد، و مشخص نیست که کدام یک در هنگام دریافت پاداش نقش داشته اند و کدام نامربوط بوده است. این نمونه ای از مشکل تخصیص اعتبار زمانی است.
مثال دوم یادگیری بازی شطرنج است. باز هم، عامل مجموعه ای از اقدامات معتبر (حرکات شطرنج) در هر زمان معین دارد. با این حال، این اقدامات وضعیت سیستم را به شیوه ای غیر قطعی تغییر می دهد. برای هر انتخاب عمل، بازیکن حریف ممکن است با حرکات مختلف پاسخ دهد. در اینجا، ممکن است یک ساختار پاداش بر اساس گرفتن مهره ها تنظیم کنیم یا فقط یک جایزه در پایان بازی برای برنده شدن داشته باشیم. در مورد دوم، مشکل تخصیص اعتبار زمانی شدید است. سیستم باید بیاموزد که کدام یک از بسیاری از حرکت های انجام شده برای موفقیت یا شکست موثر بوده است.
مبادله اکتشاف و بهره برداری نیز در این دو مثال آشکار است. ربات ممکن است کشف کرده باشد که می تواند با دراز کشیدن به پهلو و فشار دادن با یک پا پیشرفت کند. این استراتژی ربات را حرکت می دهد و پاداش می دهد، اما بسیار کندتر از راه حل بهینه: تعادل روی پاها و راه رفتن. بنابراین، بین بهرهبرداری از آنچه از قبل میداند (نحوه سر خوردن به طرز ناخوشایند روی زمین) و کاوش در فضای اعمال (که ممکن است منجر به حرکت بسیار سریعتر شود) انتخاب میکند. به طور مشابه، در مثال شطرنج، عامل ممکن است یک توالی معقول از حرکات باز را یاد بگیرد. آیا باید از این دانش بهره برداری کند یا سکانس های آغازین مختلف را بررسی کند؟
شاید مشخص نباشد که یادگیری عمیق چگونه در چارچوب یادگیری تقویتی قرار می گیرد. چندین رویکرد ممکن وجود دارد، اما یک تکنیک استفاده از شبکههای عمیق برای ایجاد نقشهبرداری از وضعیت جهانی مشاهدهشده به یک اقدام است. این به عنوان یک شبکه سیاست شناخته می شود. در مثال ربات، شبکه خط مشی نقشه برداری را از اندازه گیری های حسگر خود تا حرکات مشترک می آموزد. در مثال شطرنج، شبکه یک نقشه برداری از وضعیت فعلی تخته تا انتخاب حرکت را یاد می گیرد (شکل 1.13).
1.4 اخلاق در هوش مصنوعی
نوشتن این کتاب بدون بحث در مورد پیامدهای اخلاقی هوش مصنوعی غیرمسئولانه خواهد بود. این فناوری قدرتمند جهان را به حداقل تغییر خواهد داد

شکل 1.13 شبکه های خط مشی برای یادگیری تقویتی. یکی از راههای گنجاندن شبکههای عصبی عمیق در یادگیری تقویتی، استفاده از آنها برای تعریف نقشهبرداری از حالت (در اینجا موقعیت روی صفحه شطرنج) به اقدامات (حرکات ممکن) است. این نقشه برداری به عنوان یک سیاست شناخته می شود.
به اندازه برق، موتور احتراق داخلی، ترانزیستور یا اینترنت. مزایای بالقوه در مراقبتهای بهداشتی، طراحی، سرگرمی، حملونقل، آموزش و تقریباً هر حوزه تجاری بسیار زیاد است. با این حال، دانشمندان و مهندسان اغلب به طور غیرواقعی نسبت به نتایج کار خود خوش بین هستند و پتانسیل آسیب به همان اندازه زیاد است. پاراگراف های زیر پنج نگرانی را برجسته می کنند.
تعصب و انصاف:
اگر سیستمی را آموزش دهیم که سطوح حقوق افراد را بر اساس داده های تاریخی پیش بینی کند، آنگاه این سیستم سوگیری های تاریخی را بازتولید می کند. برای مثال، احتمالاً پیشبینی میکند که زنان باید کمتر از مردان حقوق بگیرند. چندین مورد از این قبیل قبلاً به اخبار بینالمللی تبدیل شدهاند: یک سیستم هوش مصنوعی برای حل فوقالعاده تصاویر چهره باعث میشود افراد غیرسفیدپوست سفیدتر به نظر برسند. سیستمی برای تولید تصاویر زمانی که از آنها خواسته شد تصاویر وکلا را ترکیب کنند، تنها تصاویر مردان را تولید می کرد. استفاده بی دقت از تصمیم گیری الگوریتمی با استفاده از هوش مصنوعی، پتانسیل ایجاد یا تشدید سوگیری های موجود را دارد. برای بحث بیشتر به Binns (2018) مراجعه کنید.
توضیح پذیری:
سیستم های یادگیری عمیق تصمیم می گیرند، اما ما معمولاً دقیقاً نمی دانیم چگونه یا بر اساس چه اطلاعاتی. آنها ممکن است حاوی میلیاردها پارامتر باشند و هیچ راهی وجود ندارد که بتوانیم بر اساس بررسی نحوه عملکرد آنها را بفهمیم. این امر منجر به ایجاد زیرشاخه هوش مصنوعی قابل توضیح شده است. یکی از زمینه های نسبتاً موفق، تولید توضیحات محلی است. ما نمیتوانیم کل سیستم را توضیح دهیم، اما میتوانیم توصیفی قابل تفسیر از چرایی تصمیمگیری خاص ارائه کنیم. با این حال، هنوز ناشناخته باقی مانده است که آیا می توان سیستم های تصمیم گیری پیچیده ای ساخت که برای کاربران یا حتی سازندگان آنها کاملاً شفاف باشد. گرنان و همکاران را ببینید. (2022) برای اطلاعات بیشتر.
تسلیحات هوش مصنوعی:
تمام فناوری های مهم به طور مستقیم یا غیرمستقیم در جنگ به کار گرفته شده اند. متأسفانه، به نظر می رسد درگیری خشونت آمیز یکی از ویژگی های اجتناب ناپذیر رفتار انسان است. هوش مصنوعی مسلماً قدرتمندترین فناوری ساخته شده است و بدون شک به طور گسترده در زمینه نظامی به کار گرفته خواهد شد. در واقع، این در حال حاضر اتفاق می افتد (Heikkilä، 2022)
تمرکز قدرت:
قویترین شرکتهای جهان سرمایهگذاری هنگفتی روی هوش مصنوعی انجام میدهند و به دلیل علاقه خیرخواهانه به بهبود وضعیت نسل بشر نیست. آنها میدانند که این فناوریها به آنها اجازه میدهد تا سودهای هنگفتی به دست آورند. مانند هر فناوری پیشرفته، یادگیری عمیق احتمالاً قدرت را در دستان معدود سازمان هایی که آن را کنترل می کنند متمرکز می کند. خودکارسازی مشاغلی که در حال حاضر توسط انسان انجام می شود، محیط اقتصادی را تغییر می دهد و به طور نامتناسبی بر معیشت کارگران کم دستمزد با مهارت های کمتر تأثیر می گذارد. خوشبینها استدلال میکنند که اختلالات مشابه در طول انقلاب صنعتی رخ داده و منجر به ساعات کاری کوتاهتر شده است. حقیقت این است که ما به سادگی نمی دانیم که پذیرش گسترده هوش مصنوعی چه تأثیراتی بر جامعه خواهد داشت (به دیوید، 2015 مراجعه کنید).
خطر وجودی:
عمده خطرات وجودی برای نوع بشر همه ناشی از فناوری است. تغییرات آب و هوایی ناشی از صنعتی شدن بوده است. سلاح های هسته ای از مطالعه فیزیک ناشی می شوند. همهگیریها محتملتر و سریعتر گسترش مییابند، زیرا نوآوریها در حملونقل، کشاورزی و ساختوساز به جمعیت بزرگتر، متراکمتر و به هم پیوستهتری اجازه داده است. هوش مصنوعی خطرات وجودی جدیدی را به همراه دارد. ما باید در مورد ساختن سیستم هایی که توانایی و گسترش بیشتری نسبت به انسان دارند بسیار محتاط باشیم. در خوشبینانه ترین حالت، قدرت گسترده ای را در اختیار صاحبان قرار می دهد. در بدبینانه ترین حالت، ما قادر به کنترل آن یا حتی درک انگیزه های آن نخواهیم بود (به Tegmark، 2018 مراجعه کنید).
این فهرست به دور از جامعیت است. هوش مصنوعی همچنین می تواند نظارت، اطلاعات نادرست، نقض حریم خصوصی، تقلب و دستکاری در بازارهای مالی را فعال کند و انرژی مورد نیاز برای آموزش سیستم های هوش مصنوعی به تغییرات آب و هوایی کمک می کند. علاوه بر این، این نگرانی ها حدس و گمان نیستند. نمونههای زیادی از کاربردهای اخلاقی مشکوک هوش مصنوعی وجود دارد (برای یک فهرست جزئی با دائو، 2021 مشورت کنید). علاوه بر این، تاریخ اخیر اینترنت نشان داده است که چگونه فناوری جدید می تواند به روش های غیرمنتظره ای باعث آسیب شود. جامعه آنلاین دهه هشتاد و اوایل دهه نود به سختی میتوانست گسترش اخبار جعلی، هرزنامهها، آزار و اذیت آنلاین، کلاهبرداری، آزار و اذیت سایبری، فرهنگ اینسل، دستکاری سیاسی، دکس کردن، رادیکالسازی آنلاین و پورن انتقامجویانه را پیشبینی کند.
هرکسی که در حال مطالعه یا تحقیق (یا نوشتن کتاب در مورد) هوش مصنوعی است باید به این فکر کند که دانشمندان تا چه حد در مورد استفاده از فناوری خود پاسخگو هستند. ما باید در نظر بگیریم که سرمایه داری در درجه اول توسعه هوش مصنوعی را هدایت می کند و پیشرفت های قانونی و استقرار برای منافع اجتماعی احتمالاً به طور قابل توجهی عقب است. ما باید به این موضوع فکر کنیم که آیا به عنوان دانشمندان و مهندسان امکان کنترل پیشرفت در این زمینه و کاهش احتمال آسیب وجود دارد یا خیر. ما باید در نظر بگیریم که برای چه نوع سازمان هایی آماده کار هستیم. آنها چقدر در تعهد خود به کاهش آسیب های احتمالی هوش مصنوعی جدی هستند؟ آیا آنها صرفاً برای کاهش ریسک شهرت «شست و شوی اخلاقی» هستند یا در واقع مکانیسم هایی را برای توقف پروژه های مشکوک اخلاقی اجرا می کنند؟



