آغاز کار با شبکه‌های عصبی: طبقه‌بندی و رگرسیون

دکتر محمدرضا عاطفی
منتشر شده در 21 دسامبر 2025

این فصل پوشش می‌دهد:
اولین مثال‌های شما از گردش‌کارهای یادگیری ماشینی در دنیای واقعی
پردازش مسائل طبقه‌بندی روی داده‌های برداری
پردازش مسائل رگرسیون پیوسته روی داده‌های برداری

مقدمه

این فصل برای شروع استفاده شما از شبکه‌های عصبی برای حل مسائل واقعی طراحی شده است. شما دانش کسب‌شده از فصل‌های ۲ و ۳ را تثبیت خواهید کرد و آنچه را که آموخته‌اید در سه کار جدید که سه مورد استفاده رایج شبکه‌های عصبی را پوشش می‌دهند، به کار خواهید گرفت—طبقه‌بندی دودویی، طبقه‌بندی چندکلاسه، و رگرسیون اسکالر:

طبقه‌بندی نقدهای فیلم به مثبت یا منفی (طبقه‌بندی دودویی)
طبقه‌بندی خبرها بر اساس موضوع (طبقه‌بندی چندکلاسه)
تخمین قیمت یک خانه، با توجه به داده‌های املاک و مستغلات (رگرسیون اسکالر)

این مثال‌ها اولین تماس شما با گردش‌کارهای یادگیری ماشینی سرتاسری خواهد بود: شما با پیش‌پردازش داده‌ها، اصول معماری پایه مدل، و ارزیابی مدل آشنا خواهید شد.

واژه‌نامه طبقه‌بندی و رگرسیون

طبقه‌بندی و رگرسیون شامل اصطلاحات تخصصی بسیاری است. شما با برخی از آنها در مثال‌های قبلی برخورد کرده‌اید و در فصل‌های آینده بیشتر آنها را خواهید دید. این اصطلاحات تعاریف دقیق و مختص یادگیری ماشینی دارند و باید با آنها آشنا باشید:

نمونه یا ورودی (Sample or input) :یک نقطه داده که وارد مدل شما می‌شود.
پیش‌بینی یا خروجی (Prediction or output) : آنچه از مدل شما خارج می‌شود.
هدف(Target) : حقیقت. آنچه که مدل ایده‌آل شما باید طبق یک منبع داده خارجی پیش‌بینی می‌کرد.
خطای پیش‌بینی یا مقدار زیان (Prediction error or loss value) : معیاری برای سنجش فاصله بین پیش‌بینی مدل شما و هدف.
کلاس‌ها (Classes) : مجموعه‌ای از برچسب‌های ممکن برای انتخاب در یک مسئله طبقه‌بندی. برای مثال، هنگام طبقه‌بندی تصاویر گربه و سگ، “سگ” و “گربه” دو کلاس هستند.
برچسب (Label) : یک نمونه خاص از حاشیه‌نویسی کلاس در یک مسئله طبقه‌بندی. برای مثال، اگر تصویر شماره ۱۲۳۴ به عنوان شامل کلاس “سگ” حاشیه‌نویسی شده باشد، آنگاه “سگ” یک برچسب برای تصویر شماره ۱۲۳۴ است.
حقیقت زمینی یا حاشیه‌نویسی‌ها (Ground-truth or annotations) : تمام اهداف برای یک مجموعه داده، که معمولاً توسط انسان‌ها جمع‌آوری می‌شوند.
طبقه‌بندی دودویی (Binary classification) : یک وظیفه طبقه‌بندی که در آن هر نمونه ورودی باید به دو دسته انحصاری طبقه‌بندی شود.
طبقه‌بندی چندکلاسه (Multiclass classification) : یک وظیفه طبقه‌بندی که در آن هر نمونه ورودی باید به بیش از دو دسته طبقه‌بندی شود؛ برای مثال، طبقه‌بندی ارقام دست‌نویس.
طبقه‌بندی چندبرچسبی (Multilabel classification) : یک وظیفه طبقه‌بندی که در آن به هر نمونه ورودی می‌توان چندین برچسب اختصاص داد. برای مثال، یک تصویر ممکن است هم شامل گربه و هم سگ باشد و باید هم با برچسب “گربه” و هم با برچسب “سگ” حاشیه‌نویسی شود. تعداد برچسب‌ها در هر تصویر معمولاً متغیر است.
رگرسیون اسکالر (Scalar regression) : وظیفه‌ای که در آن هدف یک مقدار اسکالر پیوسته است. پیش‌بینی قیمت خانه یک مثال خوب است: قیمت‌های هدف مختلف یک فضای پیوسته را تشکیل می‌دهند.
رگرسیون برداری (Vector regression) : وظیفه‌ای که در آن هدف مجموعه‌ای از مقادیر پیوسته است؛ برای مثال، یک بردار پیوسته. اگر رگرسیون را برای چندین مقدار (مانند مختصات یک کادر محدودکننده در یک تصویر) انجام می‌دهید، در حال انجام رگرسیون برداری هستید.
مینی-بچ یا بچ (Mini-batch or batch) : مجموعه‌ای کوچک از نمونه‌ها (معمولاً بین ۸ تا ۱۲۸) که همزمان توسط مدل پردازش می‌شوند. تعداد نمونه‌ها اغلب توانی از ۲ است تا تخصیص حافظه در GPU را تسهیل کند. هنگام آموزش، یک مینی-بچ برای محاسبه یک به‌روزرسانی گرادیان کاهشی واحد که بر وزن‌های مدل اعمال می‌شود، استفاده می‌گردد.

تا پایان این فصل، شما قادر خواهید بود از شبکه‌های عصبی برای انجام وظایف ساده طبقه‌بندی و رگرسیون بر روی داده‌های برداری استفاده کنید. سپس آماده خواهید بود تا در فصل ۵، درک اصولی‌تر و نظری‌تری از یادگیری ماشینی را شروع کنید.

طبقه‌بندی نقدهای فیلم: یک مثال طبقه‌بندی دودویی

طبقه‌بندی دوکلاسه، یا طبقه‌بندی دودویی، یکی از رایج‌ترین انواع مسائل یادگیری ماشینی است. در این مثال، شما یاد می‌گیرید که نقدهای فیلم را بر اساس محتوای متنی آن‌ها به عنوان مثبت یا منفی طبقه‌بندی کنید.

مجموعه داده IMDB

شما با مجموعه داده IMDB کار خواهید کرد: مجموعه‌ای شامل ۵۰,۰۰۰ نقد بسیار قطبی‌شده از پایگاه داده فیلم اینترنت. این نقدها به ۲۵,۰۰۰ نقد برای آموزش و ۲۵,۰۰۰ نقد برای آزمایش تقسیم شده‌اند که هر مجموعه شامل ۵۰٪ نقد منفی و ۵۰٪ نقد مثبت است.

درست مانند مجموعه داده MNIST، مجموعه داده IMDB همراه با Keras ارائه می‌شود. این مجموعه داده قبلاً پیش‌پردازش شده است: نقدها (دنباله‌ای از کلمات) به دنباله‌ای از اعداد صحیح تبدیل شده‌اند، که در آن هر عدد صحیح نشان‌دهنده یک کلمه خاص در یک دیکشنری است. این کار ما را قادر می‌سازد تا بر روی ساخت مدل، آموزش و ارزیابی تمرکز کنیم. در فصل ۱۱، یاد خواهید گرفت که چگونه ورودی متن خام را از ابتدا پردازش کنید.

کد زیر مجموعه داده را بارگذاری می‌کند (هنگامی که برای اولین بار آن را اجرا می‌کنید، حدود ۸۰ مگابایت داده روی دستگاه شما دانلود می‌شود).

قطعه کد ۴.۱ بارگذاری مجموعه داده IMDB

from tensorflow.keras.datasets import imdb

(train_data, train_labels), (test_data, test_labels) = imdb.load_data(

num_words=10000)

آرگومان num_words=10000 به این معنی است که شما فقط ۱۰,۰۰۰ کلمه پرتکرار را در داده‌های آموزشی نگه می‌دارید. کلمات کمیاب حذف خواهند شد. این کار به ما اجازه می‌دهد با داده‌های برداری با اندازه‌ای قابل مدیریت کار کنیم. اگر این محدودیت را تعیین نمی‌کردیم، با ۸۸,۵۸۵ کلمه منحصربه‌فرد در داده‌های آموزشی سروکار داشتیم که به طور غیرضروری بزرگ است. بسیاری از این کلمات فقط در یک نمونه ظاهر می‌شوند و بنابراین نمی‌توانند به طور معناداری برای طبقه‌بندی استفاده شوند.

متغیرهای train_data و test_data لیستی از نقدها هستند؛ هر نقد لیستی از شاخص‌های کلمات (که یک دنباله از کلمات را کدگذاری می‌کنند) است. train_labels و test_labels لیستی از ۰ و ۱ هستند که ۰ به معنای منفی و ۱ به معنای مثبت است.

>>> train_data[0]

[1, 14, 22, 16, … 178, 32]

>>> train_labels[0]

چون خودمان را به ۱۰,۰۰۰ کلمه پرتکرار محدود کرده‌ایم، هیچ شاخص کلمه‌ای از ۱۰,۰۰۰ بیشتر نخواهد شد:

>>> max([max(sequence) for sequence in train_data])

9999

برای اینکه یک ایده بگیرید، در اینجا روشی سریع برای بازگرداندن (decode) یکی از این نقدها به کلمات انگلیسی آورده شده است.

قطعه کد ۴.۲ بازگرداندن نقدها به متن

word_index = imdb.get_word_index()

word_index یک دیکشنری است که کلمات را به یک شاخص عددی (عدد صحیح) نگاشت می‌کند.

reverse_word_index = dict(

[(value, key) for (key, value) in word_index.items()])

آن را برعکس می‌کند، یعنی شاخص‌های عددی (صحیح) را به کلمات نگاشت می‌کند.

decoded_review = ” “.join(

[reverse_word_index.get(i – 3, “?”) for i in train_data[0]])

نقد را رمزگشایی (decode) می‌کند. توجه داشته باشید که شاخص‌ها ۳ واحد آفست دارند زیرا ۰، ۱ و ۲ شاخص‌های رزرو شده برای «padding»، «شروع دنباله» و «نامعلوم» هستند.

آماده‌سازی داده‌ها

شما نمی‌توانید مستقیماً لیست‌هایی از اعداد صحیح را به یک شبکه عصبی وارد کنید. همه آنها طول‌های متفاوتی دارند، اما یک شبکه عصبی انتظار دارد دسته‌های پیوسته داده را پردازش کند. شما باید لیست‌های خود را به تنسور تبدیل کنید. دو راه برای انجام این کار وجود دارد:

لیست‌های خود را پدگذاری (pad) کنید تا همگی طول یکسانی داشته باشند، آنها را به یک تنسور عدد صحیح با شکل (نمونه‌ها، حداکثر_طول) تبدیل کنید، و مدل خود را با لایه‌ای که قادر به مدیریت چنین تنسورهای عدد صحیحی است لایه Embedding، که بعداً در کتاب به تفصیل آن را پوشش خواهیم داد شروع کنید.
لیست‌های خود را به روش multi-hot encode تبدیل کنید تا به بردارهایی از ۰ و ۱ تبدیل شوند. این بدان معناست، برای مثال، تبدیل دنباله[8,5] به یک بردار ۱۰,۰۰۰ بعدی که به جز شاخص‌های ۸ و ۵ (که ۱ خواهند بود)، همگی ۰ خواهند بود. سپس می‌توانید از یک لایه Dense، که قادر به مدیریت داده‌های برداری با ممیز شناور است، به عنوان اولین لایه در مدل خود استفاده کنید.

بیایید راه حل دوم را برای برداری کردن داده‌ها انتخاب کنیم، که برای حداکثر وضوح، آن را به صورت دستی انجام خواهید داد.

قطعه کد ۴.۳: رمزگذاری دنباله‌های عدد صحیح از طریق رمزگذاری multi-hot

import numpy as np

def vectorize_sequences(sequences, dimension=10000):

results = np.zeros((len(sequences), dimension))

یک ماتریس کاملاً صفر با شکل (len(sequences), dimension) ایجاد می‌کند.

for i, sequence in enumerate(sequences):

for j in sequence:

results[i, j] = 1.

شاخص‌های خاصی از results[i] را به ۱ تغییر می‌دهد.

return results

x_train = vectorize_sequences(train_data)

داده‌های آموزشی برداری‌شده

x_test = vectorize_sequences(test_data)

داده‌های آزمایشی برداری‌شده

نمونه‌ها اکنون به این شکل هستند:

>>> x_train[0]

array([ 0., 1., 1., …, 0., 0., 0.])

شما همچنین باید برچسب‌های خود را برداری کنید، که کار ساده‌ای است:

y_train = np.asarray(train_labels).astype(“float32”)

y_test = np.asarray(test_labels).astype(“float32”)

حالا داده‌ها آماده هستند تا به یک شبکه عصبی وارد شوند.

ساخت مدل

داده‌های ورودی بردار هستند و برچسب‌ها اسکالر (۱ و ۰): این یکی از ساده‌ترین تنظیمات مسئله‌ای است که تا به حال با آن روبرو خواهید شد. نوعی از مدل که روی چنین مسئله‌ای خوب عمل می‌کند، یک پشته ساده از لایه‌های کاملاً متصل (Dense) با فعال‌سازی‌های ReLU است.

دو تصمیم کلیدی معماری در مورد چنین پشته‌ای از لایه‌های Dense وجود دارد که باید گرفته شوند:

چند لایه استفاده شود
چند واحد برای هر لایه انتخاب شود

در فصل ۵، اصول رسمی را برای راهنمایی شما در گرفتن این انتخاب‌ها یاد خواهید گرفت. فعلاً، باید در مورد انتخاب‌های معماری زیر به من اعتماد کنید:

دو لایه میانی که هر کدام ۱۶ واحد دارند
یک لایه سوم که پیش‌بینی اسکالر مربوط به احساس نقد فعلی را خروجی می‌دهد

شکل ۴.۱ نشان می‌دهد که مدل چگونه به نظر می‌رسد. و لیست زیر پیاده‌سازی Keras را نشان می‌دهد، مشابه مثال MNIST که قبلاً دیدید.

قطعه کد ۴.۴: تعریف مدل

from tensorflow import keras

from tensorflow.keras import layers

model = keras.Sequential([

layers.Dense(16, activation=”relu”), layers.Dense(16, activation=”relu”), layers.Dense(1, activation=”sigmoid”)

])

اولین آرگومانی که به هر لایه Dense پاس داده می‌شود، تعداد واحدها در آن لایه است: بُعد فضای بازنمایی آن لایه. از فصل‌های ۲ و ۳ به خاطر دارید که هر لایه Dense با فعال‌سازی ReLU، زنجیره عملیات تنسور زیر را پیاده‌سازی می‌کند:

output = relu(dot(input, W) + b)

داشتن ۱۶ واحد به این معنی است که ماتریس وزن W شکلی معادل (بعد ورودی، ۱۶) خواهد داشت: ضرب نقطه‌ای با W، داده ورودی را بر روی یک فضای بازنمایی ۱۶ بعدی نگاشت می‌کند (و سپس بردار بایاس b را اضافه کرده و عملیات ReLU را اعمال خواهید کرد). شما می‌توانید به طور شهودی بُعد فضای بازنمایی خود را به عنوان «میزان آزادی که به مدل برای یادگیری بازنمایی‌های داخلی می‌دهید» درک کنید. داشتن واحدهای بیشتر (یک فضای بازنمایی با ابعاد بالاتر) به مدل شما اجازه می‌دهد بازنمایی‌های پیچیده‌تری را یاد بگیرد، اما مدل را از نظر محاسباتی پرهزینه‌تر می‌کند و ممکن است منجر به یادگیری الگوهای ناخواسته شود (الگوهایی که عملکرد را در داده‌های آموزشی بهبود می‌بخشند اما در داده‌های آزمایشی نه).

لایه‌های میانی از ReLU به عنوان تابع فعال‌سازی خود استفاده می‌کنند و لایه نهایی از فعال‌سازی سیگموئید استفاده می‌کند تا یک احتمال را خروجی دهد (امتیازی بین ۰ و ۱ که نشان می‌دهد چقدر احتمال دارد نمونه دارای هدف “۱” باشد: چقدر احتمال دارد نقد مثبت باشد). یک ReLU (واحد خطی یکسوساز) تابعی است که مقادیر منفی را صفر می‌کند (به شکل ۴.۲ مراجعه کنید)، در حالی که یک سیگموئید مقادیر دلخواه را به بازه [۰, ۱] “فشرده” می‌کند (به شکل ۴.۳ مراجعه کنید) و چیزی را خروجی می‌دهد که می‌تواند به عنوان یک احتمال تفسیر شود.

در نهایت، باید یک تابع زیان (loss function) و یک بهینه‌ساز (optimizer) انتخاب کنید. از آنجایی که با یک مسئله طبقه‌بندی دودویی روبرو هستید و خروجی مدل شما یک احتمال است (شما مدل خود را با یک لایه تک‌واحدی با فعال‌سازی سیگموئید به پایان می‌رسانید)، بهترین کار استفاده از تابع زیان binary_crossentropy است. این تنها انتخاب ممکن نیست؛ برای مثال، می‌توانید از mean_squared_error نیز استفاده کنید. اما cross-entropy معمولاً بهترین انتخاب هنگام کار کردن با…

———————————————————————————

توابع فعال‌سازی چه هستند و چرا ضروری‌اند؟

بدون یک تابع فعال‌سازی مانند ReLU (که به آن غیرخطی بودن نیز گفته می‌شود)، لایه Dense شامل دو عملیات خطی خواهد بود—یک ضرب نقطه‌ای و یک جمع:

output = dot(input, W) + b

این لایه تنها می‌توانست تبدیلات خطی (تبدیلات افاین) از داده‌های ورودی را یاد بگیرد: فضای فرضیه این لایه مجموعه تمام تبدیلات خطی ممکن داده‌های ورودی به یک فضای ۱۶ بعدی خواهد بود. چنین فضای فرضیه‌ای بسیار محدود است و از چندین لایه بازنمایی بهره‌ای نمی‌برد، زیرا یک پشته عمیق از لایه‌های خطی باز هم یک عملیات خطی را پیاده‌سازی می‌کرد: افزودن لایه‌های بیشتر فضای فرضیه را گسترش نمی‌داد همانطور که در فصل ۲ دیدید.

برای دستیابی به یک فضای فرضیه بسیار غنی‌تر که از بازنمایی‌های عمیق بهره ببرد، به یک غیرخطی بودن، یا تابع فعال‌سازی نیاز دارید. ReLU محبوب‌ترین تابع فعال‌سازی در یادگیری عمیق است، اما بسیاری از کاندیداهای دیگر نیز وجود دارند که همگی با نام‌های عجیب و غریب مشابهی همراه هستند: PReLU، ELU و غیره.

—————————————————————————————-

با مدل‌هایی که احتمالات را خروجی می‌دهند. Cross-entropy کمیتی از حوزه نظریه اطلاعات است که فاصله بین توزیع‌های احتمال یا در این مورد، بین توزیع حقیقت زمینی و پیش‌بینی‌های شما را اندازه‌گیری می‌کند.

در مورد انتخاب بهینه‌ساز، ما rmsprop را انتخاب می‌کنیم، که معمولاً یک گزینه پیش‌فرض خوب برای تقریباً هر مسئله‌ای است.

این گامی است که در آن مدل را با بهینه‌ساز rmsprop و تابع زیان binary_crossentropy پیکربندی می‌کنیم. توجه داشته باشید که دقت (accuracy) را نیز در طول آموزش پایش خواهیم کرد.

قطعه کد ۴.۵: کامپایل کردن مدل

model.compile(optimizer=”rmsprop”,

loss=”binary_crossentropy”,

metrics=[“accuracy”])

اعتبار سنجی رویکرد

همانطور که در فصل ۳ آموختید، یک مدل یادگیری عمیق هرگز نباید بر روی داده‌های آموزشی خود ارزیابی شود – رویه استاندارد استفاده از یک مجموعه اعتبارسنجی برای پایش دقت مدل در طول آموزش است. در اینجا، ما یک مجموعه اعتبارسنجی با کنار گذاشتن ۱۰,۰۰۰ نمونه از داده‌های آموزشی اصلی ایجاد خواهیم کرد.

قطعه کد ۴.۶: اختصاص یک مجموعه اعتبارسنجی

x_val = x_train[:10000]

partial_x_train = x_train[10000:]

y_val = y_train[:10000]

partial_y_train = y_train[10000:]

اکنون مدل را برای ۲۰ دوره (epoch) (۲۰ بار تکرار روی تمام نمونه‌ها در داده‌های آموزشی) در مینی-بچ‌هایی با اندازه ۵۱۲ نمونه آموزش خواهیم داد. همزمان، زیان (loss) و دقت (accuracy) را بر روی ۱۰,۰۰۰ نمونه‌ای که کنار گذاشتیم، پایش می‌کنیم. این کار را با ارسال داده‌های اعتبارسنجی به عنوان آرگومان validation_data انجام می‌دهیم.

قطعه کد ۴.۷: آموزش مدل

history = model.fit(partial_x_train,

partial_y_train,

epochs=20,

batch_size=512,

validation_data=(x_val, y_val))

روی CPU، این کار کمتر از ۲ ثانیه در هر epoch طول می‌کشد—آموزش در ۲۰ ثانیه به پایان می‌رسد. در پایان هر epoch، مکث کوتاهی وجود دارد زیرا مدل زیان و دقت خود را بر روی ۱۰,۰۰۰ نمونه از داده‌های اعتبارسنجی محاسبه می‌کند.

توجه داشته باشید که فراخوانی model.fit() یک شیء History را برمی‌گرداند، همانطور که در فصل ۳ دیدید. این شیء یک عضو history دارد که دیکشنری حاوی داده‌هایی درباره هر آنچه در طول آموزش اتفاق افتاده است. بیایید به آن نگاهی بیندازیم:

>>> history_dict = history.history

>>> history_dict.keys()

[u”accuracy”, u”loss”, u”val_accuracy”, u”val_loss”]

این دیکشنری شامل چهار ورودی است: یکی برای هر معیار که در طول آموزش و در طول اعتبارسنجی پایش می‌شد. در دو لیست زیر، بیایید از Matplotlib برای رسم همزمان زیان آموزش و اعتبارسنجی (به شکل ۴.۴ مراجعه کنید) و همچنین دقت آموزش و اعتبارسنجی (به شکل ۴.۵ مراجعه کنید) استفاده کنیم. توجه داشته باشید که نتایج شما ممکن است به دلیل مقداردهی اولیه تصادفی متفاوت مدل شما کمی فرق کند.

شکل ۴.۴ – خطای آموزش (Training Loss) و خطای اعتبارسنجی (Validation Loss)

شکل ۴.۵ – دقت آموزش و دقت اعتبارسنجی (Training and Validation Accuracy)

قطعه کد ۴.۸ – رسم نمودار خطای آموزش و اعتبارسنجی (Training and Validation Loss)

import matplotlib.pyplot as plt

history_dict = history.history

loss_values = history_dict[“loss”]

val_loss_values = history_dict[“val_loss”]

epochs = range(1, len(loss_values) + 1)

plt.plot(epochs, loss_values, “bo”, label=”Training loss”)

“bo” به معنای “نقطه آبی” است.

plt.plot(epochs, val_loss_values, “b”, label=”Validation loss”)

“b” به معنای “خط آبی پررنگ” است.

plt.title(“Training and validation loss”)

plt.xlabel(“Epochs”)

plt.ylabel(“Loss”)

plt.legend()

plt.show()

قطعه کد ۴.۹ – رسم نمودار دقت آموزش و دقت اعتبارسنجی(Training and Validation Accuracy)

plt.clf()

شکل را پاک می‌کند.

acc = history_dict[“accuracy”]

val_acc = history_dict[“val_accuracy”]

plt.plot(epochs, acc, “bo”, label=”Training acc”)

plt.plot(epochs, val_acc, “b”, label=”Validation acc”) plt.title(“Training and validation accuracy”)

plt.xlabel(“Epochs”)

plt.ylabel(“Accuracy”) plt.legend() plt.show()

همانطور که می‌بینید، زیان آموزش با هر دوره کاهش می‌یابد و دقت آموزش با هر دوره افزایش می‌یابد. این همان چیزی است که هنگام اجرای بهینه‌سازی گرادیان کاهشی انتظار می‌رود – کمیتی که سعی در حداقل کردن آن دارید باید با هر تکرار کمتر شود. اما این مورد برای زیان و دقت اعتبارسنجی صادق نیست: به نظر می‌رسد آنها در دوره چهارم به اوج خود می‌رسند.

این نمونه‌ای از چیزی است که قبلاً در مورد آن هشدار دادیم: مدلی که بر روی داده‌های آموزشی عملکرد بهتری دارد، لزوماً مدلی نیست که بر روی داده‌هایی که قبلاً ندیده است، بهتر عمل کند. به عبارت دقیق‌تر، آنچه شما می‌بینید بیش‌برازش (overfitting) است: پس از دوره چهارم، شما بیش از حد روی داده‌های آموزشی بهینه‌سازی می‌کنید و در نهایت بازنمایی‌هایی را یاد می‌گیرید که مختص داده‌های آموزشی هستند و به داده‌های خارج از مجموعه آموزشی تعمیم نمی‌یابند.

در این حالت، برای جلوگیری از بیش‌برازش، می‌توانید آموزش را پس از چهار دوره متوقف کنید. به طور کلی، می‌توانید از طیف وسیعی از تکنیک‌ها برای کاهش بیش‌برازش استفاده کنید که در فصل ۵ آن‌ها را پوشش خواهیم داد.

بیایید یک مدل جدید را از ابتدا برای چهار دوره آموزش دهیم و سپس آن را روی داده‌های آزمایش ارزیابی کنیم.

قطعه کد ۴.۱۰ – بازآموزی (آموزش مجدد) یک مدل از ابتدا(Retraining a model from scratch)

model = keras.Sequential([

layers.Dense(16, activation=”relu”),

layers.Dense(1, activation=”sigmoid”)

])

model.compile(optimizer=”rmsprop”,

loss=”binary_crossentropy”,

metrics=[“accuracy”])

model.fit(x_train, y_train, epochs=4, batch_size=512)

results = model.evaluate(x_test, y_test)

نتایج نهایی به شرح زیر است:

>>> results

[0.2929924130630493, 0.88327999999999995]

عدد اول، ۰.۲۹، زیان آزمایش (test loss) است و عدد دوم، ۰.۸۸، دقت آزمایش (test accuracy) است.

این رویکرد نسبتاً ساده‌انگارانه به دقت ۸۸% دست می‌یابد. با رویکردهای پیشرفته (state-of-the-art)، باید بتوانید به حدود ۹۵% نزدیک شوید.

استفاده از یک مدل آموزش‌دیده برای تولید پیش‌بینی روی داده‌های جدید

پس از آموزش یک مدل، می‌خواهید از آن در یک محیط عملی استفاده کنید. می‌توانید با استفاده از متد predict، همانطور که در فصل ۳ آموختید، احتمال مثبت بودن نقدها را تولید کنید:

>>> model.predict(x_test)

array([[ 0.98006207]

[ 0.99758697]

[ 0.99975556]

…,

[ 0.82167041]

[ 0.02885115]

[ 0.65371346]], dtype=float32)

همانطور که می‌بینید، مدل برای برخی نمونه‌ها (۰.۹۹ یا بیشتر، یا ۰.۰۱ یا کمتر) مطمئن است، اما برای برخی دیگر) ۰.4، ۰.6 (اطمینان کمتری دارد.

آزمایش‌های بیشتر

آزمایش‌های زیر به شما کمک می‌کند متقاعد شوید که انتخاب‌های معماری شما کاملاً منطقی هستند، هرچند هنوز جای بهبود وجود دارد:

شما از دو لایه بازنمایی قبل از لایه طبقه‌بندی نهایی استفاده کردید. سعی کنید از یک یا سه لایه بازنمایی استفاده کنید و ببینید این کار چگونه بر دقت اعتبارسنجی و آزمایش تأثیر می‌گذارد.
سعی کنید از لایه‌هایی با واحدهای بیشتر یا کمتر استفاده کنید: ۳۲ واحد، ۶۴ واحد و غیره.
سعی کنید به جای binary_crossentropy از تابع زیان mse استفاده کنید.
سعی کنید به جای relu از فعال‌سازی tanh (یک فعال‌سازی که در اوایل ظهور شبکه‌های عصبی محبوب بود) استفاده کنید.

جمع‌بندی

آنچه باید از این مثال برداشت کنید:

شما معمولاً باید پیش‌پردازش نسبتاً زیادی را روی داده‌های خام خود انجام دهید تا بتوانید آن‌ها را — به صورت تنسور — به یک شبکه عصبی وارد کنید. دنباله‌های کلمات می‌توانند به عنوان بردارهای دودویی کدگذاری شوند، اما گزینه‌های کدگذاری دیگری نیز وجود دارد.
پشته‌هایی از لایه‌های Dense با فعال‌سازی‌های ReLU می‌توانند طیف وسیعی از مسائل (از جمله طبقه‌بندی احساسات) را حل کنند و احتمالاً شما به طور مکرر از آن‌ها استفاده خواهید کرد.
در یک مسئله طبقه‌بندی دودویی (دو کلاس خروجی)، مدل شما باید با یک لایه Dense با یک واحد و یک فعال‌سازی سیگموئید به پایان برسد: خروجی مدل شما باید یک اسکالر بین ۰ و ۱ باشد که یک احتمال را کدگذاری می‌کند.
با چنین خروجی سیگموئید اسکالر در یک مسئله طبقه‌بندی دودویی، تابع زیانی که باید استفاده کنید binary_crossentropy است.
بهینه‌ساز rmsprop عموماً یک انتخاب به اندازه کافی خوب است، هر مسئله‌ای که داشته باشید. این یکی از دغدغه‌هایی است که کمتر نگران آن خواهید بود.
همانطور که شبکه‌های عصبی در داده‌های آموزشی خود بهتر می‌شوند، در نهایت شروع به بیش‌برازش (overfitting) می‌کنند و نتایج بدتری را روی داده‌هایی که قبلاً ندیده‌اند، به دست می‌آورند. همیشه از پایش عملکرد روی داده‌هایی که خارج از مجموعه آموزشی هستند، اطمینان حاصل کنید.

طبقه‌بندی خبرها: یک مثال طبقه‌بندی چندکلاسه

در بخش قبلی، دیدید که چگونه ورودی‌های برداری را به دو کلاس متقابلاً انحصاری با استفاده از یک شبکه عصبی کاملاً متصل طبقه‌بندی کنید. اما وقتی بیش از دو کلاس داشته باشید چه اتفاقی می‌افتد؟

در این بخش، ما یک مدل برای طبقه‌بندی اخبار رویترز به ۴۶ موضوع متقابلاً انحصاری خواهیم ساخت. از آنجایی که ما کلاس‌های زیادی داریم، این مسئله نمونه‌ای از طبقه‌بندی چندکلاسه است، و از آنجایی که هر نقطه داده باید فقط در یک دسته طبقه‌بندی شود، این مسئله به طور خاص نمونه‌ای از طبقه‌بندی چندکلاسه تک‌برچسبی است. اگر هر نقطه داده می‌توانست به چندین دسته (در این حالت، موضوعات) تعلق داشته باشد، ما با یک مسئله طبقه‌بندی چندکلاسه چندبرچسبی روبرو بودیم.

مجموعه داده رویترز

شما با مجموعه داده رویترز کار خواهید کرد، مجموعه‌ای از خبرهای کوتاه و موضوعات آن‌ها که توسط رویترز در سال ۱۹۸۶ منتشر شده است. این یک مجموعه داده نمونه ساده و پرکاربرد برای طبقه‌بندی متن است. ۴۶ موضوع مختلف وجود دارد؛ برخی موضوعات بیشتر از دیگران بازنمایی شده‌اند، اما هر موضوع حداقل ۱۰ مثال در مجموعه آموزشی دارد.

مانند IMDB و MNIST، مجموعه داده رویترز به عنوان بخشی از Keras بسته‌بندی شده است. بیایید نگاهی بیندازیم.

قطعه کد ۴.۱۱ – بارگذاری دیتاست(مجموع داده های ) رویترز

from tensorflow.keras.datasets import reuters

(train_data, train_labels), (test_data, test_labels) = reuters.load_data(

num_words=10000)

مانند مجموعه داده IMDB، آرگومان num_words=10000 داده‌ها را به ۱۰,۰۰۰ کلمه پرتکرار یافت شده در داده‌ها محدود می‌کند.

شما ۸,۹۸۲ نمونه آموزشی و ۲,۲۴۶ نمونه آزمایشی دارید:

>>> len(train_data)

8982

>>> len(test_data)

2246

مانند نقدهای IMDB، هر مثال لیستی از اعداد صحیح (شاخص‌های کلمات) است:

>>> train_data[10]

[1, 245, 273, 207, 156, 53, 74, 160, 26, 14, 46, 296, 26, 39, 74, 2979,

3554, 14, 46, 4689, 4329, 86, 61, 3499, 4795, 14, 61, 451, 4329, 17, 12]

اگر کنجکاو هستید، در اینجا نحوه بازگرداندن (decode) آن به کلمات آورده شده است.

قطعه کد ۴.۱۲ – بازگردانی خبرها به متن قابل‌خواندن

word_index = reuters.get_word_index() reverse_word_index = dict(

[(value, key) for (key, value) in word_index.items()])

decoded_newswire = ” “.join(

[reverse_word_index.get(i – 3, “?”) for i in train_data[0]])

توجه داشته باشید که شاخص‌ها ۳ واحد آفست دارند زیرا ۰، ۱ و ۲ شاخص‌های رزرو شده برای «پدگذاری (padding)»، «شروع دنباله (start of sequence)» و «نامعلوم (unknown)» هستند.

برچسب مرتبط با یک مثال، یک عدد صحیح بین ۰ تا ۴۵ است — یک شاخص موضوع:

>>> train_labels[10]