فصل دوازدهم: ترانسفورماتورها
1. مقدمه
ترانسفورماتورها یک نوع معماری مبتنی بر توجه هستند که ابتدا برای پردازش زبان طراحی شد، اما بعداً به حوزههای دیگری مانند بینایی نیز گسترش یافت. مزیت اصلی آنها پردازش موازی و امکان درک وابستگیهای طولانی در دنبالههاست.
2. معماری ترانسفورماتور
2.1. مکانیزم توجه
برای هر توکن، سه بردار استخراج میشود:
بردار پرسوجو: $Q$
بردار کلید: $K$
بردار مقدار: $V$
فرمول محاسبه توجه به شکل زیر است:
که در آن $d$ تعداد ابعاد بردارهای $Q$ و $K$ است.
2.2. توجه چندسر
توجه چندگانه (Multi-Head Attention) از ترکیب چند واحد توجه موازی تشکیل میشود:
که در آن:
و $W_i^Q$, $W_i^K$, $W_i^V$, $W^O$ ماتریسهای وزن آموزشپذیر هستند.
2.3. رمزگذاری موقعیتی
برای افزودن ترتیب به ورودیها از توابع سینوسی و کسینوسی استفاده میشود:
برای بُعد زوج:
و برای بُعد فرد:
که در آن $pos$ موقعیت توکن و $d$ تعداد کل ابعاد بردار است.
2.4.ساختار لایهها
هر بلوک از لایههای زیر تشکیل شده است: اتصال باقیمانده و نرمالسازی لایهای. شکل کلی:
3. انواع مدلهای ترانسفورمری
رمزگذار تنها: برای تحلیل متن
رمزگشا تنها: برای تولید متن
ترکیبی رمزگذار-رمزگشا: برای وظایفی مانند ترجمه
4. کاربرد در تصاویر
با تقسیم تصویر به قطعات (پچ) و پردازش آنها بهصورت دنبالهای، ترانسفورماتورها میتوانند برای ورودی تصویری نیز استفاده شوند. مدلهای برجسته شامل ViT و Swin Transformer هستند.
5. مراحل آموزش
پیشآموزش: حذف توکنها و پیشبینی آنها یا پیشبینی خودرگرسیو توکن بعدی
تنظیم دقیق: آموزش مدل روی داده خاص وظیفه نهایی
6. چالشها و راهکارها
پیچیدگی بالا: استفاده از مدلهای کارآمدتر مانند Longformer
حجم بالای داده مورد نیاز: استفاده از مدلهای از پیش آموزشدیده
نتیجهگیری
ترانسفورماتورها به عنوان یک معماری پایه در یادگیری عمیق تحول بزرگی ایجاد کردهاند و مسیر توسعه مدلهای هوشمندتر را هموار کردهاند.