فصل دوازدهم: ترانسفورماتورها

black-swan-theory

1. مقدمه

ترانسفورماتورها یک نوع معماری مبتنی بر توجه هستند که ابتدا برای پردازش زبان طراحی شد، اما بعداً به حوزه‌های دیگری مانند بینایی نیز گسترش یافت. مزیت اصلی آن‌ها پردازش موازی و امکان درک وابستگی‌های طولانی در دنباله‌هاست.

 

2. معماری ترانسفورماتور

2.1. مکانیزم توجه

برای هر توکن، سه بردار استخراج می‌شود:

بردار پرس‌وجو: $Q$
بردار کلید: $K$
بردار مقدار: $V$

فرمول محاسبه توجه به شکل زیر است:

 

A(Q,K,V)=softmax(QKd)VA(Q, K, V) = \mathrm{softmax} \left( \frac{Q K^\top}{\sqrt{d}} \right) V

 

که در آن $d$ تعداد ابعاد بردارهای $Q$ و $K$ است.

2.2. توجه چندسر

توجه چندگانه (Multi-Head Attention) از ترکیب چند واحد توجه موازی تشکیل می‌شود:

 

MHA(Q,K,V)=Concat(H1,,Hh)WO\mathrm{MHA}(Q, K, V) = \mathrm{Concat}(H_1, \dots, H_h) W^O

 

که در آن:

 

Hi=A(QWiQ,KWiK,VWiV)H_i = A(Q W_i^Q, K W_i^K, V W_i^V)

 

و $W_i^Q$, $W_i^K$, $W_i^V$, $W^O$ ماتریس‌های وزن آموزش‌پذیر هستند.

2.3. رمزگذاری موقعیتی

برای افزودن ترتیب به ورودی‌ها از توابع سینوسی و کسینوسی استفاده می‌شود:

برای بُعد زوج:

 

PE(pos,2i)=sin(pos100002i/d)PE(pos, 2i) = \sin \left( \frac{pos}{10000^{2i/d}} \right)

 

و برای بُعد فرد:

 

PE(pos,2i+1)=cos(pos100002i/d)PE(pos, 2i+1) = \cos \left( \frac{pos}{10000^{2i/d}} \right)

 

که در آن $pos$ موقعیت توکن و $d$ تعداد کل ابعاد بردار است.

2.4.ساختار لایه‌ها

هر بلوک از لایه‌های زیر تشکیل شده است: اتصال باقی‌مانده و نرمال‌سازی لایه‌ای. شکل کلی:

 

LayerNorm(x+Sublayer(x))\mathrm{LayerNorm}(x + \mathrm{Sublayer}(x))

 

3. انواع مدل‌های ترانسفورمری

  • رمزگذار تنها: برای تحلیل متن

  • رمزگشا تنها: برای تولید متن

  • ترکیبی رمزگذار-رمزگشا: برای وظایفی مانند ترجمه

 

4. کاربرد در تصاویر

با تقسیم تصویر به قطعات (پچ) و پردازش آن‌ها به‌صورت دنباله‌ای، ترانسفورماتورها می‌توانند برای ورودی تصویری نیز استفاده شوند. مدل‌های برجسته شامل ViT و Swin Transformer هستند.

 

5. مراحل آموزش

  • پیش‌آموزش: حذف توکن‌ها و پیش‌بینی آن‌ها یا پیش‌بینی خودرگرسیو توکن بعدی

  • تنظیم دقیق: آموزش مدل روی داده خاص وظیفه نهایی

 

6. چالش‌ها و راهکارها

  • پیچیدگی بالا: استفاده از مدل‌های کارآمدتر مانند Longformer

  • حجم بالای داده مورد نیاز: استفاده از مدل‌های از پیش آموزش‌دیده

 

نتیجه‌گیری

ترانسفورماتورها به عنوان یک معماری پایه در یادگیری عمیق تحول بزرگی ایجاد کرده‌اند و مسیر توسعه مدل‌های هوشمندتر را هموار کرده‌اند.