مدل ترانسفورماتور چیست؟

مدل ترانسفورماتور یک معماری شبکه عصبی است که می تواند به طور خودکار یک نوع ورودی را به نوع دیگری از خروجی تبدیل کند. این اصطلاح در مقاله گوگل در سال 2017 ابداع شد که راهی برای آموزش شبکه عصبی برای ترجمه انگلیسی به فرانسوی با دقت بیشتر و یک چهارم زمان آموزش شبکه های عصبی دیگر پیدا کرد.

این تکنیک بیش از آنچه نویسندگان تصور می‌کردند قابل تعمیم بود و ترانسفورماتورها در تولید متن، تصاویر و دستورالعمل‌های روبات استفاده می‌شوند. همچنین می‌تواند روابط بین حالت‌های مختلف داده، به نام هوش مصنوعی چندوجهی، را برای تبدیل دستورالعمل‌های زبان طبیعی به تصاویر یا دستورالعمل‌های روبات مدل‌سازی کند.

ترانسفورماتورها در همه برنامه های کاربردی مدل زبان بزرگ (LLM) از جمله ChatGPT، جستجوی Google، Dall-E و Microsoft Copilot بسیار مهم هستند.

تقریباً همه برنامه‌هایی که از پردازش زبان طبیعی استفاده می‌کنند، اکنون از ترانسفورماتورهای زیر هود استفاده می‌کنند، زیرا عملکرد بهتری نسبت به روش‌های قبلی دارند. محققان همچنین کشف کرده‌اند که مدل‌های ترانسفورماتور می‌توانند کار با ساختارهای شیمیایی، پیش‌بینی تاخوردگی پروتئین و تجزیه و تحلیل داده‌های پزشکی را در مقیاس بیاموزند.

یکی از جنبه‌های اساسی ترانسفورماتورها این است که چگونه از مفهوم هوش مصنوعی به نام توجه برای تأکید بر وزن کلمات مرتبط استفاده می‌کنند که می‌تواند به رنگ آمیزی متن برای یک کلمه یا نشانه برای توصیف برخی دیگر از داده‌ها – مانند بخشی از یک تصویر کمک کند. یا ساختار پروتئین — یا واج گفتار.

مفهوم توجه از دهه 1990 به عنوان یک تکنیک پردازش مطرح شده است. با این حال، در سال 2017، تیمی از کارگران گوگل پیشنهاد کردند که می توانند از توجه برای رمزگذاری مستقیم معنای کلمات و ساختار یک زبان خاص استفاده کنند. این انقلابی بود زیرا جایگزین آنچه قبلاً نیاز به یک مرحله رمزگذاری اضافی با استفاده از یک شبکه عصبی اختصاصی داشت. همچنین راهی را برای مدل‌سازی هر نوع اطلاعاتی باز کرد و راه را برای پیشرفت‌های خارق‌العاده‌ای که در چند سال گذشته پدیدار شده بود هموار کرد.

مدل ترانسفورماتور چه کاری می تواند انجام دهد؟

ترانسفورماتورها به تدریج محبوب‌ترین انواع معماری شبکه‌های عصبی یادگیری عمیق را در بسیاری از کاربردها، از جمله شبکه‌های عصبی بازگشتی (RNN) و شبکه‌های عصبی کانولوشنال (CNN) غصب می‌کنند. RNN ها برای پردازش جریان های داده مانند گفتار، جملات و کد ایده آل بودند. اما آنها فقط می توانستند رشته های کوتاه تری را در یک زمان پردازش کنند. تکنیک‌های جدیدتر، مانند حافظه کوتاه‌مدت، رویکردهای RNN بودند که می‌توانستند رشته‌های طولانی‌تری را پشتیبانی کنند، اما همچنان محدود و کند بودند. در مقابل، ترانسفورماتورها می توانند سری های طولانی تری را پردازش کنند، و می توانند هر کلمه یا نشانه را به صورت موازی پردازش کنند، که به آنها امکان می دهد مقیاس کارآمدتری داشته باشند.

CNN ها برای پردازش داده ها ایده آل هستند، مانند تجزیه و تحلیل چندین ناحیه از یک عکس به صورت موازی برای شباهت در ویژگی هایی مانند خطوط، شکل ها و بافت ها. این شبکه ها برای مقایسه مناطق مجاور بهینه شده اند. مدل‌های ترانسفورماتور، مانند Vision Transformer که در سال 2021 معرفی شد، در مقایسه با مناطقی که ممکن است از یکدیگر دور باشند، در مقایسه با یکدیگر به نظر می‌رسد عملکرد بهتری دارند. ترانسفورماتورها همچنین کار با داده های بدون برچسب را بهتر انجام می دهند.

ترانسفورماتورها می توانند یاد بگیرند که به طور موثر معنای یک متن را با تجزیه و تحلیل حجم های بزرگتر از داده های بدون برچسب نشان دهند. این به محققان اجازه می دهد تا ترانسفورماتورها را برای پشتیبانی از صدها میلیارد و حتی تریلیون ها ویژگی تغییر دهند. در عمل، مدل های از پیش آموزش دیده ایجاد شده با داده های بدون برچسب تنها به عنوان نقطه شروعی برای اصلاح بیشتر برای یک کار خاص با داده های برچسب دار عمل می کنند. با این حال، این قابل قبول است زیرا مرحله ثانویه به تخصص و قدرت پردازش کمتری نیاز دارد.

معماری مدل ترانسفورماتور

معماری ترانسفورماتور از یک رمزگذار و رمزگشا تشکیل شده است که با هم کار می کنند. مکانیسم توجه به ترانسفورماتورها اجازه می دهد تا معنای کلمات را بر اساس اهمیت تخمین زده شده سایر کلمات یا نشانه ها رمزگذاری کنند. این ترانسفورماتورها را قادر می‌سازد تا تمام کلمات یا نشانه‌ها را به صورت موازی برای عملکرد سریع‌تر پردازش کنند و به رشد LLM‌های بزرگ‌تر کمک کند.

به لطف مکانیسم توجه، بلوک رمزگذار هر کلمه یا نشانه را به بردارهایی تبدیل می کند که با کلمات دیگر وزن بیشتری دارند. به عنوان مثال، در دو جمله زیر، به دلیل تغییر کلمه پر شده به خالی، وزن معنای آن متفاوت است:

پارچ را در فنجان ریخت و پر کرد.
پارچ را در جام ریخت و آن را خالی کرد.

مکانیسم توجه آن را به فنجانی که در جمله اول پر می شود و در جمله دوم به پارچ که در حال خالی شدن است وصل می کند.

رمزگشا اساساً فرآیند را در حوزه هدف معکوس می کند. مورد استفاده اصلی ترجمه انگلیسی به فرانسوی بود، اما همین مکانیسم می‌توانست سوالات و دستورالعمل‌های انگلیسی کوتاه را به پاسخ‌های طولانی‌تر تبدیل کند. برعکس، می‌تواند یک مقاله طولانی‌تر را به خلاصه‌ای مختصرتر تبدیل کند.

نموداری که معماری یک مدل ترانسفورماتور را نشان می دهد

معماری مدل ترانسفورماتور.

آموزش مدل ترانسفورماتور

دو مرحله کلیدی در آموزش ترانسفورماتور وجود دارد. در مرحله اول، یک ترانسفورماتور حجم بزرگی از داده‌های بدون برچسب را پردازش می‌کند تا ساختار زبان یا پدیده‌ای مانند تا شدن پروتئین و اینکه چگونه عناصر نزدیک به نظر بر یکدیگر تأثیر می‌گذارند را بیاموزد. این یک جنبه پرهزینه و انرژی بر فرآیند است. ممکن است برای آموزش برخی از بزرگترین مدل ها میلیون ها دلار هزینه شود.

هنگامی که مدل آموزش داده شد، تنظیم دقیق آن برای یک کار خاص مفید است. یک شرکت فناوری ممکن است بخواهد یک ربات چت را تنظیم کند تا به سوالات مختلف خدمات مشتری و پشتیبانی فنی با سطوح مختلف جزئیات بسته به دانش کاربر پاسخ دهد. یک شرکت حقوقی ممکن است مدلی را برای تجزیه و تحلیل قراردادها تنظیم کند. یک تیم توسعه ممکن است مدل را با کتابخانه گسترده کد و قراردادهای کدگذاری منحصر به فرد خود تنظیم کند.

فرآیند تنظیم دقیق به تخصص و قدرت پردازشی کمتری نیاز دارد. طرفداران ترانسفورماتورها استدلال می کنند که هزینه های زیادی که برای آموزش مدل های همه منظوره بزرگتر صرف می شود می تواند نتیجه دهد زیرا باعث صرفه جویی در زمان و هزینه در سفارشی سازی مدل برای موارد مختلف استفاده می شود.

از تعداد ویژگی‌های یک مدل به‌جای معیارهای برجسته‌تر، گاهی اوقات به‌عنوان پراکسی برای عملکرد آن استفاده می‌شود. با این حال، تعداد ویژگی ها – یا اندازه مدل – به طور مستقیم با عملکرد یا ابزار کالیبره نمی شود. به عنوان مثال، گوگل اخیراً با استفاده از تکنیک ترکیبی از متخصصان که تقریباً هفت برابر کارآمدتر از سایر مدل ها است، آموزش کارآمدتر LLM ها را آزمایش کرد. اگرچه برخی از این مدل‌های حاصل بیش از یک تریلیون پارامتر داشتند، اما دقت کمتری نسبت به مدل‌هایی با پارامترهای صدها برابر کمتر داشتند.

با این حال، متا اخیراً گزارش داد که متا AI مدل زبان بزرگ (Llama) با 13 میلیارد پارامتر نسبت به مدل ترانسفورماتور از پیش آموزش‌دیده (GPT) 175 میلیارد پارامتری در معیارهای اصلی عملکرد بهتری داشت. یک نوع 65 میلیارد پارامتری از Llama با عملکرد مدل هایی با بیش از 500 میلیارد پارامتر مطابقت داشت.

برنامه های کاربردی مدل ترانسفورماتور

ترانسفورماتورها را می توان تقریباً برای هر کاری که یک نوع ورودی معین را برای تولید یک خروجی پردازش می کند، اعمال کرد. مثالها شامل موارد استفاده زیر است:

ترجمه از یک زبان به زبان دیگر.
برنامه نویسی چت ربات های جذاب تر و مفیدتر.
جمع بندی اسناد طولانی
ایجاد یک سند طولانی از یک درخواست کوتاه.
ایجاد ساختارهای شیمیایی دارو بر اساس یک دستور خاص.
تولید تصاویر از یک درخواست متنی
ایجاد زیرنویس برای یک تصویر
ایجاد یک اسکریپت اتوماسیون فرآیند رباتیک (RPA) از یک توضیح مختصر.
ارائه پیشنهادات تکمیل کد بر اساس کد موجود.

پیاده سازی مدل ترانسفورماتور

پیاده سازی ترانسفورماتور از نظر اندازه، پشتیبانی از موارد استفاده جدید یا حوزه های مختلف مانند پزشکی، علمی یا برنامه های تجاری در حال بهبود است. در زیر برخی از امیدوار کننده ترین اجرای ترانسفورماتور آورده شده است:

نمایش رمزگذار دو جهته گوگل از ترانسفورمرز یکی از اولین LLM های مبتنی بر ترانسفورماتور بود.
GPT OpenAI از همین روش پیروی کرد و چندین بار تکرار شد، از جمله GPT-2، GPT-3، GPT-3.5، GPT-4 و ChatGPT.
Meta’s Llama عملکردی قابل مقایسه با مدل های 10 برابر اندازه خود دارد.
Google’s Pathways Language Model تعمیم می‌دهد و وظایف را در حوزه‌های مختلف از جمله متن، تصاویر و کنترل‌های روباتیک انجام می‌دهد.
Dall-E AI را باز کنید تصاویر را از توضیحات متن کوتاه ایجاد می کند.
دانشگاه فلوریدا و GatorTron انویدیا داده های بدون ساختار را از سوابق پزشکی تجزیه و تحلیل می کنند.
DeepMind’s Alphafold 2 نحوه جمع شدن پروتئین ها را توضیح می دهد.
AstraZeneca و MegaMolBART انویدیا بر اساس داده‌های ساختار شیمیایی، داروی جدیدی تولید می‌کنند.

مدل ترانسفورماتور چیست؟