مدل های GAN در مقابل ترانسفورماتور: مقایسه معماری ها و کاربردها

شبکه های متخاصم مولد نوید قابل توجهی برای تولید رسانه هایی مانند تصاویر و صداها و همچنین مولکول های دارو دارند. آنها همچنین یکی از محبوب ترین تکنیک های هوش مصنوعی مولد بودند تا اینکه چند سال پیش ترانسفورماتورها معرفی شدند.

ترانسفورماتورها یک فناوری اساسی هستند که زیربنای بسیاری از پیشرفت‌ها در مدل‌های زبان بزرگ، مانند ترانسفورماتورهای از پیش آموزش‌دیده (GPT) هستند. آنها اکنون در حال گسترش به برنامه‌های هوش مصنوعی چندوجهی هستند که می‌توانند محتوای متنوعی مانند متن، تصاویر، دستورالعمل‌های صوتی و ربات را در انواع رسانه‌های مختلف با کارآمدتری نسبت به تکنیک‌هایی مانند GAN مرتبط کنند.

بیایید شروع هر تکنیک، موارد استفاده از آنها و اینکه چگونه محققان اکنون این دو تکنیک را در ترکیب های مختلف ترانسفورماتور-GAN ترکیب می کنند را بررسی کنیم.

معماری GAN توضیح داد

GAN ها در سال 2014 توسط Ian Goodfellow و همکارانش معرفی شدند تا اعداد و چهره هایی با ظاهر واقعی ایجاد کنند. آنها دو شبکه عصبی زیر را ترکیب می کنند:

  1. یک مولد، که معمولاً یک شبکه عصبی کانولوشن (CNN) است که محتوا را بر اساس پیام متن یا تصویر ایجاد می کند.
  2. یک تمایز، معمولاً یک شبکه عصبی دکانولوشنال که تصاویر معتبر و تقلبی را شناسایی می‌کند.

قبل از GAN ها، بینایی کامپیوتری بود عمدتا انجام می شود آدریان زیداریتز، بنیانگذار مؤسسه دموکراسی قوی تر از طریق هوش مصنوعی، گفت: با CNN هایی که ویژگی های سطح پایین تر یک تصویر، مانند لبه ها و رنگ، و ویژگی های سطح بالاتری که کل اشیاء را نشان می دهند، ثبت می کنند. تازگی معماری GAN ناشی از رویکرد خصمانه آن است که در آن یک شبکه عصبی تصاویر تولید شده را پیشنهاد می‌کند، در حالی که شبکه عصبی آنها را وتو می‌کند اگر به تصاویر معتبر از مجموعه داده‌ای معین نزدیک نشوند.

ساختار GAN

نمودار یک شبکه متخاصم مولد

امروزه محققان در حال بررسی راه هایی برای استفاده از مدل های دیگر شبکه های عصبی از جمله ترانسفورماتور هستند.

معماری ترانسفورماتور توضیح داد

Transformers توسط تیمی از محققان گوگل در سال 2017 معرفی شدند که به دنبال ساخت مترجمی کارآمدتر بودند. در یک کاغذ محققان با عنوان “توجه تنها چیزی است که شما نیاز دارید”، روش جدیدی را برای تشخیص معنای کلمات بر اساس نحوه توصیف کلمات دیگر در عبارات، جملات و مقالات ارائه کردند.

ابزارهای قبلی برای تفسیر متن اغلب از یک شبکه عصبی برای ترجمه کلمات به بردار با استفاده از فرهنگ لغت ساخته شده قبلی و شبکه عصبی دیگری برای پردازش دنباله ای از متن استفاده می کردند، مانند یک شبکه عصبی تکراری (RNN). در مقابل، ترانسفورماتورها اساساً یاد می گیرند که معنای کلمات را مستقیماً از پردازش متن های بزرگ بدون برچسب تفسیر کنند. همین رویکرد همچنین می‌تواند برای شناسایی الگوها در انواع دیگر داده‌ها، مانند توالی‌های پروتئین، ساختارهای شیمیایی، کدهای کامپیوتری و جریان‌های داده‌های اینترنت اشیا استفاده شود. این به محققان اجازه می‌دهد تا مدل‌های زبان بزرگ را که باعث پیشرفت‌های اخیر – و تبلیغات – در این زمینه می‌شوند، مقیاس‌بندی کنند. ترانسفورماتورها همچنین می توانند روابط بین کلماتی را پیدا کنند که از هم دور هستند، که برای RNN ها غیرعملی بود.

معماری مدل ترانسفورماتور

نموداری که معماری یک مدل ترانسفورماتور را نشان می دهد.

زیداریتز گفت که تکه‌های کوچک یک تصویر را می‌توان با زمینه‌های کل تصاویری که در آن ظاهر می‌شوند نیز تعریف کرد. را اندیشه توجه به خود در پردازش زبان طبیعی (NLP) تبدیل می شود خود شباهت در بینایی کامپیوتری

GAN در مقابل ترانسفورماتور: بهترین موارد استفاده برای هر مدل

به گفته ریچارد سرل، معاون محاسبات محرمانه در Fortanix، یک پلت فرم امنیت داده، GAN ها در طیف بالقوه برنامه های کاربردی خود انعطاف پذیرتر هستند. آنها همچنین در مواردی مفید هستند که داده های نامتعادل، مانند تعداد کمی موارد مثبت در مقایسه با حجم نمونه های منفی، می تواند منجر به طبقه بندی های مثبت کاذب متعدد شود. در نتیجه، یادگیری خصمانه در موارد استفاده که داده‌های آموزشی محدودی برای وظایف تبعیض‌آمیز وجود دارد یا در کشف تقلب که در آن تنها تعداد کمی از تراکنش‌ها ممکن است در مقایسه با تراکنش‌های رایج‌تر، تقلب را نشان دهند، نویدبخش است. به عنوان مثال، در یک سناریوی تقلب، هکرها دائما ورودی های جدیدی را برای فریب دادن الگوریتم های تشخیص تقلب معرفی می کنند. GAN ها در سازگاری و محافظت در برابر این نوع تکنیک ها بهتر عمل می کنند.

سرل گفت، ترانسفورماتورها معمولاً در جایی استفاده می‌شوند که روابط ورودی-خروجی متوالی باید مشتق شوند، و تعداد ترکیب‌های ممکن از ویژگی‌ها نیازمند توجه متمرکز برای ارائه زمینه محلی است. به همین دلیل، ترانسفورماتورها در برنامه های NLP برتری یافته اند، زیرا می توانند محتوایی با هر طولی مانند عبارات یا اسناد کامل را پردازش کنند. ترانسفورماتورها همچنین در پیشنهاد حرکت بعدی در برنامه هایی مانند بازی، که در آن مجموعه ای از پاسخ های بالقوه باید با توجه به دنباله شرطی ورودی ها ارزیابی شوند، خوب هستند.

همچنین تحقیقات فعالی در مورد ترکیب GAN ها و ترانسفورماتورها وجود دارد باصطلاح GANsformers. ایده این است که از یک ترانسفورماتور برای ارائه یک مرجع توجه استفاده شود تا مولد بتواند استفاده از زمینه را برای افزایش محتوا افزایش دهد.

سرل توضیح داد: “شهود پشت GANsformers این است که توجه انسان بر ویژگی های محلی خاص یک شی مورد علاقه، علاوه بر ویژگی های نهفته جهانی است.” نمایش های بهبود یافته به احتمال زیاد هر دو ویژگی های جهانی و محلی را که یک انسان ممکن است در یک نمونه معتبر درک کند، شبیه سازی می کند، مانند یک چهره واقعی یا صدای تولید شده توسط کامپیوتر که با لحن و ریتم صدای انسان سازگار است.

آیا شبکه های مبتنی بر ترانسفورماتور قوی تر از GAN ها هستند؟

ترانسفورماتورها به لطف نقش خود در ابزارهای محبوبی مانند ChatGPT و پشتیبانی از هوش مصنوعی چندوجهی در حال رشد هستند. اما ترانسفورماتورها لزوماً جایگزین GAN ها برای همه برنامه ها نمی شوند.

سرل انتظار دارد شاهد ادغام بیشتر برای ایجاد داده های متن، صدا و تصویر با واقع گرایی پیشرفته باشد. او گفت: «این ممکن است در جایی مطلوب باشد که رئالیسم متنی یا روانی در تعامل انسان و ماشین یا محتوای دیجیتال تجربه کاربر را افزایش دهد.» به عنوان مثال، GANsformers ممکن است قادر به تولید داده های مصنوعی برای گذراندن آزمون تورینگ در صورت مواجهه با یک کاربر انسانی و یک ارزیاب ماشین آموزش دیده باشد. در مورد پاسخ‌های متنی، مانند پاسخ‌هایی که توسط یک سیستم GPT ارائه می‌شود، گنجاندن خطاهای خاص یا ویژگی‌های سبکی می‌تواند منشأ واقعی خروجی مشتق‌شده از هوش مصنوعی را بپوشاند.

برعکس، بهبود واقع گرایی ممکن است با دیپ فیک هایی که برای حمله سایبری، آسیب رساندن به برندها یا انتشار اخبار جعلی استفاده می شوند، مشکل ساز باشد. در این موارد، GANsformers می‌تواند فیلترهای بهتری برای تشخیص دیپ‌فیک ارائه کند.

سرل گفت: «استفاده از آموزش‌های خصمانه و ارزیابی زمینه‌ای می‌تواند سیستم‌های هوش مصنوعی را ایجاد کند که قادر به ارائه امنیت پیشرفته، فیلتر کردن محتوا و دفاع در برابر حملات اطلاعات نادرست با استفاده از بات‌نت‌های مولد هستند.

اما زیداریتز معتقد است که ترانسفورماتورها به طور بالقوه می توانند GAN ها را در بسیاری از موارد استفاده کنند، زیرا می توانند به راحتی روی متن و تصاویر اعمال شوند. او گفت: “GAN های جدید به توسعه ادامه خواهند داد، اما کاربرد آنها محدودتر از GPT ها خواهد بود.” همچنین به احتمال زیاد ترانسفورماتورهای GAN مانند و GANهای ترانسفورماتور مانند بیشتری را مشاهده خواهیم کرد که در هر دوی آنها ترانسفورماتور با توجه به خود یا مکانیسم خود شباهت خود مرکزی خواهد بود.

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا
به بالای صفحه بردن