CNN در مقابل GAN: تفاوت آنها چگونه است؟

شبکه‌های عصبی کانولوشنال (CNN) و شبکه‌های متخاصم مولد (GAN) نمونه‌هایی از شبکه‌های عصبی هستند – نوعی الگوریتم یادگیری عمیق که بر اساس نحوه عملکرد مغز انسان مدل‌سازی شده است.

CNN ها، یکی از قدیمی ترین و محبوب ترین مدل های یادگیری عمیق، در دهه 1980 معرفی شدند و اغلب در کارهای تشخیص بصری استفاده می شوند.

GAN ها نسبتا جدیدتر هستند. GAN ها که در سال 2014 معرفی شدند، یکی از اولین مدل های یادگیری عمیق بودند که برای هوش مصنوعی مولد استفاده شد.

CNN ها گاهی در GAN ها برای تولید و تشخیص محتوای بصری و صوتی استفاده می شوند.

جان بلانکن بیکر، دانشمند داده اصلی در SSA & Company، گفت: «GAN ها اساساً جفت CNN هستند که به روشی «متخاصم» به هم متصل شده اند، بنابراین تفاوت در رویکرد به خروجی یا ایجاد بینش است، اگرچه یک شباهت اساسی وجود دارد. یک شرکت مشاوره مدیریت جهانی “اما نحوه پاسخ آنها به یک سوال خاص کمی متفاوت است.”

به عنوان مثال، CNN ها ممکن است تلاش کنند تا تعیین کنند که آیا یک تصویر حاوی گربه است – وظیفه شناسایی – در حالی که GAN ها سعی می کنند تصویری از یک گربه ایجاد کنند، یک وظیفه نسلی. در هر دو مورد، شبکه‌ها در حال ساختن نمایشی از چیزی هستند که تصویر یک گربه را متمایز می‌کند.

بیایید بیشتر به CNN و GAN نگاه کنیم.

جدول مقایسه CNN و GAN

آشنایی با شبکه های عصبی کانولوشنال (CNN)

تاریخ. یان لکون، دانشمند کامپیوتر فرانسوی، استاد دانشگاه نیویورک و دانشمند ارشد هوش مصنوعی در متا، در دهه 1980 هنگامی که محقق دانشگاه تورنتو بود، CNN را اختراع کرد. هدف او بهبود ابزارهای تشخیص ارقام دست‌نویس با استفاده از شبکه‌های عصبی بود. اگرچه کار او بر روی تشخیص کاراکترهای نوری بسیار مهم بود، اما به دلیل مجموعه داده های آموزشی محدود و قدرت محاسباتی متوقف شد.

علاقه به این تکنیک پس از معرفی ImageNet – یک پایگاه داده بزرگ با برچسب از تصاویر – و راه اندازی چالش تشخیص تصویری در مقیاس بزرگ ImageNet (ILSVRC) پس از سال 2010 افزایش یافت. یکی از امیدوارکننده‌ترین ورودی‌ها در سال افتتاحیه این رقابت، مدل AlexNet مبتنی بر CNN بود که برای پردازنده‌های گرافیکی بهینه‌سازی شده بود. موفقیت آن نشان داد که CNN ها می توانند به طور موثر مقیاس شوند تا حتی در بزرگترین پایگاه داده های تصویر به عملکرد خوبی دست یابند.

چگونه کار می کنند. Donncha Carroll، یکی از شرکای Lotis Blue Consulting که رهبری مرکز تعالی علم داده این شرکت را بر عهده دارد، می‌گوید: «سی‌ان‌ان برای استفاده از داده‌هایی با ساختار فضایی مانند تصاویر یا ویدیو طراحی شده‌اند.

شبکه عصبی کانولوشن از فیلترهایی تشکیل شده است که در میان داده ها حرکت می کنند و در هر موقعیت یک خروجی تولید می کنند. به عنوان مثال، یک شبکه عصبی کانولوشن که برای تشخیص حیوانات در یک تصویر طراحی شده است، زمانی فعال می شود که پاها، بدن یا سر را تشخیص دهد.

Blankenbaker گفت: همچنین مهم است که توجه داشته باشید که CNN ها برای تشخیص خطوط، لبه ها و بافت ها در الگوهای نزدیک به یکدیگر طراحی شده اند. “C” در CNN مخفف convolutional است، به این معنی که ما در حال پردازش چیزی هستیم که در آن ایده همسایگی مهم است – مانند، برای مثال، پیکسل‌های اطراف یک پیکسل معین یا مقادیر سیگنال کمی قبل و بعد از یک لحظه مشخص.

آشنایی با شبکه های متخاصم مولد (GAN)

تاریخ. GAN ها توسط دانشمند کامپیوتر آمریکایی، ایان گودفلو، که در حال حاضر یک دانشمند محقق در DeepMind است، زمانی که از سال 2014 تا 2016 در Google Brain کار می کرد، اختراع شد.

همانطور که اشاره شد GAN ها نوعی مدل یادگیری عمیق هستند که برای تولید تصاویر اعداد و چهره های واقعی استفاده می شود. این میدان زمانی منفجر شد که محققان دریافتند می‌توان آن را برای سنتز صدا، دارو و انواع دیگر تصاویر به کار برد. GAN ها و تغییرات آنها توسط مخترع CNN LeCun به عنوان جالب ترین ایده 10 سال گذشته در یادگیری ماشین معرفی شد.

چگونه کار می کنند. اصطلاح خصومت از دو شبکه رقیب که محتوا را ایجاد و تشخیص می دهند – یک شبکه تولید کننده و یک شبکه تبعیض آمیز می آید. به عنوان مثال، در یک مورد استفاده از تولید تصویر، شبکه مولد تصاویر جدیدی را ایجاد می کند که شبیه چهره هستند. در مقابل، شبکه تفکیک کننده سعی می کند تفاوت بین تصاویر معتبر و تولید شده را تشخیص دهد. سپس داده های عملکرد تمایز به آموزش سیستم کلی کمک می کند.

CNN در مقابل GAN: تفاوت ها و کاربردهای کلیدی، توضیح داده شده است

کارول گفت: یکی از تمایز مهم بین CNN و GAN ها این است که مولد در GAN ها فرآیند پیچیدگی را معکوس می کند. “Convolution ویژگی ها را از تصاویر استخراج می کند، در حالی که deconvolution تصاویر را از ویژگی ها گسترش می دهد.”

در اینجا خلاصه ای از تفاوت های اصلی بین CNN و GAN و موارد استفاده مربوط به آنها آورده شده است.

CNN

  • CNN ها برای تشخیص اشیا، صداها یا ویژگی هایی مانند چهره، بیومتریک، قطعات معیوب یا شرایط پزشکی استفاده می شوند. آنها همچنین برای تفسیر تصاویر، گفتار یا سایر سیگنال های صوتی ایده آل هستند.
  • CNN ها با استفاده از یک رویکرد یادگیری نظارت شده، با داده های ورودی برچسب گذاری شده برای یک خروجی خاص، آموزش می بینند.
  • جنبه کانولوشنی CNN ها ویژگی هایی را از تصاویر استخراج می کند.
  • موارد استفاده رایج شامل خواندن اسناد، بازرسی بصری قطعات ماشین، گوش دادن به ماشین آلات برای تشخیص سایش و شنیدن احساسات مشتری در خدمات مشتری یا تماس‌های فروش است.

GAN

  • GAN ها برای تولید افراد، اشیاء، صداها یا خصوصیات با ظاهر واقعی استفاده می شوند.
  • GAN ها با استفاده از یک رویکرد یادگیری بدون نظارت آموزش داده می شوند – یعنی می توان آنها را به طور مستقل بدون نیاز به برچسب گذاری داده ها توسط انسان آموزش داد.
  • یک فرآیند کانولوشن معکوس، به نام deconvolution، تصاویر را از ویژگی‌ها گسترش می‌دهد.
  • موارد استفاده متداول شامل ایجاد چهره های واقعی به ظاهر انسان یا تصویری از یک فرد خاص است که باعث ایجاد پدیده ای به نام دیپ فیک می شود. آنها همچنین در تولید صداهایی که شبیه یک فرد هستند یا ترکیب صدا و لحن شخصی به زبان دیگری برای دوبله واقعی تر خوب هستند. سایر موارد استفاده رایج عبارتند از تولید انواع متن، از جمله اخبار، شعر و کد. تسریع در کشف دارو؛ و کشف تقلب

CNN و GAN چگونه می توانند با هم کار کنند؟

اگرچه GAN ها اخیراً توجه زیادی را به خود جلب کرده اند، CNN ها همچنان در زیر پوشش استفاده می شوند – یعنی در GAN ها برای تولید و تشخیص اصالت. در واقع، Pierre Custeau، مدیر ارشد فناوری ToolsGroup، یک شرکت برنامه ریزی و بهینه سازی زنجیره تامین، این دو شبکه عصبی را از نظر عملکرد مکمل یکدیگر می داند. او گفت: “از آنجایی که CNN ها در پردازش تصویر بسیار موثر هستند، هر دو شبکه مولد و تشخیص دهنده به طور پیش فرض CNN هستند.”

متیو مید، CTO در موسسه مشاوره فناوری اطلاعات SPR گفت: توجه به این نکته مهم است که CNN و GAN ها فقط به یک روش ترکیب می شوند.

مید گفت: “GAN ها معمولاً با داده های تصویر کار می کنند و می توانند از CNN به عنوان تمایز استفاده کنند. اما این برعکس عمل نمی کند، به این معنی که یک CNN نمی تواند از GAN استفاده کند.”

یکی از بزرگ‌ترین چالش‌ها همیشه کیفیت داده‌ها برای آموزش مدل‌ها است، به‌ویژه زمانی که در مورد راه‌حل‌های خاص کسب‌وکار صحبت می‌کنیم، به جای چیزی که به عنوان یک گربه عمومی باشد. جان بلانکن بیکر، دانشمند اصلی داده، SSA & Company

GAN های اولیه چهره های نسبتا ساده و با وضوح پایین تولید می کردند. کارول خاطرنشان کرد: یکی از دلایلی که علاقه به GAN ها افزایش یافته است، کاهش چشمگیر هزینه به ازای هر واحد محاسبات است که تیم ها را قادر می سازد شبکه های عصبی پیچیده تری بسازند. پیشرفت‌ها در طراحی سخت‌افزار، نرم‌افزار و شبکه‌های عصبی باعث رشد سایر مدل‌های هوش مصنوعی مانند ترانسفورماتورها، رمزگذارهای خودکار متغیر و انتشار شده است.

Blankenbaker هشدار می دهد که به جای تمرکز بر اهداف خاص و داده های اساسی، درگیر آخرین مدل نباشید. Blakenbaker گفت: “ما شرکت های زیادی را می بینیم که در مورد کلمات رایج هیجان زده می شوند و سعی می کنند یک میخ مربع را در یک سوراخ گرد قرار دهند و در نتیجه برای راه حل های بیش از حد هزینه می کنند.”

او گفت: «یکی از بزرگ‌ترین چالش‌ها همیشه کیفیت داده‌ها برای آموزش مدل‌ها است، به‌ویژه زمانی که ما در مورد راه‌حل‌های خاص کسب‌وکار صحبت می‌کنیم و به جای چیزی به عنوان یک گربه عمومی.

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا
به بالای صفحه بردن