یادگیری تقویتی از بازخورد انسانی (RLHF) چیست؟

یادگیری تقویتی از بازخورد انسانی (RLHF) یک رویکرد یادگیری ماشینی است که تکنیک های یادگیری تقویتی مانند پاداش و مقایسه را با راهنمایی های انسانی برای آموزش یک عامل هوش مصنوعی (AI) ترکیب می کند.

یادگیری ماشینی جزء حیاتی هوش مصنوعی است. یادگیری ماشینی عامل هوش مصنوعی را با اجرای میلیاردها محاسبات و یادگیری از آنها، یک عملکرد خاص را آموزش می دهد. کل کار به دلیل اتوماسیون آن سریعتر از آموزش انسان است.

مواقعی وجود دارد که بازخورد انسان برای تنظیم دقیق یک هوش مصنوعی تعاملی یا مولد، مانند ربات چت، حیاتی است. استفاده از بازخورد انسانی برای متن تولید شده می تواند مدل را بهتر بهینه کند و آن را کارآمدتر، منطقی و مفیدتر کند. در RLHF، آزمایش‌کنندگان و کاربران انسانی بازخورد مستقیمی را برای بهینه‌سازی مدل زبان با دقت بیشتری نسبت به خودآموزی به تنهایی ارائه می‌دهند. RLHF عمدتاً در پردازش زبان طبیعی (NLP) برای درک عامل هوش مصنوعی در برنامه‌هایی مانند ربات‌های گفتگو و عوامل مکالمه، متن به گفتار و خلاصه‌سازی استفاده می‌شود.

در یادگیری تقویتی منظم، عوامل هوش مصنوعی از طریق عملکرد پاداش از اقدامات خود یاد می گیرند. اما مشکل اینجاست که عامل خودش آموزش می دهد. تعریف یا اندازه‌گیری پاداش‌ها اغلب آسان نیست، مخصوصاً با وظایف پیچیده‌ای مانند NLP. نتیجه یک ربات چت است که به راحتی گیج می شود که برای کاربر بی معنی است.

هدف RLHF آموزش مدل‌های زبانی است که متنی جذاب و واقعی را تولید می‌کنند. این کار را ابتدا با ایجاد یک مدل پاداش برای پیش‌بینی اینکه انسان‌ها چگونه کیفیت متن تولید شده توسط مدل زبان را از طریق بازخورد انسانی ارزیابی می‌کنند، انجام می‌دهد، که سپس برای آموزش یک مدل یادگیری ماشینی استفاده می‌شود که می‌تواند رتبه‌بندی‌های انسانی متن را پیش‌بینی کند.

سپس، با استفاده از مدل پاداش، تنظیم دقیق مدل زبان را انجام می‌دهد، جایی که مدل زبان برای تولید متنی که توسط مدل پاداش رتبه بالایی دارد، پاداش می‌گیرد.

همچنین مدل را قادر می سازد تا سوالاتی را که خارج از محدوده درخواست هستند رد کند. برای مثال، مدل‌ها اغلب از تولید محتوایی که از خشونت حمایت می‌کند یا نژادپرستی، جنسیت‌گرا یا همجنس‌گرا هراسی است، خودداری می‌کنند.

یک نمونه از مدلی که از RLHF استفاده می کند ChatGPT OpenAI است.

ChatGPT چگونه از RLHF استفاده می کند؟

ChatGPT یک ابزار هوش مصنوعی مولد است که محتوای جدیدی مانند چت و مکالمه را بر اساس دستورات ایجاد می کند. یک برنامه هوش مصنوعی مولد موفق باید شبیه یک مکالمه طبیعی انسان باشد. این بدان معناست که NLP برای عامل هوش مصنوعی لازم است تا بفهمد زبان انسان چگونه صحبت و نوشته می شود.

از آنجایی که ChatGPT پاسخ‌های محاوره‌ای و واقعی را برای شخصی که پرس و جو می‌کند تولید می‌کند، از RLHF استفاده می‌کند. ChatGPT از مدل‌های زبان بزرگ (LLM) استفاده می‌کند که بر روی حجم عظیمی از داده‌ها آموزش داده شده‌اند تا کلمه بعدی را برای تشکیل جمله پیش‌بینی کنند.

اما LLM ها محدودیت هایی دارند و ممکن است درخواست کاربر را به طور کامل درک نکنند. سوال ممکن است خیلی باز باشد، یا ممکن است فرد در دستورالعمل های خود به اندازه کافی واضح نباشد. برای آموزش ChatGPT نحوه ایجاد گفتگو در سبک مکالمه انسانی، با استفاده از RLHF آموزش داده شد تا هوش مصنوعی انتظارات انسان را بیاموزد.

آموزش LLM به این روش بسیار مهم است زیرا فراتر از آموزش آن برای پیش بینی کلمه بعدی است و به ساخت یک جمله کامل منسجم کمک می کند. این همان چیزی است که ChatGPT را از یک چت بات ساده متمایز می کند، که معمولاً یک پاسخ از پیش نوشته شده و آماده برای پاسخ به یک سؤال ارائه می دهد. ChatGPT به طور خاص از طریق تعامل انسانی برای درک هدف سؤال و ارائه طبیعی ترین و مفیدترین پاسخ ها آموزش داده شده است.

RLHF چگونه کار می کند؟

آموزش RLHF در سه مرحله انجام می شود:

فاز اولیه. مرحله اول شامل انتخاب یک مدل موجود به عنوان مدل اصلی برای تعیین و برچسب گذاری رفتار صحیح است. استفاده از یک مدل از پیش آموزش دیده به دلیل حجم داده های مورد نیاز برای آموزش، صرفه جویی در زمان است.
بازخورد انسانی پس از آموزش مدل اولیه، آزمایش کننده های انسانی ورودی هایی را در مورد عملکرد ارائه می دهند. مربیان انسانی امتیاز کیفیت یا دقت را به خروجی های مختلف تولید شده توسط مدل ارائه می دهند. سپس سیستم عملکرد خود را بر اساس بازخورد انسانی ارزیابی می کند تا برای یادگیری تقویتی پاداش ایجاد کند.
یادگیری تقویتی مدل پاداش با خروجی های مدل اصلی به خوبی تنظیم می شود و نمره کیفیت را از آزمایش کنندگان دریافت می کند. مدل اصلی از این بازخورد برای بهبود عملکرد خود در کارهای آینده استفاده می کند.

RLHF یک فرآیند تکراری است زیرا جمع آوری بازخورد انسانی و اصلاح مدل با یادگیری تقویتی برای بهبود مستمر تکرار می شود.

چالش ها و محدودیت های RLHF چیست؟

چالش ها و محدودیت هایی برای RLHF وجود دارد، از جمله موارد زیر:

ذهنیت و خطای انسانی کیفیت و پاسخ بازخورد می تواند بین کاربران و آزمایش کنندگان متفاوت باشد. هنگام ایجاد پاسخ به سؤالات پیشرفته، افراد دارای پیشینه مناسب در زمینه های پیچیده، مانند علم یا پزشکی، باید بازخورد ارائه دهند. با این حال، یافتن متخصصان می تواند گران و زمان بر باشد.
جمله بندی سوالات کیفیت پاسخ ها به پرسش ها بستگی دارد. یک عامل هوش مصنوعی نمی تواند هدف کاربر را بدون عبارات مناسب مورد استفاده در آموزش رمزگشایی کند – حتی با آموزش قابل توجه RLHF. به دلیل عدم درک زمینه، پاسخ های RLHF می تواند نادرست باشد. گاهی اوقات، این را می توان با بیان مجدد سوال حل کرد.
تعصب آموزشی RLHF مستعد مشکلات مربوط به سوگیری یادگیری ماشین است. پرسیدن یک سوال واقعی، مانند “2+2 برابر با چه چیزی است؟” یک جواب می دهد با این حال، سؤالات پیچیده تر، مانند سؤالاتی که ماهیت سیاسی یا فلسفی دارند، می توانند چندین پاسخ داشته باشند. هوش مصنوعی پاسخ آموزشی خود را به طور پیش فرض انجام می دهد و باعث سوگیری می شود زیرا ممکن است پاسخ های دیگری وجود داشته باشد.
مقیاس پذیری. از آنجایی که این فرآیند از بازخورد انسانی استفاده می کند، می تواند زمان بیشتری را صرف کند.

مقیاس‌پذیری فرآیند برای آموزش مدل‌های بزرگ‌تر و پیچیده‌تر می‌تواند زمان و منابع فشرده‌تری داشته باشد زیرا به بازخورد انسان بستگی دارد. این مشکل ممکن است با ایجاد تکنیک هایی برای خودکارسازی یا نیمه خودکار کردن فرآیند بازخورد حل شود.

پیاده سازی Q-learning زبان ضمنی

LLM ها می توانند در دقت خود برای برخی از وظایف مشخص شده توسط کاربر ناسازگار باشند. یک روش یادگیری تقویتی به نام یادگیری زبان ضمنی Q (ILQL) به این موضوع می پردازد.

الگوریتم‌های سنتی یادگیری Q از زبان برای کمک به عامل برای درک کار استفاده می‌کنند. ILQL نوعی الگوریتم یادگیری تقویتی است که برای آموزش یک نماینده برای انجام یک کار خاص، مانند آموزش یک ربات چت خدمات مشتری برای تعامل با مشتری، استفاده می شود.

در ILQL، عامل بر اساس نتیجه و بازخورد انسان، پاداش دریافت می کند. سپس عامل از این پاداش برای به روز رسانی مقادیر Q خود استفاده می کند، که برای تعیین بهترین اقدام در آینده استفاده می شود. در یادگیری سنتی Q، عامل فقط برای نتیجه عمل پاداش دریافت می کند.

ILQL الگوریتمی است برای آموزش ماموران برای انجام وظایف پیچیده با کمک بازخورد انسانی. با استفاده از ورودی های انسانی در فرآیند یادگیری، عوامل می توانند کارآمدتر از خودآموزی به تنهایی آموزش داده شوند.

یادگیری تقویتی از بازخورد انسانی (RLHF) چیست؟