حل مشکلات به‌شیوه پرداخت پاداش

یادگیری تقویتی در چه حوزه‌هایی کاربرد دارد؟

01/05/1401 - 12:25

یادگیری تقویتی (Reinforcement Learning) که به‌عنوان یک مدل یادگیری نیمه‌نظارتی در دنیای یادگیری ماشین شناخته می‌شود، تکنیکی است که به یک عامل اجازه می‌دهد بر مبنای مجموعه اقداماتی با محیط تعامل داشته باشد و بر مبنای کارهایی که انجام می‌دهد بالاترین پاداش‌ها را دریافت کند و در مقابل اگر کاری را اشتباه یا ضعیف انجام دهد، پاداشی دریافت نکند. در بیشتر موارد، الگوریتم‌های یادگیری تقویتی بر مبنای مدل تصمیم‌گیری مارکوف (MDP) مدل‌سازی می‌شود. با توجه به این‌که یادگیری تقویتی یکی از پارادایم‌های قدرتمند یادگیری ماشین است، این پرسش مطرح است که در چه حوزه‌هایی کاربرد دارد یا به عبارت دقیق‌تر فناوری مذکور، چه کاربردهایی در دنیای واقعی دارد؟ در این مقاله نگاهی اجمالی به مهم‌ترین کاربردهای یادگیری تقویتی در دنیای واقعی خواهیم داشت.

مطلب پیشنهادی

آشنایی با یکی از قدرتمندترین شاخه‌های هوش مصنوعی

اگر می‌خواهید درباره «یادگیری ماشینی» بیشتر بدانید؛ این ده مطلب را بخوانید!

تشخیص خودکار گفتار

تشخیص خودکار گفتار (ASR) سرنام Automatic Speech Recognition قابلیتی است که از پردازش زبان طبیعی (NLP) برای پردازش گفتار انسان استفاده می‌کند. فناوری فوق، بیشتر در ارتباط با دستگاه‌های تلفن همراه و برای انجام کارهایی مثل جست‌وجوی صوتی استفاده می‌شود. یک مثال ملموس در این زمینه سیری اپل است.

خدمات مشتری

چت‌‌ربات‌های آنلاین در هنگام تعامل با وب‌سایت‌های شرکت‌ها یا فروشگاه‌های آنلاین به مشتریان خدمت‌رسانی خواهند کرد و در عمل جایگزین انسان‌ها خواهند شد. آن‌ها به پرسش‌های متداول در مورد محصولات، سرویس‌ها یا در نمونه‌های پیشرفته‌تر استخدام‌ها پاسخ می‌دهند. همچنین، مشاوره شخصی یا توصیه‌هایی به کاربران ارائه می‌دهند و سعی می‌کنند به کاربران در تعامل بهتر با وب‌سایت‌ها یا پلتفرم‌های رسانه‌های اجتماعی کمک کنند. دستیاران صوتی و مجازی، ربات‌هایی که برای پلتفرم‌های اجتماعی نوشته شده‌اند، ربات‌های برنامه‌های پیام‌رسانی مانند اسلک و فیس‌بوک و نمونه‌های مشابه سرآغازی بر ورود الگوریتم‌های هوشمند به دنیای خدمات مشتری هستند.

بینایی کامپیوتر

این فناوری هوش مصنوعی، رایانه‌ها و سیستم‌ها را قادر می‌سازد تا اطلاعات معناداری از تصاویر دیجیتال، ویدیوها و دیگر ورودی‌های بصری به‌دست آورند و بر اساس آن ورودی‌ها، اقداماتی انجام دهند. بینایی کامپیوتر با استفاده از شبکه‌های عصبی پیچشی (Convolutional Neural Networks) در زمینه‌هایی مثل برچسب‌گذاری تصاویر در رسانه‌های اجتماعی، تصویربرداری رادیولوژی در مراقبت‌های بهداشتی و خودروهای خودران در صنعت خودروسازی مورد استفاده قرار می‌گیرد.

موتورهای توصیه‌گر

یادگیری تقویتی اکنون در سیستم‌های توصیه‌گر، مانند اخبار، برنامه‌های موسیقی، نتفلیکس (Netflix) و غیره، استفاده می‌شود. این برنامه‌ها مطابق با تنظیمات کاربر کار می‌کنند. به‌طور مثال، در مورد برنامه‌های کاربردی، مانند نتفلیکس (Netflix)، هنگام تماشای انواع سریال‌ها و فیلم‌ها، فهرستی از علاقه‌مندی‌ها توسط موتورهای توصیه‌گر ایجاد و پردازش می‌شوند. امروزه، بیشتر شرکت‌های فعال در زمینه ارائه خدمات یا فروش محصولات از موتورهای توصیه‌گر استفاده می‌کنند. آن‌ها پارامترهای زیادی، مانند اولویت کاربر، فیلم‌های پرطرفدار، ژانرهای مرتبط و غیره را در نظر می‌گیرند، سپس با توجه به این معیارها، مدل، جدیدترین فیلم‌های پرطرفدار را به کاربر نشان می‌دهد.

از این‌رو، باید بگوییم به‌عنوان کاربر، به‌شکل غیرمستقیم از طریق بسترهای اطلاعاتی و سرگرمی در حال استفاده از یادگیری تقویتی هستیم. با استفاده از داده‌های رفتاری مصرف‌کنندگان، الگوریتم‌های یادگیری تقویتی می‌توانند به کشف روندهای داده‌ای خاصی بپردازند که می‌توانند استراتژی‌های بازاریابی و فروش را کارآمدتر کنند. رویکرد فوق برای ارائه توصیه‌های ارزش افزوده به مشتریان در طول فرآیند پرداخت در خرده‌فروشی‌های آنلاین استفاده می‌شود.

مطلب پیشنهادی

آشنایی با یادگیری ماشین آنلاین و یادگیری تقویتی عمیق

معاملات خودکار سهام

یکی از مهم‌ترین کاربردهای یادگیری ماشین تقویتی در زمینه پلتفرم‌های معاملاتی و خرید و فروش سهام است. امروزه بخش عمده‌ای از معاملات انجام‌شده در بورس‌ها و فرابورس‌ها با استفاده از الگوریتم‌های هوشمندی انجام می‌شود که توانایی شناسایی نقاط عطف معاملات را دارند. روزانه هزاران یا حتا میلیون‌ها معامله بدون دخالت انسان توسط این الگوریتم‌ها انجام می‌شود.

تجارت، بازاریابی و تبلیغات

در هر حوزه‌ای که به‌گونه‌ای با بازارهای مالی مرتبط است، فناوری می‌تواند نقش تاثیرگذاری داشته باشد. به‌طور مثال، مدل‌های یادگیری تقویتی که در شرکت‌ها استفاده می‌شوند، می‌توانند علایق مشتری را تجزیه‌‌و‌تحلیل کنند و در تبلیغ بهتر محصولات کمک کنند. می‌دانیم که تجارت به یک استراتژی مناسب برای کسب سود نیاز دارد. یادگیری تقویتی با تجزیه‌‌وتحلیل تمامی احتمال‌های پیش‌رو به تدوین این استراتژی‌ها کمک می‌کند تا به حداکثر سود برسیم. در شرایطی که مدل‌های یادگیری تقویتی هزینه‌ زیادی دارند، بیشتر شرکت‌های بزرگ از الگوریتم‌های این حوزه برای کسب حداکثر سود استفاده می‌کنند.

مقاله‌ای که پژوهشگران علی‌بابا تحت عنوان مناقصه بلادرنگ با یادگیری تقویتی چندعاملی در نمایش تبلیغات (Real-Time Bidding with Multi-Agent Reinforcement Learning in Display Advertising) در سال 2018 میلادی منتشر کردند، نشان داد که موفق به ابداع راهکاری برای مزایده «چندعاملی توزیع‌شده هماهنگ» (DCMAB) سرنام Distributed Coordinated Multi-Agent Bidding شده‌اند که پس از پیاده‌سازی آن روی سامانه TaoBao نتایج امیدوارکننده‌ای ارائه کرده است. سامانه تبلیغاتی تائوبائو یک بستر محلی است که پس از آغاز یک مزایده توسط فروشندگان، آگهی‌های مرتبطی به مشتریان نشان می‌دهد. حالت فوق را می‌توان به‌عنوان یک مسئله چندعاملی در نظر گرفت، زیرا مزایده مربوط به هر فروشنده در نقطه مقابل فروشنده دیگر است و اقدامات هر عامل به اقدام دیگر عوامل بستگی دارد. در پژوهش فوق، فروشندگان و مشتریان در چند گروه خوشه‌بندی می‌‌شوند تا پیچیدگی‌های محاسباتی کمتر شود. علاوه بر این، فضای وضعیت هر عامل توصیف‌کننده هزینه-فایده آن و فضای اقدام همان مزایده است. علاوه بر این، مبحث پاداش نیز درآمد ناشی از فرستادن تبلیغ به خوشه مشتری مناسب است.

مطلب پیشنهادی

یادگیری ماشین با پایتون

چگونه یادگیری ماشین را به عنوان یک فرد تازه‌کار بیاموزیم؟

صنعت بازی‌سازی

یکی از کاربردهای اصلی یادگیری تقویتی در بازی‌سازی است. در حال حاضر الگوریتم‌های سطح بالای مختلفی در این حوزه مورد استفاده قرار می‌گیرند. اگر به بازی‌های نسل‌های مختلف نگاهی داشته باشید، به‌خوبی متوجه می‌شوید که بازی‌های نسل یازدهم و دوازهم به هیچ عنوان با نمونه‌های اولیه قابل قیاس نیستند، زیرا استودیوهای بازی‌سازی به‌شکل مستقیم از یادگیری تقویتی برای هوشمند کردن شخصیت‌های بازی‌ها بهره برده‌اند. صنعت بازی‌سازی سودآورترین صنعت حال حاضر است که توانسته به موازات دنیای فناوری پیشرفت کند. می‌بینیم که امروزه بازی‌ها در حال واقعی‌تر شدن هستند و جزئیات بیشتری به آن‌ها اضافه شده است. به‌طور مثال، ما محیط‌های یادگیری تقویتی، مانند PSXLE را داریم که روی ساخت محیط‌های بازی بهتر متمرکز هستند.

علاوه بر این، الگوریتم‌های یادگیری عمیق، مانند AlphaGo و AlphaZero را داریم که الگوریتم‌های بازی برای بازی‌هایی مانند شطرنج، Shogi و Go هستند. بد نیست بدانید برای آموزش الگوریتم آلفاگو داده‌های بی‌شماری از روند بازی‌های انسانی جمع‌آوری و به‌عنوان خوراک در اختیار مدل قرار داده شد. این الگوریتم با بهره‌گیری از تکنیک جست‌وجوی درختی مونت کارلو (MCTS) و فناوری‌های دیگر، توانست عملکردی بهتر از انسان‌ها به‌دست آورد. این الگوریتم‌ها با کمک به تیم‌های بازی‌ساز به آن‌ها کمک می‌کنند تا امکانات گسترده‌ای در بازی‌ها قرار دهند و آن‌ها را واقعیتی‌تر کنند.

یادگیری تقویتی در علم

هوش مصنوعی و یادگیری ماشین نقش مهمی در پیشبرد تحقیقات علمی و به‌ویژه شناسایی داروهای جدید دارند. به‌طور مثال، در جریان همه‌گیری کووید 19، الگوریتم‌های یادگیری ماشین با شناسایی الگوها توانستند فرق میان سرفه عادی و کرونا را تشخیص ‌دهند. حوزه‌های مختلفی در علم وجود دارد که در آن‌ها یادگیری تقویتی می‌تواند مفید واقع شود. امروزه بیشترین صحبت در مورد فیزیک کوانتوم است. هم در مورد فیزیک اتم‌ها و هم در مورد خصوصیات شیمیایی آن‌ها تحقیقات زیادی با استفاده از یادگیری تقویتی انجام گرفته است. یادگیری تقویتی به درک بهتر واکنش‌های شیمیایی کمک می‌کند که نقش موثری در شناسایی سریع‌تر داروهای جدید دارد. اگر در گذشته تشخیص، تولید و آزمایش داروهای جدید به یک چرخه چند ساله نیاز داشت، یادگیری ماشین این چرخه را کوتاه‌تر کرده است. در واقع واکنش‌های مختلفی برای هر مولکول یا اتم وجود دارد که می‌توانیم الگوهای پیوندی آن‌ها را با یادگیری ماشین درک کنیم. امروزه، پژوهشگران حوزه‌های مختلف از الگوریتم‌های یادگیری عمیق مثل LSTM برای دستیابی سریع‌تر به نتایج استفاده می‌کنند.

مدیریت منابع در محاسبات خوشه‌ای

طراحی الگوریتم‌هایی برای تخصیص منابع محدود به کارهای مختلف چالش‌برانگیز است و به الگوریتم‌های مکاشفه‌ای نیاز دارد. مقاله «مدیریت منابع با یادگیری تقویتی عمیق» (Resource Management with Deep Reinforcement Learning) نشان داد که چگونه یک سیستم می‌تواند از الگوریتم‌های یادگیری تقویتی برای یادگیری خودکار تخصیص و برنامه‌ریزی منابع محاسباتی استفاده کند و منابع را به‌شکل درستی در اختیار پروژه‌ها قرار دهد تا زمان ازدست‌رفته به‌حداقل برسد. در مقاله مذکور، فضای حالت در قالب تخصیص کنونی منابع و مشخصات منابع مورد نیاز برای هر پروژه تعیین و فرموله می‌شود. فضای عمل، نیز از راهکار ویژه‌ای استفاده می‌کند که به عامل اجازه می‌دهد بیش از یک عمل را در هر مرحله زمانی انتخاب کند. در ادامه با استفاده از الگوریتم یادگیری تقویتی و ارزش پایه، گرادیان خط‌مشی محاسبه می‌شود و بهترین پارامتر خط‌مشی که توزیع احتمال اقدامات برای حداقل‌سازی هدف است به‌دست می‌آید. برای اطلاعات بیشتر در ارتباط با پروژه فوق به آدرس https://github.com/hongzimao/deeprm مراجعه کنید.

کنترل چراغ راهنمایی و رانندگی

در مقاله «سیستم چند‌عاملی مبتنی بر یادگیری تقویتی برای کنترل سیگنال ترافیک شبکه» (Reinforcement learning-based multi-agent system for network traffic signal control) پژوهشگران راهکاری برای کنترل چراغ‌های راهنمایی در هنگام ترافیک سنگین در خیابان‌ها ارائه کرده‌اند. البته الگوریتم ابداعی این متخصصان تنها در محیط شبیه‌سازی‌شده و غیرواقعی آزمایش شده، اما نتایجی بهتر از روش سنتی ترافیک ارائه کرده و کاربردهای بالقوه یادگیری تقویتی چند‌عاملی در طراحی سیستم ترافیک را پدیدار کرده است. (شکل 1)

در این شبکه ترافیکی که پنج چهارراه در آن وجود دارد، یک الگوریتم یادگیری تقویتی 5 عاملی استفاده شده که یک عامل در چهارراه مرکزی قرار دارد تا سیگنال‌های ترافیکی را کنترل و هدایت کند. در این سناریو، وضعیت، یک بردار 8 بعدی است که هر عنصر آن توصیف‌کننده جریان نسبی ترافیک در یکی از خطوط است. از این‌رو، عامل ۸ گزینه در اختیار دارد که هر یک از آن‌ها ترکیبی فازی و مبتنی بر تابع پاداش هستند. پاداش، تابعی از کاهش زمان تاخیر نسبت به مرحله زمانی قبل است. پژوهشگران این مقاله از شبکه DQN برای تعیین مقدار کیفی هر جفت (وضعیت، اقدام) استفاده کرده‌اند.

رباتیک

یکی دیگر از صنایعی که یادگیری تقویتی نقش پررنگی در آن دارد، رباتیک است. پژوهشگران می‌توانند از یادگیری تقویتی برای آموزش ربات‌هایی استفاده کنند که قادر هستند خط‌مشی‌های لازم برای مقایسه و تطبیق تصاویر ویدئویی خام با فعالیت‌‌های خودکار را بیاموزند. به‌طوری که رنگ‌های RGB در اختیار یک شبکه عصبی پیچشی (CNN) قرار داده شود تا الگوریتم نیروی گشتاور موردنیاز موتور را محاسبه کرده و خروجی را ارائه دهد. الگوریتم جست‌وجوی خط‌مشی هدایت‌شده که به‌عنوان مولفه یادگیری تقویتی در نظر گرفته می‌شود، داده‌های آموزشی موردنیاز بر مبنای توزیع وضعیت خود الگوریتم را تولید می‌کند.

پیکربندی سیستم وب

بیش از 100 پارامتر قابل تنظیم در یک سیستم وب وجود دارد که فرآیند تنظیم آن‌ها به یک اپراتور ماهر و آزمایش‌های متعدد مبتنی بر آزمون‌وخطا نیاز دارد. پژوهشگران یادگیری عمیق موفق به ابداع راهکاری برای حل این مشکل شدند که «رویکرد یادگیری تقویتی برای پیکربندی خودکار سیستم وب آنلاین» نام دارد و اولین تلاش در این حوزه است که نحوه پیکربندی مجدد خودکار پارامترها در سیستم‌های وب چند لایه در محیط‌های پویای مبتنی بر ماشین مجازی را بررسی می‌کند.

فرآیند پیکربندی مجدد را می‌توان به‌عنوان یک فرآیند تصمیم‌گیری مارکوف (MDP) محدود فرموله کرد. در پژوهش مذکور، فضای حالت همان پیکربندی سیستم و فضای عمل (افزایش، کاهش، حفظ) برای هر پارامتر است. علاوه بر این، پاداش به‌شکل اختلاف میان زمان هدف مفروض برای پاسخ‌گویی و زمان تخمین‌زده‌شده محاسبه می‌شود. پژوهشگران در این پروژه از الگوریتم Q-learning استفاده کردند. در پروژه فوق، پژوهشگران به‌جای ترکیب یادگیری تقویتی با شبکه‌های عصبی از راهکارهای دیگری مثل مقداردهی اولیه به خط‌مشی برای اصلاح فضای حالت و پیچیدگی محاسباتی مسئله استفاده کردند، زیرا بر این باور هستند که این‌ کار راه را برای تحقیقات بیشتر در آینده هموار خواهد کرد.

علم شیمی (Chemistry)

یادگیری ماشین می‌تواند در بهینه‌سازی واکنش‌های شیمیایی استفاده شود. در همین ارتباط گروهی از پژوهشگران در مقاله‌ای تحت عنوان بهینه‌سازی واکنش‌های شیمیایی با یادگیری تقویتی عمیق به دستاوردهای قابل توجهی در این زمینه دست پیدا کرده‌اند.

در پژوهش مذکور، تابع خط‌مشی شبکه LSTM و الگوریتم یادگیری تقویتی با یک‌دیگر ادغام شدند تا عامل یادگیری تقویتی بتواند فرآیند بهینه‌سازی واکنش شیمیایی بر مبنای فرآیند تصمیم‌گیری مارکوف را انجام دهد. در پژوهش فوق، مدل مارکوف به‌صورت {S, A, P, R} مشخص می‌شود که در آن S مجموعه شرایط تجربی (مانند دما، pH، و غیره) و A مجموعه تمام اقدامات محتملی بود که می‌تواند شرایط آزمایش را تغییر دهد. P احتمال انتقال از شرایط آزمایش به شرایط بعدی و R پاداشی است که به‌صورت تابعی از وضعیت تعریف شده است. این پژوهش نشان داد که یادگیری تقویتی می‌تواند در محیط تقریبا پایدار، به‌خوبی از عهده انجام کارهای زمان‌بر و نیازمند آزمون‌و‌خطا برآید.

پیشنهادات شخصی‌سازی‌شده (Personalized Recommendations)

تا به امروز کارهای زیادی در زمینه پیشنهاد اخبار انجام شده که تقریبا بیشتر آن‌ها با مشکلات مشابهی مثل عدم سرعت بالا همگام با انتشار اخبار جدید، نارضایتی کاربران و مناسب نبودن معیارها روبه‌رو بودند. به‌طوری که کاربران در هنگام مشاهده اخبار بی‌تفاوت از کنار آن‌ها عبور می‌کنند و به این شکل نرخ کلیک‌ها کاهش پیدا می‌کند. در همین ارتباط گروهی از پژوهشگران از یادگیری تقویتی در سیستم توصیه اخبار استفاده کردند و نتایج دستاوردهای خود را در قالب مقاله «DRN، چارچوب یادگیری تقویتی عمیق برای پیشنهادات خبری» منتشر کردند که تلاشی برای غلبه بر مشکلات رایج است. در این پروژه تحقیقاتی، پژوهشگران، چهار گروه ویژگی به‌شرح زیر تعریف کردند:

ویژگی‌های کاربر.
ویژگی‌های متن که مبتنی بر ویژگی‌های وضعیت ایجادشده در محیط است.
ویژگی‌های خبری کاربر.
ویژگی‌های خبری به‌عنوان پارامترهای عمل.

چهار ویژگی مذکور به‌عنوان ورودی در اختیار شبکه Deep Q-Network قرار داده شدند تا مقدار کیفی مربوطه محاسبه شود. بر مبنای مقدار کیفی، فهرستی از اخبار پیشنهادی آماده شد. در الگوریتم مذکور، کلیک کاربران روی خبر، بخشی از پاداش عامل است که عامل یادگیری تقویتی دریافت می‌کند. علاوه بر این، پژوهشگران برای حل مشکلات دیگر از تکنیک‌هایی مثل مدل‌های تحلیل بقا، تکرار حافظه، Dueling Bandit Gradient Descent و غیره استفاده کردند.