اغلب مردم برای یادگیری چیزهای جدید، از فرآیند یکسانی پیروی می کنند: اطلاعات را دریافت کنید، آن را پردازش کنید، خودتان آن را امتحان کنید و بازخوردی در مورد نحوه انجام آن دریافت کنید. بسیاری از این فرآیند با پاداش و تنبیه نیز تقویت می شود: اگر درست پاسخ دهید، یک ستاره طلایی، یک امتیاز اضافی یا یک نمره بالاتر دریافت می کنید. اگر پاسخ نادرست بدهید، امتیاز از دست می دهید، رقابت را ترک می کنید یا باید تمرین را تکرار کنید.
همانطور که هوش مصنوعی به طور فزاینده ای رایج و توانمند می شود، برنامه نویسان از همان فرآیندها در شکل محبوب یادگیری ماشینی به نام یادگیری تقویتی استفاده می کنند. با استفاده از این فناوری، کسبوکارها میتوانند جریان کار خود را با سطحی از دقت و ظرافت که قبلا غیرممکن بود، بهینهسازی، کنترل و نظارت کنند.
در این مقاله درباره منشاء و کاربردهای RL، که ممکن است بسیاری از آنها را تجربه کرده باشید، بیشتر خواهید دانست.
یادگیری تقویتی چیست؟
یادگیری تقویتی نزدیکترین روش به یادگیری انسان برای سیستمها و ماشینهای دیجیتال است. از طریق این آموزش، مدلهای یادگیری ماشین را میتوان آموزش داد تا به عنوان مثال دستورالعملها را دنبال کنند، آزمایشها را انجام دهند، تجهیزات عملگر را راه اندازی کنند.
یادگیری تقویتی حول یک عامل دیجیتال متمرکز است که در یک محیط خاص برای یادگیری قرار می گیرد. مشابه روشی که ما چیزهای جدید یاد می گیریم، عامل با موقعیتی شبیه به بازی مواجه می شود و باید یک سری تصمیمات را اتخاذ کند تا به نتیجه صحیح دست یابد. از طریق آزمون و خطا، عامل یاد می گیرد که چه کاری انجام دهد (و چه کاری را انجام ندهد) و بر اساس آن پاداش و مجازات می شود. هر بار که پاداشی دریافت می کند، رفتار را تقویت می کند و به عامل سیگنال می دهد که دفعه بعد دوباره همان تاکتیک ها را به کار گیرد.
تاریخچه و پیشینه
پایه های یادگیری تقویتی بیش از 100 سال پیش گذاشته شد و در واقع گفته می شود که منشأ دو جانبه دارد. اولین مورد ریشه در یادگیری حیوانات و “قانون اثر” دارد که توسط ادوارد ثورندایک ابداع شد. ثورندایک قانون اثر را در سال 1911 به عنوان این مفهوم توصیف کرد که حیوان در صورت ایجاد رضایت، اعمال را تکرار می کند و از اعمالی که باعث ناراحتی می شود منصرف می شود. بعلاوه، هر چه سطح لذت یا درد بیشتر باشد، تعقیب یا بازدارندگی از عمل بیشتر است. با یادگیری انتخابی، حیوان سعی می کند چند گزینه و مسیر مختلف را امتحان کند و بر اساس نحوه حرکت خود از بین آنها انتخاب کند. در یادگیری تداعی، حیوان گزینه های خود را بر اساس موقعیت هایی که آنها را به هم مرتبط می کند و مثبت یا منفی بودن آنها، انتخاب می کند.
اگرچه ثورندایک پایه های یادگیری تقویتی را ایجاد کرد، اما اصطلاح “تقویت” تا سال 1927 توسط ایوان پاولوف به طور رسمی مورد استفاده قرار نگرفت. او تقویت را به عنوان «تقویت یک الگوی رفتاری به دلیل دریافت یک محرک – یک تقویتکننده – در یک رابطه وابسته به زمان با یک محرک دیگر یا با یک پاسخ توسط حیوان دیگر توصیف کرد. به عبارت دیگر، زمانی که حیوانات به چیزی واکنش نشان میدهند. مدت کوتاهی پس از انجام این کار، بر انجام یا عدم تکرار آن، به همان شیوه، در آینده تأثیر میگذارد.
منشأ دوم، کنترل بهینه، بیشتر ریشه در ریاضیات و الگوریتم ها دارد تا یادگیری حیوانات. از دهه 1950، محققان شروع به تعریف روش های بهینه سازی برای استخراج سیاست های کنترلی در مسائل کنترل زمان پیوسته کردند. با تکیه بر این، ریچارد بلمن برنامهنویسی را توسعه داد که یک معادله تابعی را با استفاده از حالت سیستم پویا تعریف میکند و یک تابع مقدار بهینه را برمیگرداند (که معمولاً به آن معادله بلمن میگویند). بلمن سپس به معرفی فرآیند تصمیم گیری مارکوفی (MDP) پرداخت که او آن را به عنوان «نسخه تصادفی گسسته مسئله کنترل بهینه» که بسیار شبیه به یادگیری تقویتی مدرن است، تعریف می کند.
کاربردهای یادگیری تقویتی
یادگیری تقویتی در حال افزایش است و آینده آن به همان اندازه پر جنب و جوش است. در اینجا، نگاهی به برخی از روشهای فعلی RL در دنیای واقعی خواهیم انداخت.
- ربات های خودکار
در حالی که بیشتر ربات ها شبیه فرهنگ پاپ به نظر نمی رسند که ما را به این باور رسانده است، توانایی های آنها به همان اندازه چشمگیر است. هر چه رباتها با استفاده از RL بیشتر یاد بگیرند، دقیقتر میشوند و سریعتر میتوانند یک کار سخت قبلی را انجام دهند. آنها همچنین می توانند وظایفی را انجام دهند که برای افراد با عواقب بسیار کمتر خطرناک است. به این دلایل، جدای از نیاز به نظارت و نگهداری منظم، ربات ها جایگزینی مقرون به صرفه و کارآمد برای کار دستی هستند.
به عنوان مثال، برخی از رستوران ها از ربات ها برای رساندن غذا به میزها استفاده می کنند. فروشگاههای مواد غذایی از رباتها برای شناسایی مکانهای پایین قفسهها و سفارش محصولات بیشتر استفاده میکنند. در تنظیمات رایج، تا کنون از ربات های خودکار برای مونتاژ محصولات استفاده شده است. بازرسی برای نقص؛ شمارش، پیگیری و مدیریت موجودی و تحویل کالا؛در هنگام سفر در مسافت های طولانی و کوتاه؛ داده ها را وارد کنید، سازماندهی کنید و گزارش دهید. همانطور که ما به آزمایش توانایی های رباتیک ادامه می دهیم، ویژگی های جدیدی برای گسترش پتانسیل آنها معرفی می شود.
2. پردازش زبان طبیعی
متن پیشبینیکننده، خلاصهسازی متن، پاسخگویی به سؤال و ترجمه ماشینی همگی نمونههایی از پردازش زبان طبیعی (NLP) هستند که از یادگیری تقویتی استفاده میکنند. با مطالعه الگوهای زبان معمولی، عوامل RL می توانند نحوه صحبت افراد را هر روز با یکدیگر تقلید و پیش بینی کنند. این شامل زبان واقعی مورد استفاده و همچنین نحو، (ترتیب کلمات و عبارات) و دیکشنری (انتخاب کلمات) است.
در سال 2016، محققان دانشگاه استنفورد، دانشگاه ایالتی اوهایو و تحقیقات مایکروسافت از این یادگیری برای ایجاد گفتگو استفاده کردند، مانند آنچه برای چت بات ها استفاده می شود. آنها با استفاده از دو عامل مجازی، مکالمات را شبیه سازی کردند و از روش های گرادیان خط مشی برای پاداش دادن به ویژگی های مهمی مانند انسجام، اطلاعات و سهولت پاسخ استفاده کردند. این تحقیق از این نظر منحصر به فرد بود که فقط بر روی سوال مورد نظر تمرکز نمی کرد، بلکه بر این موضوع نیز تمرکز داشت که چگونه یک پاسخ می تواند بر نتایج آینده تأثیر بگذارد. این رویکرد برای یادگیری تقویتی در NLP اکنون به طور گسترده توسط بخش های خدمات مشتری در بسیاری از سازمان های بزرگ مورد استفاده قرار گرفته است.
3. بازاریابی و تبلیغات
هم برندها و هم مصرف کنندگان می توانند از یادگیری تقویتی به نفع خود استفاده کنند. برای برندهایی که به مخاطبان هدف می فروشند، می توانند از پلتفرم های پیشنهادی بی درنگ، تست A/B و بهینه سازی خودکار تبلیغات استفاده کنند. این بدان معنی است که آنها می توانند یک سری تبلیغات را در بازار قرار دهند و میزبان به طور خودکار بهترین تبلیغات را در بهترین مکان ها با کمترین قیمت ارائه می دهد. اگرچه برندها خودشان کمپین ها را پست و راه اندازی می کنند، اما پلتفرم های بازاریابی و تبلیغاتی همچنین می آموزند که کدام نوع تبلیغات توجه مخاطبان را بیشتر جلب می کنند و بنابراین آن تبلیغات را بیشتر و برجسته تر نشان می دهند.
از دیدگاه مصرفکننده، ممکن است متوجه شوید که تبلیغاتی که دریافت میکنید معمولاً از شرکتهایی هستند که قبلاً از وبسایتهایشان بازدید کردهاید، قبلاً از آنها خرید کردهاید یا در همان صنعت شرکتی هستند که از آن خرید کردهاید. به این دلیل که پلتفرمهای بازاریابی و تبلیغات میتوانند از یادگیری تقویتی برای مرتبط کردن شرکتها، محصولات و خدمات مشابه برای اولویتبندی مشتریان خاص استفاده کنند. اگر آنها گزینههای خاصی را امتحان کنند و یک کلیک یا تعامل دیگر دریافت کنند، نشان میدهد که آنها «درست» بودهاند و باید دوباره همان استراتژی را به کار گیرند.