پروژه متلب الگوریتم جدید برای یادگیری ترکیبی Reinforcement Learning
هدف مقاله:
پیاده سازی روشی با ایجاد تغییرات در الگوریتم روش های پایه در الگوریتم های یادگیری ترکیبی،
نکات مهم:
الگوریتم های اصلی ارائه شده در این مقاله شامل :
Q-Learning
Sarsa
می باشد.
در این روش های مهم ترین نحوه بروز رسانی توابع
Action-value
می باشد و همچنین نحوه به کاربردن جریمه و پاداش در تکرارهای الگوریتم.
معیارهای استفاده و انتخاب از بخش بعدی عموما یکی از سه روش زیر است که در این مقاله فقط از روش اول استفاده شده است.
e-greedy
e-soft
softmax
همچنین برای بهبود انتخاب های کلی در انتهای این روش از روش شبکه عصبی برای بهبود انتخاب های جدول انتخاب های
Action_value=Q
دانش جدید برای بهبود روند اتنخاب های داده های
Q
با استفاده از شبکه عصبی حاصل می گردد.
با تغییراتی که در کد اصلی این روش های داده شده هدف
Opposite
بهبود سرعت با انجام انتخاب های بهتر است.
توابع برنامه:
Main.m
فراخوان اصلی برنامه که شامل فراخوانی های اصلی برنامه و همچنین اجرای شبکه عصبی روی توابع
Action-value
می باشد.
Initializegrid.m
مقدار دهی های اولیه به متغیر های اصلی برنامه و همچنین چاپ جدول اصلی برای توابع.
Updategrid.m
بروز رسانی گرافیکی توابع وضعیت در صورتی که کاربر مایل به نمایش گرافیکی تغییرات در هر اجرا باشد.
Qlearn.m
اجرای الگوریتم نسخه
Oppositional
الگوریتم
Qlearning
که جزو الگوریتم های
On-policy
می باشد.
Qlearnlambda.m
پیاده سازی الگوریتم
Oppositional
الگوریتم
Qlearning
Sarsa.m
الگوریتم نسخه
Off-policy
از نسخه
Oppositional
اجرای برنامه:
برای اجرای کل برنامه فقط کافیست تابع اصلی را باروش دلخواه فقط تک کلیک روی برنامه اجرا کرد.
کارشناسی ارشد کامپیوتر هوش مصنوعی oppositional q-learning
———————————————–
توضیحات پروژه: سلام پروژه ای که هست مربوط به رشته کامپیوتر- هوش مصنوعی می باشد. موضوع پروژه یادگیری تقویتیreinforcement learning است. و پیاده سازی گونه ای الگوریتم q-learning. که یکی از الگوریتم های معروف یادگیری تقویتی میباشد. در این مقاله که به پیوست ارسال کردم دو مسئله بررسی شده که یکی به عنوان مثال حل شده و یکی مسئله اصلی میباشد.من مسئله اصلی را نمی خواهم و همان مسئله اول را که Grid-world application در قسمت ۴٫۱ آمده فقط مد نظرم هست و می خواهم به روش oppositional q-learning پیاده سازی شود. در مقاله با روش های دیگری هم انجام شده که من نیاز ندارم. این روش تفاوت های کوچکی با q(lambda) و qlearning معمولی داره و الگوریتم آن در مقاله به طور کامل آمده است. من کد های q(lambda) و qlearning معمولی را برای همین مسئله می توانم در اختیارتان قرار دهم تا در صورت نیاز مورد استفاده قرار گیرد و کار سرعت بیشتری پیدا کند. جمع بندی اینکه من فقط قسمت ۴٫۱ مقاله که عرض کردم در چه رابطه ای هست و فقط با روش oppositional qlearning میخواهم.
Oppositional extension of reinforcement learning techniques
Abstract
In this paper, we present different opposition schemes for four reinforcement learning methods: Q-learning, Q(λ), Sarsa, and Sarsa(λ) under assumptions that are reasonable for many real-world problems where type-II opposites generally better reflect the nature of the problem at hand. It appears that the aggregation of opposition-based schemes with regular learning methods can significantly speed up the learning process, especially where the number of observations is small or the state space is large. We verify the performance of the proposed methods using two different applications: a grid-world problem and a
Reinforcement learning (RL) includes various learning techniques in which single or multiple agents can be trained through interaction with stochastic or deterministic environments such that an optimal or near-optimal policy can be extracted. The most advantageous aspect of these techniques is their model-free basis, which makes them very attractive and useful for real world and online training applications. However, to converge to a steady state [20], all states and actions must be infinitely visited. This is usually not possible in large-scale applications. Opposition-based learning (OBL), first introduced by Tizhoosh [17], [18], might be an effective way to speed up the learning process [16], [12], [13], [8]. The idea underlying this methodology is to use the inherent oppositional relationships in the system to update the agent’s knowledge more frequently. Where the state space is large, using function approximation (FA) or knowledge extraction techniques can be useful in speeding up the learning process. We will also demonstrate how FA techniques can be useful in finding the opposite action/state and how they can accelerate the learning process efficiently.
تعمیم روشهای یادگیری تقویتی
چکیده در این مقاله ، ما طرحهای مخالف مختلفی را برای چهار روش یادگیری تقویتی ارایه میکنیم : یادگیری – یادگیری ، Q ( λ ) ، sarsa ، و sarsa ( λ ) تحت فرضیات منطقی برای بسیاری از مسایل دنیای واقعی که در آن opposites نوع II به طور کلی بازتاب ماهیت مساله در دسترس هستند . به نظر میرسد که تجمیع طرحهای مبتنی بر اپوزیسیون با روشهای یادگیری منظم میتواند به طور قابلتوجهی فرآیند یادگیری را تسریع کند، به خصوص جایی که تعداد مشاهدات کوچک باشد یا فضای حالت بزرگ باشد . ما عملکرد روشهای پیشنهادی را با استفاده از دو کاربرد مختلف تایید میکنیم : یک مساله شبکه – جهان و a .
مقدمه یادگیری Reinforcement شامل تکنیکهای یادگیری مختلف است که در آن عوامل واحد یا چندگانه میتوانند از طریق تعامل با محیطهای غیرقطعی یا قطعی آموزش داده شوند به طوری که یک سیاست بهینه یا نزدیک را میتوان استخراج کرد . یکی از جنبههای سودمند این روشها اساس مدل آنها است که آنها را بسیار جذاب و برای کاربردهای آموزش در دنیای واقعی و کاربردهای آموزش آنلاین مفید میسازد . با این حال ، برای رسیدن به حالت پایدار [ ۲۰ ] ، همه ایالتها و اقدامات باید بینهایت مورد بازدید قرار گیرند . این معمولا ً در کاربردهای بزرگ ممکن نیست . یادگیری مبتنی بر مخالف ( اوسامه بنلادن ) ، که ابتدا توسط Tizhoosh معرفی شد [ ۱۷ ] ، [ ۱۸ ] ، ممکن است روشی موثر برای تسریع فرآیند یادگیری باشد [ ۱۶ ] ، [ ۱۲ ] ، [ ۱۳ ] ، [ ۸ ] ، [ ۸ ] ، [ ۸ ] ، [ ۸ ] ، [ ۸ ] . ایده اساسی این روش استفاده از روابط متضاد ذاتی در سیستم برای به روز رسانی بیشتر دانش عامل است . جایی که فضای حالت بزرگ است ، استفاده از تقریب تابع ( FA ) یا تکنیکهای استخراج دانش میتواند در تسریع فرآیند یادگیری مفید باشد . همچنین نشان خواهیم داد که چگونه تکنیکهای FA میتوانند در پیدا کردن اقدام / حالت مخالف و اینکه چگونه میتوانند فرآیند یادگیری را به طور موثر تسریع کنند ، مفید باشند .
لینک مقاله اصلی:
https://www.sciencedirect.com/science/article/abs/pii/S0020025514001303
لطفاً براي ارسال دیدگاه، ابتدا وارد حساب كاربري خود بشويد