100000 تومان
افزودن به سبد خرید
0 فروش 252 بازدید
جزئیات محصول
تعداد قسمت: 1
پسوند فایل: zip
حجم فایل: 3MB
فایل راهنما: دارد
فریم ورک: MATLAB
بسته نصبی: ندارد
امکانات: فایل های مقالات لاتین (1 مقاله) و فایل ورد (8 صفحه) و ام فایل متلب
تاریخ انتشار: 14 فوریه 2021
دسته بندی: ,,

تبلیغات

پروژه متلب الگوریتم جدید برای یادگیری ترکیبی Reinforcement Learning

 

هدف مقاله:

پیاده سازی روشی با ایجاد تغییرات در الگوریتم روش های پایه در الگوریتم های یادگیری ترکیبی،

 

نکات مهم:

الگوریتم های اصلی ارائه شده در این مقاله شامل :

Q-Learning

Sarsa

می باشد.

در این روش های مهم ترین نحوه بروز رسانی توابع

Action-value

می باشد و همچنین نحوه به کاربردن جریمه و پاداش در تکرارهای الگوریتم.

 

معیارهای استفاده و انتخاب از بخش بعدی عموما یکی از سه روش زیر است که در این مقاله فقط از روش اول استفاده شده است.

e-greedy

e-soft

softmax

همچنین برای بهبود انتخاب های کلی در انتهای این روش از روش شبکه عصبی برای بهبود انتخاب های جدول انتخاب های

Action_value=Q

 

دانش جدید برای بهبود روند اتنخاب های داده های

Q

با استفاده از شبکه عصبی حاصل می گردد.

 

با تغییراتی که در کد اصلی این روش های داده شده هدف

Opposite

بهبود سرعت با انجام انتخاب های بهتر است.

توابع برنامه:

Main.m

فراخوان اصلی برنامه که شامل فراخوانی های اصلی برنامه و همچنین اجرای شبکه عصبی روی توابع

Action-value

می باشد.

 

Initializegrid.m

مقدار دهی های اولیه به متغیر های اصلی برنامه و همچنین چاپ جدول اصلی برای توابع.

 

Updategrid.m

بروز رسانی گرافیکی توابع وضعیت در صورتی که کاربر مایل به نمایش گرافیکی تغییرات در هر اجرا باشد.

 

Qlearn.m

اجرای الگوریتم نسخه

Oppositional

الگوریتم

Qlearning

که جزو الگوریتم های

On-policy

می باشد.

 

Qlearnlambda.m

پیاده سازی الگوریتم

Oppositional

الگوریتم

Qlearning

 

Sarsa.m

الگوریتم نسخه

Off-policy

از نسخه

Oppositional

 

اجرای برنامه:

برای اجرای کل برنامه فقط کافیست تابع اصلی را باروش دلخواه فقط تک کلیک روی برنامه اجرا کرد.

 

 

کارشناسی ارشد کامپیوتر هوش مصنوعی oppositional q-learning

———————————————–
توضیحات پروژه: سلام پروژه ای که هست مربوط به رشته کامپیوتر- هوش مصنوعی می باشد. موضوع پروژه یادگیری تقویتیreinforcement learning است. و پیاده سازی گونه ای الگوریتم q-learning. که یکی از الگوریتم های معروف یادگیری تقویتی میباشد. در این مقاله که به پیوست ارسال کردم دو مسئله بررسی شده که یکی به عنوان مثال حل شده و یکی مسئله اصلی میباشد.من مسئله اصلی را نمی خواهم و همان مسئله اول را که Grid-world application در قسمت ۴٫۱ آمده فقط مد نظرم هست و می خواهم به روش oppositional q-learning پیاده سازی شود. در مقاله با روش های دیگری هم انجام شده که من نیاز ندارم. این روش تفاوت های کوچکی با q(lambda) و qlearning معمولی داره و الگوریتم آن در مقاله به طور کامل آمده است. من کد های q(lambda) و qlearning معمولی را برای همین مسئله می توانم در اختیارتان قرار دهم تا در صورت نیاز مورد استفاده قرار گیرد و کار سرعت بیشتری پیدا کند. جمع بندی اینکه من فقط قسمت ۴٫۱ مقاله که عرض کردم در چه رابطه ای هست و فقط با روش oppositional qlearning میخواهم.

 

 

Oppositional extension of reinforcement learning techniques

Abstract

In this paper, we present different opposition schemes for four reinforcement learning methods: Q-learning, Q(λ), Sarsa, and Sarsa(λ) under assumptions that are reasonable for many real-world problems where type-II opposites generally better reflect the nature of the problem at hand. It appears that the aggregation of opposition-based schemes with regular learning methods can significantly speed up the learning process, especially where the number of observations is small or the state space is large. We verify the performance of the proposed methods using two different applications: a grid-world problem and a

Reinforcement learning (RL) includes various learning techniques in which single or multiple agents can be trained through interaction with stochastic or deterministic environments such that an optimal or near-optimal policy can be extracted. The most advantageous aspect of these techniques is their model-free basis, which makes them very attractive and useful for real world and online training applications. However, to converge to a steady state [20], all states and actions must be infinitely visited. This is usually not possible in large-scale applications. Opposition-based learning (OBL), first introduced by Tizhoosh [17], [18], might be an effective way to speed up the learning process [16], [12], [13], [8]. The idea underlying this methodology is to use the inherent oppositional relationships in the system to update the agent’s knowledge more frequently. Where the state space is large, using function approximation (FA) or knowledge extraction techniques can be useful in speeding up the learning process. We will also demonstrate how FA techniques can be useful in finding the opposite action/state and how they can accelerate the learning process efficiently.

تعمیم روش‌های یادگیری تقویتی

چکیده در این مقاله ، ما طرح‌های مخالف مختلفی را برای چهار روش یادگیری تقویتی ارایه می‌کنیم : یادگیری – یادگیری ، Q ( λ ) ، sarsa ، و sarsa ( λ ) تحت فرضیات منطقی برای بسیاری از مسایل دنیای واقعی که در آن opposites نوع II به طور کلی بازتاب ماهیت مساله در دسترس هستند . به نظر می‌رسد که تجمیع طرح‌های مبتنی بر اپوزیسیون با روش‌های یادگیری منظم می‌تواند به طور قابل‌توجهی فرآیند یادگیری را تسریع کند، به خصوص جایی که تعداد مشاهدات کوچک باشد یا فضای حالت بزرگ باشد . ما عملکرد روش‌های پیشنهادی را با استفاده از دو کاربرد مختلف تایید می‌کنیم : یک مساله شبکه – جهان و a .

مقدمه یادگیری Reinforcement شامل تکنیک‌های یادگیری مختلف است که در آن عوامل واحد یا چندگانه می‌توانند از طریق تعامل با محیط‌های غیرقطعی یا قطعی آموزش داده شوند به طوری که یک سیاست بهینه یا نزدیک را می‌توان استخراج کرد . یکی از جنبه‌های سودمند این روش‌ها اساس مدل آن‌ها است که آن‌ها را بسیار جذاب و برای کاربردهای آموزش در دنیای واقعی و کاربردهای آموزش آنلاین مفید می‌سازد . با این حال ، برای رسیدن به حالت پایدار [ ۲۰ ] ، همه ایالت‌ها و اقدامات باید بی‌نهایت مورد بازدید قرار گیرند . این معمولا ً در کاربردهای بزرگ ممکن نیست . یادگیری مبتنی بر مخالف ( اوسامه بن‌لادن ) ، که ابتدا توسط Tizhoosh معرفی شد [ ۱۷ ] ، [ ۱۸ ] ، ممکن است روشی موثر برای تسریع فرآیند یادگیری باشد [ ۱۶ ] ، [ ۱۲ ] ، [ ۱۳ ] ، [ ۸ ] ، [ ۸ ] ، [ ۸ ] ، [ ۸ ] ، [ ۸ ] . ایده اساسی این روش استفاده از روابط متضاد ذاتی در سیستم برای به روز رسانی بیشتر دانش عامل است . جایی که فضای حالت بزرگ است ، استفاده از تقریب تابع ( FA ) یا تکنیک‌های استخراج دانش می‌تواند در تسریع فرآیند یادگیری مفید باشد . همچنین نشان خواهیم داد که چگونه تکنیک‌های FA می‌توانند در پیدا کردن اقدام / حالت مخالف و اینکه چگونه می‌توانند فرآیند یادگیری را به طور موثر تسریع کنند ، مفید باشند .

 

لینک مقاله اصلی:

https://www.sciencedirect.com/science/article/abs/pii/S0020025514001303

افزودن به سبد خرید

لطفاً براي ارسال دیدگاه، ابتدا وارد حساب كاربري خود بشويد

محصولات پر فروش

پر فروش ترین محصولات فروشگاه روکساوب