عنوان فارسی مقاله: | یادگیری تقویتی با راهنمایی هماهنگی |
عنوان انگلیسی مقاله: | Coordination Guided Reinforcement Learning |
دانلود مقاله انگلیسی: | برای دانلود رایگان مقاله انگلیسی با فرمت pdf اینجا کلیک نمائید |
سال انتشار | 2012 |
تعداد صفحات مقاله انگلیسی | 8 صفحه |
تعداد صفحات ترجمه مقاله | 23 صفحه |
مجله | علوم کامپیوتر |
دانشگاه | سنگاپور |
کلمات کلیدی | یادگیری تقویتی، هدایت و راهنمایی اکتشاف، محدودیت های هماهنگی، فرایند تصمیم گیری عاملی مارکو |
نشریه IAAE | ACM |
فهرست مطالب:
چکیده
۱ مقدمه
۲ سیستم RL دو سطحی
۱ ۲ معادلات یادگیری و به روزدرآوری ها
۲ ۲ انتخاب عمل
۳ ۲ ویژگیها و محدودیت ها
۴ ۲ کارایی یادگیری سطح بالا
۳ نتایج تجربی
۱ ۳ حوزه فوتبال ساده شده
۱ ۱ ۳ تنها روشهای درست
۲ ۱ ۳ با تقریب تابع
۲ ۳ حوزه RTS تاکتیکی
۱ ۲ ۳ ویژگیها و نادرستی یابی دقتی ورابطه ای
۴ بحث و کار وابسته
۵ نتیجه گیری
بخشی از ترجمه:
۱ مقدمه
دانش تخصصی معمولاً در یادگیری تقویتی در مقیاس بزرگ (RL) به طرق گوناگونی بکار گرفته شده است. به ویژه، RL سلسله مراتبی فرایندهای تصمیم گیری تک عاملی مارکو (MDP) را از طریق تقسیم بندی بازگشتی آنها به مسائل کوچکتر با استفاده از سلسله مراتب وظایف، اداره می کند. سلسله مراتب وظایف فضای حل (سیاست ها) مسئله یادگیری را محدود می کند به گونه ای که فقط اعمال وابسته به کار و وظایف را در هر مقطع زمانی می توان انتخاب نمود. یادگیری (فراگیری) سیاست انتخاب وظایف خوب روند اکتشاف را به سمت بخشهای امیدوارکننده تری از MDP هدایت می کند.
برای مسائل چند عاملی، هر عامل دارای مجموعه اعمالی است که محصول دکارتی، فضای عمل مشترک را تشکیل می دهد. این فضا در تعدادی از عوامل نمایی بوده و به همین خاطر RL با اکتشاف ساده، به صورت آهسته انجام می گیرد. برای مسائل چند عاملی با یک سلسله مراتب وظیفه به ازای هرعامل از RL سلسله مراتبی استفاده شده که اعمال به صورت مشترک انتخاب شده اند. به محض انتخاب وظیفه هر عامل، مجموعه محدود شده ای از اعمال در مورد او در نظر گرفته می شود. اما، این چارچوب را نمیتوان به راحتی بسط و توسعه داد و رفتار هماهنگی میان عوامل متعدد را لحاظ نمود.
5. نتیجه گیری
دراینجا کاربرد دانش هماهنگی تخصصی برای بهبود RLاز طریق CC ها برای MDP های چند عامل از دیدگاه متمرکز را مورد پژوهش قرار داده ایم. سطح بالای سیستم پیشنهاد شده یاد می گیرد برای هدایت فرایند اکتشاف سطح پائین به سمت کسب تجربه بهتر، CC ها را فعال سازد. یادگیری برای فعال سازی CC ها امکان انعطاف پذیری در کشف سیاست های خوب را فراهم می آورد. برعکس، داشتن CC های ایستایی یا ثابت به تنهایی منجر به محدودیت بیش از حد سیاست می گردد. در اینجا آزمایشاتی را انجام دادیم که سیستم معرفی شده را با سایر روشهای مفید برای مسائل چند عاملی تلفیق کردند. نتایج بدست آمده پیرامون حوزه های مختلف حاکی از آن است که سیستم RL دو سطحی منجر به سیاست های بهتری در مقایسه با شیوه های موجود می گردد. به علاوه، RL با CC ها از اکتشاف زودهنگام به ویژه با CC های چند عاملی استفاده بهتری می کند. این مسئله برای برنامه های کاربردی آنلاین مفید می باشد زیرا نیل به هدف بالاتر صورت گرفته است. کار آتی شامل خودکارسازی ساخت CC ها برای کاهش تکیه بر دانش تخصصی می باشد. سایرین از یادگیری غیر متمرکز برای برنامه های توزیع شده با هزینه های ارتباطی و تلفیق روش حاضر با روشهای بر مبنای وظیفه تشکیل می شوند.
بخشی از مقاله انگلیسی:
INTRODUCTION
Expert knowledge is commonly employed in large-scale reinforcementlearning (RL) in a variety of ways. In particular,hierarchical RL handles single agent Markov decision processes(MDPs) by recursively partitioning them into smallerproblems using a task hierarchy [19, 7, 1]. The task hierarchyconstrains the solution space (policies) of the learningproblem so that only relevant actions for a task can be selectedat each time step. Learning a good task selection policy will direct exploration towards the more promisingparts of the MDP.
For multi-agent problems, each agent has a set of actionswhose Cartesian product forms the joint action space. Thisspace is exponential in the number of agents and therefore,RL with naive exploration is slow. Hierarchical RL has beenadapted to multi-agent problems [15, 9] by having one taskhierarchy per agent where the actions are selected jointly.Once each individual agent’s task is selected, it will have aconstrained (reduced) set of actions to consider. However,this framework cannot be easily extended to incorporate coordinationbehavior among multiple agents.
5. CONCLUSION
We have investigated the use of expert coordination knowledge to improve RL via CCs for multi-agent MDPs from a centralized perspective. The proposed system’s top level learns to activate CCs to guide the bottom level’s exploration towards better experience. Learning to activate CCs allows flexibility in discovering good policies. Conversely, having only static CCs may lead to over-constraining the policy. We conducted experiments that progressively integrate our system with other useful methods for multi-agent problems. Our results on different domains demonstrate that the two-level RL system leads to better policies compared to existing approaches. Further, RL with CCs makes better use of early exploration, especially with multi-agent CCs. This is advantageous for online applications as overall higher goal achievement is attained. Future work involves automating the construction of CCs to reduce reliance on expert knowledge. Others include decentralized learning for distributed applications with communication costs, and fusing our method with task-based methods.
عنوان فارسی مقاله: | یادگیری تقویتی با راهنمایی هماهنگی |
عنوان انگلیسی مقاله: | Coordination Guided Reinforcement Learning |
خرید ترجمه فارسی مقاله با فرمت ورد