دانلود ترجمه مقاله جست جوی درخت مونته کارلو برای یادگیری تقویتی بیزی – اسپرینگر ۲۰۱۳

springer4

 

دانلود رایگان مقاله انگلیسی + خرید ترجمه فارسی
عنوان فارسی مقاله:

جست جوی درخت مونته کارلو برای یادگیری تقویتی بیزی

عنوان انگلیسی مقاله:

Monte-Carlo tree search for Bayesian reinforcement learning

 

 

مشخصات مقاله انگلیسی (PDF)
سال انتشار مقاله ۲۰۱۳
تعداد صفحات مقاله انگلیسی ۹ صفحه با فرمت pdf
رشته های مرتبط با این مقاله مهندسی کامپیوتر
گرایش های مرتبط با این مقاله مهندسی الگوریتم ها و محاسبات، هوش مصنوعی
چاپ شده در مجله (ژورنال) هوش کاربردی – Applied Intelligence
کلمات کلیدی یادگیری تقویتی بیزی، یادگیری تقویتی مبتنی بر مدل، تحقیق مونته کارلو ، POMDP
ارائه شده از دانشگاه مرکز تحقیقات و توسعه علوم و فناوری، دانشگاه DuyTan، ویتنام
نویسندگان Ngo Anh Vien , Wolfgang Ertel , Viet-Hung Dang , TaeChoong Chung
شناسه شاپا یا ISSN ISSN ۱۵۷۳-۷۴۹۷
شناسه دیجیتال – doi https://doi.org/10.1007/s10489-012-0416-2
رفرنس دارد 
کد محصول ۹۵۴۷
لینک مقاله در سایت مرجع لینک این مقاله در سایت Springer
نشریه اسپرینگر springer3

 

مشخصات و وضعیت ترجمه فارسی این مقاله (Word)
وضعیت ترجمه انجام شده و آماده دانلود
کیفیت ترجمه طلایی⭐️
تعداد صفحات ترجمه تایپ شده با فرمت ورد با قابلیت ویرایش  ۲۰ صفحه با فونت ۱۴ B Nazanin
ترجمه عناوین تصاویر و جداول ترجمه شده است 
ترجمه متون داخل تصاویر ترجمه شده است 
ترجمه متون داخل جداول ترجمه شده است 
درج تصاویر در فایل ترجمه درج شده است  
درج جداول در فایل ترجمه درج شده است  
درج فرمولها و محاسبات در فایل ترجمه  به صورت عکس درج شده است  
منابع داخل متن  درج نشده است 

 

فهرست مطالب

چکیده

۱- مقدمه

۲- مقدمه

۳- فرمولاسیون POMDP در یادگیری تقویتی بیزی

۳-۱ فرمولاسیون POMDP

۳-۲ الگوریتم های BEELTE

۴- برنامه ریزی مونته کارلو قابل رویت به صورت نسبی (POMCP)

۵- برنامه ریزی مونته کارلو برای RL های بیزی

۶- ترکیب های تو در و از مدل های ترکیب شده

۷- آزمایش ها

۷-۱ مسئله زنجیره

۷-۲ مسئله مارپیچ

۸- جمع بندی

 

بخشی از ترجمه

چکیده

یادگیری تقویتی مبتنی بر مدل های بیزی را میتوان به صورت روند تصمیم گیری مارکو با قابلیت مشاهده و ارزیابی نسبی (POMDP) فرمول سازی کرد تا بتوان یک قالب کاری اصولی برای بهره برداری و ارزیابی تعادل بهینه فراهم کرد . سپس، یک حل کننده یPOMDP را میتوان مورد استفاده قرار داد تا مشکلات را حل کرد. در صورتی که توزیع اولیه نسبت به حالت پویای محیط محصولی از توزیع دریکله باشد، تابع ارزش بهینه ی POMDP را میتوان با استفاده از مجموعه از چند جمله های چند متغیره، ارائه کرد. متاسفانه، سایز چند جمله ای ها، مطابق با افق مسئله، به صورت نمایی افزایش پیدا میکند. در این مقاله، ما استفاده از یک درخت جستجوی مونته کارلو آنلاین (MCTS) را برای POMDP های بزرگ ارزیابی کردیم تا بتوانیم مسئله های یادگیری تقویتی بیزی را حل کنیم. ما نشان خواهیم داد که این الگوریتم به صورت موفق میتواند به دنبال سیاست های نزدیک به حالت بهینه بگردد. به علاوه، ما استفاده از یک روش پارامتری برای کوچک نگاه داشتن فضای جستجو را بررسی کرده و ترکیب تو در تو مدل های به هم پیوسته را پیشنهاد میدهیم تا صلابت روش را، زمانی که اطلاعات اولیه ی ما به ما این امکان را نمیدهد تا ساختار مدل های پیوسته را به صورت دقیق مشخص کنیم ، افزایش دهیم. آزمایش ها نشان میدهد که مدل پیشنهاد شده به صورت محدود میتواند موجب بهبود مقیاس پذیری روش های یادگیری تقویتی بیزی شود.

 

۸- جمع بندی
ما استفاده از برنامه ریزی مونته کارلو برای حل کردن یادگیری تقویتی بیزی به صورت آنلاین را بررسی کردیم.. استفاده از شبیه سازی های مونته کارلو ، مانع ایجاد شدن یک منبع عدم قابلیت ردگیری در حالت آفلاین میشود. روش های یادیگری تقویت بایزی – رشد نمایی نماینده ی تابع مقدار با افق مسئله دیده میشود. ما علاوه بر این پیشنهاد میکنیم که از ترکیب های تو در تو مدل های پیوسته به عنوان یک روش برای افزایش مقاومت در روش ، زمانی که ساختار فضای پارامتر ها به خوبی مشخص نیست، استفاده شود. نتایج در این زمینه نشان میدهد که این روش عملکرد بهتری دارد و به صورت محسوس مقیاس پذیری را نسبت به حل کننده های فعلی، بهبود یدهد.
ما همچنین استفاده از روش MDP های یادگیری را بررسی کرده ایم. توسعه ی این روش برای یادگیری های POMDP ها بسیار جالب میباشد. کمبود نمایش باور های فشرده، به نظر برای توسعه ی روش های ما بر روی POMDP یک مانع میباشد. ممکن است بررسی روش های تخمینی ماند فیلتر های ذرات برای نمایش باور ها در این مسئله، از نظر مطالعات آتی میتواند جذاب باشد.

 

بخشی از مقاله انگلیسی

Abstract

Bayesian model-based reinforcement learning can be formulated as a partially observable Markov decision process (POMDP) to provide a principled framework for optimally balancing exploitation and exploration. Then, a POMDP solver can be used to solve the problem. If the prior distribution over the environment’s dynamics is a product of Dirichlet distributions, the POMDP’s optimal value function can be represented using a set of multivariate polynomials. Unfortunately, the size of the polynomials grows exponentially with the problem horizon. In this paper, we examine the use of an online Monte-Carlo tree search (MCTS) algorithm for large POMDPs, to solve the Bayesian reinforcement learning problem online. We will show that such an algorithm successfully searches for a near-optimal policy. In addition, we examine the use of a parameter tying method to keep the model search space small, and propose the use of nested mixture of tied models to increase robustness of the method when our prior information does not allow us to specify the structure of tied models exactly. Experiments show that the proposed methods substantially improve scalability of current Bayesian reinforcement learning methods.

 

۸ Conclusion

We examined the use of partially observable Monte-Carlo planning for online solving of Bayesian reinforcement learning problems. The use of online Monte-Carlo simulation avoids one source of intractability in offline Bayesian reinforcement learning methods—the exponential growth of the value function representation with time horizon. We further propose the use of a nested mixture of tied models as a method for increasing the robustness of the method when the structure of the parameter space is not known well. Experiments show that the method performs well and substantially increases the scalability of current solvers. We have only studied the use of the method for learning MDPs. It would be interesting to extend the method to learning POMDPs. The lack of a compact representation of beliefs appears to be one obstacle for extending the method to POMDPs. It may be interesting to examine approximate methods such as particle filters for belief representation in these problems.

 

 

تصویری از مقاله ترجمه و تایپ شده در نرم افزار ورد

 

 

 

دانلود رایگان مقاله انگلیسی + خرید ترجمه فارسی
عنوان فارسی مقاله:

جست جوی درخت مونته کارلو برای یادگیری تقویتی بیزی

عنوان انگلیسی مقاله:

Monte-Carlo tree search for Bayesian reinforcement learning

 

 

 

ارسال دیدگاه

نشانی ایمیل شما منتشر نخواهد شد.