دانلود ترجمه مقاله جست جوی درخت مونته کارلو برای یادگیری تقویتی بیزی – اسپرینگر 2013
دانلود رایگان مقاله انگلیسی + خرید ترجمه فارسی | |
عنوان فارسی مقاله: |
جست جوی درخت مونته کارلو برای یادگیری تقویتی بیزی |
عنوان انگلیسی مقاله: |
Monte-Carlo tree search for Bayesian reinforcement learning |
|
مشخصات مقاله انگلیسی (PDF) | |
سال انتشار مقاله | 2013 |
تعداد صفحات مقاله انگلیسی | 9 صفحه با فرمت pdf |
رشته های مرتبط با این مقاله | مهندسی کامپیوتر |
گرایش های مرتبط با این مقاله | مهندسی الگوریتم ها و محاسبات، هوش مصنوعی |
چاپ شده در مجله (ژورنال) | هوش کاربردی – Applied Intelligence |
کلمات کلیدی | یادگیری تقویتی بیزی، یادگیری تقویتی مبتنی بر مدل، تحقیق مونته کارلو ، POMDP |
ارائه شده از دانشگاه | مرکز تحقیقات و توسعه علوم و فناوری، دانشگاه DuyTan، ویتنام |
نویسندگان | Ngo Anh Vien , Wolfgang Ertel , Viet-Hung Dang , TaeChoong Chung |
شناسه شاپا یا ISSN | ISSN 1573-7497 |
شناسه دیجیتال – doi | https://doi.org/10.1007/s10489-012-0416-2 |
رفرنس | دارد ✓ |
کد محصول | 9547 |
لینک مقاله در سایت مرجع | لینک این مقاله در سایت Springer |
نشریه اسپرینگر |
مشخصات و وضعیت ترجمه فارسی این مقاله (Word) | |
وضعیت ترجمه | انجام شده و آماده دانلود |
کیفیت ترجمه | طلایی⭐️ |
تعداد صفحات ترجمه تایپ شده با فرمت ورد با قابلیت ویرایش | 20 صفحه با فونت 14 B Nazanin |
ترجمه عناوین تصاویر و جداول | ترجمه شده است ✓ |
ترجمه متون داخل تصاویر | ترجمه شده است ☓ |
ترجمه متون داخل جداول | ترجمه شده است ☓ |
درج تصاویر در فایل ترجمه | درج شده است ✓ |
درج جداول در فایل ترجمه | درج شده است ✓ |
درج فرمولها و محاسبات در فایل ترجمه | به صورت عکس درج شده است ✓ |
منابع داخل متن | درج نشده است ☓ |
فهرست مطالب |
چکیده 1- مقدمه 2- مقدمه 3- فرمولاسیون POMDP در یادگیری تقویتی بیزی 3-1 فرمولاسیون POMDP 3-2 الگوریتم های BEELTE 4- برنامه ریزی مونته کارلو قابل رویت به صورت نسبی (POMCP) 5- برنامه ریزی مونته کارلو برای RL های بیزی 6- ترکیب های تو در و از مدل های ترکیب شده 7- آزمایش ها 7-1 مسئله زنجیره 7-2 مسئله مارپیچ 8- جمع بندی |
بخشی از ترجمه |
چکیده یادگیری تقویتی مبتنی بر مدل های بیزی را میتوان به صورت روند تصمیم گیری مارکو با قابلیت مشاهده و ارزیابی نسبی (POMDP) فرمول سازی کرد تا بتوان یک قالب کاری اصولی برای بهره برداری و ارزیابی تعادل بهینه فراهم کرد . سپس، یک حل کننده یPOMDP را میتوان مورد استفاده قرار داد تا مشکلات را حل کرد. در صورتی که توزیع اولیه نسبت به حالت پویای محیط محصولی از توزیع دریکله باشد، تابع ارزش بهینه ی POMDP را میتوان با استفاده از مجموعه از چند جمله های چند متغیره، ارائه کرد. متاسفانه، سایز چند جمله ای ها، مطابق با افق مسئله، به صورت نمایی افزایش پیدا میکند. در این مقاله، ما استفاده از یک درخت جستجوی مونته کارلو آنلاین (MCTS) را برای POMDP های بزرگ ارزیابی کردیم تا بتوانیم مسئله های یادگیری تقویتی بیزی را حل کنیم. ما نشان خواهیم داد که این الگوریتم به صورت موفق میتواند به دنبال سیاست های نزدیک به حالت بهینه بگردد. به علاوه، ما استفاده از یک روش پارامتری برای کوچک نگاه داشتن فضای جستجو را بررسی کرده و ترکیب تو در تو مدل های به هم پیوسته را پیشنهاد میدهیم تا صلابت روش را، زمانی که اطلاعات اولیه ی ما به ما این امکان را نمیدهد تا ساختار مدل های پیوسته را به صورت دقیق مشخص کنیم ، افزایش دهیم. آزمایش ها نشان میدهد که مدل پیشنهاد شده به صورت محدود میتواند موجب بهبود مقیاس پذیری روش های یادگیری تقویتی بیزی شود.
8- جمع بندی |
بخشی از مقاله انگلیسی |
Abstract Bayesian model-based reinforcement learning can be formulated as a partially observable Markov decision process (POMDP) to provide a principled framework for optimally balancing exploitation and exploration. Then, a POMDP solver can be used to solve the problem. If the prior distribution over the environment’s dynamics is a product of Dirichlet distributions, the POMDP’s optimal value function can be represented using a set of multivariate polynomials. Unfortunately, the size of the polynomials grows exponentially with the problem horizon. In this paper, we examine the use of an online Monte-Carlo tree search (MCTS) algorithm for large POMDPs, to solve the Bayesian reinforcement learning problem online. We will show that such an algorithm successfully searches for a near-optimal policy. In addition, we examine the use of a parameter tying method to keep the model search space small, and propose the use of nested mixture of tied models to increase robustness of the method when our prior information does not allow us to specify the structure of tied models exactly. Experiments show that the proposed methods substantially improve scalability of current Bayesian reinforcement learning methods.
8 Conclusion We examined the use of partially observable Monte-Carlo planning for online solving of Bayesian reinforcement learning problems. The use of online Monte-Carlo simulation avoids one source of intractability in offline Bayesian reinforcement learning methods—the exponential growth of the value function representation with time horizon. We further propose the use of a nested mixture of tied models as a method for increasing the robustness of the method when the structure of the parameter space is not known well. Experiments show that the method performs well and substantially increases the scalability of current solvers. We have only studied the use of the method for learning MDPs. It would be interesting to extend the method to learning POMDPs. The lack of a compact representation of beliefs appears to be one obstacle for extending the method to POMDPs. It may be interesting to examine approximate methods such as particle filters for belief representation in these problems.
|
تصویری از مقاله ترجمه و تایپ شده در نرم افزار ورد |
دانلود رایگان مقاله انگلیسی + خرید ترجمه فارسی | |
عنوان فارسی مقاله: |
جست جوی درخت مونته کارلو برای یادگیری تقویتی بیزی |
عنوان انگلیسی مقاله: |
Monte-Carlo tree search for Bayesian reinforcement learning |
|