دانلود رایگان ترجمه مقاله یادگیری تقویتی عمیق برای تولید دیالوگ (سال 2016)

این مقاله انگلیسی ISI در نشریه الزویر در 11 صفحه در سال 2016 منتشر شده و ترجمه آن 20 صفحه میباشد. کیفیت ترجمه این مقاله ارزان – نقره ای ⭐️⭐️ بوده و به صورت کامل ترجمه شده است.

دانلود رایگان مقاله انگلیسی + خرید ترجمه فارسی
عنوان فارسی مقاله:	یادگیری تقویتی عمیق برای تولید دیالوگ
عنوان انگلیسی مقاله:	Deep Reinforcement Learning for Dialogue Generation
دانلود رایگان مقاله انگلیسی دانلود رایگان ترجمه مقاله خرید ترجمه این مقاله با فرمت ورد جستجوی ترجمه مقالات مهندسی کامپیوتر

مشخصات مقاله انگلیسی (PDF)
سال انتشار	2016
تعداد صفحات مقاله انگلیسی	11 صفحه با فرمت pdf
رشته های مرتبط با این مقاله	مهندسی کامپیوتر
گرایش های مرتبط با این مقاله	هوش مصنوعی، مهندسی الگوریتم ها و محاسبات
ارائه شده از دانشگاه	دانشگاه استنفورد، ایالات متحده آمریکا
رفرنس	دارد ✓
کد محصول	F1479

مشخصات و وضعیت ترجمه فارسی این مقاله (Word)
وضعیت ترجمه	انجام شده و آماده دانلود
تعداد صفحات ترجمه تایپ شده با فرمت ورد با قابلیت ویرایش	20 صفحه (3 صفحه رفرنس انگلیسی) با فونت 14 B Nazanin
ترجمه عناوین تصاویر و جداول	ترجمه شده است ✓
ترجمه متون داخل تصاویر	ترجمه نشده است ☓
ترجمه متون داخل جداول	ترجمه شده است ✓
درج تصاویر در فایل ترجمه	درج شده است ✓
درج جداول در فایل ترجمه	درج شده است ✓
درج فرمولها و محاسبات در فایل ترجمه	به صورت عکس درج شده است ✓
منابع داخل متن	درج نشده است ☓
کیفیت ترجمه	کیفیت ترجمه این مقاله متوسط میباشد

فهرست مطالب

چکیده
1-مقدمه
2-تحقیقات مرتبط
3-یادگیری پسخورد برای مکالمه حوزه باز
1-3-اقدام
2-3-حالت
3-3-سیاستگزاری
4-3-جایزه
4-شبیه سازی
1-4-یادگیری تحت نظارت
2-4-اطلاع رسانی متقابل
3-4-شبیه سازی دیالوگ بین دو عامل
4-4-یادگیری برنامه درسی
5-نتایج آزمایشی
1-5-پایگاه داده ها
2-5-ارزیابی خودکار
6-نتیجه گیری

بخشی از ترجمه

چکیده

مدلهای عصبی اخیر تولید دیالوگ برای ایجاد پاسخ ها برای عامل های مکالمه بسیار نویدبخش بوده است، ولیکن میل به نزدیک بینی دارد بطوریکه بیان را یک بار پیشگویی می کند، درحالیکه تاثیر آنها را بر نتایج آتی نادیده می انگارد. مدلسازی جهت آتی دیالوگ در ایجاد دیالوگ منسجم و جالب امری حیاتی و مهم است، نیازی که مدلهای NLP قدیمی دیالوگ را منجر به استنباط طبق یادگیری پسخورد نموده است. در این مقاله، ما نشان داده ایم که چگونه این اهداف با هم ترکیب شده و یادگیری پسخورد عمیق را برای مدلسازی پاداش آتی در دیالوگ محاوره ای بکارمی بندد. این مدل دیالوگ ها را بین دو عامل مجازی با استفاده از روشهای گرادیانی سیاستگزاری شبیه سازی می کند تا نتایجی را پاداش دهد که سه خصوصیت مکالمه ای مفید را نمایش می دهند: اطلاع رسانی، انسجام و سهولت پاسخ دهی (که به عملکرد آینده نگری مربوط می شود). ما مدل خودمان را در زمینه تنوع، طول مدت و قضاوت های انسانی ارزیابی کرده ایم که نشان می دهد الگوریتم مطرح شده باعث ایجاد پاسخ های تعاملی تر و مدیریت شکوفایی مکالمه پایدارتر در شبیه سازی دیالوگ می شود. این کار اولین مرحله به سمت یادگیری یک مدل مکالمه عصبی را مبتنی بر موفقیت طولانی مدت دیالوگ نشان می دهد.

1- مقدمه

تولید پاسخ عصبی همچنان مورد علاقه بوده است. مدل توالی به توالی LSTM (SEQ2SEQ) یک نوع مدل تولید عصبی است که احتمال تولید یک پاسخ را با درنظرگیری نوبت دیالوگ قبلی به حداکثر می رساند. این شیوه باعث اضافه کردن زمینه غنی می شود که بین نوبت های دیالوگ متوالی متناظر است به شیوه ای که برای مثال با مدلهای دیالوگ مبتنی بر MT امکانپذیر نیست.
علی رغم موفقیت مدلهای SEQ2SEQ در تولید دیالوگ، دو مسئله پدیدار شده سات: اول اینکه، مدلهای SEQ2SEQ با پیشگویی نوبت دیالوگ بعدی در یک زمینه مکالمه معین با استفاده از تابع عینی تخمین احتمال ماکزیمم MLE آموزش می بینند. ولیکن، روشن نیست که به چه خوبی MLE هدف دنیای واقعی تدوین محاوره را تخمین می زند: تعلیم یک ماشین برای مکالمه با انسانها ضمن ارائه فیدبک جالب و متنوع و آموزنده که کاربران را مشغول نگه می دارد. یک مثال منسجم این است که مدلهای SEQ2SEQ تمایل دارند که پاسخ های عمومی تری را نظیر «نمی دانم» صرفنظر از ورودی ایجاد کنند. این امر می تواند به فراوانی بالای پاسخ های عمومی یافت شده در مجموعه آموزشی و قابلیت سازگاری آنها با مجموعه متنوع زمینه های مکالمه ای نسبت داده شود. با اینحال، «نمی دانم» ظاهرا یک اقدام خوبی برای اتخاذ می باشد، چرا که مکالمه را خاتمه می دهد.
مسئله متداول دیگری که در دو مکالمه نمونه در سمت چپ جدول 1 نمایش داده شده است، این است که سیستم در یک حلقه بینهایت پاسخ های تکراری گیر کرده است. این امر به دلیل عدم توانایی مدلهای SEQ2SEQ مبتنی بر MLE برای توجیه تکرار می باشد. در مثال 2 (پایین سمت چپ)، مکالمه به یک حلقه بی نهایت بعد از سه نوبت می افتد، که هر دو عامل ایجاد کننده بیانهای کسل کننده عمومی نظیر «نمی دانم درباره چه صحبت می کنید و نمی دانم شما چه می گویید.» می باشند. با نگاه به کل مکالمه، بیان تبدیل به اتخاذ یک عمل بد می شود چرا که هیچ شیوه ای را برای ادامه مکالمه ارائه نمی دهد.

بخشی از مقاله انگلیسی

Abstract

Recent neural models of dialogue generation offer great promise for generating responses for conversational agents, but tend to be shortsighted, predicting utterances one at a time while ignoring their influence on future outcomes. Modeling the future direction of a dialogue is crucial to generating coherent, interesting dialogues, a need which led traditional NLP models of dialogue to draw on reinforcement learning. In this paper, we show how to integrate these goals, applying deep reinforcement learning to model future reward in chatbot dialogue. The model simulates dialogues between two virtual agents, using policy gradient methods to reward sequences that display three useful conversational properties: informativity, coherence, and ease of answering (related to forward-looking function). We evaluate our model on diversity, length as well as with human judges, showing that the proposed algorithm generates more interactive responses and manages to foster a more sustained conversation in dialogue simulation. This work marks a first step towards learning a neural conversational model based on the long-term success of dialogues.

1 Introduction

Neural response generation (Sordoni et al., 2015; Shang et al., 2015; Vinyals and Le, 2015; Li et al., 2016a; Wen et al., 2015; Yao et al., 2015; Luan et al., 2016; Xu et al., 2016; Wen et al., 2016; Li et al., 2016b; Su et al., 2016) is of growing interest. The LSTM sequence-to-sequence (SEQ2SEQ) model (Sutskever et al., 2014) is one type of neural generation model that maximizes the probability of generating a response given the previous dialogue turn. This approach enables the incorporation of rich context when mapping between consecutive dialogue turns (Sordoni et al., 2015) in a way not possible, for example, with MT-based dialogue models (Ritter et al., 2011).

Despite the success of SEQ2SEQ models in dialogue generation, two problems emerge: First, SEQ2SEQ models are trained by predicting the next dialogue turn in a given conversational context using the maximum-likelihood estimation (MLE) objective function. However, it is not clear how well MLE approximates the real-world goal of chatbot development: teaching a machine to converse with humans, while providing interesting, diverse, and informative feedback that keeps users engaged. One concrete example is that SEQ2SEQ models tend to generate highly generic responses such as “I don’t know” regardless of the input (Sordoni et al., 2015; Serban et al., 2016; Li et al., 2016a). This can be ascribed to the high frequency of generic responses found in the training set and their compatibility with a diverse range of conversational contexts. Yet “I don’t know” is apparently not a good action to take, since it closes the conversation down.

Another common problem, illustrated in the two sample conversations on the left of Table 1, is that the system becomes stuck in an infinite loop of repetitive responses. This is due to MLE-based SEQ2SEQ models’ inability to account for repetition. In example 2 (bottom left), the dialogue falls into an infinite loop after three turns, with both agents generating dull, generic utterances like i don’t know what you are talking about and you don’t know what you are saying. Looking at the entire conversation, utterance (4) turns out to be a bad action to take because it offers no way of continuing the conversation.

یادگیری تقویتی عمیق برای تولید دیالوگ

Deep Reinforcement Learning for Dialogue Generation

دیدگاهتان را بنویسید لغو پاسخ