دانلود رایگان مقاله انگلیسی + خرید ترجمه فارسی
|
|
عنوان فارسی مقاله: |
مدل زبانی پیگیری تاپیک (موضوع) برای تشخیص گفتار |
عنوان انگلیسی مقاله: |
Topic tracking language model for speech recognition |
|
مشخصات مقاله انگلیسی و ترجمه فارسی | |
سال انتشار | 2011 |
تعداد صفحات مقاله انگلیسی | 22 صفحه با فرمت pdf |
تعداد صفحات ترجمه مقاله | 35 صفحه با فرمت word به صورت تایپ شده با قابلیت ویرایش |
رشته های مرتبط با این مقاله | مهندسی کامپیوتر، مهندسی پزشکی و مهندسی برق |
گرایش های مرتبط با این مقاله | هوش مصنوعی، بیو الکتریک و مهندسی الکترونیک |
مجله | گفتار کامپیوتر و زبان (Computer Speech and Language) |
دانشگاه | آزمایشگاه علوم ارتباطات، ژاپن |
کلمات کلیدی | مدل زبانی، مدل تاپیک نهفته، پیگردی تاپیک، الگوریتم آنلاین، تشخیص گفتار |
شناسه شاپا یا ISSN | ISSN 0885-2308 |
رفرنس | دارد |
لینک مقاله در سایت مرجع | لینک این مقاله در نشریه Elsevier |
نشریه الزویر | Elsevier |
- بخشی از ترجمه:
چکیده
در محیط واقعی، مشخصه های زبانی و اکوستیک (صوت شناسی) اغلب بر مبنای گویندگان، سبک گفتار و تغییرات موضوع متفاوت می باشد. به منظور سازش با این تغییرات، رویکردهای تشخیص گفتار که شامل ردیابی پله ای تغییرات محیطی می باشد، توجهات را به سمت خود معطوف کرده است. این مقاله مدل زبانی پیگیری تاپیک را مطرح می کند که بطور سازگارانه، تغییرات را در تاپیک بر مبنای اطلاعات متنی موجود و مدل های تاپیک برآورد شده قبلی به صورت آنلاین دنبال می کند. مدل مطرح شده برای انطباق با مدل زبانی به منظور تشخیص گفتار، کاربرد دارد. ما از مجموعه تحققیات آزاد MIT و مجموعه ای از تحقیقات انجام شده توسط ژاپنی ها در بررسی های مرتبط به تشخیص گفتار استفاده می کنیم و کارایی مدل طرح شده را نشان می دهیم.
مدل زبانی؛ مدل تاپیک نهفته؛ پیگردی تاپیک؛ الگوریتم آنلاین؛ تشخیص گفتار
١. مقدمه
تشخیص گفتار به عنوان تکنیک امید بخشی در نوشت برداری اتوماتیک از اخبارهای پخش شده، آرشیوهای چندرسانه ای بر روی وب، جلسات، و ضبط سخنرانی ها برای بازیابی اطلاعات می باشد. در این سناریوها، گفتار شامل تغییرات زمانی ایجاد شده توسط تغییر گویندگان، سبک های گفتار، پارازیت های محیطی، و تاپیک می باشد. بنابراین مدل های تشخیص گفتار تغییرات زمانی را در محیط های زبانی و صوت شناختی دنبال می کند. این مقاله تمرکزش را بر روی دنبال کردن تغییرات زمانی در محیط های زبانی همان طور که در شکل ١ نشان داده شده است، قرار می دهد. شکل ١ دنبال کردن تغییرات زمانی را با استفاده از مدل زبانی دینامیک کلام نشان می دهد.
بررسی مدل های زبان دینامیک فراتر از N-gram، تغییراتی را در محیط زبانی ایجاد می کند، که به عنوان تاپیک اصلی در تحقیقات مدل زبانی می باشد. مدل های زبان دینامیک اساسا به دو دسته طبقه بندی می شوند، یعنی مواردی که به تخمین احتمالات کلمه ( N-gram) به طور مستقیم و غیرمستقیم می پردازند. این مدل از احتمالات مربوط به N-gram، با استفاده از متن نهفته ( برای مثال، هزاران کلمه در پیشینه متنی)، علاوه بر احتمالات استاندارد N-gram می پردازد. احتمالات مربوط به N-gram جدید از طریق وارد کردن خطی دو احتمال بدست می آید. تکنیک بکارگرفته شده دیگر در رویکردهای تخمین مستقیم بر مبنای معیار قیاس حداکثر (MAP) می باشد. به این ترتیب، احتمالات مربوط به N-gram از طریق شمارش N-gram بدست می آید، که به صورت خطی در بین دو N-gram قرار می گیرند، که بر خلاف احتمالات مربوط به درون یابی رویکرد نهانگاه می باشد.
- بخشی از مقاله انگلیسی:
Abstract
In a real environment, acoustic and language features often vary depending on the speakers, speaking styles and topic changes. To accommodate these changes, speech recognition approaches that include the incremental tracking of changing environments have attracted attention. This paper proposes a topic tracking language model that can adaptively track changes in topics based on current text information and previously estimated topic models in an on-line manner. The proposed model is applied to language model adaptation in speech recognition. We use the MIT OpenCourseWare corpus and Corpus of Spontaneous Japanese in speech recognition experiments, and show the effectiveness of the proposed method.
Introduction
Speech recognition is a promising technique for automatically transcribing broadcast news, multimedia archives on the web, meetings, and lecture recordings for information retrieval (e.g., Makhoul et al. (2000) for broadcast news and Glass et al. (2007); Hori et al. (2009) for lectures). In these scenarios, speech includes temporal variations caused by changes of speakers, speaking styles, environmental noises, and topics. Thus, speech recognition models have to track temporal changes in both acoustic and language environments. This paper focuses on tracking temporal changes in language environments, as shown in Fig. 1. Fig. 1 depicts temporal change tracking by using a dynamic language model of a lecture. The study of dynamic language models beyond N-gram deals with the temporal changes in language environments, which is a main theme of language model research (see Rosenfeld, 2000; Bellegarda, 2004 in detail). The dynamic language models are mainly classified into two types, i.e., those that estimate word (N-gram) probabilities directly and indirectly. The cache-based language model (Kuhn and De Mori, 1990) is representative of the direct estimation approaches. This model uses an N-gram probability obtained from a cache text (e.g., thousands of words in a text history), in addition to a normal (static) N-gram probability. The new N-gram probability is obtained by linearly interpolating the two probabilities. The other techniques employed in the direct estimation approaches are based on the maximum a posteriori (MAP) criterion.
دانلود رایگان مقاله انگلیسی + خرید ترجمه فارسی
|
|
عنوان فارسی مقاله: |
مدل زبانی ردیابی موضوع برای تشخیص گفتار |
عنوان انگلیسی مقاله: |
Topic tracking language model for speech recognition |
|