این مقاله انگلیسی در نشریه آی تریپل ای در ۴ صفحه در سال ۲۰۰۱ منتشر شده و ترجمه آن ۱۱ صفحه بوده و آماده دانلود رایگان می باشد.
دانلود رایگان مقاله انگلیسی (pdf) و ترجمه فارسی (pdf + word) |
عنوان فارسی مقاله: |
نیروی XXI زمین جنگجو: رویکرد سیستم به تشخیص گفتار
|
عنوان انگلیسی مقاله: |
Force XXI Land Warrior: A Systems Approach to Speech Recognition
|
دانلود رایگان مقاله انگلیسی |
|
دانلود رایگان ترجمه با فرمت pdf |
|
دانلود رایگان ترجمه با فرمت ورد |
|
مشخصات مقاله انگلیسی و ترجمه فارسی |
فرمت مقاله انگلیسی |
pdf |
سال انتشار |
۲۰۰۱ |
تعداد صفحات مقاله انگلیسی |
۴ صفحه با فرمت pdf |
نوع ارائه مقاله |
کنفرانس |
رشته های مرتبط با این مقاله |
مهندسی کامپیوتر |
گرایش های مرتبط با این مقاله |
هوش مصنوعی – مهندسی الگوریتم ها و محاسبات – علوم داده |
چاپ شده در مجله (ژورنال)/کنفرانس |
کنفرانس بین المللی آکوستیک، گفتار و پردازش سیگنال (ICASSP) |
کلمات کلیدی |
تشخیص گفتار – رابط های کاربر – انسان ها – رگ ها – سیستم های کنترلی – استحکام – پیچیدگی محاسباتی – چند جمله ای ها – عملکرد سیستم – پایگاه های داده |
کلمات کلیدی انگلیسی |
Speech recognition – User interfaces – Humans – Veins – Control systems – Robustness – Computational complexity – Polynomials – System performance – Databases |
ارائه شده از دانشگاه |
آزمایشگاه رابط انسانی موتورولا، تمپ، ایالات متحده آمریکا |
شناسه دیجیتال – doi |
https://doi.org/10.1109/ICASSP.2001.941079 |
لینک سایت مرجع |
https://ieeexplore.ieee.org/document/941079 |
رفرنس |
دارای رفرنس در داخل متن و انتهای مقاله ✓ |
نشریه |
آی تریپل ای – IEEE |
تعداد صفحات ترجمه تایپ شده با فرمت ورد با قابلیت ویرایش |
۱۱ صفحه با فونت ۱۴ B Nazanin |
فرمت ترجمه مقاله |
pdf و ورد تایپ شده با قابلیت ویرایش |
وضعیت ترجمه |
انجام شده و آماده دانلود رایگان |
کیفیت ترجمه |
مبتدی (مناسب برای درک مفهوم کلی مطلب)
|
کد محصول |
F2239 |
بخشی از ترجمه |
یکی از مهمترین مسائل مربوط به رابط کاربر، تمرکز بر روش شروع موتور تشخیص گفتار است. دو معیار وجود دارد. سرباز باید محاصره نشده باشد و دقت سیستم باید انتظارات او را برآورده کند. یک سیستم مبتنی بر کلمات کلیدی، باعث عملیات کاملاً آزاد می شود، اما دارای دو نقص مشخص می باشد. اول اینکه الگوریتم کلمه کلیدی باید به طور مداوم اجرا شود، که باعث تخلیه باتری می شود. دوم اینکه، چنین سیستمی به خطاهای درج و یا تشخیص فرمان دروغ حساس است. برای حل این مسائل، یک خط اتصال “فشار دادن برای صحبت کردن” مورد نیاز است.
برای خط اتصال “فشار دادن برای صحبت کردن”، محل دکمه به توانایی سربازان بستگی دارد تا به راحتی تشخیص داده و شروع به کار کند. چندین گزینه پیشنهادی شامل افزودن یک دکمه به یک سلاح پیشرفته وجود دارد. به وضوح نشان داده شده است که با استفاده از ترکیب قرارگیری دکمه و استفاده از تشخیص گفتار به عنوان رابط اولیه، سرباز می تواند کارآیی خود را افزایش دهد. شکل ۳ یک سرباز با استفاده از رابط گفتار (سمت چپ) را با یک سرباز با استفاده از یک دستگاه اشاره گر سنتی (راست) مقایسه می کند. سرباز با استفاده از SVC، هر دو دست خود را بر روی سلاح نگه می دارد که باعث کاهش تمرکز سرباز می شود، در صورتی که در روش دیگر، با دستکاری موس، سرباز با سلاح خود به زمین اشاره می کند.
علاوه بر اهمیت رابط کاربر، محدودیت های مصرف انرژی و استحکام نیز بر روی انتخاب الگوریتم های تشخیص گفتار مزبور تاثیر می گذارد (بخش ۳). به منظور ارائه کارایی مورد نیاز، نرم افزار به طور کلی با سیستم کلی معیارهای طراحی خاص یکپارچه می شود تا به محیط های شلوغ ناسازگار و سخنرانی استرس زا (بخش ۴)، و همچنین رد صحیح سر و صدا OOV (بخش ۵) رسیدگی کند.
۳٫ ساختار طبقه بندی شده
در حال حاضر روش های طبقه بندی زیادی برای حل مشکل تشخیص گفتار مورد استفاده قرار می گیرد. به طور سنتی، از روشهای آماری برای مدل سازی نطق سخنرانان استفاده می شود؛ محبوب ترین رویکرد، مدل مخفی مارکوف (HMM) است. اخیراً، روشهای طبقه بندی مختلفی برای این مشکل اعمال شده است. به منظور ارائه بهترین عملکرد برای سیستم های تشخیص گفتار، این عملکردها شامل داده های خارج از کلاس در مرحله آموزش هستند. برای SVC، یک رویکرد بر اساس طبقه بندی چند جمله ای اجرا می شود.
ساختار اصلی طبقه بندی ما در شکل ۴ نشان داده شده است. بردارهای ویژگی x1 … xM، به یک تابع مجزا وارد می شوند (wtp (x))، و سپس خروجی به صورت میانگین همه Mها برای تولید یک امتیاز، محاسبه می گردد. این استراتژی شبیه به رویکردهای روابط ترکیبی است که در آن شبکه های عصبی مصنوعی به عنوان ژنراتورهای احتمالی، مورد استفاده قرار می گیرند (۲).
طبقه بندی الگوی ما از یک تابع تشخیص چندجمله ای استفاده می کند تابع تشخیصی، متشکل از دو بخش است. بخش اول مدل (w)، برای رده های مخصوص است. بخش دوم (p(x))، یک بردار مبتنی بر چند جمله ای است که از ویژگی ورودی بردار x ساخته شده است. این بردار، مبتنی بر شرایط تک جمله ای تا درجه K از ویژگی های ورودی است. بنابراین، خروجی تابع جدا شده، یک ترکیب خطی از عناصر پایه چند جمله ای است.
امتیاز دادن به کارایی محاسبات برای تشخیص سخنران، مهم می باشد. بار سیستم سربازان، توسط پیچیدگی ارزیابی تابع مجزا تعیین می شود. از آنجایی که w وابسته به شاخص قاب نمی باشد، امتیاز دهی را می توان به صورت ساده به صورت زیر نوشت: تنها یک بردار منفرد، نشان دهنده گفتار ورودی محاسبه شده است، و هر ارزیابی نمره، با محاسبه یک محصول درونی برابر می باشد. تعداد عملیات نقطه شناور (FLOPS) شامل ۲Nmodel-1 است که در آن، Nmodel، طول w می باشد.
بنابراین، برای ۱۵ ویژگی و گسترش چند جمله ای (k=3)، W، طول معادل ۸۱۶ است که تنها منجر به ۱۶۳۱ FLOPS در هر امتیاز کلمه، و یک اندازه مدل ۳۲۶۴ بایت برای نمایش نقطه شناور می شود. شرح مفصل این روابط در (۳) توضیح داده شده است.
۴٫ سخنرانی پر صدا و استرس زا
برای اطمینان از اینکه SVC به طور قابل اعتماد برای سرباز پیاده انجام می شود، داده های مربوط به سر و صدای خاص از تمرینات آتش سوزی طبیعی مورد ارزیابی قرار می گیرد. منابع قابل توجه سر و صدا عبارتند از آتش وسیله نقلیه و اسلحه. تجزیه و تحلیل این داده ها (و اطلاعات سر و صدا مشابه از پایگاه داده NOISEX-92)، باعث درک ویژگی های طیفی خاصی قابل استفاده در سناریوهای واقعی می شود. صدای خودرو معمولی به صورت نیمه ثابت با طیف عبور کم مشخص می شود. آتش سلاح ها، عمدتاً به صورت پرتاب کننده است.
چندین آزمایش صوتی با چندین میکروفن انجام می شود تا بتوانند پاسخ کلی سیستم را مشخص کنند. در این روش از یک مبدل واکنش، به عنوان پایه استفاده می شود و دو میکروفون، سر و صدا را مورد آزمایش قرار می دهد. اولین آن “آندریا” است که ما در آن مورد تجربه داریم؛ یکی دیگر، عنصر “Electret Gentex” است که میکروفون ارتباطی مورد استفاده در سیستم Land Drive EMD می باشد.
نمونه هایی که از سر و صدای وسیله نقلیه و تفنگ ساچمه ای با استفاده از بلندگو پخش و ضبط می شود، هر دو با خود سرباز و با دستورات فردی با او صحبت می کنند. تجزیه و تحلیل سخنرانی های ضبط شده باعث ایجاد ویژگی های طیفی پاسخ های نزدیک به میدان و دور از میکروفون می شود. از این داده ها، یک فیلتر انفجار محدود (IFIR) یکپارچه شده برای از بین بردن فرکانس های پایین غالب در منابع صوتی طراحی شده است.
نگرانی اصلی برای سخنرانی استرس زا، اثر لومپارد است (۱) که مشخصه غالب آن، یک جابجایی در طیف (مشابه با عدم انطباق کانال) است. برای جبران این ناهنجاری، از میانگین تفریق cepstral (CMS) و نرمال سازی انحراف استفاده می شود. نتایج پایگاه داده SUSAS (4) در جدول ۱ نشان داده شده است.
|