عنوان فارسی مقاله: | روش فاکتورگیری نامنفی ماتریس (NMF) مبتنی بر نمونه در شناسایی رویداد صوتی |
عنوان انگلیسی مقاله: | AN EXEMPLAR-BASED NMF APPROACH FOR AUDIO EVENT DETECTION |
دانلود مقاله انگلیسی: | برای دانلود رایگان مقاله انگلیسی با فرمت pdf اینجا کلیک نمائید |
سال انتشار | 2013 |
تعداد صفحات مقاله انگلیسی | 3 صفحه |
تعداد صفحات ترجمه مقاله | 9 صفحه |
مجله | چالش در تشخیص و طبقه بندی رویدادها |
دانشگاه | گروه بهداشت دانشگاه اورله بلژیک |
کلمات کلیدی | تشخیص رخدادهای صوتی ، نمونه |
نشریه IEEE | IEEE |
فهرست مطالب:
چکیده
1 مقدمه
2 روشها
2 1 مدل ترکیبی
2 2 ایجاد دیکشنری
2 3 تشخیص رخدادهای صوتی
3 تنظیمات آزمایشی
4 آزمایشات برروی دادههای توسعهیافته
4 1 نتایج
5 بحث
5 1 مجموعه داده Office Live
5 2 مجموعه داده Office synthetic
6 نتایج و کارهای آینده
بخشی از ترجمه:
مجموعه داده Office synthetic
به طور کلی، میتوانیم ببینیم که عملکرد مجموعه داده Office Synthetic بسیار پایین تر از مجموعه داده Office Liveاست، احتمالآ با توجه به تاثیرات نویزهای اضافهشده و همپوشانی رخدادها این نتیجه گرفتهشدهاست. جدول 2 به ما اجازه میدهد تا عملکرد چارچوبهای پیشنهادشده در مجموعه داده Office Synthetic را به عنوان تابعی از SNR و تراکمهای صوتی مطالعه کنیم. در صورتی که باید به این نکته اشارهکرد که هر امتیاز F گزارششده به تنهایی براساس رکوردسازی واحد است، میتوانیم مشاهده کنیم که بالاترین امتیاز F برای شرایط تراکم بالا و متوسط در SNR 4dB بدستمیآید. اگرچه چارچوبهای ترکیبی میتوانند ذاتآ همپوشانی بین نویز و دیگر رخدادها را اداره کنند، تنها یک مجموعه کوچک از تغییرات (100) ذرات نویزی در دسترس است، در صورتی که نویز به نوعی کمتر ساخت یافتهاست و بنابراین سخت تر مدل میشود.
شاید تعجب آور باشد، که اغلب شرایط مشکل در تنظیم تراکم “پایین” هستند، برای مواردی که بهترین نتایج در پایینترین SNR بدستمیآید. بااین حال، در این شرایط رخدادهای صوتی بسیار کم رنگ هستند که به احتمال زیاد این نتایج به طور کامل نشان دادهنمیشود. بازرسیهای دقیقتر نشانمیدهند که موقعیت موقتی رخدادهای صوتی کمتر یا بیشتر به درستی تعیین میشود، حتی در شرایط نویز بالا، اما آن رخدادها خودشان به طور نادرستی تشخیص دادهمیشوند. یک تحلیل با جزییات بیشتر در کارهای آینده باید نشاندهند که آیا این تاثیری بر تخریب نویز دارد یا نه یا باتوجه به دیگر تستهای باقی مانده عدم تطابق .
در تنظیمات تراکم “بالا” ، نتایج به تنظیمات تراکم ” پایین” افت مییابد. اگر چه چارچوبهای ترکیبی میتوانند رخدادهای متداخل را اداره کنند، استفاده از دیکدر مبتنی بر HMM به عنوان یک مرحله هموارکننده مانع رخدادهای متداخل است. ما به طور خلاصه با گذرهای Viterbi متعدد آن را آزمایش کردیم ( در هر ناحیه گذر همه رخدادهای فعالسازی عبورهای قبلی ) ، که در [1] استفاده میشود، اما این نتایج رضایتبخش تا زمانی که به تعداد بزرگتری از خطاهای درج منجرنشود، حاصل نمیشود.
6- نتایج و کارهای آینده
ما چارچوبهای NMF مبتنی بر نمونه را نشان دادیم، که در نتایج امیدوارکننده برروی مجموعه داده Office synthetic و عملکرد بهتر قابل ملاحظه سیستمهای پایه مجموعه داده Office Live نتیجه میدهد. کارهای آینده برروی استفاده از گروههای پراکنده برای بهبود مدلسازی صوتی، و استفاده از مدل باطنی نیرومندتر برای جایگزینی یا افزودن هموارسازی مبتنی HMMتمرکز میکند. یکسری از احتمالات استفاده از بازه زمانی صریح HMM برای مدل کردن طول رخدادهای صوتی است، و استفاده از مدلهای مبتنی بر حالت ذرات ریز مانند انچه که در اینجا کشف شد؛ است.
بخشی از مقاله انگلیسی:
5.2. Office synthetic dataset
Overall, we can observe that the performance on the Office Synthetic dataset are much lower than for the Office Live dataset, presumably due to the effect of added noise and overlapping events. Table 2 allows us to study the performance of the proposed framework on the Office Synthetic dataset as a function of SNR and acoustic density. While it should be noted that each reported F-score is solely based on a single recording, we can observe that the highest F-scores for the medium and high density condition are obtained at an SNR of 6 dB. Although the compositional framework can inherently handle the overlap between noise and other events, only a very small set (100) of noise atoms are available, while noise is typically less structured and thus harder to model.
Perhaps surprisingly, the most difficult condition is the ‘low’ density setting, for which the best results are obtained at the lowest SNR. However, in this condition the acoustic events are so rare that it is likely that these results are not fully representative. Closer inspection revealed that the temporal location of acoustic events was more or less correctly determined, even in high noise conditions, but that the events themselves were incorrectly recognized. A more detailed analysis in future work will have to reveal whether this is an effect of the corrupting noise or due to some other test-train mismatch.
In the ‘high’ density setting, the results also drop w.r.t the ‘medium’ density settings. Although the compositional framework can handle overlapping events, the use of a HMM-based decoder as a smoothing step precludes overlapping events. We briefly experimented with multiple Viterbi passes (at each pass zeroing out all event activations of the previous passes), as used in [1], but this did not yield satisfactory results since it led to a large number of insertion errors.
6. CONCLUSIONS AND FUTURE WORK
We presented an exemplar-based NMF framework, which yielded promising results on the Office Synthetic dataset and substantially outperformed the baseline system on the Office Live dataset. Future work will focus on the use of group sparsity to improve acoustic modelling, and the use of more robust back-end models to replace or augment the HMM-based smoothing. Some possibilities are the use of explicit-duration HMMs to model the typical lengths of acoustic events, and the use of more fine-grained state-based models such as those explored in [3].
عنوان فارسی مقاله: | تخشیص رویدادهای صوتی با رویکرد NMF مبتنی بر نمونه |
عنوان انگلیسی مقاله: | AN EXEMPLAR-BASED NMF APPROACH FOR AUDIO EVENT DETECTION |