این مقاله انگلیسی در نشریه آی تریپل ای در 5 صفحه در سال 2015 منتشر شده و ترجمه آن 14 صفحه بوده و آماده دانلود رایگان می باشد.
دانلود رایگان مقاله انگلیسی (pdf) و ترجمه فارسی (pdf + word) |
عنوان فارسی مقاله: |
یک طرح ترکیبی کارآمد برای استخراج فریم کلیدی و موقعیت یابی متن در ویدئو
|
عنوان انگلیسی مقاله: |
An Efficient Hybrid Scheme for Key Frame Extraction and Text Localization in Video
|
دانلود رایگان مقاله انگلیسی |
|
دانلود رایگان ترجمه با فرمت pdf |
|
دانلود رایگان ترجمه با فرمت ورد |
|
مشخصات مقاله انگلیسی و ترجمه فارسی |
فرمت مقاله انگلیسی |
pdf |
سال انتشار |
2015 |
تعداد صفحات مقاله انگلیسی |
5 صفحه با فرمت pdf |
نوع نگارش |
مقاله پژوهشی (Research article) |
نوع ارائه مقاله |
کنفرانس |
رشته های مرتبط با این مقاله |
مهندسی کامپیوتر |
گرایش های مرتبط با این مقاله |
هوش مصنوعی – مهندسی الگوریتم ها و محاسبات |
چاپ شده در مجله (ژورنال)/کنفرانس |
کنفرانس بین المللی پیشرفت در محاسبات، ارتباطات و انفورماتیک (ICACCI) |
کلمات کلیدی |
شناسایی عکس – حالات رنگی – استخراج فریم های کلیدی – تبدیل موج گسسته – لاپلاس فیلتر گاوسی – تفاوت گرادیان |
کلمات کلیدی انگلیسی |
Shot detection – Color Moments – Key Frame Extraction – Discrete Wavelet Transform – Laplacian of Gaussian Filter – Gradient Difference |
ارائه شده از دانشگاه |
گروه مهندسی برق و الکترونیک و ارتباطات دانشگاه ITM |
شناسه دیجیتال – doi |
https://doi.org/10.1109/ICACCI.2015.7275784 |
لینک سایت مرجع |
https://ieeexplore.ieee.org/document/7275784 |
رفرنس |
دارای رفرنس در داخل متن و انتهای مقاله ✓ |
نشریه |
آی تریپل ای – IEEE |
تعداد صفحات ترجمه تایپ شده با فرمت ورد با قابلیت ویرایش |
14 صفحه با فونت 14 B Nazanin |
فرمت ترجمه مقاله |
pdf و ورد تایپ شده با قابلیت ویرایش |
وضعیت ترجمه |
انجام شده و آماده دانلود رایگان |
کیفیت ترجمه |
مبتدی (مناسب برای درک مفهوم کلی مطلب)
|
کد محصول |
F2323 |
بخشی از ترجمه |
3. روش پیشنهادی
فلوچارت چارچوب پیشنهادی برای موقعیت یابی متن در ویدئو در تصویر 1 آورده شده است. جزئیات هر بلوک فرآیند در زیر تشریح شده اند.
A. استخراج فریم کلیدی
یک ویدئو از چندین فریم تشکیل یافته است که به صورت دنباله ای از هم در یک ویدئو نمایش داده میشوند. وقتی یک ویدئو ضبط میشود تمامی این تصاویر به صورت مداوم با یک دوربین ثبت شده و به عنوان یک عمل دنباله دار از نظر زمانی و فضایی ارائه میشود. این واحد های موقتی پایه شات، یا برداشت نامیده میشوند. برداشت ها با گذارهای تدریجی به یکدیگر متصل میشوند. این گذارها را میتوان با استخراج خصوصیات ویژه هر فریم شناسایی کرد و اگر شاخص تمایز برای دو فریم پشت سر هم بسیار بالا باشد، نشان دهنده گذار از برداشتی به برداشت دیگر هستیم. در مدل پیشنهادی، یک شات را میتوان بر اساس لحظه رنگی استخراج کرد. این مفهوم یک فاصله اقلیدسی است که تجانس بین فریم ها را اندازه میگیرد.
B. استخراج لبه
1) DWT: وقتی که فریم های کلیدی استخراج شدند، هر فریم به یک تصویر سیاه و سفید تبدیل میشود، اگر ویدئو رنگی باشد. DWT یکی از تبدیلات مفید برای آنالیز چند وضوحه تصاویر است. در DWT دو بعدی، سیگنال تصویر ورودی به چهار زیر باند تقسیم میشود؛ LL – LH – HL – HH. اینکار با یکبار فیلتر کردن تصویر به صورت سطری و حذف کردن دوتا در میان انجام میشود. زیر تصویر بوجود آمده بار دیگر به صورت ستونی فیلتر میشود و با حذفیات مشابه. زیر باند LL اجزای میانی تصویر را نمایش میدهد، در حالیکه LH – HL و HH به ترتیب جزئیات اجزای افقی، عمودی و قطری را نشان میدهند. معمولا متن هر سه نوع از لبه ها را ارائه میکند که از این جزئیات اجزا حاصل شده اند. دلیل اصلی برای استفاده از DWT دو بعدی جهت استخراج لبه ها این است که میتواند تمامی سه نوع لبه را به صورت همزمان شناسایی کند. در مقایسه با روش های سنتی در این زمینه زمان محاسبه کاهش پیدا میکند. یکی دیگر از مزایای DWT در این است که میتواند نویز را حذف کند، در حالیکه سایر شناسایی کننده ها نویز را نیز به عنوان لبه حساب میکنند.
2) فیلترینگ لاپلاس ماسک گاوسی: سه جزئیات لبه ای که با روش DWT تفکیک شده بودند با استفاده از یک عملگر فیلترینگ لاپلاس ماسک گاوسی 5×5 فیلتر میشوند تا بلوک های حاوی متن در هر یک از اجزای جزئیات استخراج شود. از فیلترهای سطح پایین تر برای صیقلی کردن تصویر به واسطه حذف کردن نویز ها استفاده میشود. این فیلترها معمولا عملگرهای ماسک را اعمال میکنند. برای شناسایی لبه از روش لاپلاس از بلوک هایی از تصویر استفاده میشود که تغییر شدت رنگ آنی داشته باشند. تصویر حاصل پس از اعمال فیلتر لاپلاسی و تغییر بین این مقادیر برای شناسایی متن و گذارهای پس زمینه استفاده میشود. صیقلی کردن لاپلاسی مشکلات حساسیت به نویز را کاهش میدهد و در عین حال با محدود کردن تصویر به چند باند فرکانس معین گذارهای صفر را نیز حذف میکند.
C. تمایز گرادیان ماکزیمم
اطلاعات گرادیان مناطق حاوی متن در یک تصویر به طور بخصوصی از پس زمینه تصویر متفاوت تر است. مقادیر مثبت و منفی در اجزای فیلتر شده توسط LoG در یک تصویر با استفاده از روش تمایز گرادیان ماکزیمم (MGD) استخراج میشود. MGD به عنوان یک تمایز بین مقادیر ماکزیمم و مینیمم داخل پنجره است.
D. فرآیند باینری کردن
پس از حصول نگاشت گرادیان، هر یک از اجزای جزئیات یک تصویر به شکل باینری تبدیل میشوند. در اینجا ما از روش حد نصاب سنجی دینامیک استفاده کرده ایم. برای تعیین مقدار حد نصاب، دو عملگر ماسک برای حصول معادله به کار رفته اند. با اعمال این معادله بر روی هر پیکسل در کنار پیکسل های همسایه اش مقدار حد نصاب بازگردانده میشود. مقدار حد نصاب برای نگاشت گرادیان تمامی سه اجزای جزئیات محاسبه میشود. این یک روش حد نصاب سنجی دینامیک است. پس G نگاشت گرادیان یک بخش جزئیات است.E. موقعیت یابی متن
گام های پایه بکار رفته برای موقعیت یابی متن در این روش از قرار زیر هستند:
1. عملگرهای مورفولوژیکی: اتساع مورفولوژیکی بر روی تصویر باینری با 3 بخش جزئیات و با استفاده از عناصر ساختاری متفاوت برای هر بخش انجام میشود. در این مثال، یک مستطیل به عنوان یک عنصر ساختاردهنده برای اجزای افقی و قطری و یک مستطیل برای اجزای عمودی به کار رفته است.
2. AND منطقی: از آنجایی که متن حاوی اجزای افقی، عمودی و قطری است، این سه بخش با استفاده از یک عملگر AND منطقی با هم ترکیب میشوند تا مناطق حاوی متن از هم جدا شود.
3. حذف مثبت و منفی ها: در تصویر نهایی اجزای به هم متصل شده با استفاده از اتصال-8 برچسب گذاری میشوند اما همچنان ممکن است حاوی مقادیر مثبت نادرست باشد که از قواعد هندسی استفاده شده برای کاندید کردن مناطق حاوی متن به جا مانده باشد.
4. نتایج آزمایشی و معیارهای مقایسه و ارزیابی
الگوریتم پیشنهاد شده با استفاده از نرم افزار متلب پیاده سازی شده است. برای اهداف آزمایشی ما مجموعه داده ویدئو خودمان را ایجاد کردیم که شامل ویدئوهای کارتونی، ورزشی و آموزشی میشد. الگوریتم بر روی چند تصویر هم آزمایش شده است. نتایج موقعیت یابی متن در ویدئوهای ساده و تصاویر در تصویرهای 5 و 6 نمایش داده شده اند.
ارزیابی عملکرد این روش با استفاده از روش موجود و مشهور «دقت و حافظه» و انجام شده است.
در اینجا، مثبت های نادرست همان مناطقی در تصویر هستند که مناطق حاوی متن شناسایی شده اند، اما در واقع حاوی متن نیستند. منفی های نادرست هم مناطق کاندید شده هستند که در واقع حاوی متن هستند، اما شناسایی نشده اند. یک معیار ترکیبی است که دقت و حافظه و تبادل بین این دو را مشخص میکند
بلوکهای اعداد نهایی شناسایی شده برای موقعیت یابی متن به صورت دستی شمارش شده و به دسته های زیر تقسیم میشوند:
1) بلوک های کاندید متن (CTB): تعداد کل بلوک های شناسایی شده است.
2) بلوک های متن حقیقی (TTB): تعداد بلوک های کاندید شده ای که حاوی متن هستند.
3) بلوک های متن نادرست (FTB): تعداد بلوک متن های نادرست شناسایی شده هستند، برای مثال بدون حتی یک کاراکتر از متن
4) بلوک متن های جا افتاده (MTB): آنهایی هستند که ناقص شناسایی شده اند، برای مثال بلوک هایی با چند کاراکتر جا افتاده از متن.
|