این مقاله انگلیسی ISI در نشریه اسپرینگر در ۱۱ صفحه در سال ۲۰۱۶ منتشر شده و ترجمه آن ۲۲ صفحه بوده و آماده دانلود رایگان می باشد.
دانلود رایگان مقاله انگلیسی (pdf) و ترجمه فارسی (pdf + word) |
عنوان فارسی مقاله: |
رسيدن به شباهت معنایی تصوير از طريق دسته بندی حاصل از جمع سپاری
|
عنوان انگلیسی مقاله: |
Toward semantic image similarity from crowdsourced clustering
|
دانلود رایگان مقاله انگلیسی |
|
دانلود رایگان ترجمه با فرمت pdf |
|
دانلود رایگان ترجمه با فرمت ورد |
|
مشخصات مقاله انگلیسی و ترجمه فارسی |
فرمت مقاله انگلیسی |
pdf |
سال انتشار |
۲۰۱۶ |
تعداد صفحات مقاله انگلیسی |
۱۱ صفحه با فرمت pdf |
نوع مقاله |
ISI |
نوع نگارش |
مقاله پژوهشی (Research article) |
نوع ارائه مقاله |
ژورنال |
رشته های مرتبط با این مقاله |
مهندسی کامپیوتر |
گرایش های مرتبط با این مقاله |
هوش مصنوعی – مهندسی الگوریتم ها و محاسبات |
چاپ شده در مجله (ژورنال)/کنفرانس |
کامپیوتر بصری |
کلمات کلیدی |
جمع سپاری – شباهت تصوير – معيار فاصله تصوير |
کلمات کلیدی انگلیسی |
Crowdsourcing – Image similarity – Image distance metric |
ارائه شده از دانشگاه |
دانشگاه تل آویو، تل آویو، اسرائیل |
نمایه (index) |
Scopus – Master Journal List – JCR |
شناسه شاپا یا ISSN |
۱۴۳۲-۲۳۱۵
|
شناسه دیجیتال – doi |
https://doi.org/10.1007/s00371-016-1266-4 |
لینک سایت مرجع |
https://link.springer.com/article/10.1007/s00371-016-1266-4 |
رفرنس |
دارای رفرنس در داخل متن و انتهای مقاله ✓ |
نشریه |
اسپرینگر – Springer |
تعداد صفحات ترجمه تایپ شده با فرمت ورد با قابلیت ویرایش |
۲۲ صفحه با فونت ۱۴ B Nazanin |
فرمت ترجمه مقاله |
pdf و ورد تایپ شده با قابلیت ویرایش |
وضعیت ترجمه |
انجام شده و آماده دانلود رایگان |
کیفیت ترجمه |
مبتدی (مناسب برای درک مفهوم کلی مطلب)
|
کد محصول |
F2443 |
بخشی از ترجمه |
۲٫ كار مرتبط
دسته بندی تصاویر مسئله ای كه خیلی خوب مورد بررسی قرار گرفته است . الگوی عام بر اساس توصیفگرهای تصویر نظیر هیستوگرام رنگ تصاویر ، توصیفگر ها بر اساسSIFT یا توصیفگرهای GIST است . فاصله بین دو تصویر به عنوان فاصله اقلیدسی بین توصیفگرهای تصویر تعریف شده است ،دراولویت تمامی تكنیك های آموزشی كه در ماشین می تواند برای یافتن شباهتها به كارگرفته شود تا شباهتها یا مجموعه عكس ها یافته شود. با این حال چنین متدهائی از روش(BoF) (حالت های كیفی پر از حالتها ) اجزا بصری استفاده می كنند كه یا به تصویر به صورت دستی چسبانده شده یا از بافت متنی یك صفحه وب استفاده می كنند. یا این حال چنین متدهائی وقتی دسته بندی مبتنی بر حالتهای معنائی غنی باشد و ممكن است تنها بخشی از آن در برچسب منعكس شده باشد ، ناكارآمد است . برای مثال تصاویر پل های لندن و پاریس حاكی از بسیاری حالات معنائی نظیر استایل ، مواد ساختمانی و محیط عمومی هستند. تصاویر و برچسب ها ی شرح دهنده آنها نه تمام این حالات و نه اهمیت نسبی آنها را برای تعیین شباهت ضبط نمی كنند .
مشكل نبود حالتهای معنائی را می توان با با روش های یادگیری كه تا بخشی نظارتی هستند و متكی بر برچسب زنی دستی مجموعه كوچكی از عكس های دوبدو و سه گانه هستند بیشتر كاهش داد تا اینكه هر تصویر از كل مجموعه برچسب گذاری شود . حجم وسیعی از كار تلاش برای كلاس بندی تصاویر با استفاده از چنین متدهائی است ، معمولاً با برچسب زنی دوبدو شامل محدودیت های همسانی ( و گاهی اوقات ناهمسانی) مثلاً آیا دوگانه متعلق به یك كلاس است یا نه. [۱,۲,۱۹,۲۱] محدودیت های سه سویه بیشتر مربوط مقایسات نسبی تصاویراست چرا كه آنها فاصله دوجفت عكس را مقایسه می كنند. [۶,۹,۱۱,۱۳,۱۶] سپس محدودیت ها را می توان برای آموزش یك معیارفاصله بین عكسها به كارگرفت .به ویژه كار بر روی انتخاب تطبیقی سه گانه های مناسب بر پایه داده های گروه تمركز یافت[۶]. در كار اخیر [۹,۱۱,۱۳]مقایسات سه سویه از بین اعضای گروه جمع آوری شده تا درباره شباهت های استایل آگاهی كسب شود استفاده از مقایسات سه گانه دارای این عیب بود كه در كار با آن مواجه شدیم : این روش نیازمند انجام كارزیاد توسط گروه بود و به كاربران زمینه لازم داده نشده بود. این عیوب همچنین دربررسی تمركزیافته [۲۰] روی طراحی مجدد رابط برای انجام مقایسات بیشتر ازكار افراد گروه مورد توجه قرار گرفت این كار با درخواست از كابران برای انتخاب تصایر شبیه تر X به تصویر داده شده غیر از تصاویر Y انجام شد. رابط های جدید [۲۰] یك قدم جلوتراز سه گانه هستند اما در مقایسه با كار ما بررسی آنها به نكته چگونگی انتخاب موثر تصاویر برای مقایسه توجه نشده است .
كاردیگری كه بسیار مرتبط به كار دسته بندی توسط گروه ما است[۷] ، به دسته بندی تصویر توسط گروه توجه داشته است. هر عضو گروه نمونه ای از چند تصویر دریافت می كند (یك پرسش) و آنها را در داخل گروه های كلاس بندی می كند. این ورودی مدل بیزی روش های ممكن مورد استفاده توسط برای كلاس بندی هر تصویر را برآورد می كند.این كار مشابه ما به كاربر این امكان را می دهد تا تا هر تصویر مجموعه كوچكی از تصاویر را كلاس بندی كند ، و نیز در ایده بهبود نتایج دسته بندی با به كارگیری مجدد تكنیك روی دسته های بدست آمده شبیه كارما می باشد. با این حال تكنیك آنها برای محاسبه شباهتهای تصاویر طراحی نشده است . در مقابل ما بهبود مستمر را برای تعیین شباهتهای تصویر با همرسی سریعتر به كار بستیم .ما عملكرد تكنیك های خود را با [۷] دربخش۴ مقایسه نمودیم.
كار [۲۲]توصیه می كند تنها پاسخ پرسش ها را دربخش كوچكی از داده دریافت كنیم و از تكنیك های پایان یابی ماتریس اختصاصی برای تكمیل كلاس بندی های نامعلوم استفاده كنیم تا اینكه نیار باشد كه هر تصویر در یك پرسش به گونه [۷] وجود داشته باشد. این كار متعامد بر كارهای ماست ومی توان آن را به كارگرفت اگر،تعداد پرسش هائی كه می توان پرسید متناسب با تعداد تصاویر باشد.
جمع سپاری برای كارهای مرتبط باكارما نظیر جوركردن ركوردها روی تصاویر[۱۰] گروه بندی وtop-k [5]و جوركردن كلیت مورداستفاده قرا گرفته است.با این وجود نه در هیچكدام ازكارهای قبلی به مسئله آموزش یك معیار شباهت تصویر توجه شده ونه می توان آنها رابه صورت مستقیم دراین كار، به كاربست.برای مثالk-NN(k-Nearest Neighbors algorithm ) به منظور یافتن top-k شبیه ترین تصاویر برای هر تصویر مور ملاحظه قرار گیرد؛ با این حال به كابردن روش[۵] به صورت مجزا برای هر تصویر ناكارآمد است .
۳٫ الگوریتم
ما بعداً متد ایجاد پرسش ها را برای گروه براساس معیار برآورد شده شباهت و بهبود معیار بر اساس پاسخ های اخذ شده از گروه شرح خواهیم داد . قصد ما استفاده از پرسش ها ئی است كه مشتمل بر تصاویری از یك محل همسایگی است كه برای تعیین معیار كلی موثرتر است .
الگوریتم ما پرسش های دسته بندی را با استفاده از تصاویر nq ایجاد می كند . پاسخ دریافت شده از اعضای گروه برای قرار دادن تصویر دسته های nc است . گروه منبع نسبتاً گرانی به لحاظ نایابی ، تلاش انسان و هزینه پولی است . بنابر این در بسیاری از موارد تجربی ، تعداد كل پرسشهائی كه می توان پرسید به لحاظ بودجه از پیش تعیین شده محدود است . با چنین بودجه مشخصی هدف ، الگوریتمی كه ما بوجود آوردیم بهره گیری از پرسش ها به بهترین وجه ممكن با منحصراً با درنظرگرفتن همسایگی های محلی است. حاصل این امرفرآیند تكراری است درحالی كه همسایگی ها مطابق با نتایج پرسش ها تغییر می یابند.
متد ما فواصل محلی را با نگهداشتن دسته بندی از كل مجموعه در فضای اقلیدسی برآورد می كند كه در آن فواصل محاسبه می شوند . دسته بندی به صورت تصادفی آغاز می شود و همسایگی های محلی به صورت مستمر بهبود می یابند. دسته بندی این اطمینان را می دهد كه فواصلی كه حتی پرسیده نشده اند در اطلاعات ناكاملی كه از فواصل پرسش شده سازگارباشد . برای بهبود دسته بندی همسایگی های محلی،ما پرسش هائی در دسته های كوچك به كاربران ارائه دادیم و بعد از ارائه هر دسته از پرسش ها دسته بندی را بهبود بخشیدیم.به صورت جالب توجهی پرسش كردن همسایگی های محلی از دسته بندی به صورت اثر بخشی بهبود یافت حتی در مراحل آغازین كه تصاویر ضرورتاً ازلحاظ معنائی نزدیك نبودند ، چون چنین پرسش هائی درهمان همسایگی محدودیت های زیادی ایجاد می كردند.به علاوه ما می خواستیم در هر تكراری همسایگان نزدیكی كه تا بحال از لحاظ معنایی شبیه بوده اند را حفظ كنیم . حتی در دسته بندی تصادفی ، پرسش ها بر مبنای همسایگی به تشخیص و حفظ موارد كمك می كند اگر همسایگان نیز از لحاظ معنای شبیه باشند .
مراحل اصلی الگوریتم در الگوریتم ۱ نمایش داده شده است : به عنوان ورودی الگوریتم تعداد كل پرسش های مجاز را (budget) دریافت می گیرد و تعداد پرسش ها در هر تكرار (batch_size) . نتایج پرسش ها در دسته بندی (E) و معیار كلی فاصله ایجاد شده (D) تجمیع شد. خروجی الگوریتم معیار فاصله محاسبه شده بر اساس آخرین و بهبود یافته ترین دسته بندی است .
در پرسش دسته بندی برای مجموعه تصاویر I، ما پرسشی Q تعریف كردیم به عنوان زیر مجموعه I حاوی تصاویر nq
پاسخ به هر پرسش بخشی است از Qبه داخل دسته های گسسته C1, . . . ,Cnc ⊆ Q . از این پاسخ ما مقایسات شباهتها را استخراج كردیم : تصاویر داده شده x, y در در دسته Ci و تصویر سوم z در دسته متفاوت Cj ، ما نتیجه گیری كردیم كه (x, y) < (x, z) اگر نشان دهنده معیار شباهت باشد. همان قدر كهnq افزایش می یابد، مقایسات بیشتری اخذ می كنیم اما تعداد تصاویر در یك پرسش باید تا اندازه ای كوچك باشد تا اعضای گروه بتوانند آنهارا مشاهده نمایند[۱۰] . درآزمایشات ما مشخص شد كه تعداد۲۰ برای nq میزان خوبی برای پایاپای بودن سادگی واثر بخش بودن است.همسو با این دریافتیم كه تنظیم تعداد دسته های nc بهینه است كه بین حصول مقایسات بیشتر(مقادیر كمتر nc) وحذف سریع تصاویر مشابه (مقادیر بیشترnc) توازن ایجاد می كند .
ایجاد پرسش ها درالگوریتم ما پرسش ها براساس حذف از فازهای قبلی ایجاد شده اند. در هرفاز ، پرسش هائی(a) ایجاد كردیم كه محلی هستند و (b) مجموعه عكس هائی را پوشش می دهد كه حتی الامكان دقیق باشند. برای چنین كاری ما تصاویر تصادفی به صورت یكنواخت (یكدست) نمونه گرفتیم در حالی كه مطمئن شدیم نزدیكترین همسایگان هم نیستند. وقتی چنین نمونه هائی باقی ماندند دوباره شروع كردیم . برای هر عكس نمونه گرفته شده k آن را ، نزدیكترین همسایه در دسته بندی ، یافتیم . سپس خارج از این همسایه ها ما زیر مجموعه تصادفی اندازه nq نمونه گرفتیم و در پرسش بعدی مورد استفاده قرار دادیم .
دسته بندی ما دسته بندی تمام تصاویررا، كه به تدریج با هر دسته از پرسش ها بهبود یافته بود ، نگهداری كردیم. دسته بندی حاوی اطلاع دقیقی در مورد فاصله سازگار بین هر دوگانه از تصاویر است كه در فاز بعدی مورد استفاده قرار گرفته است. قبل از اینكه اولین پرسش به كاربران ارسال شود تصاویر با استفاده از پراكندگی تصادفی همسان درفضای اقلیدسی دسته بندی شده است . برای بهبود تدریجی دسته بندی ما فاصله بین هر جفت از عكس ها را محاسبه كردیم و فواصل را برحسب نتایج نتایج پرسش بهنگام سازی نمودیم و تصاویر را مجدداً با استفاده از این فواصل بهنگام سازی شده دسته بندی نمودیم . این كار فواصل بهنگام سازی شده را همسان نمود و هر ناهمسانی بین آنها را برطرف نمود. برای محاسبه دسته بندی به عنوان ورودی فاصله بین هر جفت از عكسها را به مقیاس دهی چند بعدی (MDS) دادیم و محاسبه انجام شد.
به صورت ویژه تر می خواهیم دسته بندی بیابیم كه تنها اهمیت لحاظ شده درآن فواصلی باشد كه درباره آنها اطلاعات داریم (از طریق نتایج پرسش)، وازتمام فواصل دیگرچشم پوشی شده باشد.برای این كارازالگوریتم Sammon Projection [14] استفاده شد كه یك تكنیك مقیاس بندی چند بعدی است و دسته بندی را با استفاده از تابع استرس و شیب نزولی تعریف می كند. تابع سنگین استرس برای اهمیت دادن به فواصل مرتبط و صرف نظر از سایر فواصل با دادن وزن خیلی كم به آنها، به كار گرفته می شود . تمام وزن ها با مقدار خیلی كم آغاز می شود . در هر مرحله ما برای هر فاصله بهنگام سازی شده ۱ را اختصاص می دهیم . به فواصلی كه در مراحل پیشین بهنگام سازی شده اند مقدار ۱ تخصیص داده می شود بنابراین یك بار كه یك بار دوگانه عكس ها مورد پرسش قرار میگیرند وزن آن در مراحل بعدی نظر گرفته می شود .
|