دانلود رایگان ترجمه مقاله تشخیص سرقت ادبی خارجی (آی تریپل ای 2014)

 

 

این مقاله انگلیسی در نشریه آی تریپل ای در 6 صفحه در سال 2014 منتشر شده و ترجمه آن 16 صفحه بوده و آماده دانلود رایگان می باشد.

 

دانلود رایگان مقاله انگلیسی (pdf) و ترجمه فارسی (pdf + word)
عنوان فارسی مقاله:

استفاده از تکنیک مبتنی بر خوشه K-میانگین در تشخیص سرقت ادبی خارجی

عنوان انگلیسی مقاله:

Using K-means cluster based techniques in external plagiarism detection

دانلود رایگان مقاله انگلیسی
دانلود رایگان ترجمه با فرمت pdf
دانلود رایگان ترجمه با فرمت ورد

 

مشخصات مقاله انگلیسی و ترجمه فارسی
فرمت مقاله انگلیسی pdf
سال انتشار 2014
تعداد صفحات مقاله انگلیسی 6 صفحه با فرمت pdf
نوع نگارش مقاله پژوهشی (Research article)
نوع ارائه مقاله کنفرانس
رشته های مرتبط با این مقاله مهندسی کامپیوتر
گرایش های مرتبط با این مقاله مهندسی الگوریتم ها و محاسبات – علوم داده
چاپ شده در مجله (ژورنال)/کنفرانس کنفرانس بین المللی محاسبات و انفورماتیک معاصر (IC3I)
کلمات کلیدی دسته بندی اسناد متنی – سرقت ادبی خارجی – بازیابی کاندید – N-gram – مدل فضای برداری – خوشه بندی K میانگین
کلمات کلیدی انگلیسی Text Document Categorization – External Plagiarism – Candidate Retrieval – N-gram – Vector Space Model – Kmeans Clustering
ارائه شده از دانشگاه گروه علوم کامپیوتر، دانشکده مهندسی آمریتا
شناسه دیجیتال – doi https://doi.org/10.1109/IC3I.2014.7019659
لینک سایت مرجع https://ieeexplore.ieee.org/document/7019659/authors#authors
رفرنس دارای رفرنس در داخل متن و انتهای مقاله
نشریه آی تریپل ای – IEEE
تعداد صفحات ترجمه تایپ شده با فرمت ورد با قابلیت ویرایش  16 صفحه با فونت 14 B Nazanin
فرمت ترجمه مقاله pdf و ورد تایپ شده با قابلیت ویرایش
وضعیت ترجمه انجام شده و آماده دانلود رایگان
کیفیت ترجمه

مبتدی (مناسب برای درک مفهوم کلی مطلب) 

کد محصول F2066

 

بخشی از ترجمه

3. روش‌های پیشنهاد شده و مقایسه شده
این بخش روش‌های گوناگون پیشنهاد شده و مقایسه شده را در این مقاله تشریح می‌کند. روش‌های زیر بحث شده اند:
1. روش مبتنی بر N-gram
2. روش مدل فضای برداری (VSM)
3. روش مبتنی بر خوشه با استفاده از الگوریتم K-میانگین
4. K-میانگین با stemming
5. K-میانگین با ریشه یابی
6. K-میانگین با N-grams
7. K-میانگین با قطعه بندی
در آغاز برخی از پیش پردازش‌های سند متنی انجام می‌شوند. این پیش پردازش‌ها شامل tokenization، حذف نقطه گذاری و حذف کلمات اضافی ( کلماتی بدون معنا) است. یک لیست از 50 کلمه بیشتر استفاده شده در زبان انگلیسی توسط British National Corpus ارائه شده است که شامل 90 میلیون نشانه است که معمولا استفاده می‌شوند. در روشی که از قطعه بندی استفاده می‌شود، ابتدا چانک‌ها تشکیل می‌شوند و سپس کلمات اضافی حذف می‌شود. ابتدا روش مبتنی بر N-gram سنتی و روش VSM سنتی برای بازیابی کاندید استفاده می‌شود. روش مبتنی بر خوشه با استفاده از الگوریتم K-میانگین پیشنهادی پذیرفته شده است. تغییرات متفاوت تر K-میانگین صورت می‌گیرند و نتایج تحلیل و مقایسه می‌شود.

3.1 روش مبتنی بر N-gram
در اینجا پیش پردازش عمومی انجام می‌شود. سپس سند به N-gramها و N-shingles تقسیم می‌شود. این به دنباله ای از کلمات پی در پی با اندازه “N” اشاره دارد، در اینجا “N” کاربر مشخص شده است. هر دو سند مشکوک و سند منبع به پروفایل‌های N-gram خود تبدیل می‌شوند و تشابه با استفاده از ضریب Dice محاسبه می‌شود. این مشابه با ضریب جاکارد است اما اثر عبارات مشترک بین اسناد را کاهش می‌دهد. فرض کنید و مشخصه‌های N-gram مشکوک و منبع باشند، سپس ضریب Dice به شکل زیر تعریف می‌شود:
جمله انگلیسی زیر را در نظر بگیرید (E1):
“The people left their countries and sailed with Gilbert.”
بعد از پیش پردازش ابتدای، نشانه‌هایی بدست می‌آید (E1-tokens):
[‘people’, ‘left’, ‘countries’, ‘sailed’, ‘Gilbert’] پس از تشکیل trigram ؛ N=3 ؛ (E1-3-gram) داریم:
[[‘people’, ‘left’, ‘countries’], [‘left’, ‘countries’, ‘sailed’], [‘countries’, ‘sailed’, ‘Gilbert’], [‘sailed’, ‘Gilbert’]] بعد از تشکیل مشخصه‌های N-gram منبع و مشکوک، تشابه با استفاده از (1) محاسبه می‌شود. در عوض استفاده از مقدار آستانه برای انتخاب مجموعه کاندید صورت می‌گیرد، در اینجا تشابه بین هر منبع با همه موارد مشکوک محاسبه شده است. سپس اسناد مشکوک دارای حداکثر معیار ضریب جاکارد انتخاب شده به عنوان سند مربوطه است.
3.2 روش مدل فضای بردار (VSM)
مدل فضای برداری (VSM) یک مدل جبری است که نشان دهنده اطلاعات متنی به عنوان یک بردار است. در اینجا، بعد از پیش پردازش اولیه مورد نیاز، یک دیکشنری از عبارات (کلمات) از هر سند منبع استخراج می‌شود که با همه اسناد مشکوک مقایسه می‌شود. VSM اهمیت کلماتی که به صورت مکرر استفاده شده اند با متریک فراوانی سندی معکوس (tf-idf) نشان می‌دهد. فراوانی سندی معکوس idf(t) سپس محاسبه می‌شود که تاکید دارد که یک عبارت که تقریبا در کل مجموعه اسناد موجود است خوب نیست. در آخر، tf-idf محاسبه می‌شود و تشابه بین بردارهای سند با استفاده از شباهت کسینوسی محاسبه می‌شود. شباهت کسینوسی بین دو سند (مشکوک) و (منبع) به شکل زیر محاسبه می‌شود:
در اینجا و نمایش بردار سند مشکوک و منبع را به ترتیب نشان می‌دهند. صورت کسر در معادله (2) به ضرب نقطه ای سه بردار و مخرج کسر به ضرب نرم اقلیدسی آن‌ها اشاره دارد. بعد از محاسبه تشابه با استفاده از معادله (2)، اسناد کاندید توسط رویکرد مشابه با روش N-gram انتخاب می‌شود. بنابراین هر سند منبع با همه سندهای مشکوک مقایسه می‌شود و سند مشکوک با حداکثر شباهت کسینوسی انتخاب می‌شود. باید اشاره کنیم که مواردی وجود دارند که در آن یک سند منبع به هر سند مشکوکی بی ربط است، مانند زمانی که منبع کل وب است. اما رویکرد غیر آستانه ای در بازیابی کاندید کارامد است چرا که اینجا تحلیل دقیق تری برای تشخیص اسنادی که به واقع سرقت ادبی شده اند صورت می‌گیرد.

3.3 روش مبتنی بر خوشه با روش پیشنهادی الگوریتم K-میانگین
در این روش رویکرد خوشه بندی استفاده شده است، که در آن اسناد مشابه همراه هم به عنوان یک خوشه گروه بندی می‌شوند. در اینجا الگوریتم استفاده شده K-میانگین است که یک تکنیک خوشه بندی بخشی کارامد است. در الگوریتم خوشه بندی K-میانگین دو پارامتر اصلی تعداد خوشه‌ها (K) و مرکز خوشه اولیه/مرکزیت است. الگوریتم پایه به شرح زیر است:
1. انتخاب k و مرکزیت اولیه، در اینجا “K” تعداد مرکزیتی است که باید انتخاب شود.
2. انتساب هر شی به گروهی که با استفاده از معیار فاصله یا تشابه کمترین مرکزیت را دارد.
3. زمانی که همه شی‌ها تخصیص داده شدند، موقعیت‌های مرکز‌های “K” دوباره محاسبه شود.
4. تکرار مرحله 2 و 3 تا زمانی که مرکزیت دیگر تغییر نکند.
در اینج مسئله اصلی تصمیم گیری بر مقدار ‘K’ و مرکزیت اولیه است، چرا که این دو پارامترها کاملا نتایج الگوریتم را تنظیم می‌کنند. با در نظر گرفتن این محدودیت، رویکرد پیشنهادی این پارامترها مقادیر ثابتی را ارائه می‌دهند. در اینجا مفهوم استفاده شده این است که هر سند مشکوک به عنوان یک مرکزیت عمل می‌کند. سند منبع که به صورت کلی مشابه با سند مشکوک است برای خوشه‌هایی که شامل این سند مشکوک به عنوان مرکزیت هستند؛ گروه بندی می‌شود. بنابراین ‘K’ به عنوان مجموع تعداد اسناد مشکوک در نظر گرفته می‌شود، فرض کنید که مجموعه مشکوک (مجموعه PAN) داده شده باشد. با استفاده از این مفهوم، الگوریتم K-میانگین پایه برای وظیفه بازیابی کاندید به صورت زیر اصلاح می‌شود:
1. K= تعداد اسناد مشکوک
2. تنظیم مرکزیت K اولیه = هریک از K سند مشکوک.
3. تخصیص هر سند منبع به خوشه با نزدیک ترین مرکزیت با استفاده از شباهت کسینوسی
فرآیند با استفاده از یک پکیج Python اجرا می‌شود که خوشه بندی را تسهیل می‌کند و زمان در نظر گرفته شدن را برای بردارهای سند کاهش می‌دهد و تشابه آن‌ها را محاسبه می‌کند. سپس بر اساس معیار تشابه اسناد منبع آن‌ها بر اساس تناظر اسناد مشکوک گروه بندی می‌شوند. بنابراین هر خوشه متناظر با مجموعه کاندید از اسناد برای یک سند مشکوک خاص است. در الگوریتم پیشنهاد شده، زمانی که مرکزیت‌ها تثبیت شوند، تنها یک تکرار نیاز است. این از نظر پیچیدگی زمانی کارامد است.

3.4 تغییرات الگوریتم K-میانگین پیشنهادی
روش بازیابی کاندید K-میانگین بحث شده در زیر بخش 3.2، به عنوان رویکرد پایه استفاده شده است. سپس بسط مرکزیت بوجود می‌آیند و الگوریتم ارزیابی می‌شود. این روش‌ها در بخش‌های زیر بحث شده اند.

3.4.1 K-میانگین با Stemming (K-Stem)
در این روش، تنها تغییر این است که بعد از نشانه گذاری سند، stemming صورت می‌گیرد. ریشه یابی یک فرآیند اکتشافی از حذف وندها از کلمات است. مراحل باقی مانده مشابه با رویکرد پایه انجام شده است.

3.4.2 K-میانگین با ریشه یابی (K-Lem)
این روش از ریشه یابی به جای Stemming استفاده می‌کند. محدودیت فرم‌های پایه دیکشنری یک کلمه و موفولوژی را مورد استفاده قرار می‌دهد . این رابطه تنگاتنگی با ریشه یابی دارد اما ریشه یابی تنها در یک کلمه تکی اعمال می‌شود در حالی که محدودیت سازی بر کل متن اعمال می‌شود . این می‌تواند تبعیض قائل شدن بین کلماتی باشد که بسته به بخشی از گفتار دارای معانی متفاوت هستند.

3.4.3 K-میانگین با N-gram (K-Ng)
در اینجا روش K-میانگین با روش مبتنی بر N-gram ترکیب شده است. به جای اتخاذ کلمات منحصر N-grams ایجاد شده و پیش پردازش بیشتر از رویکرد پایه استفاده می‌شود.

3.4.4 K-میانگین با قطعه بندی (K-Chk)
روش از قطعه بندی برای تشکیل عبارات گرامری به جای مقابله با unigrams استفاده می‌کند. در ابتدا یک درخت تجزیه ساخته می‌شود. سپس اسم، فعل، صفت، قید از آن استخراج می‌شود چرا که این عبارات در معنا سازی یک جمله نقش دارد. الگوریتم با استفاده از مراحل پیش پردازش ارزیابی می‌شود، ریشه یابی و محدودیت در زیر بخش‌های 3.3.1 و 3.3.2 بحث شده اند؛ مانند K-Chk-Stem و K-Chk-Lem.

4. تنظیمات آزمایشی و تحلیل نتایج
4.1 آماره‌های داده
الگوریتم‌ها با استفاده از سه مجموعه از اسناد از مجموعه PAN-13 ارزیابی شدند. هر مجموعه دارای اسناد مشکوک و اسناد منبع متناظر هستند که در جدول 1 آورده شده است. سه مجموعه داده استفاده شده است:
•Set-1: بدون ابهام
• Set-2: ابهام تصادفی
• Set-3: ابهام در ترجمه

 

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا