دانلود رایگان مقاله انگلیسی + خرید ترجمه فارسی | |
عنوان فارسی مقاله: |
DOCODE 3.0 (شناساگر کپی اسناد): سیستمی برای تشخیص سرقت ادبی با استفاده از فرایند تلفیق اطلاعات از منابع داده های اسنادی مختلف |
عنوان انگلیسی مقاله: |
DOCODE 3.0 (DOcument COpy DEtector): A system for plagiarism detection by applying an information fusion process from multiple documental data sources |
|
مشخصات مقاله انگلیسی (PDF) | |
سال انتشار | 2016 |
تعداد صفحات مقاله انگلیسی | 12 صفحه با فرمت pdf |
رشته های مرتبط با این مقاله | مهندسی کامپیوتر و مهندسی فناوری اطلاعات |
گرایش های مرتبط با این مقاله | امنیت اطلاعات، مدیریت سیستمهای اطلاعات |
چاپ شده در مجله (ژورنال) | فیوژن اطلاعات – Information Fusion |
کلمات کلیدی | تشخیص سرقت ادبی، ترکیب اطلاعات الگوهای متنی، منابع داده چند اسنادی |
ارائه شده از دانشگاه | گروه مهندسی صنایع، دانشگاه شیلی |
رفرنس | دارد ✓ |
کد محصول | F1027 |
نشریه | الزویر – Elsevier |
مشخصات و وضعیت ترجمه فارسی این مقاله (Word) | |
وضعیت ترجمه | انجام شده و آماده دانلود |
تعداد صفحات ترجمه تایپ شده با فرمت ورد با قابلیت ویرایش | 22 صفحه با فونت 14 B Nazanin |
ترجمه عناوین تصاویر | ترجمه شده است ✓ |
ترجمه متون داخل تصاویر | ترجمه نشده است ☓ |
درج تصاویر در فایل ترجمه | درج شده است ✓ |
منابع داخل متن | به صورت عدد درج شده است ✓ |
کیفیت ترجمه | کیفیت ترجمه این مقاله متوسط میباشد |
توضیحات | ترجمه این مقاله به صورت خلاصه انجام شده است. |
فهرست مطالب |
چکیده
1-مقدمه
1.1-کار های مربوطه
2-1 به سوی طبقه بندی سرقت ادبی
2-2 تشخیص خودکار سرقت ادبی
2-3 سیستم های تشخیص سرقت ادبی
3-سیستم پیشنهادی
3-1 شناساگرئ کپی در اسناد: FASTDOCODE
3-2 تغییر شناساگر سبک نوشتاری
3-3 شناساگر متن پنهان
3-4 بازیاب سند وب مشابه
3-5 شناساگر اقتباسی برای زبان اسپانیایی
3-6 انالیزور موضوعی چند اسنادی
3-7 بازیاب سند دیتابیس داخلی
4-معماری
5-رابط کاربری
5.1-برای اسناد درون یک مجموعه
5-2 برای همه اسناد درون مجموعه
5-3 DOCODE
|
بخشی از ترجمه |
چکیده
سرقت ادبی اشاره به فرایند ارایه کلمات، افکار و ایده های افراد دیگر به صورت کلمات، افکار و ایده های خود بدون رفرنس دادن به منابع آن ها دارد. رشد ازمایشی منابع اسناد دیجیتالی مختلف موجود در اینترنت موجب تسهیل توسعه این عمل شده و در نهایت موجب شده است تا تشخیص دقیق آن به یک فرایند مهم برای سازمان های اموزشی تبدیل شود.در این مقاله، DOCODE 3.0 که یک سیستم اینترنتی برای موسسات اموزشی جهت تحلیل مقادیر زیادی از اسناد دیجیتال در رابطه با درجه اصلیت است بررسی می شود. چون سرقت ادبی یک مسئله پیچیده است، سیستم ما از الگوریتم هایی برای فرایند تلفیق اطلاعات از منابع چند دادهای به همه این سطوح استفاده میکند. این الگوریتم ها به طور موفق در جامعه علمی درحل مسائلی نظیر شناسایی متن های سرقت شده و بازیابی کاندید های منبع از اینترنت استفاده شده اند.ما این الکوریتم ها را به معماری JEE جند لایه ای و قوی تلفیق کرده و به مشتریان مختلف با نیاز های مختلف امکان می دهیم تا خدمات ما را مصرف کنند. برای کاربران، DOCODE تولید گزارشاتی می کند که معلمان و پرفسور ها امکان دست یابی به اطلاعات در خصوص اصلیت اسناد را می دهد. تجربه ما مربوط به کشور شیلی با زبان اسپانیایی است که راه حل هایی را برای اسناد اموزشی شیمی را در هر یک از محیط های یادگیری مجازی مطلوب ارایه می کیند. با اینحال، DOCODE به اسانی قادر به افزایش پوشش زبان است. 1- مقدمه
سناریوی امروز یک تغییر معنی دار را در شیوه دست یابی به اطلاعات نشان داده و بر استفاده از وب به عنوان یک منبع دانش تاکید می کند(48-49). با این حال، دسترسی به وب به عنوان یکی از منابع اصلی برای کاهش ادراک شده در صداقت تحصیلی به خصوص در رابطه با سرقت ادبی استناد شده است(44).
سرقت ادبی متشکل از استفاده از کار ها و نام های دیگران به اسم خود است. هم چنین سرقت ادبی فرایند کپی کردن نوشته های دیکران بدون استناد است. وقتی که به محیط اموزشی اعمال شود، نتایج نشان داده است که اصطلاح سرقت ادبی اغلب اشاره به وقوع سرقت ادبی مورد استفاده توسط دانشجویانی دارد که در موسسات اموزشی قرار دارند(20) و این بیانگر موارد مربوط به سرقت ادبی متنی است. در این زمینه، چو.ن حجم زیادی از اطلاعات به راحتی قابلدسترس وجود دارد، پدیده سرقت ادبی به اسانی گزارش شده است. مطالعات بین المللی بر بزرگی این رفتار تاکید کرده است که در آن درصد زیادی از دانشجویان از وب برای سرقت ادبی استفاده می کنند. نظر سنجی 2010 توسط وزارت مهندسی صنعتی دانشگاه شیلی نشان داد که 55درصد دانش اموزان راهنمایی و 42 درصد دانشجویان اطلاعات را بدون استناد سرقت کرده اند(31).
با توجه به حجم زیادی از اسناد و منابع اطلاعاتی که امروز وجود دارند، بررسی اصلیت و تشخیص سرقت ادبی به یک مسئله بسیار پیچیده تبدیل شده است. اگرچه موتور های جست وجوگر را می توان برای تشخیص سرقت ادبی استفاده کرد، با این حال فرایند شناسایی سخت و خسته کننده است(20). در سناریوی امروزه، بررسی دستی به صورت یک فرایند زمان بر و غیر ممکن می باشد. معلمان اغلب فاقد زمان کافی و لازم برای ارزیابی جامع هستند. هم چنین برخی از دانش اموزان صرف نظر از میزان ممنوعیت و منع، سرقت ادبی را انجام می دهند(22). در شیلی، نبود سیستم تشخیص مناسب سرقت ادبی بهزبان اسپانیایی موجب بدتر شدن وضعیت شده است.
سرقت ادبی یک مسئله مهم برای اهداف اموزشی در هر سطح است زیرا میتواند بر فرایند یادگیری دانش جویان اثر دارد(27). معلمان ودانشگاهیان از سرقت ادبی تنفر دارند زیرا با اهداف اموزشی تناقض دارد. در نتیجه تمایل زیادی از طرف معلمان برای حمله به این مسئله با توسعه شیوه های مختلف برای شناسایی اصلیتی کار(44) وجود دارد.بررسی بزرگی مسئله(16) نشان می دهد که بدیهی است که دانشگاهیان نیازمندابزاری برای بهبود تشخیص سرقت ادبی می باشد. این ابزار ها که اغلب موسوم به موتور های تشخیص سرقت ادبی می باشد و به این ترتیب معلمان بهتر قادر به تحلیل تعداد زیادی از اسناد میباشند.
مرور منابع مربوط به سرقت ادبی در موسسات اموزشی نشان می دهد که بسیاری از نویسندگان پیشنهاد کرده اند که این مجموعهای از رفتار های نامناسب است. برای حل این پیچیدگی، برخی از محققان از سطوح مختلف و انواع سرقت ادبی استفاده کرده اند.
از دیدگاه ما، هنگام استناد به اهداف اموزشی، موتور های تشخیص سرقت ادبی مجموعه ای از ابزار را برای کسب اطلاعات در خصوص اسناد ارزیابی شده ارزیابی می شوند. از این روی ، مطالعه ما سیستمی را ارایه می کندکه قادر به تشخیص سرقت ادبی متنی برای موسسات اموزشی با استفاده از یک دیدگاه چند سطحی می باشد. سیستم ما که موسوم به شناساگر کپی سنداست، با معلمان و اساتید همکاری کرده و یک رابط کاملی را برای ابزار ها جهت کشف،درک و مدیریت سطوح سرقت ادبی ارایه می کند.DOCODE یک سیستمی بر اساس معماری مقیاس پذیر و پیاده سازی مجموعه ای از الگوریتم ها برای تشخیص سرقت ادبی میباشد. اگرچه تجربه ما محدود به شرایط شیلی و زبان اسپانیایی می باشیم و بیشتر الگوریتم ها به اسانی قادربه افزایش پوشش زبانی هستند.
ادامه این مقاله به صورت زیر سازمان دهی شده است. بخش 2 به بررسی منابع مربوط به موضوع سرقت ادبی پرداخته و برخی از الگوریتم ها و چارچوب های پیشرفته سرقت ادبی را در اختیار می گذارد. در بخش 3 ما به توضیح این می پردازیم که چگونه Docode کار می کند و چه خدماتی را ارایه می کند. الگوریتم های اصلی مربوطبه این سیستم ارایه شده اند. بخش 4 به بررسی سازمان دهی docode، توضیح معماری می پردازد.بخش 5 به معرفی رابط های کاربری می پردازد. بخش 6 شامل نتیجه گیری و کار های اینده است.
|
بخشی از مقاله انگلیسی |
Abstract Plagiarism refers to the act of presenting external words, thoughts, or ideas as one’s own, without providing references to the sources from which they were taken. The exponential growth of different digital document sources available on the Web has facilitated the spread of this practice, making the accurate detection of it a crucial task for educational institutions. In this article, we present DOCODE 3.0, a Web system for educational institutions that performs automatic analysis of large quantities of digital documents in relation to their degree of originality. Since plagiarism is a complex problem, frequently tackled at different levels, our system applies algorithms in order to perform an information fusion process from multi data source to all these levels. These algorithms have been successfully tested in the scientific community in solving tasks like the identification of plagiarized passages and the retrieval of source candidates from the Web, among other multi data sources as digital libraries, and have proven to be very effective. We integrate these algorithms into a multi-tier, robust and scalable JEE architecture, allowing many different types of clients with different requirements to consume our services. For users, DOCODE produces a number of visualizations and reports from the different outputs to let teachers and professors gain insights on the originality of the documents they review, allowing them to discover, understand and handle possible plagiarism cases and making it easier and much faster to analyze a vast number of documents. Our experience here is so far focused on the Chilean situation and the Spanish language, offering solutions to Chilean educational institutions in any of their preferred Virtual Learning Environments. However, DOCODE can easily be adapted to increase language coverage. 1. Introduction Today’s scenario shows a significant change in the way of accessing information, emphasizing the use of the Web as one of the main sources of knowledge [48,49]. However, access to the Web has been cited as one of the main reasons for the perceived decline in academic integrity, particularly in relation to plagiarism [44]. Plagiarism basically consists of taking others’ work and labeling it as one’s own. Likewise, text plagiarism is defined as the action of copying someone else’s writings without the proper citation. When applied to the educational environment, we also find that the term student plagiarism is often used to refer to the incidences of plagiarism committed by students who attend educational institutions [20], which mainly represent cases of text plagiarism. In this context, because there is a vast amount of easy-to-access information, the plagiarism phenomenon has been becoming more popular and easier to resort to. International studies demonstrate the magnitude of this behavior, with a high percentage of students who reported to be using the Web as a major source of plagiarism [29]. In [38], Posner recently estimated that one-third of all high school and college students have committed some kind of plagiarism. The situation in Chile is not different. A 2010 survey carried out by the Department of Industrial Engineering of the University of Chile, showed that about 55% of middle school students and 42% of higher education students declared having copied information without citing the source [31]. Given the large volume of documents and information sources that exist today, originality examination and plagiarism detection are becoming increasingly more complex tasks. While Web search engines can be used to detect Internet plagiarism, the detection process is, by any standards, both tedious and labor-intensive [20]. In today’s scenario, a manual examination appears as an extremely time-consuming process and a virtually impossible task; teachers often do not have the necessary time for exhaustive reviews. Also, some students will continue to plagiarize regardless of how hard tutors try to stop them [22]. In the Chilean case, the absence of a suitable plagiarism detection system in Spanish contributes to making the situation we have described above even more alarming. Plagiarism is an important issue for educational purposes at every level, because it could affect a student’s learning process [27]. Teachers and academics abhor plagiarism because it is inconsistent with pedagogical aims. As a result there has been a desire on the part of teachers to attack the problem by developing different measures to detect the originality of the work submitted by the students [44]. Looking at the extent of the problem, [16] concludes that it is quite obvious that academia requires tools to automate and enhance plagiarism detection. These tools, often called plagiarism detection engines, are software that compare documents with possible sources in order to identify similarity and so discover submissions that might be plagiarized [12], making it easier for teachers to analyze a vast number of documents. A review of the literature about plagiarism in educational institutions shows that many authors have proposed that it is a set of distinct inappropriate behaviors rather than only a single problem. In an effort to tackle this complexity, some of these authors have actually proposed different levels or types of plagiarism, generating subproblems that might be easier to analyze. From our perspective, when referring to educational purposes, plagiarism detection engines are supposed to offer professors a set of tools to gain insights about the documents that are reviewed, rather than simply checking plagiarism cases, thus tackling the problem of plagiarism from all the perspectives existing in literature. Therefore, our work presents a system that performs automated textual plagiarism detection for educational institutions using a multi-level perspective. Our system, called DOCODE 3.0 (DOcument COpy DEtector 3.0),1 cooperates with teachers and professors offering them a complete interface with visual tools to discover, understand and handle different plagiarism levels and cases. DOCODE is a full-featured system based on a solid, scalable architecture and implementing a set of algorithms for plagiarism detection that have successfully proven to be effective, in some cases, even outperforming state-of-the-art approaches in literature. These results were validated in multiple previous publications and in international plagiarism detection competitions. Although our experience is so far limited to the Chilean situation and the Spanish language, most of our algorithms are not language dependent, so DOCODE can easily be adapted to increase language coverage. The rest of this paper is structured as follows. Below in Section 2, we review related work regarding the plagiarism topic and also present some of the most important state-of-the-art plagiarism detection algorithms and frameworks. Then, in Section 3, we explain how DOCODE works and what kind of services it provides. Also, the main algorithms underlying the system are presented. Section 4 shows how DOCODE is structured, explaining its architecture. Later, Section 5 introduces our user interfaces. Finally, Section 6 presents conclusions and proposed future work. |