دانلود رایگان ترجمه مقاله روشی جهت خلاصه سازی متن با الگوریتم یادگیری عمیق – نشریه Thescipub سال ۲۰۱۴

 

دانلود رایگان مقاله انگلیسی + خرید ترجمه فارسی
عنوان فارسی مقاله:

رویکردی برای خلاصه سازی متن با استفاده از الگوریتم یادگیری عمیق

عنوان انگلیسی مقاله:

An Approach For Text Summarization Using Deep Learning Algorithm

 
 
 
 
 

 

مشخصات مقاله انگلیسی (PDF)
سال انتشار ۲۰۱۴
تعداد صفحات مقاله انگلیسی ۹ صفحه با فرمت pdf
رشته های مرتبط با این مقاله مهندسی کامپیوتر، مهندسی فناوری اطلاعات
گرایش های مرتبط با این مقاله مهندسی الگوریتم ها و محاسبات، اینترنت و شبکه های گسترده، هوش مصنوعی و مدیریت سیستم های اطلاعاتی
چاپ شده در مجله (ژورنال) مجله علوم کامپیوتر – Journal of Computer Science
کلمات کلیدی چند اسنادی، خلاصه، افزونگی، RBM، مجموعه داده های کنفرانس درک اسناد ۲۰۰۲
ارائه شده از دانشگاه گروه علوم کامپیوتر و مهندسی، K.S. دانشکده فناوری رنجاسمی، هند
رفرنس دارد  
کد محصول F1146
نشریه Thescipub

 

مشخصات و وضعیت ترجمه فارسی این مقاله (Word)
وضعیت ترجمه انجام شده و آماده دانلود
تعداد صفحات ترجمه تایپ شده با فرمت ورد با قابلیت ویرایش  ۱۵ صفحه با فونت ۱۴ B Nazanin
ترجمه عناوین تصاویر و جداول ترجمه شده است ✓ 
ترجمه متون داخل تصاویر ترجمه شده است   
ترجمه متون داخل جداول ترجمه شده است  
درج تصاویر در فایل ترجمه درج شده است 
درج جداول در فایل ترجمه درج شده است  
درج فرمولها و محاسبات در فایل ترجمه  به صورت عکس درج شده است
منابع داخل متن به صورت فارسی درج شده است 
کیفیت ترجمه کیفیت ترجمه این مقاله متوسط میباشد 
توضیحات ترجمه بعضی بخش های این مقاله بصورت خلاصه انجام شده است.

 

فهرست مطالب

چکیده
۱-مقدمه
۱-۱ هدف
۱-۲ ماشین بولتزمن محدود
۱-۳ شبکه RBM به طریق زیر کار می کند
۱-۴ رویکرد یادگیری عمیق پیشنهادی
۱-۵ پیش پردازش
۶-۱ خشی از برچسب گذاری اجزای واژگانی کلام
۱-۷ فیلترینگ کلمه بازدارندگی
۱-۸ ریشه یابی
۱٫۹ استخراج ویژگی های بردار
۱-۱۰ محاسبه ویژگی
۱-۱۰-۱ تشابه عنوان
۱-۱۱ ویژگی های مکانی
۱-۱۲: وزن
۱-۱۳ مفهوم ویژگی
۱-۱۴ ماتریس جمله
۱-۱۵ الگوریتم یادگیری عمیق
۱٫۱۶ تولید مجموعه بردارهای بهینه ویژگی
۱-۱۷ تولید خلاصه
۱-۱۸ امتیاز جمله
۱-۱۹ رتبه بندی جمله
۱-۱۲۰ نتایج و تجزیه تحلیل
۱-۲۱ توصیف مجموعه داده
۱-۲۲ شاخص های ارزیابی
۱-۲۴ دقت
۱-۲۶ استخراج بردار ویژگی
۱-۲۷ ارزیابی عملکرد
۱-۲۸ تحلیل قیاسی
۲-نتیجه گیری

 

بخشی از ترجمه
 چکیده
امروزه تحقیقات بسیاری بر روی تلخیص یا خلاصه سازی متن در حال انجام است. به دلیل افزایش اطلاعات در اینترنت، این انواع تحقیقات در حال کسب توجه بیشتری در میان محققان می باشند. خلاصه سازی متن های استخراجی ایجاد یک خلاصه مختصر با استخراج مجموعه مناسبی از جملات از یک سند یا چند سند با یادگیری عمیق می کند. این روش توسط الگوریتم ماشین بولتزمن محدود(RBM) برای کارایی بهتر با حذف جملات افزونه اصلاح شده است. روش فوق متشکل از سه لایه ورودی، مخفی و خروجی است. داده های ورودی توزیع یکنواختی در لایه مخفی برای عملیات دارند. آزمایشات انجام شده و خلاصه ای برای سه سند متفاوت از دامنه دانش متفاوت ارایه شد. مقدار شاخص F، شناساگر و معیاری برای عملکرد روش خلاصه سازی متن است. پاسخ های سه حوزه دانشی متفاوت بر طبق معیار f به ترتیب برای سه مجموعه سند به صورت ۰٫۸۵،۱٫۴۲ و ۱٫۹۷ می باشد.
 
۱- مقدمه
به مدت سالیان متمادی، خلاصه سازی به طور دستی توسط انسان انجام شده است. در حال حاضر، مقدار اطلاعات به تدریج از طریق اینترنت و منابع دیکر در حال افزایش است. برای غلبه بر این مسئله، خلاصه سازی متن برای کاهش انباشت بیش از حد اطلاعات لازم است. خلاصه سازی متن به حفظ داده های متنی با قواعد و مقررات خاص برای استفاده موثر از داده های متنی کمک می کند. برای مثال استخراج خلاصه از یک سند برای استخراج محتوی معینی از اسناد و چند اسناد صورت می گیرد. خلاصه سازی متن مربوط به فرایند دست یابی به یک سند متنی است که محتوا از آن گرفته شده و از این روی محتوی لازم را برای کاربران درشکل کوتاه و به شکلی پذیرا برای رفع نیاز های کاربر فراهم می کند. خلاصه سازی خودکار ارتباط تنگاتنگی با درک متن دارد که می تواند با چالش هایی در ارتباط باشد که شامل تغییرات در فرمت، شگل و ویاریش متن است که موجب افزایش ابهام می شود( شریف و همکراان ۲۰۱۳). محققان بخش خلاصه سازی متن این مسئله را از جهات بسیاری نظیر پردازش زبان طبیعی( زانگ و همکاران ۲۰۱۱)، آماری( دارلینگ و سانگ(۲۰۱۱) بررسی کرده و یادگیری ماشینی و تحلیل متن از اهمیت ویژه ای برای شناسایی اهداف متن برخوردار است.
تخلیص یا خلاصه سازی متن به دو طریق طبقه بندی می شود خلاصه سازی انتزاعی و خلاصه سازی استخراجی. روش پردازش زبان طبیعی برای تقسیم، کاهش کلمات و تولید خلاصه متنی از خلاصه های غیر انتزاعی استفاده می شود. در حال حاضر NLP، یک روش کم هزینه و فاقد دقت است. خلاصه استخراجی انعطاف پذیر بوده و مصرف زمان کم تری درمقایسه با خلاصه سازی انتزاعی دارد( پاتیل و برادزیل ۲۰۰۷). در خلاصه سازی استخراجی، این موضوع توالی را به شکل ماتریس و بر اساس برخی بردار های ویژگی در نظر می گیرد که استخراج همه جملات مهم و ضروری در آن ها دیده می شود. یک بردار ویژگی، یک بردار N بعدی از ویژگی های عددی است که نشان دهنده برخی اشیا است. هدف اصلی خلاصه سازی متن بر اساس رویکرد استخراج، انتخاب جمله مناسب به ازای ملزومات هر کاربر است.
به طور کلی، خلاصه سازی متن، فرایند کاهش یک محتوی متن به یک نسخه کوتاه تر با حفظ محتوی ثابت آن و انتقال مفهوم مطلوب و واقعی است( مانی ۲۰۰۱ الف و. ب). خلاصه سازی تک اسنادی فرایندی است که تنها به یک سند رسیدگی می کند. خلاصه سازی چند اسنادی روش کوتاه سازی نه تنها یک سند بلکه مجموعه ای از اسناد مربوطه به یک خلاصه می باشد( او و همکاران ۲۰۰۸). این مفهوم ظاهرا ساده است با این حال پیاده سازی آن کمی سخت است. گاهی اوقات این راهبرد قادر به دست یابی به اهداف مطلوب نیست. بیشتر فنون مشابه مورد استفاده در خلاصه سازی نک اسنادی، در خلاصه سازی چند اسنادی استفاده می شود. برخی تفاوت های مشهود وجود دارند: ۱- درجه افزونگی موجود در یک گروهی از مقالات موضوعی به طور قابل ملاحظه ای بیش از درجه افزونگی در یک مقاله است زیرا هر مقاله برای تشریح مهم ترین نکات و نیز سوابق مورد نیاز لازم است. از این روی روش های ضد افزونگی نقش مهمی ایفا می کنند. نسبت فشرده سازی به طور قابل ملاحظه ای برای یک مجموعه گسترده از اسناد نسبت به خلاصه اسناد کم تر است. به منظور ارایه حجم زیادی از اطلاعات معنایی، کار خلاصه سازی توسط کنفرانس تحلیل متن معرفی شده است.هدف ان تولید خلاصه معنایی با استفاده از فهرستی از ابعاد مهم است. فهرست ابعاد معرف کننده مهم ترین اطالعات می باشد با این حال این خلاصه شامل سایر حقایقی است که به صورت مهم در نظر گرفته می شود. به علاوه، خلاصه سازی آپدیت از مجمموعه مقالات نیوزوایر برای موضوع فرضی ایجاد می شود که در آن کاربر قبلا مقالات را خوانده است. خلاصه تولید شده توسط ابعاد از پیش تعریف شده برای بهبود کیفیت و خوانایی خلاصه استفاده می شود( کاگلیوانی و بالاسمرانی ۲۰۱۲).
در این مطالعه، ما یک سیستم تخلیص چند اسنادی با استفاده از الگوریتم یادگیری عمیق را توسعه داده ایم که موسوم به ماشین بولتزمن محدود است. این ماشین، یگ الگوریتم پیشرفته بر اساس شبکه عصبی است که کار های لازم را برای تخلیص متنی انجام می دهد. اولا،مراحل پیش پردازش به کار برده می شود و این مراحل شامل ۱- بخشی از تگ کردن ۲- متوقف کردن فیلترینگ کلمه ۳- استریمینگ است. سپس وارد بخش استخراج ویژگی می شویم. در این بخش از متن، خلاصه سازی شامل ویژگی های جملات استخراج شده است. ویژگی های استخراجی شامل موارد زیر هستند: عنوان شباهت، ویژگی موضعی، اصطلاح وزن و مفهوم ویژه. تقریبا همه مدل های خلاصه سازی متن با دو مسئله روبرو هستند که اولی مسئله رتبه بندی و دومی ایجاد زیر مجموعه ای از رتبه بندی می باشد. انواع روش های مختلف برای مسئله رتبه بندی وجود دارند. در این مطالعه ما اقدام به حل مسئله با یافتن ارتباط بین پرس و جوی کاربر و یک جمله ویژه می کنیم. بر این اساس، امتیاز جمله برای هر جمله تولید شده و به ترتیب نزولی مرتب می شود. از این جملات رتبه بندی شده برخی جملات بر طبق نرخ فشرده سازی انتخاب می شوند. به این ترتیب می توان مسئله رتبه بندی را حل کرد. در پایان، از مجموعه داده DUC2002 برای ارزیابی نتایج خلاصه سازی شده بر اساس شاخص های دقت، یاد اوری و F استفاده می کنیم.

 

بخشی از مقاله انگلیسی

Abstract

Now days many research is going on for text summarization. Because of increasing information in the internet, these kind of research are gaining more and more attention among the researchers. Extractive text summarization generates a brief summary by extracting proper set of sentences from a document or multiple documents by deep learning. The whole concept is to reduce or minimize the important information present in the documents. The procedure is manipulated by Restricted Boltzmann Machine (RBM) algorithm for better efficiency by removing redundant sentences. The restricted Boltzmann machine is a graphical model for binary random variables. It consist of three layers input, hidden and output layer. The input data uniformly distributed in the hidden layer for operation. The experimentation is carried out and the summary is generated for three different document set from different knowledge domain. The f-measure value is the identifier to the performance of the proposed text summarization method. The top responses of the three different knowledge domain in accordance with the f-measure are 0.85, 1.42 and 1.97 respectively for the three document set.

۱ Introduction

 From many years, summarization is done by humans manually. In the present time, the amount of information is increasing gradually by the mean of internet and by other sources. To overcome this problem, text summarization is essential to tackle the overloading of information. Text summarization helps to maintain the text data by following some rules and regulations for efficient usage of text data. For example, the extraction of summary from a given document for the extraction of a definite content from the whole document or multidocuments. Text summarization relates to the process of obtaining a textual document, obtaining content from it and providing the necessary content to the user in a shortened form and in a receptive way to the requirement of user or application. Automatic summarization is linked closely with text understanding which imposes several challenges comprising of variations in text formats, expressions and editions which adds up to the ambiguities (Sharef et al., 2013). Researchers in text summarization have approached this problem from many aspects such as natural language processing (Zhang et al., 2011), statistical (Darling and Song, 2011) and machine learning and text analysis is the fundamental issue to identify the focus of the texts. Text summarization can be classified in two ways, as abstractive summarization and extractive summarization. Natural Language Processing (NLP) technique is used for parsing, reduction of words and to generate text summery inabstractive summarization. Now at present NLP is a low cost technique and lacks in precision. Extractive summarization is flexible and consumes less time as compared to abstractive summarization (Patil and Brazdil, 2007). In extractive summarization it consider all the sentence in a matrix form and on the basis of some feature vectors all the necessary or important sentences are extracted. Afeature vector is an n-dimensional vector of numerical features that represent some object. The main objective of text summarization based on extraction approach is the choosing of appropriate sentence as per the requirement of a user. Generally, text summarization is the process of reducing a given text content into a shorter version by keeping its main content intact and thus conveying the actual desired meaning (Mani, 2001a; 2001b). Single document summarization is a process, which deals with a single document only. Multi-document summarization is the method of shortening, not just a single document, but a collection of related documents, into a single summary (Ou et al., 2008). The concept looks easy, but while implementation it is a tough task to compile. Sometimes it may not be able to fulfill our desired goal. Most of the similar techniques employed in single-document summarization are also employed in multi-document summarization. There exist some notable disparities (Goldstein et al., 2000): (1) The degree of redundancy contained in a group of topically-related articles is considerably greater than the redundancy degree within an article, since each article is appropriate to illustrate the most important point and also the required shared background. So, anti-redundancy methods play a vital role. (2) The compression ratio (that is the summary size with regard to the size of the document set) will considerably be lesser for a vast collection topically related documents than for single document summaries. In order to provide a lot of semantic information, guided summarization task is introduced by the Text Analysis Conference (TAC). It aims to produce semantic summary by using a list of important aspects. The list of aspects defines what counts as important information but the summary also includes other facts which are considered as especially important. Furthermore, an update summary is additionally created from a collection of later Newswire articles for the topic under the hypothesis that the user has already read the previous articles. The summary generated is guided by predefined aspects that is employed to enhance the quality and readability of the resulting summary (Kogilavani and Balasubramanie, 2012). In this study, we have developed a multi-document summarization system using deep learning algorithm Restricted Boltzmann Machine (RBM). Restricted Boltzmann Machine is an advance algorithm based on neural network, it performs the entire necessary task for text summarization. Initially, the preprocessing steps are applied, those steps include (1) Part of speech tagging, (2) Stop word filtering, (3) steaming. Then comes the feature extraction part. In this part of the text summarization certain features of sentences are extracted. The features we are extracting are: Title Similarity, Positional Feature, Term Weight and Concept Feature. All most all the text summarization models face two major problems, first the ranking problem and the second one is how to create the subset of those ranking or top ranked sentences. There are varieties of approaches for the ranking problem. In this study we are solving the ranking problem by finding out the intersection between the user query and a particular sentence. On the basis of this, a sentence score is generated for every sentence and they are arranged in descending order. Out of this ranked sentences some of sentences are selected on the basis of compression rate entered by the user. In this way we solve the ranking problem. In the end we have used DUC 2002 dataset to evaluate the summarized results based on the measures such as Precision, recall and f-measure.

 

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا