دانلود رایگان مقاله انگلیسی + خرید ترجمه فارسی | |
عنوان فارسی مقاله: |
استفاده از زنجیره های واژگانی برای استخراج لغات کلیدی |
عنوان انگلیسی مقاله: |
Using lexical chains for keyword extraction |
|
مشخصات مقاله انگلیسی (PDF) | |
سال انتشار | 2007 |
تعداد صفحات مقاله انگلیسی | 10 صفحه با فرمت pdf |
رشته های مرتبط با این مقاله | مهندسی کامپیوتر |
گرایش های مرتبط با این مقاله | هوش مصنوعی و مهندسی الگوریتم ها و محاسبات |
چاپ شده در مجله (ژورنال) | مدیریت و پردازش اطلاعات – Information Processing and Management |
کلمات کلیدی | استخراج لغات کلیدی، زنجیره واژگانی، پردازش زبان طبیعی، یادگیری ماشینی |
ارائه شده از دانشگاه | گروه مهندسی کامپیوتر، دانشگاه بیلکتن، آنکارا، ترکیه |
رفرنس | دارد ✓ |
کد محصول | F1149 |
نشریه | الزویر – Elsevier |
مشخصات و وضعیت ترجمه فارسی این مقاله (Word) | |
وضعیت ترجمه | انجام شده و آماده دانلود |
تعداد صفحات ترجمه تایپ شده با فرمت ورد با قابلیت ویرایش | 15 صفحه با فونت 14 B Nazanin |
ترجمه عناوین تصاویر و جداول | ترجمه شده است ✓ |
ترجمه متون داخل تصاویر | ترجمه شده است ✓ |
ترجمه متون داخل جداول | ترجمه شده است ✓ |
درج تصاویر در فایل ترجمه | درج شده است ✓ |
درج جداول در فایل ترجمه | درج شده است ✓ |
منابع داخل متن | به صورت فارسی درج شده است ✓ |
کیفیت ترجمه | کیفیت ترجمه این مقاله متوسط میباشد |
توضیحات | ترجمه نسبتا خلاصه انجام شده است. |
فهرست مطالب |
چکیده |
بخشی از ترجمه |
چکیده
لغات کلیدی را می توان به صورت نسخه هایی متراکم از اسناد و اشکال کوتاهی ازچکیده در نظر گرفت. در این مقاله، مسئله استخراج خودکار لغات کلیدی از اسناد به صورت یک کار یادگیری نظارت شده در نظر گرفته می شود. یک زنجیره واژگا نی به صورت مجموعه ای از کلمات مرتبط از نظر معنایی از یک متن بوده و می توان گفت که زنجیره واژگا نی بیانگر محتوی معنایی یک بخش از متن است. اگرچه زنجیره واژگا نی به طور گسترده ای در خلاصه سازی متن مورد استفاده قرار گرفته است، کاربرد آن ها برای مسئله استخراج کلیدی به طور کامل بررسی نشده است. در این مقاله، یک روش استخراج لغات کلیدی که از زنجیره واژگا نی استفاده می کند توصیف شده و نتایج بدست می اید.
1- مقدمه
لغات کلیدی را می توان به صورت خلاصه های کوتاهی از یک متن در نظر گرفت. از این روی می توان آن ها را به صورت مجموعه ای از عبارات در نظر گرفتن که بیشتر متن را پوشش می دهند. اگرچه یک خلاصه ای از متن ا قادر است تا اطلاعاتی در مورد متن بیشتر از لغات کلیدی متن ارایه کند، با این حال این خلاصه برای برخی از کاربرد ها به دلیل ساختار پیچیده جملات مناسب نیست. لغات کلیدی، جایگزینی برای خلاصه نمی باشند بلکه به صورت خلاصه های جایگزینی هستند گه توسط برخی برنامه های دیگر به آسانی مورد استفاده قرار می گیرند. از آن جا که آن ها مدل های فشرده تری از متن اصلی هستند، با این حال امکان استفاده از آن ها در برنامه های مختلف نظیر نمایه بندی در موتور های جست و جو و یا طبقه بندی متن وجود دارد.
لغات کلیدی خوانندگان را قادر به تصمیم گیری در مورد این موضوع می کنند که آیا یک سند برای آن ها مناسب است یا خیر. آن ها را می توان به عنوان شاخص های تشابه کم هزینه بین اسناد مورد استفاده قرار داد. با در نظر گرفتن این که تخصیص لغات کلیدی به اسناد سخت است، می توان این کار را با یادگیری ماشینی و پردازش زبان طبیعی به صورت خودکار دراورد. محققان می توانند عبارات کلیدی را برای اسناد خود تخصیص دهند و این عبارات کلیدی می توانند درون متن باشند یا نباشند. در استخراج عبارات کلیدی خودکار، شاخص ترین عبارات در یک سند به صورت عبارت کلیدی برای آن سند استفاده می شوند. از این روی الگوریتم های استخراج عبارات کلیدی خودکار با عبارات ظاهرا شده در متن محدود می شوند. شکل کلی تر استخراج عبارت کلیدی، تولید عبارت کلیدی است که عبارات را از سند انتخاب نمی کند با این حال عبارات کلیدی را برای سند تولید کرده و تخصیص می دهد. در این مقاله ما به جای عبارات کلیدی بر لغات کلیدی تاکید دارم تا اثبات شود که عبارت کلیدی می تواند متشکل از بیش از یک کلمه باشد و ما تنها لغات کلیدی را استخراج می کنیم. ما باور داریم که لغات کلیدی یک متن بایستی از نظر معنایی مشابه با لغات متن باشد. تعداد کلمات و تعداد روابط معنایی میان آن ها می تواند برای زنجیره واژگانی متفاوت باشد. پوشش و اندازه یک زنجیره واژگانی نشان می دهد که به چه میزان زنجیره واژگانی نشان دهنده محتوی معنایی متن است. از این روی، ما باور داریم که لغات کلیدی که نشان دهنده محتوی معنایی متن است بایستی از کلمات یک زنجیره واژگانی انتخاب شود که بیشتر محتوی معنایی متن را در بر می گیرد. در این مقاله، یک روش استخراج کلیدی را ارایه می کنیم که از ویژگی های مبتنی بر زنجیره های واژگانی در انتخاب لغات کلیدی برای یک متن استفاده می کند. استخراج لغات کلیدی ارتباط نزدیکی با خلاصه سازی خودکار متن دارد. در خلاصه سازی متن، شاخص ترین جملات برای نمایش متن استخراج می شوند. در استخراج لغات کلیدی شاخص ترین لغات کلیدی برای نشان دادن متن استخراج می شوند. در هر دوی این مسائل، ویژگی هایی نظیر فراوانی های لغات، عبارات کلیدی، موقعیت در متن، زنجیره های واژگانی و ساختار گفتمان برای کشف الگو استفاده می شوند. در این مقاله، هدف ما کشف اثر زنجیره های واژگانی در استخراج لغات کلیدی می باشد به خصوص زمانی که مسئله به صورت یک کار یادگیری ماشینی نظارت شده در نظر گرفته شود. این یادگیری از ویژگی های مبتنی بر زنچیره های واژگانی کلمات استفاده می کند. چون می توان زنجیره های واژگانی را برای کلمات تنها با استفاده از انتولوژی ورد نت ایجاد کرد، ما بر مسئله استخراج لغات کلیدی به جای استخراج عبارات کلیدی تاکید میکنیم. اگرچه ما کلاسیفایر های مختلف نظیر نیو بایس را ازمایش کرده ایم، نتایج بهتری با الگوریتم القای ددرخت تصمیم گیری C4.5 بدست امد. به همین دلیلفما از C4.5 برای نشان دادن مسئله استخراج لغات گلیدی به صورت یک وظیفه یادگیری استفاده کردیم. ما از C4.5 با دو مجموعه از ویژگی ها استفاده کردیم. در سیستم معیار، تنها ویژگی های متن استفاده شد. در دومین مورد، C4.5 با ویژگی های بر اساس زنجیره های واژگانی علاوه بر ویژگی های مورد استفاده در سیستم معیار استفاده شد. سپس نتایج دو نسخه مقایسه شد. نتایج بهتر زمانی حاصل شد که ویژگی های مبتنی بر زنجیره های واژگانی استفاده شد. ما در ابتدا به مرور منابعی در خصوص استخراج لغات کلیدی و زنجیره های واژگانی در بخش دوم می پردازیم. زنجیره های واژگانی و ایجاد زنجیره های واژگانی در بخش 3 ارایه شده اند. در بخش چهارم، ویژگی های مبتنی بر زنجیره واژگانی در سیستم استخراج لغات کلیدی استفاده می شوند. و به این ترتیب در مورد نتایج روش استخراج لغات کلیدی در بخش 5 صحبت می کنیم. در نهایت در بخش 6، نتیجه گیری ارایه می شود. |
بخشی از مقاله انگلیسی |
Abstract Keywords can be considered as condensed versions of documents and short forms of their summaries. In this paper, the problem of automatic extraction of keywords from documents is treated as a supervised learning task. A lexical chain holds a set of semantically related words of a text and it can be said that a lexical chain represents the semantic content of a portion of the text. Although lexical chains have been extensively used in text summarization, their usage for keyword extraction problem has not been fully investigated. In this paper, a keyword extraction technique that uses lexical chains is described, and encouraging results are obtained. 1 Introduction Keywords can be considered as brief summaries of a text. Therefore it is possible to think of them as a set of phrases semantically covering most of the text. Although a summary of a text is capable of providing more information about the text than keywords of the text, the summary may not be suitable for some applications due to the complex structure of sentences. Keywords are not replacements for summarization but alternative summary representations that could be consumed by other applications more easily. Since they are concise representations of the underlying text, it is possible to use them in different applications such as indexing in search engines or text categorization. Keywords enable readers to decide whether a document is relevant for them or not. They can also be used as low cost measures of similarity between documents. Unfortunately, a great portion of existing documents available today does not have keywords available for them. Considering the fact that it is a hard and time consuming task to assign keywords to documents, it is desirable to automate this task by machine learning and natural language processing (NLP) techniques. Authors can assign keyphrases for their documents, and those keyphrases might or might not occur in the text. In automatic keyphrase extraction, most indicative phrases in a document are selected as keyphrases for that document. Thus, automatic keyphrase extraction algorithms are limited with phrases that appear in the text. More general form of keyphrase extraction is keyphrase generation which does not select phrases from the document, but generates and assigns keyphrases for the document. In this paper, we concentrate on ‘‘keywords’’ instead of ‘‘keyphrases’’ to emphasize the fact that keyphrases can be composed of more than one word, and we only extract keywords. We believe that a keyword of a text should be semantically related with the words of the text. A lexical chain for a text contains a subset of the words (word senses) in the text. The words in the lexical chain are semantically related. A lexical chain may cover a small or big portion of the text. The number of words and the number of semantic relations among the words can be different for each lexical chain. The coverage and size of a lexical chain can indicate how well the lexical chain represents the semantic content of the text. So, we believe that a keyword which represents the semantic content of the text should be selected from the words of a lexical chain which represents the most of the semantic content of the text. In this paper, we present a keyword extraction method such that it uses the features based on lexical chains in the selection of keywords for a text. Keyword extraction is highly related to automated text summarization. In text summarization, most indicative sentences are extracted to represent the text. In keyword extraction, most indicative keywords are extracted to represent the text. In both of these problems, the features like word frequencies, cue phrases, position in text, lexical chains and discourse structure are exploited to discover a pattern representing importance in a text. In this paper, we aim to explore the effect of lexical chains in keyword extraction, when the problem is treated as a supervised machine learning task. This learning task uses features based on the lexical chains of words. Since we can build lexical chains for words only (not for phrases) using the WordNet ontology (Fellbaum, 1998), we concentrate on the keyword extraction problem instead of keyphrase extraction. Although we have experimented with different classifiers such as Naive Bayes, we obtained better results with the decision tree induction algorithm C4.5 (Quinlan, 1993). For this reason, we have used C4.5 in order to represent the keyword extraction problem as a learning task. We used C4.5 with two different sets of features. In our baseline system, we used only the text features (without using any feature based on the lexical chains of words). In the second case, C4.5 was used with the features based on the lexical chains in addition to the features used in the baseline system. Then we compare the results of these two versions. We have obtained better results when the features based on the lexical chains were used. We first present the related work on keyword extraction and lexical chains in Section 2. Then lexical chains and creation of lexical chains are described in Section 3. After lexical chain based features that are used in our keyword extraction system are explained in Section 4, we discuss the results of our keyword extraction method in Section 5. Finally, we give some concluding remarks in Section 6. |