این مقاله انگلیسی ISI در نشریه ACM در 7 صفحه در سال 2012 منتشر شده و ترجمه آن 19 صفحه میباشد. کیفیت ترجمه این مقاله ارزان – نقره ای ⭐️⭐️ بوده و به صورت کامل ترجمه شده است.
دانلود رایگان مقاله انگلیسی + خرید ترجمه فارسی | |
عنوان فارسی مقاله: |
مدل های زبان روان و سلیس شکلک های اینترنتی برای تحلیل احساسات توییتر |
عنوان انگلیسی مقاله: |
Emoticon Smoothed Language Models for Twitter Sentiment Analysis |
|
مشخصات مقاله انگلیسی (PDF) | |
سال انتشار | 2012 |
تعداد صفحات مقاله انگلیسی | 7 صفحه با فرمت pdf |
رشته های مرتبط با این مقاله | مهندسی کامپیوتر، مهندسی فناوری اطلاعات، مهندسی صنایع |
گرایش های مرتبط با این مقاله | هوش مصنوعی، اینترنت و شبکه های گسترده، داده کاوی |
چاپ شده در مجله (ژورنال) | مجموعه مقالات بیست و ششم کنفرانس AAAI در مورد هوش مصنوعی – Proceedings of the Twenty-Sixth AAAI Conference on Artificial Intelligence |
ارائه شده از دانشگاه | گروه علوم کامپیوتر و مهندسی، دانشگاه جیانگ تانگ شانگهای، چین |
رفرنس | دارد ✓ |
کد محصول | F1533 |
نشریه | ACM |
مشخصات و وضعیت ترجمه فارسی این مقاله (Word) | |
وضعیت ترجمه | انجام شده و آماده دانلود |
تعداد صفحات ترجمه تایپ شده با فرمت ورد با قابلیت ویرایش | 19 صفحه (1 صفحه رفرنس انگلیسی) با فونت 14 B Nazanin |
ترجمه عناوین تصاویر و جداول | ترجمه شده است ✓ |
ترجمه متون داخل تصاویر | ترجمه نشده است ☓ |
ترجمه متون داخل جداول | ترجمه نشده است ☓ |
درج تصاویر در فایل ترجمه | درج شده است ✓ |
درج جداول در فایل ترجمه | درج شده است ✓ |
درج فرمولها و محاسبات در فایل ترجمه | به صورت عکس درج شده است ✓ |
منابع داخل متن | به صورت انگلیسی درج شده است ✓ |
کیفیت ترجمه | کیفیت ترجمه این مقاله متوسط میباشد |
فهرست مطالب |
چکیده |
بخشی از ترجمه |
چکیده
در سال های اخیر, تحلیل احساسات توییتر (TSA) به موضوع پژوهشی داغی تبدیل شده است. هدف از پژوهش حاضر, کشف نگرش یا عقیده توییت ها است که نوعاً به عنوان یک مسئله طبقه بندی متن مبتنی بر دانش ماشین تنظیم می شود. برخی روش ها از داده های برچسب گذاری شده دستی برای آموزش مدل های کامل نظارت شده استفاده می کنند, در حالیکه دیگر روش ها از برخی از برچسب های صدادار استفاده می کنند, مانند شکلک های اینترنتی یا هشتگ ها. به طور کلی, ما تنها می توانیم تعداد محدودی از داده های آموزش را برای مدل های کاملاً نظارت شده به دست آوریم, زیرا برچسب گذاری دستی توییت ها بسیار زمانبر و سخت است. در روش های به کار برده شده برای مدل های صدادار, دستیابی به عملکرد رضایت بخش به دلیل نویز (صدای) موجود در برچسب ها سخت است, هرچند دستیابی به میزان زیادی از داده ها برای آموزش آسان می باشد. از اینرو, بهترین راهبرد, استفاده از داده های برچسب گذاری شده دستی و داده های برچسب گذاری شده است. هرچند, نحوه ادغام بی عیب و ایراد این دو نوع متفاوت از داده ها در یک چارچوب آموزش, هنوز یک چالش است. در این مقاله, ما یک مدل جدید را ارائه می دهیم که مدل های زبان روان و سلیس شکلک های اینترنتی (ESLAM) نامیده می شود که این چالش را برطرف خواهد نمود. ایده اصلی این روش, آموزش یک مدل زبانی بر اساس داده های برچسب گذاری شده دستی و سپس استفاده از داده های شکلک اینترنتی صدادار برای روانسازی است. آزمایشات روی مجموعه داده های واقعی نشان می دهد که ESLAM می تواند به طور موثر هر دو نوع داده را برای عملکرد برتر نسبت به هر یک از این روش ها ادغام نماید.
1- مقدمه
تحلیل احساسات (SA) (Pang and Lee 2007) (که کاوش در عقاید نیز نامیده می شود) عمدتاً در مورد کشف تفکرات دیگران از داده هایی مانند مرور محصول و مقالات خبر است. از یک سو, مصرف کنندگان به دنبال مشورت هایی در مورد یک محصول هستند تا در فرآیند مصرف, تصمیمات آگاهانه بگیرند. از سوی دیگر, فروشندگان بیشتر و بیشتر به عقاید آنلاین در مورد محصولات و خدمات خود توجه می نمایند. از اینرو SA از طرف بسیاری از جوامع پژوهشی مانند آموزش ماشین, داده کاوی و پردازش زبان طبیعی مورد توجه زیادی قرار گرفته است. احساسات در یک متن یا جمله می تواند مثبت, منفی یا طبیعی باشد. ازاینرو, SA در واقع یک مسئله طبقه بندی 3-طرفه است. در عمل, بیشتر روش ها از راهبرد دومرحله ای برای SA استفاده می نمایند (Pang and Lee 2007). در مرحله طبقه بندی ذهنیت, هدف به عنوان ذهنی یا خنثی (عینی) طبقه بندی می شود و در مرحله طبقه بندی قطبیت (تمایل), اهداف ذهنی به صورت مثبت و منفی طبقه بندی می شوند. از اینرو, دو طبقه بندی کننده, برای کل فرآیند SA آموزش می بینند, یکی از آنها طبقه بند ذهنی و دیگر طبقه بند قطبیت نامیده می شود. از زمانی که (Pang, Lee, and Vaithyanathan 2002) SA را به عنوان مسئله طبقه بندی متن بر اساس آموزش ماشین مشخص نمودند, روش های بیشتر و بیشتر آموزش ماشین برای SA پیشنهاد شده است (Pang and Lee 2007). |
بخشی از مقاله انگلیسی |
Abstract Twitter sentiment analysis (TSA) has become a hot research topic in recent years. The goal of this task is to discover the attitude or opinion of the tweets, which is typically formulated as a machine learning based text classification problem. Some methods use manually labeled data to train fully supervised models, while others use some noisy labels, such as emoticons and hashtags, for model training. In general, we can only get a limited number of training data for the fully supervised models because it is very labor-intensive and time-consuming to manually label the tweets. As for the models with noisy labels, it is hard for them to achieve satisfactory performance due to the noise in the labels although it is easy to get a large amount of data for training. Hence, the best strategy is to utilize both manually labeled data and noisy labeled data for training. However, how to seamlessly integrate these two different kinds of data into the same learning framework is still a challenge. In this paper, we present a novel model, called emoticon smoothed language model (ESLAM), to handle this challenge. The basic idea is to train a language model based on the manually labeled data, and then use the noisy emoticon data for smoothing. Experiments on real data sets demonstrate that ESLAM can effectively integrate both kinds of data to outperform those methods using only one of them. 1 Introduction Sentiment analysis (SA) (Pang and Lee 2007) (also known as opinion mining) is mainly about discovering “what others think” from data such as product reviews and news articles. On one hand, consumers can seek advices about a product to make informed decisions in the consuming process. On the other hand, vendors are paying more and more attention to online opinions about their products and services. Hence, SA has attracted increasing attention from many research communities such as machine learning, data mining, and natural language processing. The sentiment of a document or sentence can be positive, negative or neutral. Hence, SA is actually a three-way classification problem. In practice, most methods adopt a two-step strategy for SA (Pang and Lee 2007). In the subjectivity classification step, the target is classified to be subjective or neutral (objective), and in the polarity classification step, the subjective targets are further classified as positive or negative. Hence, two classifiers are trained for the whole SA process, one is called subjectivity classifier, and the other is called polarity classifier. Since (Pang, Lee, and Vaithyanathan 2002) formulated SA as a machine learning based text classification problem, more and more machine learning methods have been proposed for SA (Pang and Lee 2007). Twitter is a popular online micro-blogging service launched in 2006. Users on Twitter write tweets up to 140 characters to tell others about what they are doing and thinking. According to the some sources 1 , until 2011, there have been over 300 million users on Twitter and 300 million new tweets are generated every day. Because almost all tweets are public, these rich data offer new opportunities for doing research on data mining and natural language processing(Liu et al. 2011a; 2011b; 2011c; Jiang et al. 2011). One way to perform Twitter sentiment analysis (TSA) is to directly exploit traditional SA methods (Pang and Lee 2007). However, tweets are quite different from other text forms like product reviews and news articles. Firstly, tweets are often short and ambiguous because of the limitation of characters. Secondly, there’re more misspelled words, slang, modal particles and acronyms on Twitter because of its casual form. Thirdly, a huge amount of unlabeled or noisy labeled data can be easily downloaded through Twitter API. Therefore, many novel SA methods have been specially developed for TSA. These methods can be mainly divided into two categories: fully supervised methods and distantly supervised methods2 . The fully supervised methods try to learn the classifiers from manually labeled data. (Jansen et al. 2009) uses the multinomial Bayes model to perform automatic TSA. (Bermingham and Smeaton 2010) compares support vector machine (SVM) and multinomial naive Bayes (MNB) for both blog and microblog SA, and finds that SVM outperforms MNB on blogs with long text but MNB outperforms SVM on microblogs with short text. One problem with the fully supervised methods is that it is very labor-intensive and time-consuming to manually label the data and hence the training data sets for most methods are often too small to guarantee a good performance. More recent works have focused on distantly supervised methods which learn the classifiers from data with noisy labels such as emoticons and hashtags. The distant supervision method (Go, Bhayani, and Huang 2009) uses the emoticons like “:)” and “:(” as noisy labels for polarity classification. The basic assumption is that a tweet containing “:)” is most likely to have a positive emotion and that containing “:(” is assumed to be negative. Experiments show that these emoticons do contain some discriminative information for SA. Hashtags (e.g., #sucks) or Smileys are used in (Davidov, Tsur, and Rappoport 2010) to identify sentiment types. (Barbosa and Feng 2010) uses the noisy data collected from some Twitter sentiment detection web sites, such as the Twitter Sentiment3 . (Kouloumpis, Wilson, and Moore 2011) investigates both hashtags and emoticons and finds that combining both of them can get better performance than using only hashtags. The advantage of these distantly supervised methods is that the labor-intensive manual annotation can be avoided and a large amount of training data can be easily built, either from Twitter API or existing web sites. However, due to the noise in the labels, the accuracy of these methods is not satisfactory. Considering the shortcomings of the fully supervised and distantly supervised methods, we argue that the best strategy is to utilize both manually labeled data and noisy labeled data for training. However, how to seamlessly integrate these two different kinds of data into the same learning framework is still a challenge. In this paper, we propose a novel model, called emoticon smoothed language model (ESLAM), to handle this challenge. The main contributions of ESLAM are outlined as follows: • ESLAM uses the noisy emoticon data to smooth the language model trained from manually labeled data. Hence, ESLAM seamlessly integrate both manually labeled data and noisy labeled data into a probabilistic framework. The large amount of noisy emoticon data gives ESLAM have the power to deal with misspelled words, slang, modal particles, acronyms, and the unforseen test words, which cannot be easily handled by fully supervised methods. • Besides the polarity classification, ESLAM can also be used for subjectivity classification which cannot be handled by most existing distantly supervised methods. • Rather than crawling a large amount of noisy data to local disks which is a typical choice by existing distantly supervised methods, we propose an efficient and convenient way to directly estimate the word probabilities from Twitter API without downloading any tweet. This is very promising because it is very expensive in terms of time and storage to download and process large amount of tweets. • Experiments on real data sets demonstrate that ESLAM can effectively integrate both manually labeled data and noisy labeled data to outperform those methods using only one of them. |