دانلود رایگان ترجمه مقاله مدل های زبان روان و سلیس شکلک های اینترنتی برای تحلیل احساسات توییتر (نشریه ACM 2012)

این مقاله انگلیسی ISI در نشریه ACM در ۷ صفحه در سال ۲۰۱۲ منتشر شده و ترجمه آن ۱۹ صفحه میباشد. کیفیت ترجمه این مقاله ارزان – نقره ای ⭐️⭐️ بوده و به صورت کامل ترجمه شده است.

 

دانلود رایگان مقاله انگلیسی + خرید ترجمه فارسی
عنوان فارسی مقاله:

مدل های زبان روان و سلیس شکلک های اینترنتی برای تحلیل احساسات توییتر

عنوان انگلیسی مقاله:

Emoticon Smoothed Language Models for Twitter Sentiment Analysis

 
 
 
 
 

 

مشخصات مقاله انگلیسی (PDF)
سال انتشار ۲۰۱۲
تعداد صفحات مقاله انگلیسی ۷ صفحه با فرمت pdf
رشته های مرتبط با این مقاله مهندسی کامپیوتر، مهندسی فناوری اطلاعات، مهندسی صنایع
گرایش های مرتبط با این مقاله هوش مصنوعی، اینترنت و شبکه های گسترده، داده کاوی 
چاپ شده در مجله (ژورنال) مجموعه مقالات بیست و ششم کنفرانس AAAI در مورد هوش مصنوعی – Proceedings of the Twenty-Sixth AAAI Conference on Artificial Intelligence
ارائه شده از دانشگاه گروه علوم کامپیوتر و مهندسی، دانشگاه جیانگ تانگ شانگهای، چین
رفرنس دارد  
کد محصول F1533
نشریه ACM

 

مشخصات و وضعیت ترجمه فارسی این مقاله (Word)
وضعیت ترجمه انجام شده و آماده دانلود
تعداد صفحات ترجمه تایپ شده با فرمت ورد با قابلیت ویرایش  ۱۹ صفحه (۱ صفحه رفرنس انگلیسی) با فونت ۱۴ B Nazanin
ترجمه عناوین تصاویر و جداول ترجمه شده است ✓ 
ترجمه متون داخل تصاویر ترجمه نشده است  
ترجمه متون داخل جداول ترجمه نشده است 
درج تصاویر در فایل ترجمه درج شده است 
درج جداول در فایل ترجمه درج شده است 
درج فرمولها و محاسبات در فایل ترجمه  به صورت عکس درج شده است
منابع داخل متن به صورت انگلیسی درج شده است  
کیفیت ترجمه کیفیت ترجمه این مقاله متوسط میباشد 

 

فهرست مطالب

چکیده
مقدمه
کارهای مرتبط
رویکرد ما
مدل های زبانی برای SA
مدل شکلک های اینترنتی
ESLAM
آزمایشات
مجموعه داده ها
طرح ارزیابی و معیارها
اثر شکلک های اینترنتی
اثر داده های برچسب گذاری شده دستی
حساسیت به پارامترها
نتیجه گیری

 

بخشی از ترجمه
 چکیده
در سال های اخیر, تحلیل احساسات توییتر (TSA) به موضوع پژوهشی داغی تبدیل شده است. هدف از پژوهش حاضر, کشف نگرش یا عقیده توییت ها است که نوعاً به عنوان یک مسئله طبقه بندی متن مبتنی بر دانش ماشین تنظیم می شود. برخی روش ها از داده های برچسب گذاری شده دستی برای آموزش مدل های کامل نظارت شده استفاده می کنند, در حالیکه دیگر روش ها از برخی از برچسب های صدادار استفاده می کنند, مانند شکلک های اینترنتی یا هشتگ ها. به طور کلی, ما تنها می توانیم تعداد محدودی از داده های آموزش را برای مدل های کاملاً نظارت شده به دست آوریم, زیرا برچسب گذاری دستی توییت ها بسیار زمانبر و سخت است. در روش های به کار برده شده برای مدل های صدادار, دستیابی به عملکرد رضایت بخش به دلیل نویز (صدای) موجود در برچسب ها سخت است, هرچند دستیابی به میزان زیادی از داده ها برای آموزش آسان می باشد. از اینرو, بهترین راهبرد, استفاده از داده های برچسب گذاری شده دستی و داده های برچسب گذاری شده است. هرچند, نحوه ادغام بی عیب و ایراد این دو نوع متفاوت از داده ها در یک چارچوب آموزش, هنوز یک چالش است. در این مقاله, ما یک مدل جدید را ارائه می دهیم که مدل های زبان روان و سلیس شکلک های اینترنتی (ESLAM) نامیده می شود که این چالش را برطرف خواهد نمود. ایده اصلی این روش, آموزش یک مدل زبانی بر اساس داده های برچسب گذاری شده دستی و سپس استفاده از داده های شکلک اینترنتی صدادار برای روانسازی است. آزمایشات روی مجموعه داده های واقعی نشان می دهد که ESLAM می تواند به طور موثر هر دو نوع داده را برای عملکرد برتر نسبت به هر یک از این روش ها ادغام نماید.
 
۱- مقدمه

تحلیل احساسات (SA) (Pang and Lee 2007) (که کاوش در عقاید نیز نامیده می شود) عمدتاً در مورد کشف تفکرات دیگران از داده هایی مانند مرور محصول و مقالات خبر است. از یک سو, مصرف کنندگان به دنبال مشورت هایی در مورد یک محصول هستند تا در فرآیند مصرف, تصمیمات آگاهانه بگیرند. از سوی دیگر, فروشندگان بیشتر و بیشتر به عقاید آنلاین در مورد محصولات و خدمات خود توجه می نمایند. از اینرو SA از طرف بسیاری از جوامع پژوهشی مانند آموزش ماشین, داده کاوی و پردازش زبان طبیعی مورد توجه زیادی قرار گرفته است. احساسات در یک متن یا جمله می تواند مثبت, منفی یا طبیعی باشد. ازاینرو, SA در واقع یک مسئله طبقه بندی ۳-طرفه است. در عمل, بیشتر روش ها از راهبرد دومرحله ای برای SA استفاده می نمایند (Pang and Lee 2007). در مرحله طبقه بندی ذهنیت, هدف به عنوان ذهنی یا خنثی (عینی) طبقه بندی می شود و در مرحله طبقه بندی قطبیت (تمایل), اهداف ذهنی به صورت مثبت و منفی طبقه بندی می شوند. از اینرو, دو طبقه بندی کننده, برای کل فرآیند SA آموزش می بینند, یکی از آنها طبقه بند ذهنی و دیگر طبقه بند قطبیت نامیده می شود. از زمانی که (Pang, Lee, and Vaithyanathan 2002) SA را به عنوان مسئله طبقه بندی متن بر اساس آموزش ماشین مشخص نمودند, روش های بیشتر و بیشتر آموزش ماشین برای SA پیشنهاد شده است (Pang and Lee 2007).
توییتر یک خدمات وبلاگ نویسی کوچک آنلاین و عمومی است که در سال ۲۰۰۶ راه اندازی شد. کاربران در توییتر, توییت ها را تا حدود ۱۴۰ کاراکتر می نویسند تا به دیگران بگویند که چه کاری انجام می دهند و چه فکری می کنند. مطابق با گفته برخی منابع, تا سال ۲۰۱۱, بیش از ۳۰۰ میلیون کاربر در توییتر وجود داشته است و ۳۰۰ میلیون توییت جدید در هر روز ایجاد می شود. به علت اینکه تقریباً تمام توییت ها عمومی هستند, این داده های فراوان, فرصت های جدیدی را برای انجام پژوهش در مورد داده کاوی و پردازش زبان طبیعی ایجاد نموده است (Liu et al. 2011a; 2011b; 2011c; Jiang et al. 2011).
یک راه برای انجام تحلیل احساسات در توییتر (TSA) بهره برداری مستقیم از روش های SA است (Pang and Lee 2007). هرچند, توییت ها از دیگر اشکال متنی مانند مرور محصول و مقالات خبری متفاوت هستند. اولاً, به دلیل محدودیت کاراکترها, توییت ها اغلب کوتاه و مبهم هستند. ثانیاً, به دلیل شکل غیرجدی آن, کلمات نادرست املایی, عامیانه و ترکیبی در آن نوشته می شوند. سوماً, میزان زیادی از داده های برچسب گذاری شده صدادار و برچسب گذاری نشده را می توان به آسانی از API توییتر دانلود نمود. بنابراین, بسیاری از روش های SA جدید به طور خاص برای TSA توسعه یافته اند. این روش ها را عمدتاً می توان به دو رده تقسیم بندی نمود: روش های کاملاً نظارت شده و روش های نظارت نشده.
روش های نظارت شده کامل سعی دارند تا طبقه بندی کنندگان را از داده های برچسب گذاری شده دستی آموزش دهند. (Jansen et al. 2009) از مدل Bayes چندجمله ای برای انجام TSA خودکار استفاده نموده اند. (Bermingham and Smeaton 2010) ماشین بردار حمایتی (SVM) و Bayes ساده چندجمله ای (MNB) را برای SA بلاگ و SA میکروبلاگ مقایسه نمودند و دریافتند که SVM در بلاگ هایی با متن های طولانی بهتر از MNB عمل می کند, اما MNB در میکروبلاگ هایی با متون کوتاه بهتر از SVM عمل می کند. یک مشکل در مورد روش های نظارت شده کامل اینست که برچسب گذاری دستی داده ها, زمانبر و سخت است و از اینرو مجموعه داده های آموزش برای بیشتر روش ها اغلب برای تضمین یک کارکرد مناسب بیش از حد کوچک هستند.
کارهای جدیدتر روی روش های نظارت شده از راه دور متمرکز شده اند که با برچسب های صدادار مانند شکلک های اینترنتی و هشتگ ها, طبقه بندها را آموزش می دهد. روش نظارت از راه دور (Go, Bhayani, and Huang 2009) از شکلک های اینترنتی مانند “:)” و “:(” به عنوان برچسب های نویزی برای طبقه بندی تمایل (قطبیت) استفاده می کند. فرض اصلی اینست که یک توییت شامل “:)” به احتمال زیاد دارای یک احساس مثبت است و فرض می شود که توییت شامل “:(” منفی است. آزمایشات نشان می دهند که این شکلک ها حاوی برخی اطلاعات متمایز برای SA می شوند. هشتگ ها (مثلاً #sucks) یا اسمایلی ها در (Davidov, Tsur, and Rappoport 2010) برای شناسایی انواع احساسات استفاده می شوند. (Barbosa and Feng 2010) از داده های صدادار جمع آوری شده از برخی از وب سایت های آشکارسازی احساسات توییتر مانند Twitter Sentiment3 استفاده نموده اند. (Kouloumpis,Wilson, and Moore 2011) هر دوی هشتگ ها و شکلک ها را بررسی نموده اند و دریافته اند که ترکیب آنها می تواند به عملکرد بهتری نسبت به استفاده از هر یک از آنها منجر شود. مزیت این روش های نظارت شده از راه دور اینست که یادداشت نویسی دستی سخت قابل اجتناب است و میزان زیادی از داده های تعلیم را می توان به راحتی از Twitter API یا وب سایت های موجود ساخت. هرچند, به دلیل نویز (صدا) در برچسب ها, دقت این روش ها رضایت بخش نیست.
با در نظر گرفتن کمبودهای روش های نظارت شده کامل و نظارت شده از راه دور, استدلال ما اینست که بهترین راهبرد, استفاده از داده های برچسب گذاری شده دستی و داده های برچسب گذاری شده صدادار برای تعلیم است. هرچند, نحوه ادغان این دو نوع متفاوت از داده ها در یک چارچوب یادگیری, هنوز یک چالش است. در این مقاله, ما یک مدل جدید, به نام مدل زبان سلیس و روان شکلک های ارنتی (ESLAM) را برای رفع این چالش پیشنهاد می دهیم. مزایای اصلی این روش به شرح زیر می باشند:
• ESLAM از داده های صدادار شکلک ها برای روان نمودن مدل زبان تعلیم یافته از داده های برچسب گذاری شده دستی استفاده می کند. از اینرو این روش, داده های برچسب گذاری شده دستی و داده های برچسب گذاری صدادار در یک چارچوب احتمالاتی را ادغام می کند. میزان زیادی از داده های صدادار شکلک ها که این روش ارائه می دهد, دارای قدرت کار با کلمات سوء تلفظ شده, عامیانه و ترکیبی و کلمات آزمایشی پیش بینی نشده هستند که توسط روش های نظارت شده کامل قابل رفع نیستند.
• در کنار طبقه بندی قطبیت, ESLAM را می توان برای طبقه بندی ذهنیت استفاده نمود که این کار با اغلب روش های نظارت شده موجود از راه دور قابل انجام نیست.
• به جای ریختن میزان زیادی از داده های صدادار در دیسک ها که یک انتخاب معمول توسط روش های نظارت شده موجود از راه دور است, ما یک روش کارآمد و راحت را برای برآورد احتمالات یک کلمه از Twitter API بدون دانلود هر توییت پیشنهاد می کنیم. این کار امیدوارکننده است, زیرا این کار از نظر زمان و ذخیره برای دانلود و پردازش میزان زیادی از توییت ها بسیار گران تمام می شود.
• آزمایشات در مورد مجموعه داده های واقعی نشان داده اند که ESLAM می توان به طور موثر داده های برچسب گذاری شده دستی و داده های برچسب گذاری صدادار در یک چارچوب احتمالاتی را ادغام کند.

 

بخشی از مقاله انگلیسی

Abstract

Twitter sentiment analysis (TSA) has become a hot research topic in recent years. The goal of this task is to discover the attitude or opinion of the tweets, which is typically formulated as a machine learning based text classification problem. Some methods use manually labeled data to train fully supervised models, while others use some noisy labels, such as emoticons and hashtags, for model training. In general, we can only get a limited number of training data for the fully supervised models because it is very labor-intensive and time-consuming to manually label the tweets. As for the models with noisy labels, it is hard for them to achieve satisfactory performance due to the noise in the labels although it is easy to get a large amount of data for training. Hence, the best strategy is to utilize both manually labeled data and noisy labeled data for training. However, how to seamlessly integrate these two different kinds of data into the same learning framework is still a challenge. In this paper, we present a novel model, called emoticon smoothed language model (ESLAM), to handle this challenge. The basic idea is to train a language model based on the manually labeled data, and then use the noisy emoticon data for smoothing. Experiments on real data sets demonstrate that ESLAM can effectively integrate both kinds of data to outperform those methods using only one of them.

۱ Introduction

Sentiment analysis (SA) (Pang and Lee 2007) (also known as opinion mining) is mainly about discovering “what others think” from data such as product reviews and news articles. On one hand, consumers can seek advices about a product to make informed decisions in the consuming process. On the other hand, vendors are paying more and more attention to online opinions about their products and services. Hence, SA has attracted increasing attention from many research communities such as machine learning, data mining, and natural language processing. The sentiment of a document or sentence can be positive, negative or neutral. Hence, SA is actually a three-way classification problem. In practice, most methods adopt a two-step strategy for SA (Pang and Lee 2007). In the subjectivity classification step, the target is classified to be subjective or neutral (objective), and in the polarity classification step, the subjective targets are further classified as positive or negative. Hence, two classifiers are trained for the whole SA process, one is called subjectivity classifier, and the other is called polarity classifier. Since (Pang, Lee, and Vaithyanathan 2002) formulated SA as a machine learning based text classification problem, more and more machine learning methods have been proposed for SA (Pang and Lee 2007).

Twitter is a popular online micro-blogging service launched in 2006. Users on Twitter write tweets up to 140 characters to tell others about what they are doing and thinking. According to the some sources 1 , until 2011, there have been over 300 million users on Twitter and 300 million new tweets are generated every day. Because almost all tweets are public, these rich data offer new opportunities for doing research on data mining and natural language processing(Liu et al. 2011a; 2011b; 2011c; Jiang et al. 2011).

One way to perform Twitter sentiment analysis (TSA) is to directly exploit traditional SA methods (Pang and Lee 2007). However, tweets are quite different from other text forms like product reviews and news articles. Firstly, tweets are often short and ambiguous because of the limitation of characters. Secondly, there’re more misspelled words, slang, modal particles and acronyms on Twitter because of its casual form. Thirdly, a huge amount of unlabeled or noisy labeled data can be easily downloaded through Twitter API. Therefore, many novel SA methods have been specially developed for TSA. These methods can be mainly divided into two categories: fully supervised methods and distantly supervised methods2 .

The fully supervised methods try to learn the classifiers from manually labeled data. (Jansen et al. 2009) uses the multinomial Bayes model to perform automatic TSA. (Bermingham and Smeaton 2010) compares support vector machine (SVM) and multinomial naive Bayes (MNB) for both blog and microblog SA, and finds that SVM outperforms MNB on blogs with long text but MNB outperforms SVM on microblogs with short text. One problem with the fully supervised methods is that it is very labor-intensive and time-consuming to manually label the data and hence the training data sets for most methods are often too small to guarantee a good performance.

More recent works have focused on distantly supervised methods which learn the classifiers from data with noisy labels such as emoticons and hashtags. The distant supervision method (Go, Bhayani, and Huang 2009) uses the emoticons like “:)” and “:(” as noisy labels for polarity classification. The basic assumption is that a tweet containing “:)” is most likely to have a positive emotion and that containing “:(” is assumed to be negative. Experiments show that these emoticons do contain some discriminative information for SA. Hashtags (e.g., #sucks) or Smileys are used in (Davidov, Tsur, and Rappoport 2010) to identify sentiment types. (Barbosa and Feng 2010) uses the noisy data collected from some Twitter sentiment detection web sites, such as the Twitter Sentiment3 . (Kouloumpis, Wilson, and Moore 2011) investigates both hashtags and emoticons and finds that combining both of them can get better performance than using only hashtags. The advantage of these distantly supervised methods is that the labor-intensive manual annotation can be avoided and a large amount of training data can be easily built, either from Twitter API or existing web sites. However, due to the noise in the labels, the accuracy of these methods is not satisfactory.

Considering the shortcomings of the fully supervised and distantly supervised methods, we argue that the best strategy is to utilize both manually labeled data and noisy labeled data for training. However, how to seamlessly integrate these two different kinds of data into the same learning framework is still a challenge. In this paper, we propose a novel model, called emoticon smoothed language model (ESLAM), to handle this challenge. The main contributions of ESLAM are outlined as follows:

• ESLAM uses the noisy emoticon data to smooth the language model trained from manually labeled data. Hence, ESLAM seamlessly integrate both manually labeled data and noisy labeled data into a probabilistic framework. The large amount of noisy emoticon data gives ESLAM have the power to deal with misspelled words, slang, modal particles, acronyms, and the unforseen test words, which cannot be easily handled by fully supervised methods.

• Besides the polarity classification, ESLAM can also be used for subjectivity classification which cannot be handled by most existing distantly supervised methods.

• Rather than crawling a large amount of noisy data to local disks which is a typical choice by existing distantly supervised methods, we propose an efficient and convenient way to directly estimate the word probabilities from Twitter API without downloading any tweet. This is very promising because it is very expensive in terms of time and storage to download and process large amount of tweets.

• Experiments on real data sets demonstrate that ESLAM can effectively integrate both manually labeled data and noisy labeled data to outperform those methods using only one of them.

 

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا