دانلود رایگان مقاله انگلیسی + خرید ترجمه فارسی | |
عنوان فارسی مقاله: |
شناسایی شایعات و تحقیقات مربوط به باور در توییتر |
عنوان انگلیسی مقاله: |
Rumor Identification and Belief Investigation on Twitter |
|
مشخصات مقاله انگلیسی (PDF) | |
سال انتشار | 2016 |
تعداد صفحات مقاله انگلیسی | 6 صفحه با فرمت pdf |
رشته های مرتبط با این مقاله | مهندسی فناوری اطلاعات |
گرایش های مرتبط با این مقاله | اینترنت و شبکه های گسترده |
ارائه شده از دانشگاه | گروه علوم کامپیوتر دانشگاه جورج واشنگتن |
رفرنس | دارد ✓ |
کد محصول | F1024 |
مشخصات و وضعیت ترجمه فارسی این مقاله (Word) | |
وضعیت ترجمه | انجام شده و آماده دانلود |
تعداد صفحات ترجمه تایپ شده با فرمت ورد با قابلیت ویرایش | 11 صفحه با فونت 14 B Nazanin |
ترجمه عناوین تصاویر و جداول | ترجمه شده است ✓ |
ترجمه متون داخل تصاویر | ترجمه شده است ✓ |
ترجمه متون داخل جداول | ترجمه شده است ✓ |
درج تصاویر در فایل ترجمه | درج شده است ✓ |
درج جداول در فایل ترجمه | درج شده است ✓ |
درج فرمولها و محاسبات در فایل ترجمه | به صورت عکس درج شده است ✓ |
منابع داخل متن | به صورت فارسی درج شده است ✓ |
کیفیت ترجمه | کیفیت ترجمه این مقاله متوسط میباشد |
توضیحات | ترجمه این مقاله به صورت خلاصه انجام شده است |
فهرست مطالب |
چکیده
1-مقدمه
2-مطالعات مرتبط
2-1 رسانه های اجتماعی وامانتداری
3-تعریف مسئله ورویکرد
3-1 داده ها
3-2 داده های نقره ای
3-3 ویژگیها
3-3-1 بردار پنهان توییت(TLV)
3-3-2 باور
3-3-3 یونیگرام محتوی
4- طراحی ازمایش
4-1 داده ها
4-2 معیار
4-3 ابزار های یادگیری ماشینی
4-4 ازمایش و ارزیابی ها
5- نتایج
5-1 بازیابی شایعات
5-2 تحلیل باور
6- نتیجه گیری و کار های اینده
|
بخشی از ترجمه |
چکیده
کابران رسانه های اجتماعی هر روزه چندین ساعت را صرف خواندن، پست گذاشتن وجست و جوی اخبار در پلتفرم های میکرو بلاگینگ می کنند.رسانه های اجتماعی در حال تبدیل شدن به یک ابزار کلیدی برای کشف اخبارمی باشند. با این حال، تایید اعتبار این اطلاعات به یک چالش روز افزون ومهم تبدیل شده است. در این مطالعه ما تلاش می کنیم تا مسئله تشخیص شایعه و بررسی باور در تویتر را حل کنیم. تعریف مااز شایعات، یک گزارش یا عبارت غیر قابل تایید است که موجب نشر اطلاعات کاذب می شود. ما از یک فرایند طبقه بندی شایعات نظارت شده با استفاده از مجموعه داده های استاندارد استفاده میکنیم. با استفاده از نسخه نرم افزاری وکتور پنهان توییت TLV، که ایجاد یک بردار 100D معرف هر توییت می کند، ما دقت بازیابی شایعه را تا بیش از 0.972 افزایش دادیم. هم چنین ما سیستم امتیاز بندی باور را معرفی کرده و تغییرات باور را در میان پوستر های شایعه بین 2010 و 2016 مطالعه می کنیم.
1- مقدمه
از دیرباز، تلویزیون، کانال های رادیویی و روزنامه ها، تنها منابع خبری بوده اند. آن ها هنوز جزو منابع خبری برتر و قابل اعتماد می باشند با این حال روند جدید تری به سمت منابع دیجیتال نیز وجود داشته است. نسبت چشم گیری از مخاطبان روزنامه ها امروزه آن ها را به صورت دیچیتال مطالعه می کنند وبسیاری از افراد به رسانه های اجتماعی بهعنوان یک منبع خبری متکی هستند. رسانه های اجتماعی این امکان را بهشما می دهد تا پست های انلاین خود را با یک کلیک ساده منتشر کنید. این امکان موجب شده است تا اخبار جدید ومهم در میکرو بلاگ ها منتشر شوند. توییتر یکی از محبوب ترین پلتفرم میکروبلاگینگ با بیش از 250 میلیون کاربر است. قابلیت دسترسی، سرعت و سهولت استفاده موجب شده است تا توییتر ابزار مهمی برای خواندن و اشتراک اطلاعات باشد. با این حال، همین ویژگی موجب شده است تا تویتر و یا هر پلتفرم میکروبلاگینگ به یک منبع مهم تبدیل شود ولی برخی عدم نظارت ها موجب شده است تا زمینه ای مهم برای انتشار اطلاعات کاذب و نامطلوب در رسانه های اجتماعی باشد. بر همین اساس، این می تواند منجر به بروز رخ داد های خطرناک و مضری در شرایط حساس شود که موجب بروز اثرات نامطلوب و منفی بر روی افراد و جامعه می شود. بسیاری از جست و جو کننده های اطلاعات وجود دارند که برای کسب اطلاعات به یک منبع اکتفا نمی کنند ولی این یک راه حل خوب نیست زیرا سایر خروجی ها یا منابع خبری نیز به رسانه های اجتماعی متکی هستند. تلفن های هوشمند امکان دسترسی و توییت هر گونه اطلاعاتی را قبل از دسترسی به تلویزیون می دهند.با در نظر گرفتن این که رسانه اجتماعی یک گزینه جذاب برای افرادی است که دنبال اخبار جدید هستند، با این حال می تواند موجب فریب افراد با انتشار اطلاعات و شایعات کاذب شود. در این مطالعه ما به بررسی مجموعه داده های استاندارد شایعات جمع اوری شده توسط قزوینیان وهمکاران(2011) می پردازیم. در این مطالعه، تعریف شایعه به صورت یک عبارت یاگزاره ای است که صحت آن غیر قابل تایید است.ما از همین تعریف استفاده می کنیم و به بررسی محرک های ایجاد شایعات نمی پردازیم.
در این مطالعه ما به بررسی مسئله تشخیص شایعات در داده های توییتر می پردازیم. ما در ابتدا انگیزه و هدف تحقیق را بررسی کرده و سپس به بررسی تاریخچه مطالعات مشابه در خصوص شایعات می پردازیم.سپس به بررسی یک مسیر کلی ای خواهیم پرداخت که در آن یک چارچوب یادگیری ماشینی نظارت شده را استفاده کرده و تغییر باور را برای شایعات رییس جمهور اوباما در سه سال بررسی می کنیم و در نهایت، ما نتایج را با پیشرفت های فعلی در این خصوص مقایسه خواهیم کرد.
ما اثبات می کنیم که رویکرد ما منجر به نتایج بهتری درمقایسه با سایر مطالعات انجام شده می شود.
2-مطالعات مرتبط
طیف وسیعی از مطالعات در زمینه تشخیص اطلاعات درست و غلط وجود دارد.در این بخش ما تنها به بررسی کار های انجام شده بر روی زمینه پردازش زبان طبیعی می پردازیم که بر انتشار اطلاعات و صحت آن ها در رسانه های اجتماعی و به خصوص در تویتر متمرکز است.
2-1 رسانه های اجتماعی وامانتداری
پس از وقوع زلزله و سونامی در ژاپن در 11 مارس 2012، تاکاشی و ایگاتا(2012) دو مجموعه از توییت های شایعه را در مورد زلزله مورد بررسی قرار دادند. آن ها مدلی را برای تشخیص سایر توییت های شایعه با تاکید بر یک سری فرایند ها ایجاد کردند. تاکاشی و ایگاتا، فهرست شایعاتهدف را با استفاده از نهاد ها شناسایی کرده و سپس نسبت توییت مجدد را برای شایعات هدف محاسبه کردندو در نهایت با تحلیل امتیاز بندی هر کلمه و با استفاده از نسبت فراوانی و وقوع کلمات در توییت ها، کلمات کلیدی استخراج شدند در مطالعهای مشابه، سروش( وثوقی 2015) مدل تایید وتشخیص شایعه دو مرحله ای را در توییت های بمب گذاری ماراتون بوستون ارایه کرده است. مدل خوشه بندی سلسله مراتبی برای تشخیص شایعه به کار می رود و پس از فرایند مهندسی ویژگی، که شامل ویژگی های زبانی، هویت کاربرد و ویژگی های عمل گرایانه است، از مدل مارکوف پنهان برای یافتن صحت هر شایعه استفاده کرده است. ایشان در عین حال به بررسی و تحلیل طبقه بندی احساس توییت ها با استفاده از اطلاعات زمینه ای پرداخته اند که نشان می دهد چه تعداد توییت در زمینه های مکانی، زمانی مختلف منجر به بروز احساسات متفاوتی می شوند.
سینا یک پلتفرم میکروبلاگینگ چینی مشابه با توییتر است. یانگ و همکاران2012 به بررسی مسئله طبقه بندی شایعات در توییتر و سینا پرداختند. او ویژگی های اصلی خود از جمله محتوی، کلاینت، حساب، محل و انتشار را با افزودن ویژگی های مبتنی بر کلاینت توسعه داد که اشاره به برنامه مورد استفاده برای پست در میکروبلاگ و نیز ویژگی مبتنی بر موقعیت دارد که یک ویژگی دو دویی است که نشان دهنده درون و یا بیرون چین است. یانگ وهمکاران نیز طیف وسیعی از ویژگی های فرا داده ها و ویژگی های زمینه ای را شامل می شود. مهمترین کار های مربوطه در این زمینه مطالعه قزوینیان(2011) است که از سه مجموعه ویژگی از جمله ویژگی های مبتنی بر محتوا، مبتنی بر شبکه و توییتراستفاده میکند. برای ویژگی های مبتنی بر محتوی، آن ها الگوهای نحوی دقیق را استخراج می کند. برای ویژگی های مبتنی بر شبکه، آن ها دو ویژگی را برای پوشش دادن چهار نوع ویژگی های مبتنی بر شبکه با استفاده از احتمال لگاریتم توییت مجدد و ویژگی های پاسخ در توییت ها بررسی کردند و در نهایت ویژگی های مم توییتر شامل هشتگ ها و ادرس های اینترنتی را بررسی کردند.در مطالعه قبلی(حمیدیان و دیاب 2015) ما ازمجموعه داده های V11 با یک مجموعه از ویژگی ها، برچسبها، یادگیری ماشینی متفاوت و رویکرد ازمایشی استفاده کردیم. ما مدل شناسایی و تشخیص شایعه RDC را در چارچوب رسانه اجتماعی میکروبلاگینگ ارایه کرده و مدل دو مرحله ای وتک مرحله ای SRDC و TRDC را به شکلی نظارت شده بررسی کرده و اثر بخشی ویژگیها و فرایند های پیش پردازش مختلف را دنبال می کنیم.
|
بخشی از مقاله انگلیسی |
Abstract Social media users spend several hours a day to read, post and search for news on microblogging platforms. Social media is becoming a key means for discovering news. However, verifying the trustworthiness of this information is becoming even more challenging. In this study, we attempt to address the problem of rumor detection and belief investigation on Twitter. Our definition of rumor is an unverifiable statement, which spreads misinformation or disinformation. We adopt a supervised rumors classification task using the standard dataset. By employing the Tweet Latent Vector (TLV) feature, which creates a 100-d vector representative of each tweet, we increased the rumor retrieval task precision up to 0.972. We also introduce the belief score and study the belief change among the rumor posters between 2010 and 2016. 1 Introduction Traditionally television, radio channels, and newspapers were the only news sources available. They are still the top trusted news sources but there is a large new trend toward digital sources. A considerable ratio of newspaper readers now read them digitally and the number of people relying on social media as a news source doubled since 2010. Social media helps you post your news online by a single click, this feasibility leads novel breaking news to show up first on micro blogs. Twitter is one of the most popular microblogging platforms with more than 250 million users. Accessibility, speed and ease-of-use have made Twitter a valuable platform to read and share information. However, the same features which make Twitter or any microblogging platform a great resource, but combined with lack of supervision make them fertile grounds for malicious or accidental misinformation in social media. Accordingly, this can lead to harmful incidences especially in sensitive circumstances, which then could cause damaging effects on individuals and society. There are many information seekers who do not rely on a single source to get information, but this is not always a good solution since even other news outlets sometime rely on social media when it comes to novel breaking news. Smart phones enable everyone to capture and tweet every single moment hours before TV cameras arrive. Considering that, social media is an appealing option for those who crave novel tempting news but on the other hand, could deceive anyone by well-structured and formatted rumors. In this study we work on a standard dataset of rumors collected by Qazvinian et al. (Qazvinian et al., 2011). In their work, the definition of rumor is defined as a statement whose truth value is unverifiable or deliberately false. We are using the same definition and not investigating the stimulus behind rumors creation. We investigate the problem of detecting rumors in Twitter data. We start with the motivation behind this research, and then the history of similar studies about rumors is overviewed. Then the overall pipeline is exposed, in which we adopt a supervised machine learning framework, and then we investigate the belief change for president Obama rumors in three years, and finally, we compare our results to the current state of the art performance on the task. We prove that our approach yields superior results in comparison to other works to date. 2 Related Work There is an extension body of related works on trustworthiness and misinformation detection. In this section we only focus on closely related works on the Natural Language Processing field that concentrate on information propagation and trustworthiness on social media, and specially on Twitter. 2.1 Social media and Trustworthiness After the earthquake and tsunami occurred in Japan on March 11th 2012, Takahashi and Igata, (Takahashi and Igata, 2012) targeted two sets of related rumor tweets about the earthquake. They create the model to detect other candidate rumor tweets relying on a sequence of processes. Takahashi and Igata detect the target rumor list using the entities and then the re-tweet ratio for target rumors is calculated, and finally the clue keywords get extracted by analyzing the scoring of each content word w, using the ratio of word occurrence in correction tweets (num in correction(w)) over rumor tweets (num in rumor(w)). In a similar study, Soroush, (Vosoughi, 2015) proposes his two step rumor detection and verification model on the Boston Marathon bombing tweets. The Hierarchical-clustering model is applied for rumor detection, and after the feature engineering process, which contains linguistic, user identity, and pragmatic features, he adopts the Hidden Markov model to find the veracity of each rumor. Soroush also analyses the sentiment classification of tweets using the contextual Information, which shows how tweets in different spatial, temporal, and authorial contexts have, on average, different sentiments. Sina is the popular Chinese microbloging platform like Twitter. Yang et al. (Yang et al., 2012) studied the rumors classification problem on both Twitter and Sina. He extended his primary features including content, client, account, location, and propagation by adding client-based features, which refers to a program that is being used to post on a microblog and also the location-based feature, which is a binary feature, that indicates being inside or outside of China. Yang et al. cover a significant range of meta-data features and fewer sentiment and con textual features in the aforementioned work. The most relevant related works to ours are Qazvinian et al. (Qazvinian et al., 2011)(V11) which use three sets of features, including content-based, networkbased, and Twitter specific meme features. For content-based features, they extract lexical and partof-speech patterns. For network-based features, they build two features to capture four types of networkbased properties utilizing the log likelihood of retweet and reply properties in Tweets, and finally, the Twitter specific meme features include hashtags and URLs. In our previous work (Hamidiain and Diab, 2015)(S15) we used the V11 data set with a new set of features, more labels, different machine learning, and an experimental approach. We proposed Rumor Detection and Classification (RDC) within the context of microblogging social media and suggested Single-step and Two-step models (SRDC and TRDC) in a supervised manner and investigate the effectiveness of the proposed list of features and various preprocessing tasks. |