عنوان فارسی مقاله: | استفاده از بهینه سازی با الگوریتم کلونی مورچه ها برای پیکره بندی مجموعه های انباشته سازی در داده کاوی |
عنوان انگلیسی مقاله: | Applying Ant Colony Optimization to configuring stacking ensembles for data mining |
دانلود مقاله انگلیسی: | برای دانلود رایگان مقاله انگلیسی با فرمت pdf اینجا کلیک نمائید |
سال انتشار | 2014 |
تعداد صفحات مقاله انگلیسی | 15 صفحه |
تعداد صفحات ترجمه مقاله | 48 صفحه |
مجله | سیستم های خبره در نرم افزارها |
دانشگاه | لینگ نان کشور ژاپن |
کلمات کلیدی | ACO ، مجموعه، انباشته سازی، متاهیوریستیک، داده کاوی، بازاریابی مستقیم |
نشریه الزویر | Elsevier |
فهرست مطالب: چکیده
۱ مقدمه
۲ پیشینه
۱ ۲ مجموعه ها
۲ ۲ بهینه سازی با الگوریتم کلونی مورچه ها (ACO)
۳ ۲ کاربرد ACO در داده کاوی
۳ شیوه
ACO-Stacking ۱ ۳ چارچوب الگوریتم
ACO-Stacking ۲ ۳ اطلاعات محلی
۳ ۳ ورژن های مختلف انباشته سازی الگوریتم کلونی مورچه ها
۴ ۳ اختلافات بین ACO-Stacking و شیوه های بر مبنای GA ۴ آزمایشات و نتایج
۱ ۴ الگوریتم های یادگیری و محیط های آزمایش
۲ ۴ شیوه های مقایسه شده
۳ ۴ نتایج و تحلیل
۵ کاربرد داده کاوی حساس به هزینه واقعی
۱ ۵ پایگاه داده بازاریابی مستقیم
۲ ۵ روشهای ارزیابی برای مدلهای بازاریابی مستقیم
۳ ۵ آزمایشات و نتایج
۶ نتایج
۱ ۶ یافته ها
۲ ۶ همکاریها و مبانی
۳ ۶ کارهای آتی
بخشی از ترجمه:
چکیده: مجموعه، به سیستم تصمیم گیری جمعی اتلاق می گردد که از یک استراتژی برای ترکیب پیشگوییهای طبقه بند های فراگرفته شده برای پیشگویی نمونه های جدید استفاده می کند. تحقیق قبل ثابت کرده است که از لحاظ تجربی و نظری، طبقه بند های مجموعه در اکثرموارد درست تر از طبقه بند تک مولفه ای عمل می کنند. با وجود پیشنهاد شیوه های زیادی برای مجموعه، یافتن پیکره بندی مناسب برای مجموعه داده های خاص راحت نمی باشد. در تعدادی از کارهای پیشین، مجموعه به روش دستی و بر طبق تجربه متخصصین انتخاب شده است. روشهای متاهیوریستیک (فراابتکاری) راه حل های فرعی برای یافتن پیکره بندیها به شمار می روند. بهینه سازی با استفاده از الگوریتم کلونی مورچه ها (ACO) یکی از شیوه های مشهور در میان روشهای متاهیوریستیک محسوب می شود. در این کار، روش مجموعه سازی جدیدی پیشنهاد می کنیم که از ACO برای فرایند ساخت مجموعه انباشته سازی جهت تولید پیکره بندیهای مخصوص حوزه استفاده می کند. برای مقایسه شیوه پیشنهاد شده با برخی روشهای معروف و شناخته شده مجموعه براساس 18 مجموعه داده داده کاوی محک ، آزمایشاتی انجام شده است. از این شیوه برای فراگیری مجموعه ها درخصوص مسئله داده کاوی حساس به هزینه واقعی نیز استفاده شده است. نتایج آزمایش نشان می دهد که شیوه جدید مجموعه های انباشته سازی بهتری تولید می کند.
1. مقدمه
در طول سالهای توسعه ، ارتقاء عملکرد یک طبقه بند بسیار مشکل تر شده است. اخیراً، تحقیقات زیادی در زمینه روش ترکیب طبقه بند های مختلف به منظور نیل به عملکرد بهتر انجام شده است. روش مرکب مجموعه (Ensemble) نامیده شده است. در تحقیق قبل، به روش تجربی و نظری ثابت گردید که در اکثر موارد، مجموعه ها درست تر از طبقه بند های تک مولفه ای عمل می کنند. اگریک مجموعه توسط مجموعه طبقه بند هایی تولید شده باشد که از الگوریتم یادگیری یکسانی آموزش داده باشند، آنگاه این مجموعه همگن نامیده می شود. اگر یک مجموعه توسط مجموعه طبقه بند هایی تولید شده باشد که از الگوریتم های یادگیری متفاوتی آموزش دیده اند، آنگاه مجموعه ناهمگن نامیده می شود. به طور مثال، و مجموعه های همگن و انباشته سازی، مجموعه ناهمگن برشمرده می شوند. برای تولید یک مجموعه جهت نیل به نتایج مورد انتظار، لازم است به دو نکته مهم با دقت توجه شود. نکته اول معرفی تنوع کافی درون مولفه های یک مجموعه می باشد. نکته دوم انتخاب روش ترکیبی مناسب جهت ترکیب خروجی های متنوع در قالب یک خروجی می باشد. پایه و بنیان یک مجموعه، تنوع می باشد. اما با افزایش تنوع، اثر نهایی بعد از آستانه خاصی کاهش می یابد. هزینه های حافظه و محاسبه به طور قابل توجه و معناداری افزایش می یابد در حالیکه عملکرد رشد پایداریاز خود نشان نمی دهد. برای روشهای اولیه و ، بااستفاده از استراتژی نمونه گیری مجدد، تنوع حاصل می گردد. طبقه بند های لحاظ شده در با زیرمجموعه های داده ها آموزش دیده اند که به طور تصادفی از مجموعه داده های اصلی نمونه گیری شده اند. از طرح رای اکثریت به عنوان روش ترکیبی برای تصمیم گیری جمعی استفاده شده است. از استراتژی نمونه گیری مجدد وزنی استفاده می کند. اوزان کلیه نمونه ها به طور مساوی فرمت بندی و مقدار دهی می شوند. اگر یک نمونه طبقه بند ی نشده باشد، آنگاه وزنش افزایش خواهد یافت. بنابراین احتمال انتخاب نمونه های طبقه بند ی نشده در زیرمجموعه آموزشی بعدی بیشتر می باشد. فرایند تولید تنوع زمانی متوقف می گردد که خطاها کوچک باشند. طرح ترکیبی ، رای اکثریت وزنی می باشد. در مقایسه با و ، انباشته سازی مجموعه داده های آموزشی را مستقیماً دستکاری نمود. در عوض مجموعه ای از طبقه بند ها براساس دو سطح تولید می شود. در سطح پایه، طبقه بند های متعددی با الگوریتم های یادگیری گوناگون آموزش داده می شوند. تنوع به این دلیل معرفی می گردد که الگوریتم های یادگیری گوناگون خطاهای مختلفی در مجموعه داده ها ایجاد می کنند. از طبقه بند متا برای پیشگویی نهایی استفاده شده است. طبقه بند متا با الگوریتم یادگیری با استفاده از مجموعه داده های متا آموزش داده شده است که خروجی های طبقه بند های سطح پایه و برچسب کلاس حقیقی را باهم ترکیب می کند.
بخشی از مقاله انگلیسی:
1. Introduction
Over years of development, it has become more and more difficultto improve significantly the performance of a single classifier.Recently, there has been growing research interest in the methodto combine different classifiers together to achieve better performance.The combining method is referred to as Ensemble. In earlyresearch, ensembles were proved empirically and theoretically toperform more accurately than any single component classifier inmost cases. If an ensemble is generated by a set of classifiers whichare trained from the same learning algorithm, this ensemble is ahomogeneous ensemble. If an ensemble is generated by a set ofclassifiers, which are trained from different learning algorithms,this ensemble is a heterogeneous ensemble (Dietterich, 2000).For example, Bagging (Breiman, 1996) and Boosting (Schapire,1990) are homogeneous ensembles, while stacking (Wolpert,1992) is a heterogeneous ensemble.To generate an ensemble to achieve expected results, twoimportant things should be considered carefully. The first is tointroduce enough diversity into the components of an ensemble.The second is to choose a suitable combining method to combinethe diverse outputs to a single output (Polikar, 2006). The diversity is the foundation of an ensemble. However, as the diversity increases,the marginal effect decreases after a certain threshold.The memories and computing cost increase significantly whilethe performance does not improve steadily. For early Baggingand Boosting methods, the diversity is achieved by using the resamplestrategy. The classifiers included in Bagging are trainedwith the data subsets, which are randomly sampled from the originaldataset. A majority voting scheme is applied as the combiningmethod to make a collective decision. Boosting uses a weighted resamplestrategy. The weights of all instances are initialized equally.If an instance is misclassified, its weight will be increased. Thus itwill be more likely to select the misclassified instances into thenext training subset. The diversity generating process stops whenthe errors are too small. The combining scheme of Boosting is aweighted majority voting. Compared to Bagging and Boosting,stacking does not manipulate the training dataset directly. Instead,an ensemble of classifiers is generated based on two levels. In thebase level, multiple classifiers are trained with different learningalgorithms. The diversity is introduced because differentlearning algorithms make different errors in the same dataset. Ameta-classifier is applied to generate the final prediction. Themeta-classifier is trained with a learning algorithm using a metadatasetwhich combines the outputs of base-level classifiers andthe real class label.One problem of stacking is how to obtain an ‘‘appropriate’’ configurationof the base-level classifiers and meta-classifier for each domain-specific dataset. The number of base-level classifiers andthe kinds of learning algorithms are closely related to the diversity.The kind of meta-classifier is also important to the fusion of thebase-level classifiers. However, such configuration is still ‘‘BlackArt’’ (Wolpert, 1992). Some researchers have proposed differentmethods to determine the configuration of stacking. Ting andWitten solved two issues about the type of meta-classifier andthe kinds of its input attributes (Ting & Witten, 1999). Dz˘eroskiand Z˘ enko introduced Multi-Response Model Trees as the metaclassifier(Dzˇeroski & Z˘ enko, 2002). Zheng and Padmanabhan(2007) and Zhu (2010) proposed their Data Envelopment Analysis(DEA) approaches respectively. Ledezma et al. and Ordóñez et al.proposed approaches which search the ensemble configurationsusing Genetic Algorithms (GAs) (Ledezma, Aler, & Borrajo, 2002;Ordóñez, Ledezma, & Sanchis, 2008).In this work, we propose an approach using Ant Colony Optimization(ACO) to optimize the stacking configuration. ACO is a metaheuristicalgorithm which is inspired by the foraging behaviour inreal ant colonies. Some approaches were proposed recently to applyACO in data mining. Parpinelli et al. proposed Ant Miner to extractclassification rules (Parpinelli, Lopes, & Freitas, 2002). Someapproaches apply ACO in feature subset selection tasks (Al-Ani,2006; Zhang, Chen, & He, 2010).The rest of this paper is organized as follows. In Section 2, thebackground of this work, including the related ensemble approachesand the Ant Colony Optimization method, is introduced.In Section 3, the details of our approach are presented. In Section 4,a number of conducted experiments are described to compare ourapproach with other ensemble methods. Further, the experimentresults are presented and discussed in this section. In Section 5,our approach is applied to solve a real-world data mining problem. In the last section, a conclusion is given.2. Background2.1. Ensembles2.1.1. BaggingBagging, short for bootstrap aggregating, is considered one ofthe earliest ensemble scheme (Breiman, 1996). Bagging is intuitivebut powerful, especially when the data size is limited. Bagging generatesa series of training subsets by random sampling withreplacement from the original training set. Then the different classifiersare trained by the same classification algorithm with differenttraining subsets. When a certain number of classifiers aregenerated, these individuals are combined by the majority votingscheme. Given a testing instance, different outputs will be givenfrom the trained classifiers, and the majority will be consideredas the final decision.
عنوان فارسی مقاله: | استفاده از بهینه سازی با الگوریتم کلونی مورچه ها برای پیکره بندی مجموعه های انباشته سازی در داده کاوی |
عنوان انگلیسی مقاله: | Applying Ant Colony Optimization to configuring stacking ensembles for data mining |