عنوان فارسی مقاله: | تعریف، مصورسازی و آشکار سازی رفتار غیر عادی |
عنوان انگلیسی مقاله: | Anomaly Detection, Explanation and Visualization |
دانلود مقاله انگلیسی: | برای دانلود رایگان مقاله انگلیسی با فرمت pdf اینجا کلیک نمائید |
تعداد صفحات مقاله انگلیسی | 8 صفحه |
تعداد صفحات ترجمه مقاله | 14 صفحه |
سال انتشار | 2012 |
فهرست مطالب:
چکیده
مقدمه ای بر تشخیص آنومالی
تشخیص آنومالی با استفاده از مدلسازی ترکیبی
مقایسه مدلسازی ترکیبی و تشخیص آنومالی بر مبنای فاصله
نامگذاری خودکار خوشه ها/ مولفه ها
نامگذاری خوشه بر حسب ستون هایی که باجمعیت تفاوت دارند
نامگذاری خوشه برحسب ستون هایی متفاوت با کلیه خوشه ها
توضیح راجع به آنومالی بودن یک مشاهده
نتایج و کار آتی
بخشی از ترجمه:
مقدمه ای بر تشخیص آنومالی
” داده ها به ما چه می گویند؟” ، سئوالی عمومی است که داده کاوی، یادگیری ماشینی و تحلیل آماری همواره تلاش می کنند به آن پاسخ دهند. سئوالات خاص تر شامل تعیین پیش بینی های ما از داده ها و نحوه جمع بندی و تعمیم داده ها می شوند. تشخیص آنومالی سئوالاتی با هدف متفاوت مطرح می کند. با در اختیار داشتن مجموعه داده ها، می خواهیم این مسئله را تائید کنیم که چه مشاهداتی تعلق نداشته و کدام یک جالب توجه بوده و باید مورد پژوهش قرار گیرند. برخی از محققین فرض کرده اند که تشخیص آنومالی کلاس جداگانه ای از وظیفه کشف دانش در کنار تشخیص وابستگی، شناسایی کلاس و توصیف کلاس می باشد.
تشخیص آنومالی در بسیاری از زمینه ها من جمله تشخیص تصاویر غیر عادی از تصاویر عادی، شناسایی ترکیبات آلی غیر عادی، پاکسازی داده ها و شناسایی نواقص و عیوب در مواد تولید شده کاربرد داشته است. در اکثر برنامه های کاربردی، مراحل پایه یکسان می باشد:
۱) شنایایی نرمالیه (عادی بودن) از طریق محاسبه برخی از آثار داده ها.
۲) تعیین برخی متریک ها برای محاسبه درجه انحراف یک مشاهده از اثر
۳) تعیین معیار/ آستانه ای که اگر اندازه گیری متریک یک مشاهده از آن تجاوز کند، آنگاه مشاهده غیر عادی قلمداد می گردد.
حیطه های کاربردی تشخیص آنومالی از روشهای گوناگونی برای بررسی هر مرحله استفاده می کنند.
شکل، مشخصه و اثر داده ها شامل شناسایی نظم در داده ها می شود. تیپ یا نوع داده ها و حوزه تعیین کننده روش شناسایی نظم می باشد. به طور مثال برنامه های کاربردی نفوذ به شبکه از تکنیک های یادگیری برای بهره برداری از نوع و طبیعت ترتیبی و متوالی داده ها استفاده می کنند. همچنین معیارهای بکاررفته برای تعیین غیر عادی بودن یک مشاهده، به طور نمونه مخصوص برنامه کاربردی می باشد. در برخی از حوزه ها، مشاهداتی که فقط یک متغیر از شکل و مشخصه مورد نظر منحرف می شود، غیر عادی خوانده می شوند، در حالیکه در حوزه های دیگر، انحراف سیستماتیک در میان کلیه متغیرها قابل تحمل می باشد. اما متریک بکاررفته برای اندازه گیری درجه آنومالی بودن مخصوص فرمولاسیون مسئله ( تکنیک مدلسازی) می باشد. در فرمولاسیون مسئله احتمالی، ماکزیمم درستنمایی یا تخمین احتمال یک مشاهده یا در فرمولاسیون نمادین، توابع فاصله بین مشاهدات و مشاهدات باقیمانده می باشد.
بخشی از مقاله انگلیسی:
Introduction to Anomaly Detection
“What does the data tell us?”, is the general question that data mining, machine learning and statistical analysisattempts to answer. More specific questions involve determining what can we predict from the data and how can wesummarize and generalize the data. Anomaly detection asks questions with a different aim. Given a set of data wewish to ascertain what observations don’t “belong” and which are interesting and should be investigated. Someresearchers have postulated that anomaly detection is a separate class of knowledge discovery task along withdependency detection, class identification and class description [1].Anomaly detection has been used in many different contexts: detection of unusual images from still surveillanceimages [2], identifying unusual organic compounds [3], data cleaning [4] and identifying flaws in manufacturedmaterials [5]. In most applications the basic steps remain the same:1) Identify normality by calculating some “signature” of the data.2) Determine some metric to calculate an observation’s degree of deviation from the signature.3) Set some criteria/threshold which, if exceeded by an observation’s metric measurement means the observationis anomalous.Various application areas of anomaly detection have different methods of addressing each step.The signature of the data consists of identifying regularities in the data. The type of data and domain determines themethod of identifying the regularities. For example, network intrusion applications might use learning techniques toexploit the sequential nature of the data [6]. Similarly, the criteria to determine if an observation is anomalous istypically application specific. In some domains observations where only one variable deviates from the signature arecalled anomalous, whilst in others a systematic deviation across all variables is tolerable. However, the metric usedto measure the degree of anomalousness is specific to the problem formulation (modeling technique). In aprobabilistic problem formulation it may be the maximum likelihood or posterior probability of an observation or ina symbolic formulation some function of the distance between the observations and the remaining observations. In this discourse we address the questions of explaining why an observation is anomalous and to more preciselyanswer which observations are interesting. We argue that using a probabilistic modeling tool and evaluating theanomalies in a probabilistic framework offer flexibility and are naturally conducive to answering the questions thatanomaly detection asks. We further illustrate that the innovative methods of anomaly explanation and identifyinglocal anomalies that have been proposed in the distance based outlier detection [1] can be applied to mixture models.In the next section we introduce anomaly detection using mixture modeling and specify typical criteria and metricsthat can be used to determine if an observation is anomalous and the degree of anomalousness. We then describehow a distance measure can be derived from mixture models which enables application of the ideas from thedistance based outlier detection field. Visualization of abnormal and normal observations are described next, to ourknowledge 3D visualization of clustering-based anomaly detection is unique. We conclude the work by describingour methods of generating explanations of why observations are anomalous and automatically naming clusters forverification purposes. We illustrate that this can be achieved using standard approaches in probability.
عنوان فارسی مقاله: | تعریف، مصورسازی و آشکار سازی رفتار غیر عادی |
عنوان انگلیسی مقاله: | Anomaly Detection, Explanation and Visualization |