این مقاله انگلیسی ISI در نشریه الزویر در ۲۴ صفحه در سال ۲۰۱۵ منتشر شده و ترجمه آن ۵۰ صفحه بوده و آماده دانلود رایگان می باشد.
دانلود رایگان مقاله انگلیسی (pdf) و ترجمه فارسی (pdf + word) | |
عنوان فارسی مقاله: |
یک روش شناسایی بخش مجزای سریع بر پایه KNN و الگو گرفته از MST |
عنوان انگلیسی مقاله: |
A fast MST-inspired kNN-based outlier detection method |
دانلود رایگان مقاله انگلیسی | |
دانلود رایگان ترجمه با فرمت pdf | |
دانلود رایگان ترجمه با فرمت ورد |
مشخصات مقاله انگلیسی و ترجمه فارسی | |
فرمت مقاله انگلیسی | |
سال انتشار | ۲۰۱۵ |
تعداد صفحات مقاله انگلیسی | ۲۴ صفحه با فرمت pdf |
نوع مقاله | ISI |
نوع نگارش | مقاله پژوهشی (Research article) |
نوع ارائه مقاله | ژورنال |
رشته های مرتبط با این مقاله | مهندسی کامپیوتر |
گرایش های مرتبط با این مقاله | مهندسی الگوریتم ها و محاسبات – علوم داده |
چاپ شده در مجله (ژورنال)/کنفرانس | سیستم های اطلاعاتی |
کلمات کلیدی | تشخیص نقاط پرت بر اساس فاصله – تشخیص بیرونی بر اساس چگالی – تشخیص نقاط پرت مبتنی بر خوشه – حداقل خوشه بندی مبتنی بر درخت – جستجوی تقریبی k-نزدیکترین همسایگان |
کلمات کلیدی انگلیسی |
Distance-based outlier detection – Density-based outlier detection – Clustering-based outlier detection – Minimum spanning tree-based clustering – Approximate k-nearest neighbors’ search
|
ارائه شده از دانشگاه | دانشگاه واندربیلت، ایالات متحده |
نمایه (index) | Scopus – Master Journal List – JCR |
شناسه شاپا یا ISSN | ۱۸۷۳-۶۰۷۶ |
شناسه دیجیتال – doi | https://doi.org/10.1016/j.is.2014.09.002 |
لینک سایت مرجع | https://www.sciencedirect.com/science/article/abs/pii/S0306437914001331 |
رفرنس | دارای رفرنس در داخل متن و انتهای مقاله ✓ |
نشریه |
الزویر – Elsevier
|
تعداد صفحات ترجمه تایپ شده با فرمت ورد با قابلیت ویرایش | ۵۰ صفحه با فونت ۱۴ B Nazanin |
فرمت ترجمه مقاله | pdf و ورد تایپ شده با قابلیت ویرایش |
وضعیت ترجمه | انجام شده و آماده دانلود رایگان |
کیفیت ترجمه |
مبتدی (مناسب برای درک مفهوم کلی مطلب) |
کد محصول | F2425 |
بخشی از ترجمه |
در سال ۲۰۰۰ برای اداره کردن این وضعیت، Breunig et al بوسیله ی نشان دادن یک نشانگر برای هر واحد داده (فاکتور بخش مجزا (LOF) نامیده می شد) که نسبت بین تراکم محلی یک شیء و میانگین اشیاء نزدیک ترین k همسایه ام آنها می باشد، در تحقیق شناسایی بخش مجزای تراکم بنیان پیش گام شدند. روش LOF به این طریق کار می کند که در ابتدا LOF را برای هر شیء محاسبه می کند، سپس رتبه بندی نقاط داده بر اساس مقادیر LOF آنها مشخص می شود و در نهایت اشیاء با n مقدار بالای LOF به عنوان بخش مجزا بازگردانده می شوند به دنبال ایده ی فاکتور بخش مجزای محلی، چندین بسط و اصلاحیه برای مدل پایه ی LOF ارائه شده است. در سال ۲۰۰۲، Tang et al یک فاکتور بخش مجزای اتصال بنیان (COF) را به منظور اداره کردن خصوصیت “جدا بودن” بخش های مجزا پیشنهاد کردند. “جدا بودن” به تراکم کم دلالت دارد اما تراکم کم همیشه به “جدا بودن” دلالت نمی کند. با توجه به نقطه ی داده ی o ، و نزدیک ترین k همسایه، اولین هزینه در تعریف هزینه فاصله از o تا نزدیک ترین همسایه ی آن است. به طور کلی، هزینه ی i ام (i≤k) برابر با کوچکترین فاصله از o و نزدیک ترین (i-1) شیء آن تا بهقی k-i شیء در همسایگی است. در نهایت، COF نسبت تعریف هزینه ی نقاط داده به میانگین هزینه ی نقاط داده ی نزدیک ترین k همسایه، می باشد. در سال ۲۰۰۳، Papadimitriou et al طرح شناسایی بخش مجزای محلی دیگری با نام انتگرال بخش مجزای محلی (LOCI) را بر مبنای مفهوم فاکتور انحراف چند دانه بودن (MDEF) پیشنهاد کرد. تفاوت اصلی میان LOF و LOCI این است که MDEF در LOCI از همسایگی های ε به جای نزدیک ترین k همسایه، استفاده می کنند. در سال ۲۰۰۴، Sun and Chawla یک معیار بخش مجزای محلی فضایی با نام SLOM مطرح کرد. در سال ۲۰۰۶، Jin et al روش INFLO که اجتماع داده ی نقاط نزدیکترین k همسایه و معکوس نزدیک ترین همسایه های آن را به منظور بدست آوردن میزان جدایی لحاظ میکرد را ارائه کرد. نزدیک ترین همسایگی معکوس برای نقطه ی داده ی p تعریف می شود تا شامل همسایگیِ نزدیکترین k همسایه ای شود که p برای آنها در میان نزدیکترین k همسایه است. به همین روش، INFLO تراکم p را با میانگین تراکم های اشیاء در اجتماع داده را به عنوان میزان جدایی مقایسه می کند. Zhang et al. با توجه به اینکه داده ی دنیای واقعی معمولا دارای توزیعی پراکنده است، یک تعریف بخش مجزای جدید با نام فاکتور بخش مجزای فاصله بنیان محلی (LDOF) در جهت شناسایی بخش های مجزا در مجموعه داده های پراکنده مطرح کرد. LDOF نسبت بینِ میانگین فواصل از یک نقطه ی داده تا نزدیک ترین k همسایه ی آن و میانگین فواصل دو به دو در میان این k+1 نقطه ی داده است، و به همین طریق، در جه ای که یک شیء از سیستم همسایگی اش منحرف شده را بدست می آورد. در سال ۲۰۱۳، Huang et al، رویکردی جدید برای شناسایی بخش مجزا با نام RBDA و بر مبنای یک معیار رتبه بندی که روی این سوال که آیا یک نقطه نسبت به نزدیک ترین همسایه های خود نزدیک نرین است یا نه متمرکز شده، مطرح کرد. RBDA با حذف مشکل محاسبه ی تراکم در همسایگی یک نقطه، بخش های مجزا را بر پایه ی محاسبه ی مرتبه ی نقطه ی در میان همه ی نزدیک ترین k همسایه ی آن مشخص می کند. اما متاسفانه چنین کاری دارای هزینه ی محاسباتی بالایی است. ۲٫۲٫ الگوریتم هایی بر مبنای خوشه بندی MST یک درخت پوشای کمینه دارای حداقل وزن کل است در حالیکه یک گراف وزن دار متصل روی مجموعه ای از نقاط داده اما بدون مسیر بسته شده است. اگر یک وزن که دلالت بر فاصله ی بین دو نقطه ی پایانی دارد، به هر لبه تخصیصی داده شود، هر لبه در یک MST کوتاه ترین فاصله بین دو زیر شاخه ای خواهد بود که بوسیله ی آن لبه متصل می شوند. این نکته به عنوان دارایی برشِ MST استناد می شود. بنابراین، حذف بلندترین لبه ها متناسب با انتخاب انفصال ها در جهت شکل دهی خوشه ها است. درخت پوشای کمینه (MST) خوشه بندی بنیان، برای اولین بار به وسیله ی Zahn در سال ۱۹۷۱ ارائه شد و تا کنون به طور گسترده ای مورد مطالعه قرار گرفته است. با توجه به این موضوع، نقاط داده در کوچکترین خوشه هایی که بوسیله ی بریدن بلندترین لبه ها در یک MST شکل گرفته اند به احتمال زیاد می توانند بخش مجزا باشند. چندین روش شناسایی بخش مجزای MST بنیان پیشنهاد شده است. اما برای مجموعه های داده ی بزرگ و با ابعاد بالای مدرن که در آنها تنها یک مجموعه از N نقطه ی داده ارائه می شود، این الگوریتم های شناسایی بخش مجزای MST بنیان از زمان اجرای درجه دوی ملزوم برای ساخت یک MST رنج می برند. ۲٫۳٫ بخش مجزا کاوی با ابعاد بالا بر مبنای طرح ۳٫ یک الگوریتم شناسایی بخش مجزا ی الگو گرفته از MST |