این مقاله انگلیسی در نشریه الزویر در ۱۰ صفحه در سال ۲۰۱۷ منتشر شده و ترجمه آن ۱۷ صفحه بوده و آماده دانلود رایگان می باشد.
دانلود رایگان مقاله انگلیسی (pdf) و ترجمه فارسی (pdf + word) |
عنوان فارسی مقاله: |
مقایسه فن های طبقه بندی مورد استفاده برای تشخیص و طبقه بندی نفوذ شبکه
|
عنوان انگلیسی مقاله: |
Comparison of classification techniques applied for network intrusion detection and classification
|
دانلود رایگان مقاله انگلیسی |
|
دانلود رایگان ترجمه با فرمت pdf |
|
دانلود رایگان ترجمه با فرمت ورد |
|
مشخصات مقاله انگلیسی و ترجمه فارسی |
فرمت مقاله انگلیسی |
pdf |
سال انتشار |
۲۰۱۷ |
تعداد صفحات مقاله انگلیسی |
۱۰ صفحه با فرمت pdf |
نوع نگارش |
مقاله پژوهشی (Research article) |
نوع ارائه مقاله |
ژورنال |
رشته های مرتبط با این مقاله |
مهندسی کامپیوتر |
گرایش های مرتبط با این مقاله |
امنیت اطلاعات – مهندسی الگوریتم ها و محاسبات – علوم داده |
چاپ شده در مجله (ژورنال)/کنفرانس |
مجله منطق کاربردی |
کلمات کلیدی |
تشخیص نفوذ – سیستم های ایمنی مصنوعی – طبقه بندی نفوذ – فراگیری ماشین |
کلمات کلیدی انگلیسی |
Intrusion Detection – Artificial Immune Systems – Intrusion Classification – Machine Learning |
ارائه شده از دانشگاه |
دانشکده کامپیوتر و اطلاعات، دانشگاه قاهره، مصر |
شناسه دیجیتال – doi |
https://doi.org/10.1016/j.jal.2016.11.018 |
لینک سایت مرجع |
https://www.sciencedirect.com/science/article/pii/S1570868316300738 |
رفرنس |
دارای رفرنس در داخل متن و انتهای مقاله ✓ |
نشریه |
الزویر – Elsevier |
تعداد صفحات ترجمه تایپ شده با فرمت ورد با قابلیت ویرایش |
۱۷ صفحه با فونت ۱۴ B Nazanin |
فرمت ترجمه مقاله |
pdf و ورد تایپ شده با قابلیت ویرایش |
وضعیت ترجمه |
انجام شده و آماده دانلود رایگان |
کیفیت ترجمه |
مبتدی (مناسب برای درک مفهوم کلی مطلب)
|
کد محصول |
F2500 |
بخشی از ترجمه |
۲٫ فنهای طبقهبندی دادهها
طبقهبندی فرآیند اختصاص یک برچسب طبقه به شیء (اشیاء) طبقهبندی نشده بر اساس مجموعهای از ویژگیهای تعریفشده است. یک طبقهبندی کننده ابتدا باید آن دانش را با یادگیری ارائه دستهها با استفاده از یک مجموعه دادهشده از نمونههای طبقهبندیشده پیشین دریافت کند. یک طبقهبندی کننده میتواند بهعنوان یک پیشبینی کننده برای اشیاء طبقهبندی نشده یا یک توصیفگر برای اشیاء طبقهبندیشده عمل کند. رویکردهای بسیاری مانند درختان تصمیمگیری، رویکردهای مبتنی بر قانون، طبقهبندیهای بیزی، شبکههای عصبی، طبقهبندی کنندههای ژنتیک، ماشینهای بردار پشتیبانی و بسیاری دیگر وجود دارد. یک طبقهبندی کننده با دقت پیشبینی آن، سرعت، استحکام، مقیاسپذیری، تفسیرپذیری، سادگی و شاخصهای کیفیت وابسته به دامنه ارزیابی میشود.
۲٫۱٫ طبقهبندی کننده Bayes Naïve
این مطلب تئوری Bayes را با فرضیههای استقلال قوی بهعنوان یک طبقهبندی کننده ساده احتمالی اعمال میکند. فرض بر این است که وجود یا فقدان یک ویژگی مستقل از وجود یا فقدان ویژگیهای دیگر است – ویژگیها نامرتبط هستند که اجرای آنها ساده، بهینه و درست است. اگر برخی اطلاعات و دادههای آموزشی داشته باشیم، میتوان از طبقهبندی کننده NB استفاده کرد و ما باید احتمالات را از دادههای محدود برآورد کنیم. مزیت اصلی آن این است که زمان زیادی برای آموزش نیاز ندارد.
۲٫۲٫ درختان تصمیمگیری
درختان تصمیمگیری نمایش ساختاری یک مجموعه داده را تشکیل میدهند. یک گره یک تصمیم را از تعدادی از گزینهها میسازد و هر گره نهایی یک طبقهبندی خاص را نشان میدهد. DT ها (درختان تصمیمگیری) ابزارهایی بسیار قدرتمند هستند زیرا آنها سریع هستند و عملکرد معقولی دارند. DT های مورداستفاده در این تحقیق BFTree، NBTree، J48 و RFT هستند. (Best-First Tree) BFTree گرههای خود را در بهترین حالت اول، برخلاف DT های استاندارد گسترش میدهد که در حالت عمق اول گسترش مییابد. بهترین گرهی که همیشه برای اولین بار گسترشیافته است، گرهی است که منجر به حداکثر کاهش ناخالصی میشود. (Naive Bayes Tree) NBTree از یک تابع نقشهبرداری برای فهرست دادههای با ابعاد بزرگ استفاده میکند و باید یک تابع محاسباتی سبک و کم باشد؛ بنابراین، این مقادیر میتواند مرتبشده و بعداً در ساختار یکبعدی نهایی استفاده شود. J48 (نشاندهنده وکا C4.5 DT) گرههای خود را در حالت عمق اول گسترش میدهد. این یک الگوریتم یادگیری تحت نظارت است که نقشهبرداری را از مقادیر ویژگی به طبقات میآموزد و سپس این نقشهبرداری به نمونههای ناشناخته جدید اعمال میشود. (Forests Forest Random) RFT شامل ایجاد مجموعهای از درختان طبقهبندی است که بر اساس مجموعههای تصادفی دادهها محاسبه میشوند. این کار با استفاده از پیشبینی کنندههای انتخابشده بهصورت تصادفی برای هر تقسیم در هر درخت انجام میشود.
۲٫۳٫ فرایندهای چندلایه
اگر نمونههای ارائهشده را نتوان بهصورت خطی جدا کرد، فرایندهای چندلایه (MLP) مورداستفاده قرار میگیرند. MLP ها شبکههای عصبی ارسالی هستند که شامل تعداد زیادی از عصبهای متصل شده هستند که به واحدهای ورودی، واحدهای خروجی و واحدهای مخفی در بین آنها تقسیم میشوند. وزنهای اختصاص دادهشده برای ارتباطات با استفاده از الگوریتم بازگشت عقب (BP) برآورد میشود. مقادیر وزن، عملکرد شبکه عصبی را تعریف میکنند.
۳٫ سیستم تشخیص و طبقهبندی دولایه
سیستم چندلایهای که قبلاً پیشنهادشده بود از دولایه تشکیلشده است که پیش از یک مرحله پیشپردازش میآیند. لایه اول – لایه تشخیص – روش انتخاب منفی را با استفاده از الگوریتم ژنتیک برای تشخیص نفوذ انحراف استفاده میکند، جایی که ردیابها برای شناسایی فعالیتهای طبیعی آموزش میبینند تا هرگونه تفاوت (بیش از یک آستانه مشخص) را بهعنوان یک ناهنجاری تشخیص دهند. لایه دوم – لایه طبقهبندی – از یک طبقهبندی کننده برای برچسبگذاری ترافیک با طبقه مناسب برای دستههای حمله و به حداقل رساندن هشدارهای نادرست استفاده میکند. هم ترافیک عادی و هم غیرعادی به طبقهبندی کننده داده میشود. روند در شکل ۱ نشان دادهشده است.
۳٫۱٫ مرحله پیش پردازش داده
پیشپردازش دادهها شامل جایگزینی دادههای نمادین مانند پروتکل و خدمات با مقادیر مجزا/ کامل و تقسیمبندی مقادیر به همگن و در حوزهای محدود است. الگوریتم Binning Width برابر استفاده شد و مقادیر اصلی با اعداد باین مربوط به دامنه آنها جایگزین شدند. اطلاعات بیشتر در مقاله قبلی موجود است.
۳٫۲٫ مرحله انتخاب ویژگی
همانطور که در مقاله قبلی ما [۴] بیانشده است، روش انتخابی فرکانس متوالی (SFFS) استفاده و ۲۶ ویژگی انتخاب شد که مربوط به برای یافتن الگوریتم انتخاب ویژگی با بهترین نتایج بود. ویژگیهای انتخابشده توسط SFFS بهترین نتایج دقیق را به دست آورد.
۳٫۳٫ لایه I: تولید ردیابها و تشخیص ناهنجاری
این لایه GADG (الگوریتم ژنتیک برای تولید ردیابها) است – همچنین در [۴] – برای تولید ردیابها برای فرآیند تشخیص نفوذ انحرافی استفادهشده است. در این فرآیند، آشکارسازهای ناهنجاری با استفاده از GA و کاربرد مفهوم NSA تولید میشوند – تولید آشکارسازهایی که با نمایش اتصالات عادی آشنا هستند، قادر به تشخیص بین عادی و غیرطبیعی هستند. ردیابهای یا قوانین تولیدشده اساساً مقادیر ویژگیهای انتخابشده هستند که بهطور صحیح اتصالات طبیعی را نشان میدهند؛ بنابراین، ابتدا جمعیت مورداستفاده برای تولید این آشکارسازها با انتخاب تصادفی از اتصالات معمول در مجموعه داده پرشده است. دو اندازهگیری مسافت بهطور جداگانه اعمالشده است –هندسه اقلیدسی و مین کاوسکی- و گروه آشکارساز تولیدشده توسط هر اندازهگیری مسافت آزمایش و مقایسه میشود.
در پایان فرآیند تولید آشکارسازها، آشکارسازهای بالغ به سیستم برای شروع فرآیند جداسازی خود از غیر خود آزاد میشوند. آشکارسازها از مقادیر برای ویژگیهای انتخابشده برای نمایش عناصر خودی تشکیلشده است. آشکارسازهای تولیدشده از مرحله قبل از طریق دادههای آزمایش برای شروع فرآیند تشخیص ناهنجاری اجرا میشوند. نتایج بهدستآمده از [۴] در لایه بعدی – لایه طبقهبندی – برای طبقهبندی ناهنجاریهای تشخیص دادهشده وارد میشود، همانطور که در زیر با جزئیات توضیح دادهشده است.
۳٫۴٫ لایه دوم: استفاده از دستهبندی کنندهها برای دستهبندی حملات
پس از مرحله تشخیص ناهنجاری، اتصالات بهعنوان عادی یا غیرطبیعی برچسبگذاری شدهاند، اما نوع حمله مشخص نشده است. طبقهبندی کننده باید برای برچسبگذاری حملات با دسته خاص خود استفاده شود. بسیاری از طبقهبندی کنندهها مورد آزمایش و مقایسه قرار گرفتند. این طبقهبندی کنندهها عبارتاند از Bayes Naive، Decisions Trees – NBTree، BFTree، J48، RFT و شبکههای عصبی چندلایه Perceptron. در لایه طبقهبندی، هم ترافیک عادی و هم غیرعادی بهصورت جداگانه طبقهبندی میشوند. برای ترافیک غیرعادی، ناهنجاریها باید بهعنوان یکی از دستههای حمله موجود در مجموعه داده، یا بهعنوان عادی اگر آن مثبت کاذب باشد، برچسبگذاری شوند. برای ترافیک عادی، از طریق طبقهبندی انجام میشود، بهطوریکه اگر یک ناهنجاری بهعنوان یک منفی نادرست شناسایی شود، بهعنوان یک حمله بهدرستی با برچسب دسته درست برچسبگذاری میشود. مدل پیشنهادی بهعنوان یک سیستم چند عامل در [۸] اجرا شد.
۴٫ آزمایشها
این آزمایش با استفاده از مجموعه دادههای ارزیابی IDS [21] NSL-KDD انجام شد. در تحقیقات پیشین، مجموعه داده KDD Cup 99 [15] بیشترین دادههای معیار کاربردی برای ارزیابی عملکرد دستگاههای تشخیص نفوذ مبتنی بر شبکه بود. مشخص شد که مشکلاتی وجود دارد که الگوریتم یادگیری را منحرف میکند و نتایج به دلیل کپی کردن سوابق خود در هر دو مجموعه دادههای آموزشی و آزمایشی نادرست است. مجموعه داده KDD Cup نیز برای ارزیابی بسیار وسیع است، بنابراین معمولاً بخشهای کوچکی از دادهها برای ارزیابی مورداستفاده قرار میگیرند که منجر به نتایج نادرست نیز میشود؛ بنابراین، گروه محققین پروندههای اضافی را حذف کرده و مجموعه دادهها را بهصورت متناسب برای به کسب تعادل انتخاب کردند و این امر به مجموعه داده NSL-KDD منجر شد. این تحقیق توسط بسیاری از محققین مورداستفاده قرارگرفته است، زیرا تعداد رکوردها برای دادههای آموزشی و آزمون بسیار کمتر است، بنابراین کل مجموعهها میتوانند در آزمایشها مورداستفاده قرار گیرند. چهار نوع عمومی حملات در مجموعه داده وجود دارد: رد خدمات (DoS)، کاوشگر، کاربر به ریشه (U2R) و دور به نزدیک (R2L). جدول ۱ توزیع سوابق عادی و حملات در مجموعه داده NSL-KDD را نشان میدهد.
بعضی از مراحل برای آمادهسازی فرآیند نیاز به تعدیل تنظیمات خود در عامل اصلی برای کسب بهترین نتایج در عوامل آشکارساز دارد. این مقادیر بهترین نتایج را با ویژگیهای انتخابشده توسط SFFS در آزمایش قبلی نشان دادهشده در [۵] ارائه داد. در آزمایش، ۲۶ ویژگی توسط SFFS انتخاب شد. برای طبقهبندی کنندهها، دادههای Train_20% برای آموزش استفاده شد، زیرا طبقهبندی کنندهها نشان داد که نتایج بسیار خوبی بدون نیاز به استفاده از تمام سوابق اطلاعات آموزشی به دست میدهد، همانطور که در [۶،۷] ثابتشده است. طبقهبندی کنندههای اعمالشده در این آزمایشها از طریق ابزارهای Weka استفاده شد [۲۴].
|