این مقاله انگلیسی ISI در نشریه الزویر در 12 صفحه در سال 2017 منتشر شده و ترجمه آن 33 صفحه بوده و آماده دانلود رایگان می باشد.
دانلود رایگان مقاله انگلیسی (pdf) و ترجمه فارسی (pdf + word) |
عنوان فارسی مقاله: |
یادگیری ماشین در داده های بزرگ: فرصت ها و چالش ها
|
عنوان انگلیسی مقاله: |
Machine learning on big data: Opportunities and challenges
|
دانلود رایگان مقاله انگلیسی |
|
دانلود رایگان ترجمه با فرمت pdf |
|
دانلود رایگان ترجمه با فرمت ورد |
|
مشخصات مقاله انگلیسی و ترجمه فارسی |
فرمت مقاله انگلیسی |
pdf |
سال انتشار |
2017 |
تعداد صفحات مقاله انگلیسی |
12 صفحه با فرمت pdf |
نوع مقاله |
ISI |
نوع نگارش |
مقاله کوتاه (Short Communication)
|
نوع ارائه مقاله |
ژورنال |
رشته های مرتبط با این مقاله |
مهندسی کامپیوتر – مهندسی فناوری اطلاعات – مهندسی صنایع |
گرایش های مرتبط با این مقاله |
هوش مصنوعی – مهندسی الگوریتم ها و محاسبات – علوم داده – اینترنت و شبکه های گسترده – شبکه های کامپیوتری – بهینه سازی سیستم ها – داده کاوی |
چاپ شده در مجله (ژورنال)/کنفرانس |
کامپیوترهای عصبی |
کلمات کلیدی |
یادگیری ماشین – داده های بزرگ – پیش پردازش داده ها – ارزیابی – موازی سازی |
کلمات کلیدی انگلیسی |
Machine learning – Big data – Data preprocessing – Evaluation – Parallelization |
ارائه شده از دانشگاه |
بخش سیستم های اطلاعاتی، بالتیمور، ایالات متحده |
نمایه (index) |
Scopus – Master Journals – JCR |
شناسه شاپا یا ISSN |
0925-2312
|
شناسه دیجیتال – doi |
https://doi.org/10.1016/j.neucom.2017.01.026 |
لینک سایت مرجع |
https://www.sciencedirect.com/science/article/abs/pii/S0925231217300577، |
رفرنس |
دارای رفرنس در داخل متن و انتهای مقاله ✓ |
نشریه |
الزویر – Elsevier |
تعداد صفحات ترجمه تایپ شده با فرمت ورد با قابلیت ویرایش |
33 صفحه با فونت 14 B Nazanin |
فرمت ترجمه مقاله |
pdf و ورد تایپ شده با قابلیت ویرایش |
وضعیت ترجمه |
انجام شده و آماده دانلود رایگان |
کیفیت ترجمه |
مبتدی (مناسب برای درک مفهوم کلی مطلب)
|
کد محصول |
F2088 |
بخشی از ترجمه |
یادگیری نمایشی اغلب با برآورد چگالی و کاهش ابعاد سروکار دارد. برآورد تراکم، تابع چگالی احتمال یک متغیر تصادفی را مییابد. کاهش ابعاد، ورودی از فضای با ابعاد بالا را به یک فضای با ابعاد کمتر نگاشت میکند. بنابراین ایجاد یک هدف روشن بسیار دشوار است. در مقابل، یادگیری وظیفه معمولا خروجی مورد نظر را دارا بوده و بر اساس طبقهبندی، رگرسیون، و خوشهبندی عمل میکند. در طبقهبنید، تکنیکهای ML یک مدل را تولید میکنند که ورودی نهان را به یک یا چند کلاس تعریف از پیش تعریف شده اختصاص میدهد. رگرسیون متفاوت از طبقهبندی است زیرا خروجی آن به جای مقادیر مجزا، پیوسته است. خوشهبندی گروههایی از دادهها را تولید میکند و این گروهها ناشناخته هستند، که خود را طبقهبندی متمایز میکنند. بهطور سنتی، طبقهبندی و رگرسیون با عنوان یادگیری نظارت شده و خوشهبندی بهعنوان یادگیری بدون نظارت نامیده میشوند. الگوریتم نمایش آنها در شکل 2 نشان داده شده است.
• براساس زمانبندی ساخت دادههای آموزشی موجود (بهعنوان مثال، آیا دادههای آموزشی یک بار و یا در یک زمان در دسترس همه هستند)، ML میتواند به یادگیری دستهای و یادگیری آنلاین تقسیم شود. آموزش دستهای مدلهایی با یادگیری در دادهی آموزشی تولید میکند، درحالیکه یادگیری آنلاین مدلها را براساس هر ورودی جدید به روزرسانی میکند. الگوریتم یادگیری دستهای فرض میکند که داده مستقل است و یکسان توزیع شده یا از توزیع احتمال یکسان تبعیت میکند، که معمولا با دادههای واقعی راضی نیست. آموزش آنلاین بهطور معمول باعث میشود هیچ فرض آماری در مورد داده وجود نداشته باشد [7]. اگر چه انتظار میرود الگوریتم یادگیری دستهای، یادگیری آنلاین را تعمیم دهد زیرا انتظار می رود الگوریتم برچسبهایی از نمونهها را که به عنوان ورودی دریافت میکند به دقت پیشبینی کند [7]. یادگیری آنلاین زمانی استفاده شده است که آموزش مجموعه دادهها غیرعملی باشد و / یا زمانی که دادهها در طول زمان ایجاد شده باشند و سیستم یادگیری نیاز به انطباق با الگوهای جدید در دادهها داشته باشد.
هر الگوریتم ML میتواند در ابعاد مختلف دستهبندی شود. برای مثال، درختهای تصمیمگیری معمولی متعلق به الگوریتمهای یادگیری تحت نظارت دستهای هستند.
2.2 دادههای بزرگ
دادههای بزرگ در پنج بعد مشخص میشوند: حجم (کیفیت / مقدار داده)، سرعت (سرعت تولید دادهها)، انواع (نوع، طبیعت و فرمت داده)، صحت (اعتماد / کیفیت دادههای گرفته شده) و مقدار (بینش و تاثیر). در این مقاله پنج بعد دیگر سازماندهی شده است که متشکل از لایههای بزرگ، دادهها و مقادیر با شروع از پایین است (شکل 3). لایه بزرگ اساسیترین و لایه دادهها در مرکزیت دادههای بزرگ و لایه مقدار جنبهی تاثیر برنامههای کاربردی دادههای بزرگ در جهان واقعی را مشخص میکند. لایههای پایینتر (بهعنوان مثال، حجم و سرعت) بستگی به شدت بیشتر در پیشرفتهای فنآوری و لایه بالاتر (بهعنوان مثال، مقادیر) بیشتر به سمت برنامههای کاربردی با قدرت مهار استراتژیک داده بزرگ گرایش دارند. به منظور تحقق بخشیدن به ارزش تجزیه و تحلیل دادههای بزرگ و پردازش کارآمد دادههای بزرگ، پارادایم ML موجود و الگوریتمها نیاز به اقتباس دارند.
2.3 دیگر مولفهها
2.3.1 کاربران
انواع مختلفی از ذینفعان سیستم ML مانند کارشناسان دامنه، کاربران نهایی و محققان و فعالان ML وجود دارد. بهطور سنتی، فعالان ML کسانی هستند که برای استفاده از MLتصمیمات زیادی میگیرند، از جمعآوری دادهها برای ارزیابی عملکرد شروع میکنند. دخالت کاربر نهایی در طول این فرایند به ارائه برچسب دادهها، پاسخ به سوالات مربوط به دامنه و یا دادن بازخورد در مورد نتایج به دست آمده محدود شده است، که معمولا توسط فعالان، منجر به تکرار طولانی و ناهمزمان میگردد [8]. با این حال، کاربران نهایی تمایل به ارائه بیش از برچسب دادهها دارند. آنها ارزش شفافیت در طراحی یک سیستم یادگیری را بیشتر درک میکنند، زیرا به نوبه خود کمک میکند تا سیستم آنها را درک و برچسب / بازخورد بهتری ارائه کند. درگیری کاربران در ML میتواند بهطور بالقوه منجر به سیستم یادگیری و تجربه کاربری موثر و بهتر گردد [8]. بهعنوان مثال، ML فعالانه [8] اجازه میدهد تا کاربران به صورت تعاملی تاثیر خود بر اقدامات و انطباق ورودیهای بعدی برای هدایت رفتارهای ML برای به دست آوردن خروجی مورد نظر را بررسی کنند.
2.3.2 دامنه
دانش دامنه موجب تسهیل ML در کشف الگوها گردد زیرا ممکن است قابل کشف از مجموعه دادهها نباشد. مجموعه آموزشی ممکن است به اندازه کافی بزرگ و / یا نمایشی درست برای به کارگیری تمامی الگوها نباشد. همچنین بهدست آوردن اطلاعات کافی و پرهزینه و حتی غیرعملی است، احتمالا به علت تنوع دامنه و الزامات برنامه خاص باشد. دانش دامنه میتواند به بهبود کلی و استحکام الگوهای ناشی از مجموعه داده کمک کند [9]. راههای مختلفی برای ترکیب دانش قبلی دامنه در ML ]10[ وجود دارد: (1) آمادهسازی نمونههای آموزشی؛ (2) تولید فرضیه یا فضای فرضیه؛ (3) اصلاح هدف مورد جستجو و (4) افزایش جستجو. این الگوهای بهدست آمده در به نوبه خود برای به روز رسانی و اصلاح دانش دامنه مورد استفاده قرار گیرند.
2.3.3 سیستم
معماری سیستم و یا پلتفرم، که متشکل از نرمافزار و سختافزار است، محیطی را ایجاد میکند که در آن الگوریتم ML میتواند اجرا شود. بهعنوان مثال، در مقایسه با همتایان سادهتر، از ماشین چند هستهای با معماری توزیع شده انتظار میرود بهرهوری ML را بهبود دهد. چارچوب و معماری سیستم جدید مانند هادوپ / اسپارک برای رسیدگی به چالشهای دادههای بزرگ پیشنهاد شده است. با این وجود، مهاجرت الگوریتم ML موجود برای توزیع معماری نیاز به تغییر دارد که چگونه الگوریتم ML پیادهسازی واجرا میشود. علاوه براین، نیازهای منحصربه فرد و مقادیر ML ممکن است معماری سیستم جدید را طراحی و توسعه دهند.
براساس چارچوب MLBiD، از فرصتهای مهم و چالشهای کلیدی را شناسایی کردیم. و آنها را برای هر سه مرحله در ML- پیشپردازش، یادگیری و ارزیابی، به طور جداگانه مورد بحث قرار دادیم.
3. فرصتها و چالشهای پیشپردازش دادهها
بخش عمدهای از تلاش واقعی در استقرار سیستم ML صرف طراحی پیشپردازش خطوط لوله و تحولات داده میشود که منجر به نمایش موثر اطلاعات با پشتیبانی ML میگردد [6]. پیشپردازش دادهها با هدف رسیدگی به تعدادی از مسائل مانند افزونگی داده، تناقض، نویز، عدم تجانس، تحول، برچسب گذای (برای ML (نیمه) نظارت شده)، عدم تعادل دادهها و نمایش/ انتخاب ویژگی است. آمادهسازی دادهها و پردازش، با توجه به نیاز به کار انسانی و تعداد زیادی از گزینههای انتخاب معمولا پرهزینه است. علاوه براین، برخی از فرضیات معمولی داده برای دادههای بزرگ کاربرد ندارد، در نتیجه برخی از روشهای پیشپردازش غیرممکن میگردد. ازسوی دیگر، دادههای بزرگ موجب کاهش فرصت تکیه به نظارت انسان با آموختن از منابع داده عظیم و متنوع میگردد.
3.1 افزونگی دادهها
تکرار زمانی رخ میدهد که دو یا چند نمونه داده موجودیت یکسانی را نشان دهند. تاثیر تکرار دادهها و یا تناقض در ML میتواند شدید باشد. با وجود طیف وسیعی از روشها برای شناسایی موارد تکراری توسعه یافته در 20 سال گذشته [11]، روشهای سنتی مانند مقایسه دو به دو شباهتها، دیگر برای دادههای بزرگ امکانپذیر نیست. علاوه براین، فرض سنتی،جفتهایی را که در مقایسه با جفت غیرکپی دیگر در اقلیت هستند تکرار میکند. برای این منظور، زمان پویا میتواند بسیار سریعتر از الگوریتمهای فاصله اقلیدسی عمل کند [12].
3.2 نویز دادهها
مقادیر از دست رفته و نادرست، کم بودن دادهها و نقاط دورافتاده میتوانند بهعنوان نویز ML معرفی شوند. راهحلهای سنتی برای مشکل نویز داده، در برخورد با دادههای بزرگ با چالشهایی روبهرو است. بهعنوان مثال، روشهای دستی به علت عدم مقیاسپذیری آن دیگر امکانپذیر نیستند؛ جایگزینی به معنای از دست دادن مزایای استفاده از غنی و دانه دانه شدگی دادههای بزرگ است. در برخی موارد، الگوهای جالبی ممکن است در این نویز دادهها اشتباه باشد، بنابراین حذف ساده ممکن است یک جایگزین عاقلانه نباشد. پیشبینی دقیق تجزیهوتحلیل ترافیک دادههای بزرگ میتواند برای برآورد مقادیر از دست رفته، مانند جایگزین خواندن نادرست با توجه به سنسور خراب یا کانالهای ارتباطی شکسته استفاده کند. برای رسیدن به بایاسی قابل توجهه ممکن است به پیشبینی با روشهای نفوذ جمعی روی بیاوریم که، حداکثر محدودیت است در مرحله استنتاج را تحمیل کرده باشند و مجبور به پیشبینی با توزیع یکسان بهعنوان برچسب مشاهده باشیم [13]. علیرغم تمام مسائل مطرح شده، ممکن است حداقل پراکندگی دادهها حفظ شود و حجم گستردهای از دادههای بزرگ منجر به ایجاد فرصتهای منحصر به فرد تجزیه و تحلیل و پیشبینی ترافیک به دلیل فرکانس کافی برای نمونه های مختلف گردد. تلاش برای افزایش تشخیص دادههای پرت (به عنوان مثال، ONION[14]) برای اینکه تحلیلگران موفق به کشف ناهنجاریها در مجموعه دادههای بزرگ گردند وجود دارد [14].
|