دانلود رایگان ترجمه مقاله چالش های یادگیری ماشین (ساینس دایرکت – الزویر 2017)

 

 

این مقاله انگلیسی ISI در نشریه الزویر در 12 صفحه در سال 2017 منتشر شده و ترجمه آن 33 صفحه بوده و آماده دانلود رایگان می باشد.

 

دانلود رایگان مقاله انگلیسی (pdf) و ترجمه فارسی (pdf + word)
عنوان فارسی مقاله:

یادگیری ماشین در داده های بزرگ: فرصت ها و چالش ها

عنوان انگلیسی مقاله:

Machine learning on big data: Opportunities and challenges

دانلود رایگان مقاله انگلیسی
دانلود رایگان ترجمه با فرمت pdf
دانلود رایگان ترجمه با فرمت ورد

 

مشخصات مقاله انگلیسی و ترجمه فارسی
فرمت مقاله انگلیسی pdf
سال انتشار 2017
تعداد صفحات مقاله انگلیسی 12 صفحه با فرمت pdf
نوع مقاله ISI
نوع نگارش
مقاله کوتاه (Short Communication)
نوع ارائه مقاله ژورنال
رشته های مرتبط با این مقاله مهندسی کامپیوتر – مهندسی فناوری اطلاعات – مهندسی صنایع
گرایش های مرتبط با این مقاله هوش مصنوعی – مهندسی الگوریتم ها و محاسبات – علوم داده – اینترنت و شبکه های گسترده – شبکه های کامپیوتری – بهینه سازی سیستم ها – داده کاوی
چاپ شده در مجله (ژورنال)/کنفرانس کامپیوترهای عصبی
کلمات کلیدی یادگیری ماشین – داده‌ های بزرگ – پیش‌ پردازش داده‌ ها – ارزیابی – موازی‌ سازی
کلمات کلیدی انگلیسی Machine learning – Big data – Data preprocessing – Evaluation – Parallelization
ارائه شده از دانشگاه بخش سیستم های اطلاعاتی، بالتیمور، ایالات متحده
نمایه (index) Scopus – Master Journals – JCR
شناسه شاپا یا ISSN
0925-2312
شناسه دیجیتال – doi https://doi.org/10.1016/j.neucom.2017.01.026
لینک سایت مرجع https://www.sciencedirect.com/science/article/abs/pii/S0925231217300577،
رفرنس دارای رفرنس در داخل متن و انتهای مقاله
نشریه الزویر – Elsevier
تعداد صفحات ترجمه تایپ شده با فرمت ورد با قابلیت ویرایش  33 صفحه با فونت 14 B Nazanin
فرمت ترجمه مقاله pdf و ورد تایپ شده با قابلیت ویرایش
وضعیت ترجمه انجام شده و آماده دانلود رایگان
کیفیت ترجمه

مبتدی (مناسب برای درک مفهوم کلی مطلب) 

کد محصول F2088

 

بخشی از ترجمه

یادگیری نمایشی اغلب با برآورد چگالی و کاهش ابعاد سروکار دارد. برآورد تراکم، تابع چگالی احتمال یک متغیر تصادفی را می‌یابد. کاهش ابعاد، ورودی از فضای با ابعاد بالا را به یک فضای با ابعاد کمتر نگاشت می‌کند. بنابراین ایجاد یک هدف روشن بسیار دشوار است. در مقابل، یادگیری وظیفه معمولا خروجی مورد نظر را دارا بوده و بر اساس طبقه‌بندی، رگرسیون، و خوشه‌بندی عمل می‌کند. در طبقه‌بنید، تکنیک‌های ML یک مدل را تولید می‌کنند که ورودی نهان را به یک یا چند کلاس تعریف از پیش تعریف شده اختصاص می‌دهد. رگرسیون متفاوت از طبقه‌بندی است زیرا خروجی آن به جای مقادیر مجزا، پیوسته است. خوشه‌بندی گروه‌هایی از داده‌ها را تولید می‌کند و این گروه‌ها ناشناخته هستند، که خود را طبقه‌بندی متمایز می‌کنند. به‌طور سنتی، طبقه‌بندی و رگرسیون با عنوان یادگیری نظارت شده و خوشه‌بندی به‌عنوان یادگیری بدون نظارت نامیده می‌شوند. الگوریتم نمایش آنها در شکل 2 نشان داده شده است.
• براساس زمان‌بندی ساخت داده‌های آموزشی موجود (به‌عنوان مثال، آیا داده‌های آموزشی یک بار و یا در یک زمان در دسترس همه هستند)، ML می‌تواند به یادگیری دسته‌ای و یادگیری آنلاین تقسیم شود. آموزش دسته‌ای مدل‌هایی با یادگیری در داده‌ی آموزشی تولید می‌کند، درحالی‌که یادگیری آنلاین مدل‌ها را براساس هر ورودی جدید به روزرسانی می‌کند. الگوریتم یادگیری دسته‌ای فرض می‌کند که داده مستقل است و یکسان توزیع شده یا از توزیع احتمال یکسان تبعیت می‌کند، که معمولا با داده‌های واقعی راضی نیست. آموزش آنلاین به‌طور معمول باعث می‌شود هیچ فرض آماری در مورد داده وجود نداشته باشد [7]. اگر چه انتظار می‌رود الگوریتم یادگیری دسته‌ای، یادگیری آنلاین را تعمیم دهد زیرا انتظار می رود الگوریتم برچسب‌هایی از نمونه‌ها را که به عنوان ورودی دریافت می‌کند به دقت پیش‌بینی کند [7]. یادگیری آنلاین زمانی استفاده شده است که آموزش مجموعه داده‌ها غیرعملی باشد و / یا زمانی که داده‌ها در طول زمان ایجاد شده باشند و سیستم یادگیری نیاز به انطباق با الگوهای جدید در داده‌ها داشته باشد.
هر الگوریتم ML می‌تواند در ابعاد مختلف دسته‌بندی شود. برای مثال، درخت‌های تصمیم‌گیری معمولی متعلق به الگوریتم‌های یادگیری تحت نظارت دسته‌ای هستند.

2.2 داده‌های بزرگ
داده‌های بزرگ در پنج بعد مشخص می‌شوند: حجم (کیفیت / مقدار داده)، سرعت (سرعت تولید داده‌ها)، انواع (نوع، طبیعت و فرمت داده)، صحت (اعتماد / کیفیت داده‌های گرفته شده) و مقدار (بینش و تاثیر). در این مقاله پنج بعد دیگر سازماندهی شده است که متشکل از لایه‌های بزرگ، داده‌ها و مقادیر با شروع از پایین است (شکل 3). لایه بزرگ اساسی‌ترین و لایه داده‌ها در مرکزیت داده‌های بزرگ و لایه مقدار جنبه‌ی تاثیر برنامه‌های کاربردی داده‌های بزرگ در جهان واقعی را مشخص می‌کند. لایه‌های پایین‌تر (به‌عنوان مثال، حجم و سرعت) بستگی به شدت بیشتر در پیشرفت‌های فن‌آوری و لایه بالاتر (به‌عنوان مثال، مقادیر) بیشتر به سمت برنامه‌های کاربردی با قدرت مهار استراتژیک داده بزرگ گرایش دارند. به منظور تحقق بخشیدن به ارزش تجزیه و تحلیل داده‌های بزرگ و پردازش کارآمد داده‌های بزرگ، پارادایم ML موجود و الگوریتم‌ها نیاز به اقتباس دارند.

2.3 دیگر مولفه‌ها
2.3.1 کاربران
انواع مختلفی از ذینفعان سیستم ML مانند کارشناسان دامنه، کاربران نهایی و محققان و فعالان ML وجود دارد. به‌طور سنتی، فعالان ML کسانی هستند که برای استفاده از MLتصمیمات زیادی می‌گیرند، از جمع‌آوری داده‌ها برای ارزیابی عملکرد شروع می‌کنند. دخالت کاربر نهایی در طول این فرایند به ارائه برچسب داده‌ها، پاسخ به سوالات مربوط به دامنه و یا دادن بازخورد در مورد نتایج به دست آمده محدود شده است، که معمولا توسط فعالان، منجر به تکرار طولانی و ناهمزمان می‌گردد [8]. با این حال، کاربران نهایی تمایل به ارائه بیش از برچسب داده‌ها دارند. آنها ارزش شفافیت در طراحی یک سیستم یادگیری را بیشتر درک می‌کنند، زیرا به نوبه خود کمک می‌کند تا سیستم آنها را درک و برچسب / بازخورد بهتری ارائه کند. درگیری کاربران در ML می‌تواند به‌طور بالقوه منجر به سیستم یادگیری و تجربه کاربری موثر و بهتر گردد [8]. به‌عنوان مثال، ML فعالانه [8] اجازه می‌دهد تا کاربران به صورت تعاملی تاثیر خود بر اقدامات و انطباق ورودی‌های بعدی برای هدایت رفتارهای ML برای به دست آوردن خروجی مورد نظر را بررسی کنند.

2.3.2 دامنه
دانش دامنه موجب تسهیل ML در کشف الگوها گردد زیرا ممکن است قابل کشف از مجموعه داده‌ها نباشد. مجموعه آموزشی ممکن است به اندازه کافی بزرگ و / یا نمایشی درست برای به کارگیری تمامی الگوها نباشد. همچنین به‌دست آوردن اطلاعات کافی و پرهزینه و حتی غیرعملی است، احتمالا به علت تنوع دامنه و الزامات برنامه خاص باشد. دانش دامنه می‌تواند به بهبود کلی و استحکام الگوهای ناشی از مجموعه داده کمک کند [9]. راه‌های مختلفی برای ترکیب دانش قبلی دامنه در ML ]10[ وجود دارد: (1) آماده‌سازی نمونه‌های آموزشی؛ (2) تولید فرضیه یا فضای فرضیه؛ (3) اصلاح هدف مورد جستجو و (4) افزایش جستجو. این الگوهای به‌دست آمده در به نوبه خود برای به روز رسانی و اصلاح دانش دامنه مورد استفاده قرار گیرند.

2.3.3 سیستم
معماری سیستم و یا پلت‌فرم، که متشکل از نرم‌افزار و سخت‌افزار است، محیطی را ایجاد می‌کند که در آن الگوریتم ML می‌تواند اجرا شود. به‌عنوان مثال، در مقایسه با همتایان ساده‌تر، از ماشین چند هسته‌ای با معماری توزیع شده انتظار می‌رود بهره‌وری ML را بهبود دهد. چارچوب و معماری سیستم جدید مانند هادوپ / اسپارک برای رسیدگی به چالش‌های داده‌های بزرگ پیشنهاد شده است. با این وجود، مهاجرت الگوریتم ML موجود برای توزیع معماری نیاز به تغییر دارد که چگونه الگوریتم ML پیاده‌سازی واجرا می‌شود. علاوه براین، نیازهای منحصربه فرد و مقادیر ML ممکن است معماری سیستم جدید را طراحی و توسعه دهند.
براساس چارچوب MLBiD، از فرصت‌های مهم و چالش‌های کلیدی را شناسایی کردیم. و آنها را برای هر سه مرحله در ML- پیش‌پردازش، یادگیری و ارزیابی، به طور جداگانه مورد بحث قرار دادیم.

3. فرصت‌ها و چالش‌های پیش‌پردازش داده‌ها
بخش عمده‌ای از تلاش واقعی در استقرار سیستم ML صرف طراحی پیش‌پردازش خطوط لوله و تحولات داده می‌شود که منجر به نمایش موثر اطلاعات با پشتیبانی ML می‌گردد [6]. پیش‌پردازش داده‌ها با هدف رسیدگی به تعدادی از مسائل مانند افزونگی داده، تناقض، نویز، عدم تجانس، تحول، برچسب گذای (برای ML (نیمه) نظارت شده)، عدم تعادل داده‌ها و نمایش/ انتخاب ویژگی است. آماده‌سازی داده‌ها و پردازش، با توجه به نیاز به کار انسانی و تعداد زیادی از گزینه‌های انتخاب معمولا پرهزینه است. علاوه براین، برخی از فرضیات معمولی داده برای داده‌های بزرگ کاربرد ندارد، در نتیجه برخی از روش‌های پیش‌پردازش غیرممکن می‌گردد. ازسوی دیگر، داده‌های بزرگ موجب کاهش فرصت تکیه به نظارت انسان با آموختن از منابع داده عظیم و متنوع می‌گردد.

3.1 افزونگی داده‌ها
تکرار زمانی رخ می‌دهد که دو یا چند نمونه داده موجودیت یکسانی را نشان دهند. تاثیر تکرار داده‌ها و یا تناقض در ML می‌تواند شدید باشد. با وجود طیف وسیعی از روش‌ها برای شناسایی موارد تکراری توسعه یافته در 20 سال گذشته [11]، روش‌های سنتی مانند مقایسه دو به دو شباهت‌ها، دیگر برای داده‌های بزرگ امکان‌پذیر نیست. علاوه براین، فرض سنتی،جفت‌هایی را که در مقایسه با جفت غیرکپی دیگر در اقلیت هستند تکرار می‌کند. برای این منظور، زمان پویا می‌تواند بسیار سریعتر از الگوریتم‌های فاصله اقلیدسی عمل کند [12].

3.2 نویز داده‌ها
مقادیر از دست رفته و نادرست، کم بودن داده‌ها و نقاط دورافتاده می‌توانند به‌عنوان نویز ML معرفی شوند. راه‌حل‌های سنتی برای مشکل نویز داده، در برخورد با داده‌های بزرگ با چالش‌هایی روبه‌رو است. به‌عنوان مثال، روش‌های دستی به علت عدم مقیاس‌پذیری آن دیگر امکان‌پذیر نیستند؛ جایگزینی به معنای از دست دادن مزایای استفاده از غنی و دانه دانه شدگی داده‌های بزرگ است. در برخی موارد، الگوهای جالبی ممکن است در این نویز داده‌ها اشتباه باشد، بنابراین حذف ساده ممکن است یک جایگزین عاقلانه نباشد. پیش‌بینی دقیق تجزیه‌وتحلیل ترافیک داده‌های بزرگ می‌تواند برای برآورد مقادیر از دست رفته، مانند جایگزین خواندن نادرست با توجه به سنسور خراب یا کانالهای ارتباطی شکسته استفاده کند. برای رسیدن به بایاسی قابل توجهه ممکن است به پیش‌بینی با روش‌های نفوذ جمعی روی بیاوریم که، حداکثر محدودیت است در مرحله استنتاج را تحمیل کرده باشند و مجبور به پیش‌بینی با توزیع یکسان به‌عنوان برچسب مشاهده باشیم [13]. علیرغم تمام مسائل مطرح شده، ممکن است حداقل پراکندگی داده‌ها حفظ شود و حجم گسترده‌ای از داده‌های بزرگ منجر به ایجاد فرصت‌های منحصر به فرد تجزیه و تحلیل و پیش‌بینی ترافیک به دلیل فرکانس کافی برای نمونه های مختلف گردد. تلاش برای افزایش تشخیص داده‌های پرت (به عنوان مثال، ONION[14]) برای اینکه تحلیلگران موفق به کشف ناهنجاری‌ها در مجموعه داده‌های بزرگ گردند وجود دارد [14].

 

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا