این مقاله انگلیسی ISI در نشریه الزویر در 7 صفحه در سال 2015 منتشر شده و ترجمه آن 18 صفحه میباشد. کیفیت ترجمه این مقاله ارزان – نقره ای ⭐️⭐️ بوده و به صورت خلاصه ترجمه شده است.
دانلود رایگان مقاله انگلیسی + خرید ترجمه فارسی | |
عنوان فارسی مقاله: |
یادگیری ماشین کارآمد برای کلان داده ها: یک مقاله مروری |
عنوان انگلیسی مقاله: |
Efficient Machine Learning for Big Data: A Review |
|
مشخصات مقاله انگلیسی (PDF) | |
سال انتشار | 2015 |
تعداد صفحات مقاله انگلیسی | 7 صفحه با فرمت pdf |
رشته های مرتبط با این مقاله | مهندسی فناوری اطلاعات و کامپیوتر |
گرایش های مرتبط با این مقاله | مدیریت سیستم های اطلاعاتی و هوش مصنوعی |
چاپ شده در مجله (ژورنال) | تحقیقات کلان داده – Big Data Research |
کلمات کلیدی | کلان داده، رایانش سبز، یادگیری ماشینی کارامد، مدل سازی رایانشی |
ارائه شده از دانشگاه | دانشگاه خلیفه، ابوظبی، امارات متحده عربی |
رفرنس | دارد ✓ |
کد محصول | F1234 |
نشریه | الزویر – Elsevier |
مشخصات و وضعیت ترجمه فارسی این مقاله (Word) | |
وضعیت ترجمه | انجام شده و آماده دانلود |
تعداد صفحات ترجمه تایپ شده با فرمت ورد با قابلیت ویرایش | 18 صفحه با فونت 14 B Nazanin |
ترجمه عناوین تصاویر | ترجمه شده است ✓ |
ترجمه متون داخل تصاویر | ترجمه نشده است ☓ |
ضمیمه | ترجمه شده است ✓ |
درج تصاویر در فایل ترجمه | درج شده است ✓ |
منابع داخل متن | درج نشده است ☓ |
کیفیت ترجمه | کیفیت ترجمه این مقاله متوسط میباشد |
توضیحات | بعضی بخش های مقاله به صورت خلاصه ترجمه شده است |
فهرست مطالب |
چکیده
1- مقدمه 2- چالش داده های بزرگ 1-2- جغرافیایی، آب و هوا و محیط زیست 2-2- بیوگرافی، پزشکی و سلامت 3-2- ستاره ها، کهکشان ها و جهان 3- مدل سازی داده ها پایدار و یادگیری کارآمد 1-3- مدل گروهی 2-3- مشکل پیچیدگی مدل 3-3- استراتژی یادگیری محلی 4-3- تقریب نیمه پارامتری 5-3- یادگیری عمیقی 6-3- محاسبات داده های بزرگ 4- نتیجه گیری |
بخشی از ترجمه |
چکیده
با فن آوری های در حال ظهور و تمام دستگاه های مرتبط، پیش بینی می شود که مقدار عظیمی از اطلاعات در چند سال آینده ایجاد خواهد شد – در واقع، 90 درصد از داده های کنونی در چند سال گذشته ایجاد شده است که ادامه این روند برای آینده قابل پیش بینی است . فرایند مطالعات و محاسبات پایدار که در مهندسی کامپیوتر و زیر سیستم های مرتبط کارآمد هستند و حداقل تاثیر را بر روی محیط زیست دارند. با این حال، سیستم های یادگیری ماشینی هوشمند فعلی دارای عملکرد محور می باشند – تمرکز بر دقت پیش بینی / و طبقه بندی، بر اساس خواص شناخته شده از نمونه آموزشی به دست می آید. به عنوان مثال، مدل ناپارامتریک مبتنی بر یادگیری ماشینی نیاز به هزینه های محاسباتی بالا در جهت پیدا کردن OPTIMA جهانی دارد. با این کار یادگیری در یک مجموعه داده های بزرگ، تعداد گره های پنهان در داخل شبکه به طور قابل توجهی افزایش می یابد، که در نهایت به افزایش نمایی در پیچیدگی محاسباتی منجر می شود. بنابراین در این مقاله داده مدل سازی نظری و تجربی ، در زمینه های اطلاعات فشرده در مقیاس بزرگ بررسی شده است ، که مربوط به: (1) بهره وری مدل، از جمله نیازهای محاسباتی در یادگیری، و ساختار اطلاعات فشرده مناطق و طراحی ( 2) روش های الگوریتمی جدید با حداقل حافظه مورد نیاز و پردازش برای به حداقل رساندن هزینه های محاسباتی، در حالی که حفظ / بهبود پیش بینی / دقت طبقه بندی و ثبات آن مد نظر است.
1- مقدمه
امروز، جای تعجب نیست که کاهش هزینه های انرژی یکی از اولویت های اصلی برای بسیاری از تجارت های مربوط به انرژی است. صنعت جهانی اطلاعات و فن آوری ارتباطات (ICT) که حدود 830 تن دی اکسید کربن (CO2) انتشار داده است که حدود 2 درصد از انتشار گاز CO2 جهانی می باشد. غول فناوری اطلاعات و ارتباطات به طور مداوم با نصب سرورهای بیشتر برای گسترش ظرفیت خود اقدام می کند. تعداد کامپیوترهای سرور در مراکز داده 30 میلیون است که شش برابر در دهه گذشته افزایش یافته ، و هر سرور به مراتب بیشتر از مدل های قبلی آن است. استفاده از برق برای سرورها بین سال های 2000 و 2005 ، که تعداد زیادی از سرورهای جدید نصب شد دو برابر شده بود. این افزایش در مصرف انرژی به تبع آن باعث تولیدگازهای گلخانه ای دی اکسید کربن بیشتر می شود، و از این رو باعث تاثیر بر محیط زیست می شود. علاوه بر این، بسیاری از این تجارت ها، به خصوص در شرایط نامشخص اقتصادی به منظور کاهش مصرف انرژی خود را جهت بازار رقابتی تحت فشار قرار داده اند.
با این حال با ظهور فن آوری های جدید و ارتباطات ، پیش بینی می شود که داده های زیادی به عنوان کل در تاریخ سیاره زمین ساخته شده است. با توجه به میزان بی سابقه ای از اطلاعات که تولید خواهد شد، در سال های آینده مرتب سازی و ذخیره ، یکی از چالش های بزرگ تکنولوژی در خدماتش به صنعت برای چگونگی بهرمندی از آن است. در طول دهه گذشته، سیستم های یادگیری ماشینی هوشمند ریاضی به طور گسترده ای در تعدادی از زمینه های داده گسترده و پیچیده از قبیل نجوم، زیست شناسی، اقلیم، پزشکی، امور مالی و اقتصاد به تصویب رسیده اند. با این حال، سیستم های فعلی هوشمند مبتنی بر یادگیری ماشینی ذاتا کارآمد و یا به اندازه کافی برای مقابله با حجم زیادی از داده ها مقیاس پذیر نیستند. به عنوان مثال، برای سال های زیادی، بسیاری از روش های غیر پارامتری و مستقل از مدل نیاز برای هزینه های محاسباتی بالا و برای پیدا کردن روش بهینه جهانی شناخته شده اند. با داده های ابعادی بالا، اطلاعات خوب از ظرفیت اتصالات باعث می شود آن ها بیشتر مستعد مشکل تعمیم شوند اما منجر به افزایش پیچیدگی محاسباتی می شود. طراحی سیستم های دقیق تر یادگیری ماشینی برای برآوردن نیاز های بازار با توجه به افزایش هزینه های محاسباتی به احتمال بیشتری از اتلاف انرژی منجر خواهد شد. امروزه، نیاز بیشتری به توسعه مدل هوش کارآمد برای مقابله با خواسته های آینده و طرح های مرتبط با انرژی مشابه وجود دارد. چنین مدل سازی داده گرای کارآمد انرژی برای تعدادی از مناطق اطلاعاتی فشرده مهم است، آن ها بسیاری از صنایع مرتبط را تحت تاثیر قرار می دهند. طراحان باید برای حداکثر کارایی و حداقل مصرف انرژی تمرکز کنند به طوری که برای معاوضه و در مقابل استفاده سنتی از انرژی ، و افزایش تعداد و تنوع گزینه های موجود برای مدل سازی با انرژی کارآمد استفاده شوند. با این حال، با وجود این واقعیت است که تقاضا برای چنین روش مدل سازی داده ها کارآمد و پایدار برای زمینه های بزرگ و پیچیده اطلاعات فشرده وجود دارد ، تنها تعداد کمی از آن ها در زمینه [6،7] ارائه شده است. در این مقاله یک بررسی جامع از یادگیری ماشینی با حالت صنعت ، پایدار / با انرژی کارآمد انجام شده است، و مطالعات نظری، تجربی و مربوط به توصیه های مختلف را فراهم می کند. هدف ما معرفی یک چشم انداز جدید برای مهندسان، دانشمندان و پژوهشگران در علوم کامپیوتر، و حوزه ICT سبز، و همچنین به عنوان ارائه نقشه راه برای تلاش تحقیقات در آینده است. این مقاله به شرح زیر است. بخش 2 مناطق اطلاعاتی فشرده مختلف در مقیاس بزرگ را معرفی و ساختار و ماهیتشان ، از جمله رابطه بین مدل های داده و ویژگی های آن ها را مورد بحث قرار می دهد. بخش 3 مسائل در مدل سازی داده های هوشمند فعلی مورد بحث برای پایداری توصیه می شود. بخش 4 نتیجه گیری مقاله. |
بخشی از مقاله انگلیسی |
Abstract With the emerging technologies and all associated devices, it is predicted that massive amount of data will be created in the next few years – in fact, as much as 90% of current data were created in the last couple of years – a trend that will continue for the foreseeable future. Sustainable computing studies the process by which computer engineer/scientist designs computers and associated subsystems efficiently and effectively with minimal impact on the environment. However, current intelligent machine-learning systems are performance driven – the focus is on the predictive/classification accuracy, based on known properties learned from the training samples. For instance, most machine-learning-based nonparametric models are known to require high computational cost in order to find the global optima. With the learning task in a large dataset, the number of hidden nodes within the network will therefore increase significantly, which eventually leads to an exponential rise in computational complexity. This paper thus reviews the theoretical and experimental data-modeling literature, in large-scale data-intensive fields, relating to: (1) model efficiency, including computational requirements in learning, and data-intensive areas’ structure and design, and introduces (2) new algorithmic approaches with the least memory requirements and processing to minimize computational cost, while maintaining/improving its predictive/classification accuracy and stability. 1 Introduction Today, it’s no surprise that reducing energy costs is one of the top priorities for many energy-related businesses. The global information and communications technology (ICT) industry that pumps out around 830 Mt carbon dioxide (CO2) emission accounts for approximately 2 percent of the global CO2 emissions [1]. ICT giants are constantly installing more servers so as to expand their capacity. The number of server computers in data centers has increased sixfold to 30 million in the last decade, and each server draws far more electricity than its earlier models [2]. The aggregate electricity use for servers had doubled between the years 2000 and 2005 period, most of which came from businesses installing large numbers of new servers [3]. This increase in energy consumption consequently results in higher carbon dioxide emissions, and hence causing an impact on the environment. Furthermore, most of these businesses, especially in an uncertain economic climate are placed under the pressure to reduce their energy expenditure in order to remain competitive in the market [4]. With the emerging of new technologies and all associated devices, it is predicted that there will be as much data created as was created in the entire history of planet Earth [5]. Given the unprecedented amount of data that will be produced, collected and stored in the coming years, one of the technology industry’s great challenges is how to benefit from it. During the past decade, mathematical intelligent machine-learning systems have been widely adopted in a number of massive and complex data-intensive fields such as astronomy, biology, climatology, medicine, finance and economy. However, current intelligent machine-learning-based systems are not inherently efficient or scalable enough to deal with large volume of data. For example, for many years, it is known that most non-parametric and model-free approaches require high computational cost to find the global optima. With high-dimensional data, their good data fitting capacity not only makes them more susceptible to the generalization problem but leads to an exponential rise in computational complexity. Designing more accurate machine-learning systems so as to satisfy the market needs will hence lead to a higher likelihood of energy waste due to the increased computational cost. Nowadays, there is a greater need to develop efficient intelligent models to cope with future demands that are in line with similar energy-related initiatives. Such energy-efficient-oriented data modeling is important for a number of data-intensive areas, as they affect many related industries. Designers should focus on maximum performance and minimum energy use so as to break away from the traditional’ performance vs. energy-use’ tradeoff, and increase the number and diversity of options available for energy-efficient modeling. However, despite the fact that there is a demand for such efficient and sustainable data modeling methods for large and complex data-intensive fields, to our best knowledge, only a few of these literatures have been proposed in the field [6,7]. This paper provides a comprehensive review of state-of-the-art sustainable/energy-efficient machine-learning literatures, including theoretical, empirical and experimental studies pertaining to the various needs and recommendations. Our objective is to introduce a new perspective for engineers, scientists, and researchers in the computer science, and green ICT domain, as well as to provide its roadmap for future research endeavors. This paper is organized as follows. Section 2 introduces the different large-scale data-intensive areas and discusses their structure and nature, including the relation between data models and their characteristics. Section 3 discusses the issues in current intelligent data modeling for sustainability and gives recommendations. Section 4 concludes the paper. |