دانلود ترجمه مقاله بررسی مدیریت اطلاعات علمی توسط فریم ورک تجزیه اطلاعات حجیم – مجله IEEE
عنوان فارسی مقاله: | بررسی مدیریت اطلاعات علمی توسط فریم ورک تجزیه اطلاعات حجیم |
عنوان انگلیسی مقاله: | A big data analytics framework for scientific data management |
دانلود مقاله انگلیسی: | برای دانلود رایگان مقاله انگلیسی با فرمت pdf اینجا کلیک نمائید |
سال انتشار | ۲۰۱۳ |
تعداد صفحات مقاله انگلیسی | ۸ |
تعداد صفحات ترجمه مقاله | ۳۱ |
مجله | کنفرانس بین المللی داده های بزرگ (International Conference on Big Data) |
دانشگاه | دل سالنتو، لچه ایتالیا |
رشته های مرتبط | مهندسی کامپیوتر؛ مهندسی فناوری اطلاعات |
کلمات کلیدی | داده های بزرگ؛ تحلیل داده ها؛ I/O موازی؛ eScience |
نشریه | IEEE |
فهرست مطالب:
چکیده
۱ مقدمه
۲ معماری Ophidia
۳ چارچوب تحلیلی Ophidia
A نیازمندیهای تابعی و غیر تابعی
B طراحی چارچوب تحلیلی
C اجرای چارچوب تحلیلی
D اینترنال های سه اپراتور مربوطه
E محک اپراتورها: بینش های مقدماتی
۴ نتایج و کار آتی
بخشی از ترجمه:
۴٫ نتایج و کار آتی
چارچوب تحلیلی Ophidia ، بخش اصلی پروژه تحقیقاتی Ophidia، مطرح شده است. همان گونه که در این کار بحث شد، چارچوب تحلیلی مسئولیت پردازش ، تبدیل و دستکاری اتمی داده های مبتنی بر آرایه، با فراهم نمودن راهی معمول و عمومی برای اجرا روی وظایف تحلیلی خوشه های بزرگ را برعهده دارد که در مجموعه داده های بزرگ کاربرد دارند. مقاله حاضر اصول طراحی، الگوریتم و اصلی ترین جنبه های اجرای وابسته به چارچوب تحلیلی Ophidia راروشن و راجع به آن ها توضیح داده است. به علاوه، لیستی جامع از وابسته ترین اپراتورها عرضه می کند که سه مورد از آنها به طور مفصل مطرح شده اند. در اینجا برخی از نتایج آزمایشی امیدوارکننده من جمله اجرای دو اپراتور در محیط خوشه واقعی نیز مطرح شده است.
قصد داریم در کار آتی مجموعه ای توسعه یافته از اپراتورهای موازی برای پشتیبانی از موارد استفاده علمی جدید را توسعه دهیم. توسعه توابع اولیه مبتنی برآرایه، زبان پرس و جوی تحلیلی داده ها و یک برنامه ریز پرس و جوی بهینه شده از اپراتورهای پیچیده تر و درخواست های مبتنی بر جریان داده ها(جریان داده مدار) پشتیبانی می کنند.محک تحلیلی جامع تعریف و برای ارزیابی هر چه بیشتر عملکرد سیستم، اجرا می شود.
بخشی از مقاله انگلیسی:
I. INTRODUCTION In several eScience domains [1,4] the analysis and mining of large volumes of data is increasingly becoming central to scientific discovery. The multidimensionality, volume, complexity, and variety of scientific data need specific solutions able to (i) support the management and analysis of large datasets [5,6], (ii) provide array-based functionalities, and (iii) support the scientific analysis process through parallel solutions able to deliver results in (near) real-time [7]. Unfortunately, the tools, libraries and frameworks used in many scientific domains are mostly sequential today. This barrier strongly limits scientific productivity, slowing down or entirely preventing data analysis activities on large datasets. In the climate science context few tools exploit parallel paradigms for analysis and visualization [8,11], making urgent the need for new (big) data intensive parallel frameworks. Relevant projects in this area like ParCAT [12], ParNCL, and ParGAS [13], share this scientific goal, but provide a toolkit rather than a framework. Scientific data needs data warehouse-like [14,15] platforms to perform data analytics. However, current general-purpose (enterprise-based) On Line Analytical Processing (OLAP) systems are not suitable for eScience due to their limited scalability, a lack of support for parallel solutions and for the analysis of large volumes of data, and their inadequate support for numerical and mathematical libraries. Additionally, specific array-based support (which is key for n-dimensional scientific data) is not sufficient both in terms of data types and data analysis primitives to address scientist needs and use cases. The Ophidia project is addressing most of these challenges, in the context of a research effort addressing big data analytics issues for eScience. The key test case for Ophidia concerns the analysis of global climate simulations produced at the EuroMediterranean Centre on Climate Change, in the context of the international Coupled Model Intercomparison Project Phase 5 (CMIP5) [16,17]. On a daily basis, climate scientists need to run on large datasets data transformation, analysis, and processing tasks to reduce data, extract time series, compute ensemble means, run scenarios, perform model intercomparisons, infer statistical indicators, and perform regridding. Most of these tasks are today performed via batch and sequential command line interfaces and tools that cannot provide needed answers efficiently or in real-time. In contrast, the Ophidia platform aims to provide an OLAP-like data management solution providing (through parallel “data kernels” running on HPC machines) real-time answers to scientists questions. An important building block of the Ophidia project is the analytics framework, which is also the key topic of this paper. The remainder of this work is organized as follows. Section II describes the Ophidia architecture. Section III presents the Ophidia analytics framework, discussing in detail the functional and non-functional requirements that have driven its design, the analytics framework algorithm and implementation, the deployment diagram, a comprehensive set of operators, the internals of three operators, and some experimental results on a 12-node IBM iDataplex cluster. Finally, Section IV draws conclusions and highlights future work. II. THE OPHIDIA ARCHITECTURE As depicted in Fig. 1, the Ophidia architecture consists of several layers: the storage system, the I/O nodes, the OphidiaDB, the compute nodes, and the Ophidia server. The storage system represents the hardware resource managing the data store of the Ophidia architecture. It consists of a set of disks storing datacubes. The storage system is accessed via the I/O nodes, which host a set of I/O servers responsible for the parallel I/O with the underlying storage system. As described elsewhere [18], the current implementation of a single I/O server relies on the MySQL relational DBMS, which has been extended to support array-based data type and primitives. The datacubes in the MySQL databases are organized in a hierarchical structure and are partitioned in several tables (called fragments) distributed across multiple databases and MySQL servers. The data in the fragments are multidimensional arrays stored according to the Ophidia internal storage model, which exploits a key-value approach. A preliminary set of Ophidia array-based primitives, the storage model, and the hierarchical data structure have been described elsewhere [18] with some examples and use cases.
عنوان فارسی مقاله: | بررسی مدیریت اطلاعات علمی توسط فریم ورک تجزیه اطلاعات حجیم |
عنوان انگلیسی مقاله: | A big data analytics framework for scientific data management |