این مقاله انگلیسی ISI در نشریه آی تریپل ای در 15 صفحه در سال 2017 منتشر شده و ترجمه آن 37 صفحه بوده و آماده دانلود رایگان می باشد.
دانلود رایگان مقاله انگلیسی (pdf) و ترجمه فارسی (pdf + word) |
عنوان فارسی مقاله: |
پردازش کلان داده ها با استفاده از داده های HDFS و تکنیک های تکاملی خوشه
|
عنوان انگلیسی مقاله: |
Handling Big Data Using a Data-Aware HDFS and Evolutionary Clustering Technique
|
دانلود رایگان مقاله انگلیسی: |
مقاله انگلیسی
|
دانلود رایگان ترجمه با فرمت pdf: |
ترجمه pdf
|
دانلود رایگان ترجمه با فرمت ورد: |
ترجمه ورد |
مشخصات مقاله انگلیسی و ترجمه فارسی |
فرمت مقاله انگلیسی |
pdf |
سال انتشار |
2017 |
تعداد صفحات مقاله انگلیسی |
15 صفحه با فرمت pdf |
نوع مقاله |
ISI |
نوع نگارش |
مقاله پژوهشی (Research article) |
نوع ارائه مقاله |
ژورنال |
رشته های مرتبط با این مقاله |
مهندسی فناوری اطلاعات – مهندسی کامپیوتر – مهندسی صنایع
|
گرایش های مرتبط با این مقاله |
بهینه سازی سیستم ها – داده کاوی – مدیریت سیستم های اطلاعاتی – مهندسی الگوریتم ها و محاسبات – معماری سیستم های کامپیوتری |
چاپ شده در مجله (ژورنال) |
تراکنش ها روی داده های بزرگ (IEEE) |
کلمات کلیدی |
داده های بزرگ – پایگاه های داده توزیع شده – طوفان ها – ابزارها – چارچوب شرح منابع – سیستم های فایل |
کلمات کلیدی انگلیسی |
Big Data – Distributed databases – Storms – Tools – Resource description framework – File systems |
ارائه شده از دانشگاه |
آزمایشگاه تحقیقاتی مرکز تضمین اطلاعات و سیستم های امنیتی هوشمند، دانشگاه ممفیس |
نمایه (index) |
Scopus – Master Journals – JCR |
شناسه شاپا یا ISSN |
2332-7790 |
شناسه دیجیتال – doi |
https://doi.org/10.1109/TBDATA.2017.2782785 |
رفرنس |
دارای رفرنس در داخل متن و انتهای مقاله ✓ |
نشریه |
آی تریپل ای – IEEE |
تعداد صفحات ترجمه تایپ شده با فرمت ورد با قابلیت ویرایش |
37 صفحه با فونت 14 B Nazanin
|
فرمت ترجمه مقاله |
pdf و ورد تایپ شده با قابلیت ویرایش |
وضعیت ترجمه |
انجام شده و آماده دانلود رایگان |
کیفیت ترجمه |
مبتدی (مناسب برای درک مفهوم کلی مطلب)
|
کد محصول |
F1911
|
بخشی از ترجمه |
رشد داده های نیمه/چند/غیر ساختاری و توانایی آنها در پردازش داده ها به طور موثر، یک مسئله اصلی بود، و هدف اصلی این داده ها بهبود کارایی سیستم فایل توزیع شده هادوپ (HDFS) به منظور بررسی داده های مدرن و بهبود منابع HW بود. با وجود اینکه تکنیک های SHARD [5] و SPALQL [1] مقیاس پذیر و قابل تعمیم هستند، اما محدودیت هایی در مورد نحوه مقابله با داده های مدرن نیز وجود دارد. علاوه بر این، محدودیت های دیگری در مورد نحوه مدیریت جریان تغییرات پویای داده نیز وجود دارند. همانطور که هاجر و همکارانش بحث کرده اند یکی از این محدودیت ها ممکن است به کاربرد مقیاس پذیری و ذخیره سازی الگوریتم خوشه بندی که در چنین کارهایی مورد استفاده قرار گرفته اند اضافه شوند [12].
ما داده ها را تغییر دادیم و آنها را در گراف براساس مقیاس گرافیک ذخیره سازی کردیم تا ساختار آن ایجاد شود و بتواند تغییرات ضروری را انجام دهد، و سپس ساختار سه گانه را برای نقاط داده، به منظور ایجاد خوشه سه گانه که در بخش معماری به طور کامل شرح داده شده است اضافه می کند. این تکنیک ها به ما این امکان را می دهند که (1) داده ها را از منابع مختلف جمع آوری و سپس آنها را با وجود ساختار داده های مختلف به چهارگوش تبدیل می کنیم، (2) تغییرات جریان پایگاه داده گراف به صورت پویا می باشند، و (3) هاجر و همکارانش یک نسخه جدید از کاربرد داده ها را جمع آوری کرده اند [12]. رمزگذاری جدید کروموزوم ها به منظور بررسی مسائل خوشه بندی داده های مدرن به همراه تکنیک های نوین متقاطع، جهش و ارزیابی برای ارائه نیازمندی های تکنولوژی جدید رمزگذاری توزیع شده مورد استفاده قرار گرفته اند. بعدها، ما زیرنمودارهای موجود در HDFS را براساس وابستگی خوشه به منظور تولید پردازش داده های بهینه سازی پرس وجو توزیع کردیم.
شکل 1 مفاهیم و ماژول ها را در یک چارچوب پیشنهادی نشان می دهد و توضیح آن به شرح زیر است: (1) پس از جمع آوری داده ها یا جمع آوری مجموعه داده های قدیمی، این ماژول داده ها را به نمودارهای شبکه مورد نظر تبدیل می کند؛ (2) با یافتن الگوها در نمودار، ماژول داده ها را به بلوک های مناسب توزیع می کند؛ (3) بلوک ها در داخل ماشین سمت راست توزیع می شوند؛ و (4) HDFS بهینه سازی شده به عنوان یک منبع داده پرس وجوها را اجرا می کند و یک سیستم عامل را برای اعمال الگوریتم های گراف به صورت کارآمد به منظور کاهش منابع مورد استفاده ارائه می کند.
برای خلاصه کردن چارچوب پیشنهادی، HDFS قادر است داده های مدرن را با ایجاد ساختار اطلاع رسانی داده ها، شناسایی، توزیع و مدیریت داده ها در سیستم فایل مقیاس پذیر را بهبود ببخشد. بدین ترتیب، چارچوب نتایج در بهینه سازی و در منابع کارآمد سیستم اکو هادوپ و دیگر ابزارها از HDFS به عنوان یک منبع ذخیره سازی توزیع شده استفاده می شود.
در تحقیقات اخیر راه حل های متقاعد کننده ای در تحلیل بعدی و معماری لامبدا ارائه شده است. سانگ و همکارانش [13] تحقیقات اخیر را در نوع داه ها، مدل های ذخیره سازی، روش های تجزیه و تحلیل کاربرد شبکه کلان داده ها مورد بررسی قرار دادند. آنها همچنین چالش ها و توسعه کلان داده ها را برای پیش بینی روند فعلی و آینده خلاصه کرده اند. سانگ و همکارانش [13] نحوه جریان داده ها در زمان واقعی را با افزایش سرویس های جریان آنلاین نشان دادند، و همچنین نحوه بررسی یک سیستم را که براساس SQL که جریان DB نام دارد به منظور تجزیه و تحلیل اطلاعات پایدار نشان دادند.
بررسی های [15]، [16]، [17] و [18] بر تحلیل زمان واقعی تمرکز دارند، و شامل تلاش های معماری لامبدا هستند، و نویسندگان [18] در آن معماری سیستم های کلان داده های بحرانی را معرفی می کنند. آنها نحوه زیرساخت های موجود در کلان داده ها را که زمانبر هستند نشان دادند و فقط بر روی برنامه های کاربردی تمرکز کردند. باسانتا و همکارانش [18] این مسئله را از دیدگاه جامعه سیستم های زمان واقعی مورد بررسی قرار دادند. آنها معماری تحلیلگر زمانبندی (TC) را به عنوان یک گروه TC در پردازش دستی و جریان پردازش آنلاین TC را در نظر گرفتند. باسانتا و همکارانش [18] به طور کلی تبدیل پشته کلان داده ها را در پشته کلان داده TC به همراه اعمال نیازمندی ها و چالش های برنامه های پشته TC ارائه دادند.
T-Hoarder [19] چارچوبی است که توییت ها را همراه با داده های مربوط به زمان فضا را به دست می آورد؛ همچنین خلاصه ای از اطلاعات و تحلیل مربوط به فعالیت توییتر را به صورت یک رویداد در صفحه وب ارائه می کند. تجزیه و تحلیل بررسی ها و معماری لامبدا همراه با آپاچی کُدو [20] و مجموعه ای از بررسی ها را که عملکرد سریع تری در پردازش OLAP و عملکرد قوی در زمان بارز حجم کاری را دارد نشان می دهد. با این حال، این یک نتیجه است، تا جایگاه برخورد داده های هوشمند، و تکنولوژی ها بتوانند حجم کاری پردازش داده ها را کاهش دهند، و اولین نسخه آزمایشی اینتل را در سفیر 2017 ارائه دادند [22]. اینتل نوع جدید حافظه پایدار را با یک فضای خاص نسبت به DRAM و تاخیر کمتری را نسبت به SSD ارائه می دهد.
2 محدوده کاری
حجم کاری فعلی که در سیستم در حال اجرا می باشد (در آن ناکارآمدی وجود دارد) منجر به فضای بیشتر نیازمندی در مراکز داده و برخی از پیامدهای محیطی و باعث افزایش انتشار کربن در مصرف انرژی می شود [1]. این می تواند به دلیل مصرف انرژی اضافی و عملکرد پایین منابع سخت افزاری که شرکت ها را تحت تاثیر قرار می دهد باشد. ما به یک مقیاس کارآمد نیاز داریم.
نظریه گراف یک اصول را به خوبی مورد بررسی قرار می دهد. دکتر روی مارستن در وبلاگش [23] خاطرنشان کرد که نظریه گراف یکی از روش های کلیدی در فهم و درک استفاده از کلان داده ها است. دکتر مارستن رو ی گوگل در طی فرآیند مدرن سازی گراف با استفاده از لینک های بین اسناد و زمینه های وب معنایی، تمرکز دقیقی داشت. در نتیجه، “گوگل یک موتور جستجوی وب را تولید کرد و از رقبای ثابت خود پیشی گرفت” [23]. بسیاری از داده ها را می توان به نمودار تبدیل کرد. برعکس، بسیاری از مسائل را می توان به مسائل گراف تبدیل کرد. با استفاده از نظریه ها و الگوریتم های گراف، بسیاری از این مسائل را می توان به طور موثر حل کرد.
ما کار SHARD روهلوف و همکارانش را در نظر گرفتیم [5] و آن را همانطور که در بخش معماری نشان داده شده است به عنوان داده های امروزی به منظور تبدیل انواع داده به نمودار چهارگانه ارائه کردیم. همانطور که در بخش های پایگاه داده گرافیکی بحث کردیم روش هایی برای مقیاس داده های گراف با استفاده از سیستم-های اکو توزیع شده مانند هادوپ وجود دارد. علاوه بر این، موفقیت بزرگ هوانگ و همکارانش زمانی اتفاق می-افتد [1] که بورس تحصیلی روهلوف و همکارانش مورد پذیرش قرار گرفته باشد [5] و داده های RDF برای غلبه بر محدودیت های مربوط به تکنیک روهلوف و همکارانش بهینه سازی می شوند.
قبلا تلاش هایی برای بهینه سازی گراف ها صورت گرفته است؛ به عنوان مثال SHARD [5]، عمل درهم-سازی داده ها را انجام می دهد. با این حال، عمل درهم سازی منجر به جابه جایی محدودیت ها در گراف های RDF و حرکت داده های شبکه ای نیز می شود. مثال دیگری از هوانگ و همکارانش بدین صورت است [1] اشیاء متصل به یک موضوع پردازش می شوند تا یک بلوک مشابه برای یک یا دو تقاطع بین موضوع و جسم ایجاد شود (یک یا دو لبه فاصله بین موضوع و اشیاء). با این حال، محدودیت های فضا به علت افزایش اندازه داده ها وجود دارد. همچنین، محدودیت استفاده از چنین الگوریتمی که به یک گراف متصل است نیز وجود دارد. سایر کارهایی مانند سمپالا [24]، یا Hive، PigSPARQL [25] & [26]، MapMerge [27] و MAPSIN [28] تا حدی مقیاس پذیری را برطرف می کنند. با این وجود، چنین کاری از ذخیره سازی های مختلف که سه برابر هستند و از مزایای Hive، MR و Impala استفاده می کند و با استفاده از چارچوب ما می توانیم پارتیشن بندی را بهینه سازی کنیم.
2.1 پایگاه داده های گراف
داده های جاری و برنامه های مدرن به محدودیت های ذخیره و پردازش با استفاده از پایگاه داده های سنتی، بویژه مدل ارتباطی منجر می شوند. دقت پایگاه داده های گراف افزایش پیدا کرده است، و این موضوع تقریبا در اوایل دهه 90 [29] مجددا مورد بررسی قرار گرفت. اهمیت پایگاه های اطلاعاتی معمولا براساس روابط بین داده ها است، و به طور مساوی یا حتی بیشتر از اطلاعات موجودیت ها می باشند [30]. پروژه ها در زمینه های مختلف به پایگاه های زیر دقت ویژه ای دارند (مانند زیست شناسی [31]، وب معنایی [32]، وب کاوی [33] و شیمی [34]).
سیلبرشاتس و همکارانش [35] به طور کلی یک مدل داده (مدل پایگاه داده) را که مجموعه ای از ابزارهای مفهومی است را برای مدل سازی روابط بین شناسه ها مورد استفاده قرار دادند. سه مولفه مدل پایگاه داده عبارتند از [35]: (1) مجموعه ای از انواع ساختار داده ای، (2) مجموعه ای از قوانین یکپارچه و (3) رابط قوانین و عملگرها. |