این مقاله انگلیسی در نشریه آی تریپل ای در 10 صفحه در سال 2013 منتشر شده و ترجمه آن 26 صفحه بوده و آماده دانلود رایگان می باشد.
دانلود رایگان مقاله انگلیسی (pdf) و ترجمه فارسی (pdf + word) |
عنوان فارسی مقاله: |
کلان داده: مسائل و چالش های پیش روی آن
|
عنوان انگلیسی مقاله: |
Big Data: Issues and Challenges Moving Forward
|
دانلود رایگان مقاله انگلیسی |
|
دانلود رایگان ترجمه با فرمت pdf |
|
دانلود رایگان ترجمه با فرمت ورد |
|
مشخصات مقاله انگلیسی و ترجمه فارسی |
فرمت مقاله انگلیسی |
pdf |
سال انتشار |
2013 |
تعداد صفحات مقاله انگلیسی |
10 صفحه با فرمت pdf |
نوع نگارش |
مقاله پژوهشی (Research article) |
نوع ارائه مقاله |
کنفرانس |
رشته های مرتبط با این مقاله |
مهندسی فناوری اطلاعات – مهندسی کامپیوتر |
گرایش های مرتبط با این مقاله |
اینترنت و شبکه های گسترده – مدیریت سیستم های اطلاعاتی – علوم داده |
چاپ شده در مجله (ژورنال)/کنفرانس |
کنفرانس بین المللی سالانه هاوایی در علوم سیستم (HICSS) |
کلمات کلیدی |
مدیریت اطلاعات – مدیریت داده ها – سیستم های ذخیره سازی داده ها – پایگاه های داده توزیع شده – سازمان ها – رسانه ها |
کلمات کلیدی انگلیسی |
Information management – Data handling – Data storage systems – Distributed databases – Organizations – Media |
ارائه شده از دانشگاه |
دانشگاه جورج واشنگتن، ایالات متحده آمریکا |
شناسه دیجیتال – doi |
https://doi.org/10.1109/HICSS.2013.645 |
لینک سایت مرجع |
https://ieeexplore.ieee.org/document/6479953/authors#authors |
رفرنس |
دارای رفرنس در داخل متن و انتهای مقاله ✓ |
نشریه |
آی تریپل ای – IEEE |
تعداد صفحات ترجمه تایپ شده با فرمت ورد با قابلیت ویرایش |
26 صفحه با فونت 14 B Nazanin |
فرمت ترجمه مقاله |
pdf و ورد تایپ شده با قابلیت ویرایش |
وضعیت ترجمه |
انجام شده و آماده دانلود رایگان |
کیفیت ترجمه |
مبتدی (مناسب برای درک مفهوم کلی مطلب)
|
کد محصول |
F2070 |
بخشی از ترجمه |
1.3 کلان داده- کجاست؟
اگر چه ممکن است متوجه آن نباشیم، اما کلان داده ما را احاطه کرده است(جدول 3). بخشی از مسئله این است که، به جز در شرایط غیر معمول، بیشتر ما با حجم زیادی از داده در زندگی روزانه خود سر و کار نداریم. با توجه به عدم وجود همچین تجربهای، اغلب در درک فرصتها و چالشهای بوجود آمده توسط کلان داده با شکست روبرو میشویم. به همین دلیل، در بررسی این شرایط بوجود آمده با مشکلاتی مواجه هستیم.
1.4 مسائل
بیان میکنیم که سه مسئله اصلی وجود دارد که نیاز است که در سر و کار داشتن با کلان داده بررسی شوند: مسائل ذخیره سازی، مسائل مدیریتی، و مسائل پردازشی. هر یک از این موارد مجموعه بزرگی از مسائل پژوهشی فنی را به نوبه خود نشان میدهد.
1.4.1 مسائل مربوط به ذخیره سازی و انتقال
هر بار که رسانه ذخیره سازی جدیدی ابداع میشود مقدار داده رو به سمت انفجار میرود. آنچه که در مورد انفجار اخیر– تا حدی در رسانههای اجتماعی- متفاوت بود این است که هیچ رسانه ذخیره جدیدی در آن دخیل نبود. علاوه بر این، داده توسط هر کسی و هر چیزی(مانند دستگاه ها)- نه فقط، توسط افراد حرفهای مانند دانشمندان، روزنامه نگاران و نویسندگان- ایجاد میشود.
محدودیتهای تکنولوژی دیسک فعلی حدود 5 ترابایت در هر دیسک است. لذا، 1اگزابایت نیازمند 25000 دیسک است. حتی اگر یک اگزابایت داده بتواند در یک سیستم کامیپوتری واحد پردازش شود، قادر به پیوست به تعداد دیسکهای مورد نیاز نیست. دسترسی به آن داده باعث قطعی شبکههای ارتباطی فعلی میشود. فرض کنید که یک شبکه 1 گیگابتی در ثانیه دارای نرخ انتقال پایدار موثر 80% باشد، پهنای باند پایدار حدود 100 مگابایت است. بنابراین، انتقال یک اگزابایت حدود 2800 ساعت طول میکشد، اگر فرض کنیم که انتقال بتواند به صورت پایداری حفظ شود. ممکن است انتقال داده از یک نقطه تجمعی یا ذخیره سازی به نقطه پردازشی دیگر، به دلیل توانایی پردازشی، بیشتر طول بکشد!
دو راه حل به چشم میخورد. ابتدا، پردازش داده “در محل” و انتقال اطلاعات نتیجه، به عبارت دیگر، ” وارد کردن کد به داده” در برابر متد سنتی “وارد کردن داده به کد”و دوم، انجام تریاژ بر روی داده و تنها انتقال دادههایی که برای تحلیل پایین دستی مهم هستند. در هر مورد، یکپارچگی و اصل فراداده باید در زمان انتقال داده حقیقی رعایت شود.
1.4.2 مسائل مدیریتی
مدیریت، شاید، سخت ترین مشکل در بررسی کلان داده باشد. این مسئله از یک دهه پیش در طرحهای علوم الکترونیکی UK که در آن داده به صورت جغرافیایی توزیع شده است و توسط نهادهای متعدد “مدیریت شده” و به نهادهای متعددی تعلق دارد، دیده شده است. حل مسئله دسترسی، فرا داده، استفاده، به روزرسانی، مدیریت، و ارجاع (در کل) یک مسئله بزرگ ثابت شده است.
بر خلاف جمع آوری داده با متدهای دستی، که در آن پروتکلهای دقیق اغلب به منظور تضمین دقت و اعتبار دنبال میشوند، جمع آوری مجموعه داده دیجیتال خیلی راحت تر انجام میشود. غنی سازی نمایش داده دیجیتال استفاده از یک روش قراردادی برای جمع آوری داده را ممنوع کرده است. صلاحیت سنجی داده اغلب بیشتر بر دادههای از دست رفته یا پرتی به جای تلاش برای اعتبارسنجی هر آیتم تمرکز میکند. داده اغلب جزئی است مانند clickstream یا دادههای سنجشی. با توجه به حجم، اعتبارسنجی هر آیتم داده غیر عملی است: رویکردهای جدیدی برای سنجش، اعتبار و صلاحیت سنجی داده نیاز هستند.
منبع دادهها متغیر است- از نظر زمانی و فضایی، فرمت و متد جمع آوری. افراد در اشتراک گذری دادههای دیجیتال در رسانههایی که دسترسی به انها راحت است، سهم دارند: مستندات، تصاویر، ضبط صدا و تصویر، مدلها، رفتارهای نرم افزاری، طراحی واسط کاربر- با و بدون ارائه داده کافی که توضیح دهد که چه چیزی، چه زمانی، کجا، چه کسی، چرا و چگونه جمع آوری شده اند و منبع آنها چیست. هنوز هم این دادهها به آسانی برای بررسی و تحلیل در دسترس هستند.
هر چه جلوتر میرویم، حفظ اصل اطلاعات و داده به یک مسئله مهم تبدیل میشود. JASON [10] اشاره کرد که “هیچ روش پذیرفته شده کلی برای ذخیره داده خام،…. داده کاهش یافته، و…. کد و انتخاب پارامتر وجود ندارد که داده را تولید کند”. علاوه بر این، آنها نوشتند: “ما از هر راه حل مقاوم، متن باز، مستقل از پلت فرم برای این مسئله آگاه نیستیم”. تا انجا که میدانیم، این قضیه امروز هم صدق میکند. برای خلاصه، هیچ راه حل مدیریت کلان داده مناسبی وجود ندارد. این مسائل یک شکاف مهم را در ادبیات پژوهشی بر کلان داده نشان میدهند، و نیاز است که این شکاف پر شود.
1.4.3 مسائل پردازش
فرض کنید که یک اگزابایت داده نیاز است که در تمامیت خود پردازش شود. برای سادگی، فرض کنید داده به بلوکهای 8 کلمهای تقسیم شود، لذا 1 اگزابایت برابر 1K petabytes است. فرض کنید که یک پردازنده 100 دستور را در یک بلوک 5 گیگاهرتزی پردازش میکند، و زمان مورد نیاز برای پردازش انتها به انتها برابر 20 نانوثانیه است. برای پردازش 1K petabytes نیازمند مجموع زمان پردازش انتها به انتهای تقریبا 635 سال هستیم. بنابراین، پردازش موثر اگزابایت داده نیازمند پردازش موازی گسترده و الگوریتمهای تحلیلی جدید برای ارائه اطلاعات به موقع و عملی است.
|