عنوان فارسی مقاله: | روتینگ با قابلیت تحمل خطا برای خطاهای متعدد دایم و غیر دایم در سیستم محاسبات با کارایی بالا HPC |
عنوان انگلیسی مقاله: | Fault-tolerant Routing for Multiple Permanent and Non-permanent Faults in HPC Systems |
دانلود مقاله انگلیسی: | برای دانلود رایگان مقاله انگلیسی با فرمت pdf اینجا کلیک نمائید |
سال انتشار | 2010 |
تعداد صفحات مقاله انگلیسی | 7 |
تعداد صفحات ترجمه مقاله | 15 |
مجله | تکنیک ها و کاربردهای پردازش توزیع شده |
دانشگاه | دانشگاه بارسلونا ، اسپانیا |
کلمات کلیدی | شبکه های بهم متصل ، پایداری در برابر خطا ، مسیریابی تطبیقی |
نشریه | IEEE |
بخشی از ترجمه:
چکیده ترجمه:
امروزه شبکه های بهم متصل ، واحد های پردازشی سیستم های محاسباتی با کارائی بالا را بهم متصل ساخته و با آنها محاوره دارند. در این زمینه، خطاهای شبکه دارای تأثیر قابل ملاحظه ای می باشند زیرا بسیاری از الگوریتم های مسیریابی، برای پایداری در برابر خطاها طراحی نشده اند. از این رو، فقط یک خطای منفرد ممکن است پیام های موجود در شبکه را دچار اشکال سازد و اتمام اپلیکیشن ها را با مشکل روبرو سازد، و یا حتی منجر به پیکربندی های بن بست گردد. در این مقاله، ما یک متد مسیریابی مستعد در برابر خطا را معرفی کرده ایم تا بتوانیم خطاهای لینک دائم و غیر دائم که پویایی بالایی دارند را از بین ببریم. از آنجایی که این خطاها به صورت تصادفی در طول عملیات سیستم بروز میکند، متد ما مسیرهای گریز را برای پیام ها فراهم کرده و در عین حال، از بروز بن بست جلوگیری میکند.پیشنهاد ما از نواحی خطا دار و به وسیله ی روش های مسیریابی چند مسیره اجتناب میکند و از مزایای افزونگی مسیر ارتباطی بهره میبرد. ارزیابی کارائی، شامل سناریوهای تست ترکیبی بوده که صحت را اثبات کرده و سناریوهایی را که بر مبنای موجودیت دنباله هایی از سیستم های با کارائی بالاست را تست میکند. آزمایشات نشان داده است که متد ما به اپلیکیشن ها اجازه داده تا اجرای خود را حتی در صورت بروز خطا کامل سازند و افت کارائی را به ٣٠% کاهش دهند. واژگان کلیدی: شبکه های بهم متصل ، پایداری در برابر خطا ، مسیریابی تطبیقی ١.مقدمه در طی دهه های اخیر، تقاضا برای قدرت محاسباتی بیشتر، یک افزایش بدون توقفی را داشته است. این افزایش، ریشه ای در رشد تعداد کاربرد های محاسباتی پیچیده دارد. در ابتدا، قدرت محاسباتی فقط محدود به فیلد های پژوهشی علمی بود. اگرچه در طول چند سال اخیر، کاربرد های جدیدی نیز ایجاد شده اند که نیاز به قدرت محاسباتی بالایی داشته اند. این برنامه های جدید، شامل ایمن سازی DNA، پیش بینی آب و هوا، مطالعات زیستی و غیره بوده است. در این لحظه، اهمیت سیستم های HPC غیرقابل انکار می باشد، زیرا آنها گرایش جدیدی را به سمت مدل سازی رفتار روزانه و سبک زندگی جوامع مدرن باز کرده اند. این مورد در صورتی که ساده ترین جستجو در گوگل را که بر مبنای سیستم های HPC نیز میباشد را در نظر بگیریم، بدیهی است[١]. در اصل، با توجه به اهمیت این سیستم ها، ضروری است تا از وقفه های سرویس اجتناب کنیم، که این مورد در سیستم های حساس مانند سیستم های مرتبط با عملیات بحرانی-مأموریتی، بانکداری و اپلیکیشن های محسوس به محاسبات ضرورت پیدا میکند[٢].
بخشی از مقاله انگلیسی:
Abstract—
Abstract— The interconnection network communicates and links together the processing units of modern high performance computing systems. In this context, network faults have an extremely high impact since most routing algorithms were not designed to tolerate faults. Because of this, just a single fault may stall messages in the network, preventing the finalization of applications, or may lead to deadlocked configurations. In this paper we introduce a fault-tolerant routing method designed to solve a large number of dynamic permanent and non-permanent link faults. As failures appear randomly during system operation, our method provides escape paths for the stalled messages and, at the same time, avoids deadlock occurrences. Our proposal avoids faulty areas by means of multipath routing approaches, taking advantage of the communication path redundancy, as long as alternative paths are available. Performance evaluation consists of synthetic test scenarios for proving correctness, and test scenarios based on the availability traces of real high-performance systems. Experiments show that our method allows applications to successfully complete their executions even in the presence of a large number of faults, given performance degradations below 3% for a 1024-node system with up to 200 simultaneous link failures. Keywords: Interconnection Networks, Fault Tolerance, Adaptive Routing 1. Introduction Over recent decades, the computing power demand has shown a steady and undeniable increase. This increase has as origin the execution of a growing number of complex and computationally intensive applications. At first, the computing power was dedicated almost exclusively to scientific research fields. However, during the last few years new application areas also have began to require bigger amounts of computational power, highlighting the necessity of high-performance computing (HPC) systems. These emerging application areas include the DNA sequencing, weather forecasting, geological studies, etc.
عنوان فارسی مقاله: | روتینگ با قابلیت تحمل خطا برای خطاهای متعدد دایم و غیر دایم در سیستم محاسبات با کارایی بالا HPC |
عنوان انگلیسی مقاله: | Fault-tolerant Routing for Multiple Permanent and Non-permanent Faults in HPC Systems |