عنوان فارسی مقاله: | اجرای محاسبات ابری روش شاخص گذاری XML با استفاده از هادوپ |
عنوان انگلیسی مقاله: | A Cloud Computing Implementation of XML Indexing Method Using Hadoop |
دانلود مقاله انگلیسی: | برای دانلود رایگان مقاله انگلیسی با فرمت pdf اینجا کلیک نمائید |
سال انتشار | 2012 |
تعداد صفحات مقاله انگلیسی | 10 صفحه |
تعداد صفحات ترجمه مقاله | 15 صفحه |
مجله | اطلاعات هوشمند و سیستم های پایگاه داده |
دانشگاه | چونگ سینگ کشور تایوان |
کلمات کلیدی | هادوپ، محاسبات ابری، شاخص گذاری XML ، پرس و جوی XML ، روش شاخص گذاری خوشه بندی گره . |
نشریه اسپرینگر | Springer |
فهرست مطالب:
چکیده
۱ مقدمه
۲ کارهای وابسته
۳ مقدمات و کلیاتی پیرامون هادپ
۴ سیستم پیشنهاد شده
۱ ۴ ساخت شاخص (شاخص سازی)
۲ ۴ ارزیابی پرس و جو
۵ نتایج آزمایشی
۱ ۵ عملکرد شاخص سازی
۲ ۵ عملکرد ارزیابی پرس و جو
۶ نتایج
بخشی از ترجمه:
چکیده:
با افزایش داده ها با نرخ باورنکردنی، توسعه فناوریهای محاسبات ابری یکی از عوامل بسیار مهم برای پیشرفت تحقیقات محسوب می شود. آپاچی هادوپ به چارچوب محاسبات ابری منبع باز با کاربردی وسیع تبدیل شده است که سیستم فایل توزیع شده ای برای پردازش داده های بزرگ مهیا می سازد. در این مقاله، اجرای محاسبات ابری یک روش شاخص گذاری XML موسوم به NCIM ( روش شاخص گذاری خوشه بندی گره) را مطرح می کنیم که توسط تیم تحقیق برای شاخص گذاری و پرس و جوی تعداد بزرگی از اسناد XML با استفاده از توسعه یافت. نتایج آزمایشی نشان می دهد که NCIM برای محیط محاسبات ابری مناسب می باشد. کارایی و توان عملیاتی 1200 پرس و جو در ثانیه برای مقدار عظیم پرس و جوها با استفاده از خوشه 15 گرهی به کاربردهای بالقوه NCIM برای پردازش پرس و جوی سریع اسناد بزرگ اینترنتی اشاره می کند.
۱ مقدمه
XML (زبان علامتگذاری توسعه پذیر) به عنوان زبان علامتگذاری اسناد وب کاربرد دارد. اما نمایش XML از لحاظ پردازش جست و جو کارآمد نیست. برای تسریع روند پردازش پرس و جو، تعدادی شیوه شاخص گذاری برای اسناد XML پیشنهاد شده است. اکثر این کارها مکانیسم هایی برای ساخت شاخص ها و روشهایی برای ارزیابی پرس و جو ارائه می دهند که با یک یا چند سند به شیوه ای متمرکز سرو کار دارند. در دنیای واقعی، یک پایگاه داده XML می تواند حاوی تعداد زیادی سند XML باشد که نیازمند مقیاس پذیری روشهای شاخص گذاری XML برای نیل به عملکرد بالا می باشند.
مفهوم محاسبات ابری، مورد توجه زیادی قرار گرفته است، زیرا راه حلی برای افزایش تقاضاهای داده هاارائه نموده و زیرساختار محاسباتی توزیع شده مشترکی عرضه می نماید. با افزایش شهرت محاسبات ابری، آپاچی هادوپ به یک چارچوب محاسبات ابری منبع باز با کاربردی گسترده تبدیل شده است که سیستم فایل توزیع شده ای برای پردازش داده های بزرگ فراهم می نماید. در صورت موجود بودن پلت فرم یا چارچوب محاسباتی موازی به راحتی قابل دسترسی، قدرتمند و کم هزینه، درک و فهم هرچه بهتر نحوه حل یک مسئله خاص اهمیت دارد.
اگرچه مقالات زیادی در مورد موضوع روشهای پرس و جو و شاخص گذاری XML منتشر شده است، اما اکثر آنها به نمونه داده های کوچک اجرا شده در سیستم متمرکز محدود شده اند. با مشهور شدن محاسبات ابری، مسائل مربوط به تجزیه موازی XML اخیراً مورد بحث قرار گرفته است. اما، با توجه به سطح دانش و آگاهی ما، کارهای بسیار کمی وجود دارد که مسئله شاخص گذاری و همچنین پرس و جوی اسناد XML در محیط های توزیع شده بزرگ را مورد بررسی قرار دهد. کشف این مسئله که آیا امکان مقیاس بندی روشهای شاخص گذاری موجود XML وجود دارد یا خیر، به خاطر وسعت اسناد XML در وب یک مسئله مهم به شمار می رود.
در کار قبل، یک روش شاخص گذاری موسوم به NCIM را مطرح کردیم که اسناد XML را به گونه ای موثر متراکم و فشرده کرده و از پرس و جوهای پیچیده به صورت کارآمد حمایت می کند. در این مقاله، از چارچوب هادوپ برای معرفی مکانیسمی برای ساخت و ذخیره توزیع شده شاخص ها و همچنین پردازش توزیع شده پرس و جو برای تعداد بزرگی از اسناد بزرگ XML براساس NCIM استفاده می کنیم.
6. نتایج
در این مقاله سیستمی را پیشنهاد کردیم که شاخص هایی را ساخته و حجم وسیعی از پرس و جوها را برای تعداد زیادی از اسناد XML با استفاده از چارچوب پردازش می کند. تطابق و تناسب NCIM ، که توسط تیم تحقیق توسعه یافت،برای تعداد زیادی از اسناد XML در این مقاله شرح داده شده است. نتایج آزمایشی نشان می دهد که سیستم پیشنهاد شده می تواند با فایلهای ورودی بزرگ XML به گونه ای کارآمد سرو کار داشته باشد. نتایج آزمایشی همچنین نشان می دهد کارایی مد پردازش پرس و جوی ناپیوسته بسیار بالاتر از مد پیوسته می باشد. در مد پردازش ناپیوسته، کارایی 1200 پرس و جودر هر ثانیه برای حجم وسیعی از پرس و جوها با استفاده از خوشه 15 گرهی، به کاربردهای بالقوه NCIM برای پردازش سریع پرس و جوی اسناد بزرگ اینترنتی اشاره می کند.
بخشی از مقاله انگلیسی:
1 Introduction
XML (eXtensible Markup Language) is widely used as the markup language for theweb documents. The flexible nature of XML enables it to represent many kinds ofdata. However, the representation of XML is not efficient in terms of queryprocessing. A number of indexing approaches for XML documents are proposed toaccelerate query processing. Most of these works provide mechanisms to constructindexes and methods for query evaluation that deal with one or small amount ofdocuments in a centralized fashion. In the real world, an XML database may contain alarge number of XML documents which require the existing XML indexing methodsto be scalable for high performance.The concept of the “cloud computing” has been received considerable attentionbecause it provides a solution to the increasing data demands and offers a shared, distributed computing infrastructure [2]. With the increasing popularity of cloudcomputing, Apache Hadoop has become a widely used open source cloud computingframework that provides a distributed file system for large scale data processing.When a low-cost, powerful, and easily accessible parallel computational platform isavailable, it is important to better understand how it can solve a given problem [3].Although there are many published papers on the subject of XML indexing andquerying methods, most of them are confined to small data samples running in thecentralized system. As cloud computing becomes popular, the issues of parallel XMLparsing have been discussed recently. However, to the best of our knowledge, there isvery little work that addresses the problem of indexing as well as querying XMLdocuments on large distributed environments. Exploring whether the existingXML indexing methods can be scaled out is an important issue due to the enormousXML documents in the Web. In our previous work [1], we presented an indexing method called NCIM (NodeClustering Indexing Method) which compresses XML documents effectively andsupports complex queries efficiently. In this paper, we use Hadoop framework topresent a mechanism for distributed construction and storage of indexes as well asdistributed query processing for a large number of big XML documents on the basisof NCIM.The contributions of our work are as follows. We modify the NCIM (NodeClustering Indexing Method) and design a system for indexing and querying a largenumber of XML documents by using the Hadoop cloud computing framework. Wealso consider two job processing modes, streaming query vs. batched query, for queryevaluation in our experiments. The results show that the batched query processingwill have much better throughput.The rest of this paper is organized as follows. In the next section, we review relatedwork. Section 3 describes preliminaries on Hadoop. Section 4 presents the proposedsystem that builds indexes for XML datasets and answers massive queriessimultaneously. Experimental results are discussed in Section 5. Finally, Section 6concludes the paper. 2 Related WorkMany index methods and query evaluation algorithms have been proposed in theliterature. The most widely used approaches are structural summary and structuraljoin. The structural summary indexing methods merge the same sub-structures in anXML document and form a smaller tree structure, which is used as the index of theXML document. Thus, instead of matching an input query against the XML documentitself, the summarized index tree is used. The DataGuide [4] is a typical model. Astrong DataGuide holds all the P-C (Parent-Child) edges in an XML file. Each node ina DataGuide has an extent for the corresponding nodes in the original XMLdocument. Therefore, the P-C (Parent-Child) and A-D (Ancestor-Descendant)relationships can be evaluated using strong DataGuide directly. However, DataGuideis not feasible for twig queries, since the structure of the summarized index is not thesame as the original XML document.
عنوان فارسی مقاله: | اجرای محاسبات ابری روش شاخص گذاری XML با استفاده از هادوپ |
عنوان انگلیسی مقاله: | A Cloud Computing Implementation of XML Indexing Method Using Hadoop |