عنوان فارسی مقاله: | پاکسازی داده : مسائل و شیوه های فعلی |
عنوان انگلیسی مقاله: | Data Cleaning: Problems and Current Approaches |
دانلود مقاله انگلیسی: | برای دانلود رایگان مقاله انگلیسی با فرمت pdf اینجا کلیک نمائید |
سال انتشار | 2000 |
تعداد صفحات مقاله انگلیسی | 11 صفحه |
تعداد صفحات ترجمه مقاله | 18 صفحه |
مجله | – |
دانشگاه | لایپزیگ کشور آلمان |
کلمات کلیدی | – |
فهرست مطالب:
چکیده
۱ مقدمه
۲ مسائل پاکسازی داده
۱ ۲ مسائل تک منبعی
۲ ۲ مسائل و مشکلات چند منبعی
۳ شیوه های پاکسازی داده
۱ ۳ تحلیل داده
۲ ۳ تعریف تبدیل داده
۳ ۳ حل تعارض
۴ حمایت ابزاری
۱ ۴ آنالیز داده و ابزارهای فنی مهندسی
۲ ۴ ابزارهای پاکسازی تخصصی
۳ ۴ ابزارهای ETL
۵ نتایج
بخشی از ترجمه:
۱ مقدمه
پاکر ارتقاء کیفیت داده را برعهده دارد. در مجموعه های داده مانند فایل ها و پایگاههای داده، به خاطر غسازی داده که تنظیف یا حذف داده نیز نامیده می شود، مسئولیت خطا یابی و رفع آن و ناهمسانی ها داده به منظور املایی در طول ثبت داده، از دست رفتن اطلاعات یا غیر معتبر بودن سایر داده ها ، مشکلاتی در کیفیت داده پدید می آید. وقتی لازم باشد چند منبع داده باهم تلفیق شوند، مثلاً در انبارهای داده، سیستم های پایگاه داده وابسته یا سیستم های اطلاعاتی اینترنتی جهانی ، در این شرایط نیاز به پاکسازی داده شدیداً افزایش می یابد. علت این امر آن است که در نمایشات مختلف، منابع اغلب محتوی داده های اضافی می باشند. به منظور دسترسی به داده های درست و همسان، تلفیق داده های مختلف و حذف اطلاعات المثنی الزامی می باشد. انبارهای داده نیاز شدیدی به حمایت از فرایند پاکسازی داده دارند. آنها مقادیر زیادی از داده های منابع مختلف را دائماً بارگذاری و تجدید می کنند، به همین خاطر احتمال وجود داده های بی ارزش در این منابع ، بالا می باشد. به علاوه، از انبارهای داده در فرایند تصمیم گیری نیز استفاده شده است، به گونه ای که برای جلوگیری از بروز نتایج غلط ، تصحیح داده ها الزامی می باشد. به طور مثال، اطلاعات نامعلوم یا کپی شده ، آماره های نادرست یا گمراه کننده ای حاصل می کنند . به خاطر طیف وسیع ناهمسانی های حجم داده محض ، پاکسازی داده به عنوان یکی از بزرگترین مسائل انبارداری داده محسوب می گردد. در طول فرایند به اصطلاح ETL (استخراج، تبدیل، بارگذاری) نشان داده شده در شکل ۱، تبدیل داده به ترجمه طرح/ داده و تلفیق آن پرداخته و داده های ذخیره شده در انبار را فیلتر و باهم تلفیق می نماید. همان گونه که در شکل ۱ نشان داده شده است،فرایند پاکسازی داده در منطقه مرحله بندی داده قبل از بارگذاری داده های تبدیل شده در انبار صورت می گیرد. ابزارهای زیادی با عاملیت متفاوت از این وظایف حمایت می کنند، اما اغلب بخش قابل توجهی از کار پاکسازی و تبدیل به صورت دستی یا به کمک برنامه های کم سطح انجام می شود که ضبط و حفظ آنها کار دشواری می باشد. سیستم های پایگاه داده وابسته و سیستم های اطلاعات اینترنتی ، با مراحل تبدیل داده مشابه با انبارهای داده مواجه می شوند. به ویژه، برای استخراج یک بسته بندی برای هر منبع داده و یک واسطه برای یکپارچگی وجود دارد. تا کنون ، این سیستم ها از روند پاکسازی داده کمی حمایت کرده، و بر تبدیل داده تاکید می کنند. داده ها از قبل برای ورود به انبارهای داده باهم تلفیق نشده اند، اما لازم است از منابع متعددی استخراج شده، تبدیل و در طول اجرای تحقیق و جستجو باهم ترکیب شوند. تاخیرات رخ داده در روند پردازش و ارتباط قابل توجه بوده، به همین خاطر نیل به زمان پاسخگویی قابل قبول امری دشوار می باشد. پاکسازی داده در طول استخراج و تلفیق زمان پاسخگویی را افزایش می دهد اما نیل به نتایج تحقیق و جستجوی مناسب اجباری می باشد.
5. نتایج
در این مقاله مسائل مربوط به کیفیت داده در منابع داده طبقه بندی شده و بین مسائل و مشکلات سطح نمونه و طرح ، یک منبعی و چند منبعی تمایز قایل شود. در اینجا مراحل اصلی تبدیل و پاکسازی داده مطرح و بر نیاز به پوشش تبدیل داده وابسته به طرح و نمونه به شیوه ای یکپارچه تاکید شده است. به علاوه، ابزارهای پاکسازی داده تجاری را بررسی کردیم. اگر چه در این ابزارها تکنولوژی جدید پیشرفته است، اما به طور نمونه فقط بخشی از مسئله را پوشش داده و نیاز به تلاش دستی یا خود برنامه نویسی اساسی و قابل توجهی نیاز دارند. به علاوه، قابلیت همکاری و کاربرد آنها محدود است ( API اختصاصی و معرفی داده های متا). تا کنون تحقیقات کمی در مورد پاکسازی داده انجام شده است، اگرچه تعداد زیادی از ابزارها اهمیت و سختی مسئله پاکسازی را نشان می دهند. دراینجا چندین موضوع که نیاز به تحقیق بیشتر دارند را معرفی می کنیم. اول از همه، برای طراحی و اجرای شیوه بهترین زبان برای حمایت از تبدیل داده و طرح نیاز به کار بیشتری می باشد. به طور مثال، عملگرهایی نظیر ادغام ، تلفیق یا ترکیب نقشه در سطح نمونه (داده) یا طرح (داده های متا) بررسی شده اند اما امکان ساخت آنها با تکنیک های اجرایی مشابه نیز وجود دارد. در انبارداری داده و پردازش جستجو در منابع داده ناهمگن، مثلاً درسیستم های اطلاعاتی اینترنتی ، نیازی به پاکسازی داده نمی باشد. این محیط محدودیت های عملکردی بیشتری برای پاکسازی داده تحمیل می کنند که در طراحی شیوه های مناسب مد نظر قرار داده می شود. به علاوه، پاکسازی داده در مورد داده های نیمه سازمان یافته، مثلاً بر اساس XML ، احتمالاً از اهمیت به سزایی برخوردار باشد، مشروط به اینکه محدودیتهای ساختاری کاهش یافته و مقدار داده های XML به سرعت افزایش یافته باشد.
بخشی از مقاله انگلیسی:
1 Introduction
Data cleaning , also called data cleansing or scrubbing, deals with detecting and removing errors and inconsistencies from data in order to improve the quality of data. Data quality problems are present in single data collections, such as files and databases, e.g., due to misspellings during data entry, missing information or other invalid data. When multiple data sources need to be integrated, e.g., in data warehouses, federated database systems or global web-based information systems, the need for data cleaning increases significantly. This is because the sources often contain redundant data in different representations. In order to provide access to accurate and consistent data, consolidation of different data representations and elimination of duplicate information become necessary.
Data warehouses [6][16] require and provide extensive support for data cleaning. They load and continuously refresh huge amounts of data from a variety of sources so the probability that some of the sources contain “dirty data” is high. Furthermore, data warehouses are used for decision making, so that the correctness of their data is vital to avoid wrong conclusions. For instance, duplicated or missing information will produce incorrect or misleading statistics (“garbage in, garbage out”). Due to the wide range of possible data inconsistencies and the sheer data volume, data cleaning is considered to be one of the biggest problems in data warehousing. During the so-called ETL process (extraction, transformation, loading), illustrated in Fig. 1, further data transformations deal with schema/data translation and integration, and with filtering and aggregating data to be stored in the warehouse. As indicated in Fig. 1, all data cleaning is typically performed in a separate data staging area before loading the transformed data into the warehouse. A large number of tools of varying functionality is available to support these tasks, but often a significant portion of the cleaning and transformation work has to be done manually or by low-level programs that are difficult to write and maintain.
Federated database systems and web-based information systems face data transformation steps similar to those of data warehouses. In particular, there is typically a wrapper per data source for extraction and a mediator for integration [32][31]. So far, these systems provide only limited support for data cleaning, focusing instead on data transformations for schema translation and schema integration. Data is not preintegrated as for data warehouses but needs to be extracted from multiple sources, transformed and combined during query runtime. The corresponding communication and processing delays can be significant, making it difficult to achieve acceptable response times. The effort needed for data cleaning during extraction and integration will further increase response times but is mandatory to achieve useful query results.
عنوان فارسی مقاله: | پاکسازی داده : مسائل و شیوه های فعلی |
عنوان انگلیسی مقاله: | Data Cleaning: Problems and Current Approaches |
خرید ترجمه فارسی مقاله با فرمت ورد
خرید نسخه پاورپوینت این مقاله جهت ارائه