این مقاله انگلیسی ISI در نشریه الزویر در ۹ صفحه در سال ۲۰۱۵ منتشر شده و ترجمه آن ۲۹ صفحه بوده و آماده دانلود رایگان می باشد.
دانلود رایگان مقاله انگلیسی (pdf) و ترجمه فارسی (pdf + word) |
عنوان فارسی مقاله: |
تجمیع برنامه نویسی شبکه ی ژنتیک و مسئله ی کوله پشتی برای پشتیبانی از خوشه بندی رکورد در پایگاه های داده ی توزیع شده
|
عنوان انگلیسی مقاله: |
Combination of genetic network programming and knapsack problem to support record clustering on distributed databases
|
دانلود رایگان مقاله انگلیسی: |
مقاله انگلیسی
|
دانلود رایگان ترجمه با فرمت pdf: |
ترجمه pdf
|
دانلود رایگان ترجمه با فرمت ورد: |
ترجمه ورد |
مشخصات مقاله انگلیسی و ترجمه فارسی |
فرمت مقاله انگلیسی |
pdf |
سال انتشار |
۲۰۱۵ |
تعداد صفحات مقاله انگلیسی |
۹ صفحه با فرمت pdf |
نوع مقاله |
ISI |
نوع نگارش |
مقاله پژوهشی (Research article) |
نوع ارائه مقاله |
ژورنال |
رشته های مرتبط با این مقاله |
مهندسی کامپیوتر |
گرایش های مرتبط با این مقاله |
مهندسی الگوریتم ها و محاسبات – برنامه نویسی کامپیوتر – علوم داده |
چاپ شده در مجله (ژورنال)/کنفرانس |
سیستم های خبره با برنامه های کاربردی |
کلمات کلیدی |
برنامه نویسی شبکه ی ژنتیک – خوشه بندی پایگاه داده – مسئله ی کوله پشتی – خوشه بندی رکورد |
کلمات کلیدی انگلیسی |
Genetic network programming – Database clustering – Knapsack problem – Record clustering |
ارائه شده از دانشگاه |
دانشکده تحصیلات تکمیلی علوم و مهندسی، دانشگاه یاماگوچی |
نمایه (index) |
Scopus – Master Journals – JCR |
شناسه شاپا یا ISSN |
۰۹۵۷-۴۱۷۴
|
شناسه دیجیتال – doi |
https://doi.org/10.1016/j.eswa.2015.10.006 |
لینک سایت مرجع |
https://www.sciencedirect.com/science/article/abs/pii/S0957417415006934 |
رفرنس |
دارای رفرنس در داخل متن و انتهای مقاله ✓ |
نشریه |
الزویر – Elsevier |
تعداد صفحات ترجمه تایپ شده با فرمت ورد با قابلیت ویرایش |
۲۹ صفحه با فونت ۱۴ B Nazanin |
فرمت ترجمه مقاله |
pdf و ورد تایپ شده با قابلیت ویرایش |
وضعیت ترجمه |
انجام شده و آماده دانلود رایگان |
کیفیت ترجمه |
مبتدی (مناسب برای درک مفهوم کلی مطلب)
|
کد محصول |
F1986 |
بخشی از ترجمه |
۲٫۲٫ مسئله ی کوله پشتی
KP یک مسئله ی بهینه سازی ترکیبی است که مچموعه ای از اقلام را مدیریت می کند. هر کدام از این اقلام با یک جرم و مقدار هستند که شماره ی هر قلم را برای شامل شدن در یک مجموعه مشخص می کند به طوریکه وزن کل کمتر یا برابر با محدودیت داده شده است و مقدار کل تا جای ممکن بزرگ است. KP به صورت پیش رو تعریف می شود:
بیشینه کردن ، مشروط که S برابر با مقدار کل کوله پشتی (سایت)؛ i شماره ی قطعه ؛ xi تعداد قطعات i ؛ vi مقدار (تشابه به قاعده ی رهبرِ سایت) قطعه ی i ؛ wi وزن (اندازه ی داده) قطعه ی i؛ W برابر با ظرفیت سایت است.این بهینه سازی با اجازه دادن به هر قطعه (قلم ) برای بیش از یک بار اضافه شدن به سایت ها، می تواند مسئله ی تکرار را مدیریت کند.
مسئله ی کوله پشتی در این مقاله از طریق برنامه نویسی پویای استاندارد برای مسئله ی کوله پشتی ۰/۱ حل می شود. به ما اجازه دهید تا آرایه ای دو بعدی را با i ردیف و w ستون تعریف کنیم. مقدار کوله پشتی را در زمان لحاظ کردن اقلام با شماره قلم را نشان می دهد و وزن کلی انها بوسیله ی معادله ی ۲ محاسبه می شود.
قدم اول محاسبه کردن است، سپس بر مبنای مقادیر محاسبه می گردد. روندی مشابه برای محاسبه ی تکرار می شود. بعد از اتمام محاسبه ی ، مقدار بیشینه در میان همه ی به عنوان پاسخ مسئله انتخاب می شود.
در ان تحقیق، برنامه نویسی پویای استاندارد به کار گار گرفته شده تا KP را حل کند و توزیع قواعد توزیع شده بوسیله ی GNP در هر سایت را اداره نماید. قواعدی که با پوشش داده ی زیاد هستند، رهبرهای هر سایت خواهند بود و کاربردِ KP، تشابه بین قواعد رهبر و قواعد باقی مانده را در نظر می گیرد (که به عنوان مقدار قلم (قاعده) در KP در نظر گرفته می شود) و پوشش قواعد (که به عنوان وزن در KP در نظر گرفته می شود) باید مطابق با ظرفیت های سایت باشد.بنابراین، قواعد مشابه به یک قاعده ی رهبر، اساسا در یک سایت قرار داده می شوند. توضیحات پیاده سازی کاربرد KP در توزیع قاعده به تفصیل در بخش ۴٫۲٫ قابل دسترسی است.
۳٫ برررسی ادبیات علمی
روش پیشنهاد شده از الگوریتم GNP برای داده کاوی استفاده می کند که در Mabu ارائه شده است و روش ارائه شده برای مسئله ی ظرفیت انباره ی تخصیص قطعه در پایگاه های داده ی توزیع شده ای که در Ozsu and Valduriez نشان داده شده به کار گرفته می شود. این تحقیق شامل پیاده سازی برنامه نویسی شبکه ی ژنتیک (GNP) برای داده کاوی و برنامه نویسی پویای استاندارد می شود تا مسئله ی کوله پشتی (KP) را برای قاعده ای که بر مبنای خوشه بندی است، حل کند. مسئله ی ظرفیت انباره، خوشه بندی پایگاه داده را معرفی می کند و معرفی مفهوم KP برای حل کردنِ مسئله یکی از نکات منحصر به فردِ روش ارائه شده است. علاوه بر این، روش ارائه شده، گزینش تصادفی جزیی ویژگی را در استخراج قواعد فراهم می کند که می تواند الگوهای متداول در پایگاه داده را شناسایی کرده و کیفیت خوشه بندی را بهبود ببخشد. روش ارائه شده با توجه به ویژگی های بالا یک خوشه بندی رکورد خودکار ارائه می کند که قصد دارد تا یک سیستم پشتیبانی تصمیم برای خوشه بندی رکورد در پایگاه های داده باشد.
ادبیات علمی کنونی مرتبط به تخصیص قطعه Rahimi,Parand and Riahi است. این تحقیق یک رویکرد ارائه می کند که به طور همزمان به طور عمودی قطعات داده ایجاد می کند و در سایت قطعات را به سایت های مناسب تخصیص می دهد. الگوریتم انرژی پیوند (BEA) یا اندازه ی همبستگی بهتری به کار گرفته می شود که کیفیت خوشه های ویژگی ایجاد شده را بهبود می بخشد. BEA می تواند از طریق شناسایی اقلام متداول بین رکورد ها در پایگاه داده روابط خوبی بین ویژگی ها یافته شوند. روش پیشنهاد شده مجموعه های الگوی متداول را نیز شناسایی می کند اما برای شناسایی یک قطعه بندی افقی خودکار یا خوشه بندی رکورد است نه برای قطعه بندی عمودی ( همان طور که بوسیله ی این ادبیات علمی ارائه شده).
عنوان خوشه بندی مرتبط کنونی یک یادگیری وزن ویژگی خودکار است که بوسیله ی Saha and Das ارائه شده است. این مقاله نوعی جدید از الگوریتم خوشه بندی حالات k فازی را برای داده ی مطلق با یادگیری وزن ویژگی خودکار، ارائه و بررسی می کند. این روش به طور خودکار با وزن های زیاد ویژگی ها همراه است که در شناسایی الگوهای خوشه بندیِ داده در الگوریت حالات k فازیِ مطلق مفید هستند. روش پیشنهاد شده در این مقاله مجموعه های الگوی متداول برای ویژگی ها (خصوصیات) را نیز شناسایی می کند تا عملکرد خوشه بندی را بهبود ببخشد که در بخش ۴٫۱٫۳٫ توضیح داده می شود و ضمنا، روش ارائه شده می تواند مسئله ی ظرفیت انباره را اداره کند که در این ادبیات علمی حل نشده است.
تنظیمات مناسب انقلایبیِ سیستم های یادآوری معنایی خودکار موضوع مرتبط دیگری است که بوسیله ی Cuzzola, Jovanovic, Bagheri, & Gasevic ارائه شده است. این مقاله یک ساختار تنظیم پارامتر (PTA) برای خودکار کردنِ کار تنظیم کردن مقادیر پارامتر ابزار یادگیری معنایی با محاسبات تکاملی ارائه می کند. استفاده از محاسبه ی تکاملی در جهت یافتن تجمیع های مناسبِ ویژگی ها برای حل کردن مسئله و استفاده از گزینش وزن ویژگی، تشابه با روش ارائه شده است. اما مشکل این مقاله (یادگیری معنایی) متفاوت از روش ارائه شده در این مقاله است. مسئله ی هدفی این مقاله یک خوشه بندی رکورد با یک مسئله ی محدودیت ظرفیت انباره ی اضافی است.
۴٫ تجمیع مسئله ی کوله پشتی و GNP
پیاده سازی خوشه بندی رکورد به دو بخش تنظیم می شود: استخراج قاعده ی GNP و توزیع قاعده بر مبنای برنامه نویسی پویای استاندارد برای حل کردن مسئله ی کوله پشتی که در بخش ۴٫۱ و ۴٫۲ توضیح داده می شود. علاوه بر این، تحلیل پیچیدگیِ روند خوشه بندی کل در بخش ۴٫۳ تشریح می شود.
۴٫۱٫ استخراج قاعده ی GNP
GNP برای استخراج قواعد از پایگاه داده، بوسیله ی تحلیلِ ساختار پایگاه داده به کار گرفته می شود و شامل موارد زیر می شود:
مقدار ویژگی ها: تعداد ویژگی ها در مجموعه ی داده. هر ویژگی به چندین گره تقسیم می شود که وابسته به تنوع و محدوده های مقدار (فاصله ی بین مقدار کمینه تا مقدار بیشینه) آن هستند..
مقدار داده: تعداد رکوردها در مجموعه ی داده
تنوع داده: رکوردهای مختلف تا چه میزان در مجموعه ی داده موجود هستند. اگر همه ی رکوردها در مجموعه ی داده مختلف باشد، تنوع ۱۰۰% است، اگر نصف این رکوردها در این مجموعه ی داده مختلف باشند، تنوع ۵۰% . است و اگر همه ی رکوردها در مجموعه ی داده یکسان باشند، تنوع برابر با ۱ روی ضرب تعداد داده در ۱۰۰% است. برای مثال، در جدول ۴ که در صفحه ی بعد نشان داده خواهد شد، شش نوع داده در مجموع ۳۱۰ داده وجود دارد پس تنوع برابر است با: .
GNP برای استخراج قواعد از مجموعه داده از طریق تحلیل همه ی رکوردها به کار گرفته می شود. ساختارهای ژنوتیپ و فنوتیپِ GNP به ترتیب در شکل ۳ و جدول ۱ تشریح می شوند. هر گره در شکل ۳ دارای شماره ی گره (۱-۱۱) مخصوص به خودش است و در جدول ۱، اطلاعات گره برای هر شماره گره تشریح می شود. اندازه ی برنامه وابسته به تعداد گره ها است که روی مقدار قواعد ایجاد شده بوسیله ی برنامه تاثیر می گذارد.
گره داوری در پیاده سازی داده کاوی، یک ویژگی مجموعه داده را ارائه می کند که بوسیله ی Ai ارائه می شود و یک شاخص ویژگی مانند قیمت، سهام و غیره را نشان می کند و Ri شاخص محدوده ی مقدار ویژگی را نشان می دهد. برای مثال، Ai=A نشان دهنده ی ویژگی قیمت است و Ri=1 محدوده ی مقدار [۰,۵۰] و Ri=2 محدوده ی [۵۱,۸۰] را نشان می دهد. گره های پردازش، نقطه ی شروعِ بخش گره های داوری را نشان می دهد که از طریق اتصالشان به صورت بخش بخش اجرا می شود. بخش های گره ها که از هر گره پردازش شروع می شوند از طرقی خط نقطه چین a,b,c ارائه می شوند. یک بخش گره جریان می یابد تا زمانی که پشتیبان برای تجمیع بعدی، آستانه را ارضا نمی کند. گره ها با ویژگی هایی که پیش از این در بخش ظاهر شده اند، کنار گذاشته خواهد شد. قواعد کاندید استخراج شده بوسیله ی برنامه ی شکل ۳ از مجموعه داده ی جدول ۲ در جدول ۳ نشان داده می شود. در جدول ۳، سه قاعده بوسیله ی بخش گره از هر گره پردازش استخراج می شود.
|