این مقاله انگلیسی ISI در نشریه الزویر در ۳۵ صفحه در سال ۲۰۱۶ منتشر شده و ترجمه آن ۲۹ صفحه بوده و آماده دانلود رایگان می باشد.
دانلود رایگان مقاله انگلیسی (pdf) و ترجمه فارسی (pdf + word) |
عنوان فارسی مقاله: |
یک روش مبتنی بر خوشه بندی برای بهبود کارایی در سیستم های توصیه گر مشارکت محور
|
عنوان انگلیسی مقاله: |
A Clustering Based Approach to Improving the Efficiency of Collaborative Filtering Recommendation
|
دانلود رایگان مقاله انگلیسی |
|
دانلود رایگان ترجمه با فرمت pdf |
|
دانلود رایگان ترجمه با فرمت ورد |
|
مشخصات مقاله انگلیسی و ترجمه فارسی |
فرمت مقاله انگلیسی |
pdf |
سال انتشار |
۲۰۱۶ |
تعداد صفحات مقاله انگلیسی |
۳۵ صفحه با فرمت pdf |
نوع مقاله |
ISI |
نوع نگارش |
مقاله پژوهشی (Research article) |
نوع ارائه مقاله |
ژورنال |
رشته های مرتبط با این مقاله |
مهندسی فناوری اطلاعات – مهندسی کامپیوتر |
گرایش های مرتبط با این مقاله |
تجارت الکترونیک – مدیریت سیستم های اطلاعاتی – مهندسی الگوریتم ها و محاسبات |
چاپ شده در مجله (ژورنال)/کنفرانس |
تحقیقات و کاربردهای تجارت الکترونیک |
کلمات کلیدی |
سیستم توصیه کننده فیلتر مشارکتی – نمودار همبستگی – خوشه سازی خودساز – کاهش ابعاد – الگوریتم رتبه بندی |
کلمات کلیدی انگلیسی |
Collaborative filtering recommender system – correlation graph – self-constructing clustering – dimensionality reduction – ranking algorithm |
ارائه شده از دانشگاه |
گروه مهندسی برق، دانشگاه ملی سان یات سن |
نمایه (index) |
Scopus – Master Journals – JCR |
شناسه شاپا یا ISSN |
۱۵۶۷-۴۲۲۳
|
شناسه دیجیتال – doi |
https://doi.org/10.1016/j.elerap.2016.05.001 |
لینک سایت مرجع |
https://www.sciencedirect.com/science/article/abs/pii/S1567422316300278 |
رفرنس |
دارای رفرنس در داخل متن و انتهای مقاله ✓ |
نشریه |
الزویر – Elsevier |
تعداد صفحات ترجمه تایپ شده با فرمت ورد با قابلیت ویرایش |
۲۹ صفحه با فونت ۱۴ B Nazanin |
فرمت ترجمه مقاله |
pdf و ورد تایپ شده با قابلیت ویرایش |
وضعیت ترجمه |
انجام شده و آماده دانلود رایگان |
کیفیت ترجمه |
مبتدی (مناسب برای درک مفهوم کلی مطلب)
|
کد محصول |
F2089 |
بخشی از ترجمه |
روش پیشنهادی
Itemrank مسئله کارایی را مدنظر قرار میدهد. زیرا ممکن است تعداد زیادی محصولات در تجارت الکترونیک وجود داشته باشد. ماتریس W، که دارای سایز M*M است، میتواند شدیداً بزرگ باشد. تکثیر W با Si(t) در رابطه (۴)، زمان زیادی را میگیرد و روش ItemRank را برای مقیاس بزرگ مسئله ناکارآمد میکند. ما یک الگوریتم خوشهبندی خودساخته (SCC)، [۳۹،۴۰] اجرا کردهایم که عمل کاهش بعد را برای تولید خوشهها استفاده میکند. کار پیشنهادی سپس با خوشهبندی مجدد ادامه مییابد. در نتیجه، کارایی ItemRank، میتواند بهبود یابد. در مقایسه با سایر روشهای کاهش بعد [۴۱، ۴۲، ۴۳، ۴۴]، SCC دارای مزایای زیادی است. خوشهبندی به صورت اتوماتیک انجام میگیرد و تعیین تعداد خوشه ها توسط کاربر، مورد نیاز نیست. در کنار آن، زمانی که شباهت خوشهها اندازهگیری گردید، هر دوی مراکز و واریانس خوشهها محاسبه میگردند. در پایان، اندازهگیری شباهت بهتر از بررسی مراکز در سایر روشها است.
روش ما شامل پنج گام است. برچسبگذاری کاربر، کاهش بعد، ایجاد گراف همبستگی، random walk و انتقال مجدد که در شکل ۱ نشان داده شده است. در کام برچسبگذاری کاربر، SCC، برای نگاشت برچسب کلاس به کاربر برای کمک به گام دوم انجام میگیرد تا مرحله دوم بتواند کار خود را به طور کارا انجام دهد. در گام کاهش بعد، SCC، مجدداً برای خوشهبندی تعدادی از گروه محصولات استفاده میگردد. محصولات مشابه، به گروه محصولات یکسانی تعلق دارند و محصولات غیرمشابه، به محصولات متفاوتی تعلق دارند. از آنجایی که تعداد گروه محصولات کوچکتر از تعداد محصولات است، ابعاد درگیر کاهش خواهد یافت. سپس یک گراف همبستگی که نشانگر رابطه داخلی بین گروه محصولات هست، ایجاد میگردد. بر اساس گراف همبستگی، یک سری از random walk ها اجراشده و یک لیست اولویت از گروه محصولات برای هر کاربر در گام چهارم ایجاد میگردد. در نهایت، در گام انتقال مجدد، لیست اولویت گروه محصولات به لیست اولویت تکی محصولات منتقل میگردد و یک لیست رتبهبندی شده از محصولات برای هر کاربر ایجاد میگردد.
در این مطالعه، ما ItemRank [17] را به عنوان هدف نهایی استفاده کرده ایم. به هر حال، روش ما میتواند با سایر روشها برای کاهش ابعاد و بهبود کارایی آنها کار کند.
گام ۱: برچسبگذاری کاربر
برای کاهش ابعاد به طور موثر، نیاز به تعریف برچسب کلاس برای کاربران داریم. ایده، گروهبندی کاربران درون خوشههایی است [۳۲]. کاربران مشابه، درون خوشههایی گروهبندی شده و کاربران غیرمشابه، درون خوشههای مختلفی قرار میگیرند. سپس تمام کاربران در یک گروه، برچسب یکسانی را دریافت میکنند. ما از الگوریتم SCC برای این هدف استفاده کردیم. الگوریتمهای خوشهبندی دیگری [۴۵،۴۶،۳۵] نیز میتوانند این کار را انجام دهند. اما، آنها نیاز دارند تا ای پیش در مورد تعداد کلاسها تصمیمگیری کنند. با الگوریتم SCC، ما فقط نیاز داریم تا برخی ثوابت معنادار را در طول فرآیند خوشه ایجاد کنیم.
برای اعمال SCC، ما شباهت ایجادشده میان کاربران را به صورت رتبهبندی شده ایجاد کردیم. با این حال، مردم دارای شخصیت های مختلفی هستند و برای رأی دادن به محصولات از سلایق مختلف خود استفاده میکنند. در واقع برخی سخاوتمند بوده و نمرات بیشتری را در نظر میگیرند و در مقابل برخی سخاوتمند نیستند و نمرات کمتری را در نظر میگیرند. حال میتوان با توجه به رتبهبندی یک کاربر، برای دیگران توصیه در نظر گرفت. فرض کنید که دو کاربر شبیه به یکدیگر هستند و شکل موج ایجادشده توسط رتبهبندی آنها یکسان است. بنابراین ما برای رتبه دهی به کاربران از رابطه زیر استفاده میکنیم:
آنالیز پیچیدگی
ما آنالیز پیچیدگی محاسباتی راهکار پیشنهادی را در این بخش انجام دادهایم. در گام برچسبگذاری کاربر، ما شباهت بین کاربرها و خوشههای هر یک را محاسبه کردیم. بازگو میکنیم که N، تعداد کاربران را نشان میدهد و M، تعداد محصولات را نشان میدهد. پیچیدگی زمانی این گام برابر است با O(NzM). در گام کاهش ابعاد، ما شباهت بین الگوهای بار و خوشههای موجود را بررسی کردیم. زیرا تعداد الگوهای ویژگی برابر با M است و تعداد محصولات گروهبندی شده برابر با q است. در گراف همبستگی ایجادشده، هر وزن wij نشانگر رابطه (۲۲) است.
نتایج آزمایشها
برای ارزیابی کارایی الگوریتم مبتنی خوشهبندی خودساخته (SCC)، ما یک مجموعه از آزمایشها را بر روی چندین مجموعه داده انجام دادیم. برای همگرایی، ما روش SCC خود را در این بخش ارزیابی کردیم. ما همچنان، روش SCC را یا سایر راهکارهای مبتنی بر فیلترگذاری مقایسه کردیم. سه متریک برای مقایسه بر روی دقت توصیهها ارائه شده است: درجه توافق (DOA)، میانگین خطا و خطای میانی ریشه. یک اعتبارسنجی برای آزمایشها ارائه شده است. در این آزمایشها، ورودی، مجموعه دادهها با ۵ زیرمجموعه متفاوت است. سپس عملیات پنج بار تکرار میگردد. هر زمان، چهار زیرمجموعه از آن پنج زیرمجموعه، به عنوان دادههای آزمایشی شناخته میشوند. اگر P، مجموعه تمام محصولات باشد، Li، مجموعه شامل محصولات کاربر ui است که دارای مجموعه آموزشی است و Ti، مجموعهای شامل محصولات کاربر ui است. DOA به صورت زیر تعریف میگردد:
که در آن، U مجموعه تمام کاربران و |U|، سایز U است و DOAi، اندازهگیری برای کاربر ui با رتبه تعیین شده است. DOAi، به صورت زیر محاسبه میگردد
مجموعه داده
پنج مجموعه داده، MovieLens، yahoo Movie، Amazon Video، BookCrossing و Epinions برای آزمایشها این بخش استفاده شدهاند. مجموعه داده MovieLens [51]، به صورت عمومی موجود است و توسط موسسه تحقیقاتی GroupLens برای اجرا در سیستم های توصیه گر ارائه شده است. آن شامل ۹۴۳ کاربر، ۱۶۸۲ محصول و ۱۰۰۰۰۰ رتبه دریافتی از کاربر است. به عبارت دیگر، N=943 و M=1682 است. هر سطر از مجموعه داده به صورت یک، سه تایی (ui,pj,rij) نشان داده شده است. بنابراین، این مجموعه داده دارای ۱۰۰۰۰۰ عنصر است. مجموعه داده Yahoo Movie، شامل اولویت جامعه Yahoo Movie است و شامل ۷۶۴۲ کاربر و ۱۱۹۱۶ محصول و ۲۲۱۳۶۷ اولویت برای هر کاربر است. هر سطر از آن، به صورت یک سه تایی (ui,pj,rij) نشان داده شده است. مجموعه داده ویدوئی آمازون، شامل تقسیمبندی ویدئوهای آمازون است که در طی ۱۸ سال، شامل ۱۴۳٫۷ میلیون تا سال ۲۰۱۴ است. آن شامل ۲۹۷۸ کاربر، ۳۱۱۰۲ محصول و ۹۹۸۱۶ اولویت برای هر کاربر است. هر سطر از آن نشانگر یک سه تایی است که در طی چهار هفته جمعآوری شده است. در نهایت مجموعه داده پایانی، شامل ۴۹۸۱ کاربر، ۹۸۴۶ محصول (کتاب) و ۱۰۹۰۱۸ اولویت برای هر کاربر است. هر عنصر در این مجموعه داده با یک سه تایی (Ui, Pj rij ) نمایش داده میشود که در آن . مجموعه داده Epinionos از Paolo massa در طی ۵ هفته جمعآوری شده است که شامل ۲۳۲۲ کاربر، ۴۵۷۱ محصول و ۱۳۶۹۸۴ اولویت برای کاربر است. هر ورودی از مجموعه داده به عنوان یک سه تایی (ui,pj,rij) است که در آن rij عضو {۱,۲,۳,۴,۵} است. ویژگیهای این پنج مجموعه داده در جدول ۵ خلاصه شده است.
نتایج و بحث
ما اثربخشی، دقت و کارایی، راهکار پیشنهادی SCC را توسط مقایسه با سایر روشهای فیلترگذاری شامل Itemrank نشان دادهایم. همچنین iExpand [30]، PRM2 [33]، BiFu [34] و ICRRS [36]. همان طور که قبلاً توضیح داده شد، ItemRank از هیچ تکنیکی استفاده نمیکند و iExpand از روش LDA برای گروهبندی محصولات استفاده میکند و PRM2 از روش SVD برای تولید یک نمایش کاهش بعد یافته استفاده میکند و BiFu از روش K-means، برای خوشهبندی کاربران و محصولات بهره میگیرد و ICRRS از روش کاهشی که برای تجزیه ارزیابی استفاده میشود، بهره میگیرد. برای یک مقایسه امن، ما یک برنامه برای ItemRank، iExpand، PRM2، BiFu، ICRRS و SCC نوشتیم. تمام برنامههای نوشته شده از C++ در ویژوال استودیو ۲۰۱۳ بهره بردند. ما از کامپیوتری با Intel®Core(TW) i7-4790k CPU، با ۴ GHz و ۳۲GB RAM استفاده کردیم که دارای ویندوز۷ برای اجرای برنامهها بود. برای سهولت، ما از تعداد خوشه یکسانی برای گروهبندی کاربران و محصولات SCC، iExpand و BiFu استفاده کردیم. چون LDA و روش K-means نیاز به خوشههایی برای تصمیمگیری پیشرفته دارند. در هر مورد ما از SCC برای یافتن تعداد خوشهها استفاده کردیم. جدول ۶ نشانگر تعداد خوشهها برای خوشهبندی کاربران و محصولات تقسیمبندی شده درون SCC، iExpand و BiFu است. برای مثال، محصولات MovieLens دارای ۲۵ خوشه برای iExpand، Bifu و SCC هستند.
جدول ۷ و جدول ۸ و جدول ۹ نشانگر مقایسه MAE، RMSE و DOA هستند. بین ItemRankهای ایجادشده، Item Rank، iExpand و BoFu و ICRRS و SCC وجود دارند. توجه داشته باشید که این جداول دارای مقداری هستند که به صورت عملی جمعآوری شده است.
برای MAE و RMSE، مقادیر کوچکتر دارای کارایی بهتری هستند. در تضاد با آن، برای DOA، مقادیر بزرگتر دارای اولویت بهتری هستند. همان طور که میتوان دید، ItemRank و SCC دارای اجرای بهتری هستند و MAE و RMSE دارای مجموعه داده بهتری هستند. برای مثال، هر دوی ItemRank و SCC، دارای مقدار کمتری از ۱٫۰۶۱ در MAE برای مجموعه داده آمازون هستند و هر دو دارای مقدار کمینه ۱٫۰۴۴ در RMSE برای مجموعه داده Epinions هستند. PRM2، دارای اجرای بهتری از MAE و RMSE است. بنابراین برای DOA و SCC، اجرای بهتری در هر پنج شرایط مجموعه داده رخ میدهد. جدول ۱۰ نشانگر مقایسه زمان اجرا، بین روشهای متفاوت هستند. ما میتوانیم ببنیم که SCC سریع تر از سایر روشها اجرا میگردد. توجه داشته باشید که ItemRank، دارای کاهش بعد بهتری در مقایسه با سایرین است که در رابطه (۴) نشان داده شده است. برای مثال، سایز ۳۱۱۰۲*۳۱۱۰۲ برای مجموعه داده ویدئویی آمازون است. مصرف ماتریس بهینه برای آن توصیه میگردد. در نتیجه، ItemRank دارای زمان بیشتری در حدود ۴۳۶۷۸٫۷۲ ثانیه است که در جدول نشان داده شده است. به جای آن، SCC حالت خوشهبندی خودساخته را برای کاهش ابعاد استفاده کرده است و دارای ۳۱۱۰۲ گروه و ۲۶ نوع محصول است. بنابراین، سایز ماتریس همبستگی استفاده شده در رابطه (۲۶) نشان داده شده است. در نتیجه، SCC میتواند خیلی سریع تر اجرا گردد که دو حدود ۸٫۹۹ ثانیه خواهد بود. BiFu و iExpand دارای کاهش بعد توسط K-means و LDA هستند که دارای مصرف زمان است. بنابراین، iExpand و BiFu کندتر از SCC اجرا میشوند. برای مثال، iExpand دارای ۱۳۳۱٫۲۵ ثانیه است. ماتریس همبستگی W، در رابطه (۴)، دارای سایز M*M در رابطه (۲۶) است که دارای سایز q در q است. بنابراین SCC باید در مدت زمان (M/q)2 اجرا گردد که سریعتر از ItemRank است.
SCC باید در مدت زمانی برابر با ۴۵۰۰ برابر سریع تر از ItemRank برای MovieLens اجرا گردد. به هر حال، از جدول ۱۰ دیده میشود که SCC، فقط ۲۴۴ برابر سریع تر از ItemRank اجرا میگردد. یک دلیل این است که سایر گامها دارای زمان بیشتری هستند. جدول ۱۱ و جدول ۱۲، نشانگر شکست در زمان اجرای ItemRank و SCC است. توجه داشته باشید که سایز ستونها در جدول نشانگر سایز ماتریس مرتبط با آن است. ItemRank دارای دو گام است: ایجاد گراف همبستگی (CGC) و RandomWalk (RW) و SCC دارای پنج گام است: برچسبگذاری کاربر (UL) کاهش ابعاد (DR)، ایجاد گراف همبستگی (CGC)، Random Walk (RW) و re-transformation (RT). بررسی MovieLens نشان میدهد. در حالت کلی ۴۳٫۸۳ ثانیه است و ItemRank دارای ۱٫۲۵ در گام CGC است.
|