دانلود رایگان ترجمه مقاله به سمت خوشه بندی XML معنایی (Siam سال ۲۰۰۶)

 

 

این مقاله انگلیسی در نشریه Siam در ۱۲ صفحه در سال ۲۰۰۶ منتشر شده و ترجمه آن ۲۹ صفحه بوده و آماده دانلود رایگان می باشد.

 

دانلود رایگان مقاله انگلیسی (pdf) و ترجمه فارسی (pdf + word)
عنوان فارسی مقاله:

خوشه بندی XML معنایی

عنوان انگلیسی مقاله:

Toward Semantic XML Clustering

دانلود رایگان مقاله انگلیسی
دانلود رایگان ترجمه با فرمت pdf
دانلود رایگان ترجمه با فرمت ورد

 

مشخصات مقاله انگلیسی و ترجمه فارسی
فرمت مقاله انگلیسی pdf
سال انتشار ۲۰۰۶
تعداد صفحات مقاله انگلیسی ۱۲ صفحه با فرمت pdf
نوع نگارش
مقاله فصلی (Chapter Item)
نوع ارائه مقاله کنفرانس
رشته های مرتبط با این مقاله مهندسی کامپیوتر
گرایش های مرتبط با این مقاله برنامه نویسی کامپیوتر – مهندسی الگوریتم ها و محاسبات – علوم داده – طراحی صفحات وب
چاپ شده در مجله (ژورنال)/کنفرانس مجموعه مقالات کنفرانس بین المللی SIAM در سال ۲۰۰۶ در داده کاوی (SDM)
ارائه شده از دانشگاه دانشگاه کالابریا، ایتالیا
شناسه دیجیتال – doi https://doi.org/10.1137/1.9781611972764.17
لینک سایت مرجع https://epubs.siam.org/doi/10.1137/1.9781611972764.17
رفرنس  دارای رفرنس در داخل متن و انتهای مقاله
نشریه Siam
تعداد صفحات ترجمه تایپ شده با فرمت ورد با قابلیت ویرایش  ۲۹ صفحه با فونت ۱۴ B Nazanin
فرمت ترجمه مقاله pdf و ورد تایپ شده با قابلیت ویرایش
وضعیت ترجمه انجام شده و آماده دانلود رایگان
کیفیت ترجمه

مبتدی (مناسب برای درک مفهوم کلی مطلب) 

کد محصول F2073

 

بخشی از ترجمه

اخیراً، اهمیت خلاصه سازی داده XML افزایش می‌یابد، اساسا با هدف تعریف ترکیب‌های برای خوشه‌ها با ساختار مشابه است. رویکردها از مدل‌های نمایش مبتنی بر گراف و تطبیق درخت پیشنهادی استفاده می‌کنند. XSketch یک مدل خلاصه اصلاح شده است که مسئله تخمین انتخاب مسیر موجود را در محیط کلی داده XML با گراف ساختاریافته با مقادیر عناصر بررسی می‌کند. ساخت یک خلاصه دقیق بر اساس فرضیات آماری است که فقدان مسیر دقیق و ارزش اطلاعات را در خلاصه جبران می‌کند. به هر حال، ایجاد یک XSketch یک مسئله NP سخت تشریح شده است، بنابراین یک استراتژی پالایش اکتشافی باید استفاده شود.
نیاز برای سازمان دهی داده XML بر طبق ویژگی‌های ساختاری و محتوایی؛ با توجه به افزایش ناهمگونی منابع XML چالش برانگیز شده است. به هر حال، کاووش داده XML از نقطه نظر ترکیب محتوا/ساختار هنوز در مرحله اولیه است، و هیچ رویکردی برای ارائه قابلیت‌های موثر برای خوشه بندی XML معنایی وجود ندارد. اولین تلاش در [۶] داده شده است، که اعمال تکنیک خوشه بندی تفکیکی را به اسناد XML نشان داده شده در یک مدل فضای برداری با ویژگی‌های مبتنی بر ‌تگ و متن اعمال می‌کند.
یک نمایش جایگزین، به نام BitCube، در [۱۸] به عنوان شاخص بیت مپ ۳ بعدی سه تایی < سند، مسیر عناصر-XML، کلمه> ارائه داده است. شاخص‌های BitCube می‌توانند برای تقسیم اسناد به خوشه ها، با استفاده از فاصله بیتی و سنجش شهرت دستکاری شوند. به منظور افزایش سرعت پاسخ به پرس و جو، عملیات برش/تاس/پیش بینی برای زیر بخش‌های نتیجه شده از فاز خوشه بندی اجرا می‌شود. به هر حال، هیچ تصمیم مهمی توسط مولفین در مورد بهبود ممکن خوشه بندی سند ارائه نشده است. به طور کل، رویکرد از معایب معمولی مدل‌های پیش نمایش بولین، مانند فقدان معیار تطبیق جزیی و سنجش طبیعی رتبه بندی اسناد رنج می‌برد.
تولید ویژگی‌ها برای داده XML در [۱۶] عمیق تر بررسی شده است، جایی که تفسیرها، ساختارها و اطلاعات هستی شناسی با هم ترکیب می‌شوند. به هر حال، در اینجا تمرکز بر ایجاد ویژگی‌های مناسب در راستای اهداف دسته بندی نظارت شده داده XML است.
طرح مقاله. باقی مقاله به شرح زیر سازمان یافته است. بخش ۲ اصطلاح شناسی و نمادهای سودمندی، و پیش زمینه ضروری بر مفاهیم تاپل درختی، آیتم، و تراکننش برای دامنه داده XML ارائه می‌دهد. بخش ۳ تشریح می‌کند که چگونه ویژگی‌های XML به صورت معنایی به اطلاعات نحوی در آیتم‌های تاپل درختی XML با دانش هستی شناسی واژگان دست می‌یابد. تاکید ویژه این بخش بر روش‌های جدید ابهام زدایی از حس ‌تگ است. بخش ۴ فریم ورکی را برای خوشه بندی تراکنش‌های XML ارائه می‌دهد. بخش ۵ ارزیابی ‌آزمایش‌های را گزارش می‌دهد که اثربخشی فریم ورک خوشه بندی را گزارش می‌دهد. بخش ۶ نتایج برجسته و نکات امیدوار کننده برای پژوهش‌های آینده بیان می‌کند.

۲٫ پیش زمینه
۲٫۱ مسیرها و درخت‌های XML
یک درخت T یک چندتایی است، به مجموعه‌ای از گره‌ها اشاره دارد، ریشه متماییز T است، به مجموعه یال‌های (بدون دور) اشاره دارد، و تابعی از ارتباط یک گره با یک ‌تگ در الفبای است. فرض کنید Tag، Att، و Str الفبایی از نام ‌تگ ها، صفات، و رشته‌ها هستند. در یک درخت XML، XT یک جفت ، به طوریکه : ۱) T یک درخت تعریف شده در الفبای است، که نماد برای اشاره به مدل محتوای استفاده می‌شود؛ ۲) با توجه به ؛ ۳) تابعی از رشته‌های مرتبط با گره برگ T است.
یک مسیر p XML یک توالی از نمادها در است. نماد با نام تگ عنصر ریشه سند متناظر است. یک مسیر XML می‌تواند دو نوع باشد: مسیر تگ ؛ اگر ، یا مسیر کامل باشد، اگر برقرار باشد. به به عنوان مجموعه‌ای از مسیرهای کامل در XT اشاره می‌کنیم.
فرض کنید یک درخت XML است، و یک مسیر XML است. کاربرد p برای XT شناسایی مجموعه گره‌های است به طوری که، برای هر ، دنباله‌ای از گره ها، یا مسیر گره، با ویژگی‌های زیر وجود دارد: ۱) و ؛ ۲) فرزند ، برای هر ؛ ۳) برای هر . است.
علاوه بر این، می‌گوییم که یک مسیر به یک درخت XML یک پاسخ حاصل می‌کند، که بسته به نوع مسیر تعریف می‌شود. در مورد مسیر تگ p، پاسخ p بر XT دقیقاً مجموعه‌ای از شناسه گره است، بنابراین داریم . برای یک مسیر کامل p، پاسخ p بر XT به عنوان مجموعه‌ای از مقادیر رشته‌ای مرتبط با گره‌های برگ شناخته شده با p تعریف می‌شود، به همین ترتیب داریم . برای یک مسیر کامل p، پاسخ p بر XT به عنوان مجموعه‌ای از مقادیر رشته‌ای مرتبط به گره‌های برگ شناخته شده توسط pتعریف می‌شود، .

۲٫۲ تاپل‌های درخت XML.
تاپل‌ها مفهوم تاپل را در یک پایگاه داده رابطه‌ای همانند سازی می‌کنند و بسطی از وابستگی‌های تابعی برای محیط XML پیشنهاد می‌کنند. در یک پایگاه داده رابطه‌ای، یک تاپل یک تابع از هر صفت با مقداری از دامنه متناظر است. برطبق [۸]، تعریف‌های زیر را ارائه می‌دهیم:
تعریف ۲٫۱ با توجه به XT از درخت XML، یک تاپل درخت یک زیر درخت ماکسیمال XT است، به طوری که بر هر ( ‌تگ یا کامل) مسیر p در XT، پاسخ حداقل یک عنصر است.
به به عنوان مجموعه‌ای از تاپل‌های درخت از XT اشاره می‌کنیم.
مستقیما، یک تاپل درخت یک نمایش درخت (یا زیر درختی) از مجموعه کاملی از مفاهیم متمایز است که بر طبق معنا شناسی ساختاری درخت اصلی با هم همبسته هستند. علاوه بر این، تاپل‌های درخت استخراج شده از همان درخت، ساختار یکسانی را حفظ می‌کنند، در حالی که روش‌های متفاوتی از محتوای مربوطه ساختاری را منعکس می‌کند که می‌تواند طبیعتآ از درخت اصلی استنباط شده باشد.
مثال ۱٫ درخت XML نشان داده شده در شکل ۱ را در نظر بگیرید، که دو مقاله علمی را از آرشیو DBLP نشان می‌دهد. هر گره داخلی دارای ‌تگ منحصربفردی است که به نام ‌تگ اشاره می‌کند،در حالی که هر گره برگ نیز با نام و مقدار یک صفت برچسب خورده است، یا نماد S و رشته مربوطه با مدل محتوای #PCDATA متناظر است. مسیر پاسخ‌ها می‌تواند به سادگی محاسبه شود: برای مثال، مسیر dblp.article.title مجموعه‌ای از شناسه‌های گره را حاصل می‌کند، در حال که مسیر dblp.article.author.S مجموعه رشته {‘Hartmut Liefke’, ‘Dan Suciu’} را کسب می‌کند.
سه تاپل درخت می‌تواند از مثال درخت (شکل ۲) استنتاج شود. یک تاپل درختی با شروع از زیررخت راست با ریشه در عنصر dblp استخراج شود. دو تاپل درخت در عوض با شروع از زیردرخت چپ با ریشه در dblp استخراج می‌شود، از آنجایی که در این زیر دخت دو مسیر dblp.article.author وجود دارد، هریک مسیر پاسخ متماییزی را متناظر با نویسنده مقاله کسب می‌کنند.

 

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا