دانلود رایگان ترجمه مقاله طبقه بندی اسناد متنی مبنی بر ماشین ‌بردار پشتیبان مربع حداقل با تجزیه مقدار واحد – 2011

دانلود رایگان مقاله انگلیسی دسته بندی اسناد متنی بر اساس ماشین ‌های دارای بردار پشتیبان مربع حداقل با تجزیه مقدار واحد به همراه ترجمه فارسی

 

عنوان فارسی مقاله دسته بندی اسناد متنی بر اساس ماشین ‌های دارای بردار پشتیبان مربع حداقل با تجزیه مقدار واحد
عنوان انگلیسی مقاله Text Document Classification based-on Least Square Support Vector Machines with Singular Value Decomposition
رشته های مرتبط مهندسی کامپیوتر و فناوری اطلاعات، مدیریت سیستم های اطلاعاتی و رایانش ابری
کلمات کلیدی طبقه بندی متن، ماشین های دارای بردار پشتیبان مربع حداقل، تجزیه مقدار واحد
فرمت مقالات رایگان

مقالات انگلیسی و ترجمه های فارسی رایگان با فرمت PDF آماده دانلود رایگان میباشند

همچنین ترجمه مقاله با فرمت ورد نیز قابل خریداری و دانلود میباشد

کیفیت ترجمه کیفیت ترجمه این مقاله متوسط میباشد 
مجله مجله بین المللی کاربرد های کامپیوتر – International Journal of Computer Applications
سال انتشار 2011
کد محصول F667

مقاله انگلیسی رایگان (PDF)

دانلود رایگان مقاله انگلیسی

ترجمه فارسی رایگان (PDF)

دانلود رایگان ترجمه مقاله

خرید ترجمه با فرمت ورد

خرید ترجمه مقاله با فرمت ورد
جستجوی ترجمه مقالات جستجوی ترجمه مقالات

  

فهرست مقاله:

چکیده
1.مقدمه
2. پیش پردازش
2.1 روش انتخاب کلمات کلیدی
2.2 مدل فضای برداری
3. تجزیه مقدار واحد
3.1 روش تجزیه به کمک SVD
4. طبقه بندی
4.1 ماشین های بردار پشتیبان
4.1.1 حالت خطی قابل جداسازی
4. 2 SVM مربع حداقل
5. راه کار ما
6. نتایج آزمایشی
7. نتیجه گیری و تحقیقات آینده

 

بخشی از ترجمه فارسی مقاله:

2. پیش پردازش
برای دریافت تمام کلمات مورد استفاده در یک متن دلخواه، نیاز به فرایند نشاندار كردن وجود دارد؛ یعنی با حذف تمام علایم نگارشی و تعویض جدول‌بندی و سایر مشخصه ها به جز متن توسط نیم‌فاصله ها سند متنی را به جریانی کلمات تقسیم می‌کنیم. سپس از این نمایش نشان‌دار برای پردازش بیشتر استفاده می کنیم. جهت کاهش ابعاد مجموعه کلمات، سند مورد نظر را می شود با پالایش و قطع ریشه کلمات کوچک تر کرد.
در این بخش روش پیش پردازش ارایه شده را برای ایجاد مدل بهینه فضای برداری معرفی می‌کنیم. روش پیش پردازش ارایه شده منجر به ایجاد بهینه مدل فضای برداری در کم ترین پیچیدگی زمان می شود.
در راه کار پیش پردازش، به جمع آوری تمام کلمات وقفه می پردازیم که معمولاً موجودند. از مقادیر و کد های ASCII هر حرف بدون در نظر گرفتن کوچکی یا بزرگی آن ها استفاده کرده و با جمع کردن مقدار ASCII متناظر هر حرف به تولید یک کلمه می رسیم. به کلمه متناظر یک شماره اختصاص داده و آن ها را مرتب می کنیم.
مثال کلمه “and” را در نظر گیرید که مقادیر ASCII متناظر حرف هایش به ترتیب برابر a=97 ، n=111 و d=101 است. در نتیجه مقدار کلی برای کلمه “and” برابر 309 است. به طور مشابه برای کلمه to”” برابر 127+122=249 است. اما در این راه کار احتمال دارد جمع اسکی مقادیر دو کلمه همان طور که در زیر آمده با هم برابر باشند؛ مثلاً در کلمه “ask” برابر 97+115+107=319 و در کلمه her”” برابر 104+101+111= 319 است.
راه حل مشکل فوق این است که در حالت مقایسه، می توان مقایسه را در جمع مقادیر اسکی انجام داده و در آرایه متناظر، رشته ای از کلمات وقفه را در نظر گرفت. بنا براین می‌توان با استفاده از این رشته مقایسه را انجام داده و مطمئن شویم هیچ کلمه ای از بین نمی رود. در ضمن باید زیر مجموعه‌ای از رشته ها را ایجاد کنیم که دارای جمع مقادیر اسکی و فقط برای مقایسه با آن زیر مجموعه کافی باشند.
برای جستجوی مقادیر ASCII از تک حروف هایی استفاده کردیم که در روش جستجوی هم پوشانی کلمات برای یافتن سریع مقدار متناظر کاربرد داشتند.
ارایه فوق از الگوریتم قطع ریشه کلمات حاملی استفاده می‌کند که در قطع ریشه کلمات برای پردازش بهتر سند کاربرد دارد. قطه کننده ریشه کلمات حامل به پنج مرحله تقسیم می شود که مرحله 1 پسوند های i و مراحل 2 تا 4 پسوند های d را حذف می کنند. پسوند های مرکب d به پسوند های واحد d در هر لحظه تبدیل می شوند. بنابراین مثلاً اگر کلمه ای با icational پایان یابد، مرحله 2 آن را به icate و مرحله 3 به ic کاهش می دهد. در انگلیسی سه مرحله اول لازم و ضروری هستنند. مرحله 5 کار پیچیده تری انجام می دهد.

7. نتیجه گیری و تحقیقات آینده
در این مقاله از قطع ریشه کلمات به روش پیش پردازش استفاده کردیم که بر اساس ASCII بود تا کلمات وقفه را حذف کرده و کلمات کلیدی را از افعال و اسامی داخل سند بیابیم. در یافتن کلمات کلیدی از راه کار آنتروپی محور استفاده کردیم که بهترین راه برای کشف کلمات کلیدی در اسناد ورودی بود. هم چنین برای کاهش ابعاد ماتریس کلمه – سند ورودی، SVD را به کار بستیم.
این مقاله الگوریتم جدیدی را به نام LS-SVM معرفی می‌کند که ترکیبی از مزایا LSI و SVM را با هم دارد. نتایج آزمایشات هم تأیید می کنند که LS-SVM روشی بسیار کاربردی و مؤثر در طبقه بندی اسناد است. در تحقیقات آینده تمرکز خود را بر افزایش مناسب بودن و انطاف پذیری قالب های پیش پردازشی و طبقه بندی خود در اسناد دارای چند قالب ادامه خواهیم داد.

بخشی از مقاله انگلیسی:

2. PREPROCESSING

In order to obtain all words that are used in a given text, a tokenization process is required, i.e. a text document is split into a stream of words by removing all punctuation marks and by replacing tabs and other non-text characters by single white spaces. This tokenized representation is then used for further processing. In order to reduce the size of the set of words describing document can be reduced by filtering and stemming. In this section, we describe our proposed preprocessing method for creating the optimistic vector space model. Our proposed preprocessing method leads to the optimal creation of the vector space model with less time complexity. In our preprocessing approach we collect all the stopwords, which are commonly available. Now uses the ASCII values of each letter without consider case(either lower case or upper case) and sum the each letter corresponding ASCII value for every word and generate the number. Assign number to corresponding word, and keep them in sorted order. Suppose for example the word ―and‖, corresponding ASCII value of a=97,n=111and d=101then the total word ―and‖ value is 309.similarily for word ―to‖ is 127+122=249. But in this approach there is chance that the ascii sum of the two word’s values can be same as shown with the below example , the word ―ask‖ sum value is 97+115+107=319 and the word ―her‖ sum value is 104+101+111=319. Solution for above mentioned problem is during the comparison we can compare with the ascii sum value and in the corresponding array we can take stopwords string. So that we can compare with the string and confirm that will be no loss of key words and also we should create a subset of strings with same ascii sum so that it is enough to compare with only that subset. For searching of ASCII values we used for individual letters used interpolation search method to get quick corresponding value. The above proposal incorporates that into a porter stemming algorithm for stemming that gives effective preprocessing of document. The Porter stemmer is divided into five steps, in step1 removes the i-suffixes and step 2 to 4the d-suffixes. Composite d-suffixes are reduced to single d-suffixes one at a time. So for example if a word ends icational, step 2 reduces it to icate and step 3 to ic. Three steps are sufficient for this process in English. Step 5 does some tidying up.

7. CONCLUSION AND FUTURE WORK

In this paper, we used preprocessing method stemming with ASCII based, to eliminate the stopwords and find keywords from the verbs and nouns from the document. Finding keywords we used entropy based approach which is best to find the keywords in the input documents. Used SVD method is to reduce the dimensionality of the input term-document matrix. This paper proposes new algorithm called LS-SVM which combines the advantages of LSI and SVM. The experiment results also confirm that LS-SVM is a very practical and effective method for classification of documents. In future work, we will continue our focus on improving the efficiency and scalability of our preprocessing and classification schemes especially in the multiple theme documents.

 

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا