دانلود رایگان مقاله انگلیسی + خرید ترجمه فارسی
|
|
عنوان فارسی مقاله: |
طبقه بندی و پس پردازشی اسناد با استفاده از تجزیه کننده تصحیح خطا |
عنوان انگلیسی مقاله: |
Classification and Postprocessing of Documents Using an Error-correcting Parser |
|
مشخصات مقاله انگلیسی (PDF) | |
سال انتشار | 1995 |
تعداد صفحات مقاله انگلیسی | 5 صفحه با فرمت pdf |
رشته های مرتبط با این مقاله | ریاضی و مهندسی کامپیوتر |
گرایش های مرتبط با این مقاله | ریاضی کاربردی، مهندسی الگوریتم و محاسبات |
مجله | تجزیه و تحلیل سند و شناخت |
دانشگاه | موسسه علوم کامپیوتر و ریاضی کاربردی، دانشگاه برن سویس |
شناسه شاپا یا ISSN | ISSN 0-8186-7128-9 |
رفرنس | دارد |
لینک مقاله در سایت مرجع | لینک این مقاله در سایت IEEE |
نشریه | IEEE |
مشخصات و وضعیت ترجمه فارسی این مقاله (Word) | |
تعداد صفحات ترجمه تایپ شده با فرمت ورد با قابلیت ویرایش و فونت 14 B Nazanin | 10 صفحه |
ترجمه عناوین تصاویر و جداول | ترجمه شده است |
ترجمه متون داخل تصاویر | ترجمه نشده است |
ترجمه متون داخل جداول | ترجمه نشده است |
درج تصاویر در فایل ترجمه | درج شده است |
درج جداول در فایل ترجمه | درج شده است |
درج فرمولها و محاسبات در فایل ترجمه به صورت عکس | درج شده است |
- فهرست مطالب:
چکیده
1. مقدمه
۲. اصول تئوری
3. شرح مسئله و راه حل پیشنهادی
۴. نتایج و آزمایشها
۵. بحث و نتیجهگیری
- بخشی از ترجمه:
5. بحث و نتیجهگیری
یک ماژول پس پردازشی برای پردازش خودکار چک در این مقاله پیشنهاد شده است. این بر اساس تجزیهکننده خطا برای زبان منظم است. روش روی تعداد زیادی داده واقعی و مصنوعی تست شده است و کارایی خیلی خوبی نشان داده شده است.
در زمینه طبقهبندی و دقت درستی-خطا با بیش از ۲۰۰۰ چک یک دستهبندی درست با نرخ ۱۰۰ درصد با آستانه خطای مناسب T=2 به دست آمده است. یکی دیگر از نقاط قوت روش این است که میتواند با سادگی با انواع جدید کدینگ لاین تطبیق یابد.
اوایل ماژولهای پس پردازشی عمدتاً در صنایع بکار گرفته میشدند بهطور مثال بهصورت اکتشافی طراحی شدهاند. یک نقطهضعف جدی این روش این است که تمام ماژول پس پردازشی اگر نوع جدیدی از چک در حساب ایجاد شود و یا یک نوع قدیمی آن دوباره تعریف شود نیاز به طراحی مجدد دارد و در مقابل آن در سیستم موجود همه فرمتهای تعریفشده میتواند در یک پایگاه داده نگهداری شود و بهصورت خودکار به اتوماتای حالت محدود مطابق با خودشان تبدیل شوند بنابراین هر بهروزرسانی یا تغییرات کدینگ لاین میتواند بهوسیله سیستم ما با هزینه تقریباً صفری بکار گرفته شوند.
یک جایگزین تئوری برای روش پیشنهادی در این مقاله این نیست که یک کدینگ لاین را با استفاده از اتوماتای حالت محدود نشان دهیم بلکه بهوسیله یک مجموعه محدود از همه نمونههای ممکنش آن را نشان میدهیم. و از یک الگوریتم برای محاسبه مسافت ویرایشی رشته بجای تجزیهکننده تصحیح-خطا استفاده کنیم.
با توجه به اینکه تعداد کدینگ لاینهای متفاوت در هر نوع چک محدود هستند این روش با یک روش پیشنهادی در این مقاله از دیدگاه تئوری برابر است بااینحال در عمل میتوان انتظار داشت بسیار کندتر باشد.
نهایتاً تمایل داریم که تجزیهکننده ذکرشده در بخش ۲ محدود به کاربرد ذکرشده در بخش ۳ نباشد. این روش بیشتر یک ابزار عمومی است که ممکن است کاربردهایی در خیلی از کارهای پس پردازشی متنی OCR داشته باشد.
- بخشی از مقاله انگلیسی:
5 Discussion and Conclusions
A postprocessing module for automatic check processing was proposed in this paper. It is based on an error correcting parser fo regular languages. The method has been tested on a large number of real and syntesized data, and has shown very good performance, in terms of classification and error-correcting accurracy, and computational efficiency. In an experiment with over 2’000 real checks, a correct classification rate of 100% has been achieved with an appropriate error threshold T = 2. One additional strength of the method is that it can be easily adapted to new types of coding lines. Earlier (commercial) postprocessing modules were mainly ”handcrafted” , i.e. heuristically designed1. A serious drawback of this approach is that the whole postprocessing module has to be redesigned from scratch if a new type of check is to be taken into account, or an old one is redefined. By contrast, in the present system, all format definitions can be kept in a database and automatically converted into their corresponding fsa2. Thus, any updates or modifications of the coding line format definitions can be handled by our system at almost zero cost. A theoretical alternative to the method proposed in this paper is not to represent a coding line by means of a fsa, but by the finite set of all its possible instances, i.e. words, and to use an algorithm for string edit distance computation [9] instead of the error-correcting parser. As the number of different coding lines is finite for any type of check, this method is equivalent to the one proposed in this paper from the theoretical point of view. In practice, however, it can be expected much slower because of the large number of different prototype strings that are to be tested. Finally, we would like to mention that the parser described in Section 2 is not restricted to the application described in Section 3. It is rather a general tool that may have applications in many other OCR contextual postprocessing tasks.
دانلود رایگان مقاله انگلیسی + خرید ترجمه فارسی
|
|
عنوان فارسی مقاله: |
طبقه بندی و پس پردازشی اسناد با استفاده از تجزیه کننده تصحیح خطا |
عنوان انگلیسی مقاله: |
Classification and Postprocessing of Documents Using an Error-correcting Parser |
|