این مقاله انگلیسی در 17 صفحه در سال 2010 منتشر شده و ترجمه آن 21 صفحه بوده و آماده دانلود رایگان می باشد.
دانلود رایگان مقاله انگلیسی (pdf) و ترجمه فارسی (pdf + word) |
عنوان فارسی مقاله: |
رگرسیون غیر پارامتری در R
|
عنوان انگلیسی مقاله: |
Nonparametric Regression in R
|
دانلود رایگان مقاله انگلیسی: |
مقاله انگلیسی
|
دانلود رایگان ترجمه با فرمت pdf: |
ترجمه pdf
|
دانلود رایگان ترجمه با فرمت ورد: |
ترجمه ورد |
مشخصات مقاله انگلیسی و ترجمه فارسی |
فرمت مقاله انگلیسی |
pdf |
سال انتشار |
2010 |
تعداد صفحات مقاله انگلیسی |
17 صفحه با فرمت pdf |
رشته های مرتبط با این مقاله |
|
گرایش های مرتبط با این مقاله |
آمار ریاضی – ریاضی کاربردی
|
رفرنس |
دارای رفرنس در داخل متن و انتهای مقاله ✓ |
تعداد صفحات ترجمه تایپ شده با فرمت ورد با قابلیت ویرایش |
21 صفحه با فونت 14 B Nazanin |
فرمت ترجمه مقاله |
pdf و ورد تایپ شده با قابلیت ویرایش |
وضعیت ترجمه |
انجام شده و آماده دانلود رایگان |
کیفیت ترجمه |
مبتدی (مناسب برای درک مفهوم کلی مطلب)
|
کد محصول |
F1895
|
بخشی از ترجمه |
رابطه اعتبار آموزش و درآمد به نظر می رسد، به ویژه در جهت درآمد غیر خطی باشد (به خطوط شبکه در سطح رگرسیون نگاه کنید). رگرسیون جزئی در جهت هر یک از پیش بینی ها به نظر می رسد بسیار تغییر نکند، همانطورکه پیش بینی کننده دیگر متفاوت است، پیشنهاد می کند که مدل افزایشی برای این داده ها ممکن است مناسب باشد. ما چنین مدل زیر را در نظر می گیریم.
ما همچنین می توانیم اهمیت آماری هر پیش بینی کننده با حذف آن از مدل و انجام یک تست F-تقریبی افزایشی برای تغییر در مجموع باقیمانده مربعات بررسی کنیم. در تناسب مدل های جداگانه مذکور، دامنه رگرسیون های ساده محلی را به تنظیم کردیم.
اسپلاین های صاف
اسپلاین های صاف به عنوان راه حل برای مشکل ساده رگرسیون زیر مطرح می شوند: یافتن عملکرد bm (x) با دو مشتقۀ پیوسته که مجموع مربعات جریمه را به حداقل می رساند.
که h یک پارامتر صاف است، مشابه با عرض محله از برآوردگر چند جمله ای محلی است.
• اولین اصطلاح در معادله 1، مجموع باقیمانده مربع ها است.
• اصطلاح دوم یک مجازات شدیدی است که بیشتر می شود زمانیکه مشتقات ثانویه یکپارچه از تابع رگرسیون m00 (x) بزرگ است / یعنی زمانی که m (x) ‘خشن’ است (به سرعت شیب در حال تغییر است). انتهای انتگرال داده ها را محصور می کند.
• در حالت افقی، زمانی که ثابت صاف برای h = 0 تنظیم شده است (و اگر همه مقادیر x- متمایز باشند) ، bm (x) صرفا اطلاعات را درهم می زند؛ این شبیه به برآورد محلی رگرسیون با فاصله = 1 = n است.
• در حالت افقی دیگر، اگر h بسیار بزرگ باشد، سپس bm انتخاب خواهد شد تا bm00 (x) در همه جا 0 باشد، به این معنی است که حداقل مربعات خطی در سطح جهانی متناسب با داده است (رگرسیون محلی با محله های بسیار گسترده معادل است).
تابع bm (x) که معادله 1 را به حداقل می رساند یک اسپلاین مکعبی طبیعی با گره در مقدار متمایز مشاهده شده x5 می باشد . اگرچه این نتیجه به نظر می رسد که پارامتر n مورد نیاز است (هنگامی که تمام مقادیر x متفاوت هستند)، شدت مجازات محدودیت های بیشتری بر روی راه حل ها تحمیل می کند، که به طور معمول، تعداد معادل پارامترهای اسپلاین صاف را به طور قابل توجهی کاهش می دهد، و از bm (x) در تغیر داده ها جلوگیری می کند.
در واقع، انتخاب پارامتر صاف h به طور غیرمستقیم با تنظیم تعداد معادل پارامترها برای صاف کننده رایج است. زیرا یک تابع هدف صریح برای بهینه سازی وجود دارد، اسپلاین صاف بطور ریاضی از رگرسیون محلی ظریف تر است. به هر حال، کلی کردن اسپلاین های صاف به رگرسیون چندگانه، 6 سخت تر است و اسپلاین-صاف و رگرسیون-محلی با تعداد مشابه معادل پارامترها معمولا بسیار شبیه متناسب هستند.
یک تصویر در شکل 3 ظاهر می شود، مقایسه یک اسپیلین صاف با یک خط محلی متناسب با اجرای تعداد مشابه پارامترهای معادل (درجه آزادی) می باشد. ما از تابع نرم –اسپلاین همراه با یک مدل قبلی لس برای نشان دادن تناسب های جایگزین (هر کدام با 3.85 معادل پارامترها) به رابطه اعتبار با درآمد استفاده می کنیم:
ما رگرسیون خطی محلی را با استفاده از پیش بینی برای محاسبه مقادیر 100 متناسب در دامنه درامد، محاسبه می کنیم. دو مسطح بسیار شبیه هستند: خط تجزیه تناسب خطی محلی است؛ خط جامد اسپلاین صاف است.
2.3 انتخاب پارامتر صاف
هر دو رگرسیون محلی-چند جمله ای و اسپلاین های صاف دارای پارامتر صاف قابل تنظیم هستند. این پارامتر ممکن است با آزمایش و خطای بصری انتخاب شود، با انتخاب یک مقدار که صافی را در مقابل وفاداری به داده ها متعادل می کند.
روش های رسمی تر انتخاب پارامترهای صاف معمولا برای به حداقل رساندن خطای مجذور مربع تناسب، یا با استفاده از یک فرمول تقریبی از خطای مجذور مربع (مثلا، برآورد به اصطلاح افزونه) یا برخی از فرم های اعتبارسنجی متقابل تست می شود.
در اعتبارسنجی متقابل، داده ها به زیر مجموعه ها تقسیم می شوند (احتمالا شامل مشاهدات فردی)؛ این مدل به طور پیوسته متناسب هر زیر مجموعه را به نوبه خود حذف می کند؛ و سپس مدل متناسب برای پیش بینی پاسخ برای زیر مجموعه چپ استفاده می شود. تلاش برای این روش برای مقادیر مختلف پارامتر صاف مقداری را پیشنهاد خواهد داد که برآورد متقابل اعتبار سنجی خطای مجذور مربع را به حداقل می رساند . زیرا اعتبار سنجی متقابل بسیار محاسباتی است، تقریب ها و تعمیم ها اغلب استفاده می شود (به عنوان مثال، به وود ، 2000، 2004 مراجعه کنید).
2.4 رگرسیون غیر پارامتری افزودنی
مدل رگرسیون غیر پارامتری افزودنی است که توابع رگرسیون-سهمی mj با استفاده از یک رگرسیون ساده صاف تر مانند رگرسیون چند جمله ای محلی یا اسپلاین های صاف متناسب می شوند. ما رگرسیون اعتبار در درآمد و آموزش، با استفاده از تابع gam در بسته mgcv را توضیح دادیم (وود، 2000، 2001، 2004، 2006):
تابع s که در تعیین فرمول مدل استفاده می شود، نشان می دهد که هر شرایط متناسب با اسپلاین صاف است. درجه آزادی برای هر شرایط توسط اعتبار سنجی متقابل کلی یافت می شو.
در این مورد، معادل 3: 118 پارامتر برای مدت درآمد استفاده می شود، و 3: 177 برای دوره آموزشي؛ درجه آزادی برای مدل مجموع این اضافه 1 برای رگرسیون ثابت است.
داده های قبلی، داده های جدید را قاب بندی می کنند، مقادیر پیش بینی شده بر روی سطح رگرسیون جهت یافتن استفاده می شود، زودتر برای طراحی شکل 2 (صفحه 7) برای چندین مدل رگرسیون غیر پارامتری کلی متناسب با داده های مذکور محاسبه می شود. دو تناسب کاملا مشابه هستند. علاوه بر این، به دلیل اینکه بخشهای سطح رگرسیون افزودنی در جهت پیش بینی کننده (نگه داشتن ثابت پیش بینی کننده دیگر) موازی است، آن برای رسم هر تابع جزئی رگرسیون به طور جداگانه کافی است. این مدل فضیلت عملی افزودنی-رگرسيون است: این مسئله رگرسیون چند بعدی (در این مورد، فقط سه بعدی) برای یک سری از دو بعدی گراف های رگرسیون جزئی را کاهش می دهد. روش نمونه برداری برای اجزای gam این نمودار ها را تولید می کند، پاکت اطمینان 95 درصد اطمینان در اطراف تناسب نشان می دهد (شکل 5):
|