این مقاله انگلیسی در ۲۱ صفحه منتشر شده و ترجمه آن ۲۵ صفحه بوده و آماده دانلود رایگان می باشد.
دانلود رایگان مقاله انگلیسی (pdf) و ترجمه فارسی (pdf + word) |
عنوان فارسی مقاله: |
توصیف پارامترهای یادگیری Word2vec
|
عنوان انگلیسی مقاله: |
word2vec Parameter Learning Explained
|
دانلود رایگان مقاله انگلیسی |
|
دانلود رایگان ترجمه با فرمت pdf |
|
دانلود رایگان ترجمه با فرمت ورد |
|
مشخصات مقاله انگلیسی و ترجمه فارسی |
فرمت مقاله انگلیسی |
pdf |
تعداد صفحات مقاله انگلیسی |
۲۱ صفحه با فرمت pdf |
نوع نگارش |
مقاله مروری (Review Article) |
رشته های مرتبط با این مقاله |
مهندسی کامپیوتر |
گرایش های مرتبط با این مقاله |
هوش مصنوعی – مهندسی الگوریتم ها و محاسبات |
رفرنس |
رفرنس ندارد ☓ |
تعداد صفحات ترجمه تایپ شده با فرمت ورد با قابلیت ویرایش |
۲۵ صفحه با فونت ۱۴ B Nazanin |
فرمت ترجمه مقاله |
pdf و ورد تایپ شده با قابلیت ویرایش |
وضعیت ترجمه |
انجام شده و آماده دانلود رایگان |
کیفیت ترجمه |
مبتدی (مناسب برای درک مفهوم کلی مطلب)
|
کد محصول |
F2247 |
بخشی از ترجمه |
بهروزرسانی معادله برای وزنهای ورودی←پنهان
پس از بدست آوردن معادلات بهروزشده برای W^.، ما هم اکنون میتوانیم به W حرکت کنیم. بنابراین از E بر روی خروجی لایههای پنهان مشتق میگیریم و رابطهی زیر را به دست میآوریم که در آن h_i خروجی iامین واحد از لایههای پنهان است. u_j در (۲) تعریف شده است، ورودی شبکه از jامین واحد در لایه خروجی؛ و e_j=y_j-t_j خطای پیشبینی jامین کلمه در لایه خروجی است. EH، یک بردار N بعدی، مجموع بردار خروجی همهی کلمات در واژگان است که، توسط خطای پیشبینی وزندار شدهاند.
سپس ما باید مشتق E را نسبت به W بگیریم. ابتدا به یاد میآوریم که لایههای پنهان محاسبات خطی بر روی مقادیر لایه ورودی انجام میدهند. با بسط نماد بردار در (۱) داریم
بهطورمستقیم، بردار EH، مجموع بردار خروجی از تمام کلمات در واژگان وزندار توسط خطای پیشبینی e_j=y_j=t_j است، ما میتوانیم (۱۶) را مانند اضافه کردن بخشی از هر بردار خروجی در واژگان به بردار ورودی از کلمهی متن درک کنیم. اگر در لایه خروجی، احتمال اینکه یک کلمهی w_j، کلمه خروجی دست بالا باشد y_j>t_j، سپس بردار ورودی از کلمه متن w_I تمایل به حرکت دورتر از بردار خروجی w_j دارد؛ در مقابل، اگر احتمال اینکه w_j خروجی کلمه در نظر گرفته شده باشد y_j<t_j، بردار ورودی w_I تمایل به حرکت نزدیک به بردار خروجی w_j دارد؛ اگر احتمال w_j نسبتا دقیق پیشبینی شده باشد، پس از آن تاثیر کمی در حرکت از بردار ورودی w_I دارد. حرکت بردار ورودی از w_I توسط خطای پیشبینی همهی بردارها در واژگان تعیین میشود؛ خطای پیشبینی بزرگتر، توجه بیشتر یک کلمه بر روی حرکت در بردار ورودی از کلمهی متن را اعمال میکند.
همانطور که ما مکررا پارامترهای مدل را با حرکت در طول جفت کلمهی متن هدف تولید شده از یک مجموعه آموزشی بهروز میکنیم، اثرات بر روی بردار تجمع مییابد. ما میتوانیم تصور کنیم که بردار خروجی یک کلمه w، با بردار ورودی همسایگان عقب و جلو کشیده میشود، بهعنوان مثال اگر رشته فیزیکی بین بردار w و بردار همسایگان آن وجود داشته باشد. بهطورمشابه، یک مسیر ورودی میتواند توسط کشیدن بسیاری از بردارهای خروجی در نظر گرفته شود. این تفسیر میتواند گرانش و یا طرح نمودار نیرو را برای ما یادآوری کند. طول تعادل هر یک از رشتههای خیالی مربوط به قدرت بین جفت کلمات در ارتباط بهعنوان نرخ یادگیری بیان میشود. پس از تکرار زیاد، موقعیت نسبی بردار ورودی و خروجی در نهایت ثبات خواهد یافت.
۱٫۲ متن چند کلمهای
شکل ۲ مدل CBOW را با یک تنظیم متن چندکلمهای نشان میدهد. در هنگام محاسبهی خروجی لایه پنهان، به جای کپی کردن مستقیم بردار ورودی از متن ورودی کلمه، مدل CBOW بهطور متوسط بردار کلمات متن ورودی را گرفته و از محصول ماتریس وزندار ورودی←پنهان و بردار متوسط بهعنوان خروجی استفاده میکند.
۲٫ مدل Skip-Gram
مدل Skip-Gram توسط Mikolov و همکارانش معرفی شده است(۲۰۱۳). شکل ۳ مدل Skip-Gram را نشان میدهد. این مدل در مقابل مدل CBOW قرار دارد. کلمهی مورد نظر درحال حاضر در لایهی ورودی و کلمات متن در لایهی خروجی قرار دارند.
ما هنوز هم از v_(w_I ) برای نشان دادن بردار ورودی از تنها کلمهی بر روی لایه ورودی استفاده میکنیم، بنابراین تعریف یکسانی از خروجیهای h لایه پنهان همانند (۱) داریم، که به معنی این است که h بهسادگی یک سطر از ماتریس وزن ورودی←پنهان، W، همراه با ورودی کلمه w_I را کپی میکند. تعریف h را بهصورت زیر کپی میکنیم.
۳٫ بهینهسازی بازده محاسباتی
تاکنون مدلهایی که بحث کردیم (مدل “بیگرام”، CBOW و skip-gram) هر دو در فرم اصلی خود، بدون هیچگونه بهینهسازی ترفندهای بازده بودن بودند.
برای همهی این مدلها، دو نمایش از بردار برای هر کلمه در واژگان وجود دارد: بردار ورودی v_m، و بردار خروجی v_m^.. آموزش بردارهای ورودی ارزان اس ؛ اما یادگیری بردار خروجی بسیار گران است. از معادلات بهروز شدهی (۲۲) و (۳۳)، میتوانیم دریابیم که، بهمنظور بهروزرسانی v_m^.، برای هر نمونه آموزش، نیاز به تکرار از طریق هر کلمهw_j در واژگان، محاسبه خالص ورودی u_j، احتمال پیشبینی y_j (یا y_(c.j)؛ برای skip-gram)، خطای پیشبینی e_j (یا〖EI〗_j برای skip-gram)، و سرانجام استفاده از خطای پیشبینی خود برای بهروزرسانی بردار خروجی خود v_j^. داریم.
انجام چنین محاسباتی برای همهی کلمات برای هر نمونه آموزش بسیار گران است، و بنا به مقیاس واژگان بزرگ و یا شرکتهای آموزش بزرگ غیرعملی است. برای حل این مشکل، یک بینش برای محدود کردن تعداد بردار خروجی در هر آموزش باید بهروز شود. یکی از این روشهای زیبا برای دستیابی به این softmax سلسله مراتبی است. دیگر رویکرد که از طریق نمونهبرداری بهدست میآید در بخش بعدی مورد بحث قرار خواهد گرفت.
هر دو ترفند بهینهسازی تنها در محاسبهی بهروزرسانی برای بردار خروجی هستند. در مشتقات ما، سه مقدار را مورد توجه قرار میدهیم: (۱) E، تابع هدف جدید؛ (۲) ∂E/(∂v_w^.)، معادلهی جدید بهروزشده برای بردار خروجی؛ و (۳) ∂E/∂h مجموع وزنی از پیشبینی خطاها برای بهروزرسانی بردارهای ورودی است.
۳٫۱ Softmax سلسله مراتبی
softmax سلسله مراتبی یک راه موثر برای محاسبه softmax (مورن و بنگیو، ۲۰۰۵، منیح و هینتون، ۲۰۰۹). مدل از یک درخت دودویی برای نمایش تمام کلمات در واژگان استفاده میکند. کلمات V باید واحدهای برگ درخت باشند. میتوان ثابت کرد که N-1 واحد درونی وجود دارد. برای هر واحد برگ، یک مسیر منحصر به فرد از ریشه وجود دارد و این مسیر برای برآورد احتمال از کلمه ارائه شده توسط واحد برگ استفاده میشود. شکل ۴ یک درخت را نشان میدهد.
در مدل softmax سلسله مراتبی، هیچ نمایشی برای بردار خروجی کلمات وجود ندارد. در عوض، هر یک از واحدهای V-1 درونی است یک بردار خروجی v_(n(w.j))^. دارد و احتمال اینکه یک کلمه، کلمهی خروجی باشد بهصورت تعریف شده است
|