دانلود رایگان ترجمه مقاله توضیح پارامتر word2vec

این مقاله انگلیسی در 21 صفحه منتشر شده و ترجمه آن 25 صفحه بوده و آماده دانلود رایگان می باشد.

دانلود رایگان مقاله انگلیسی (pdf) و ترجمه فارسی (pdf + word)
عنوان فارسی مقاله:	توصیف پارامترهای یادگیری Word2vec
عنوان انگلیسی مقاله:	word2vec Parameter Learning Explained
دانلود رایگان مقاله انگلیسی	مقاله انگلیسی
دانلود رایگان ترجمه با فرمت pdf	ترجمه pdf
دانلود رایگان ترجمه با فرمت ورد	ترجمه ورد

مشخصات مقاله انگلیسی و ترجمه فارسی
فرمت مقاله انگلیسی	pdf
تعداد صفحات مقاله انگلیسی	21 صفحه با فرمت pdf
نوع نگارش	مقاله مروری (Review Article)
رشته های مرتبط با این مقاله	مهندسی کامپیوتر
گرایش های مرتبط با این مقاله	هوش مصنوعی – مهندسی الگوریتم ها و محاسبات
رفرنس	رفرنس ندارد ☓
تعداد صفحات ترجمه تایپ شده با فرمت ورد با قابلیت ویرایش	25 صفحه با فونت 14 B Nazanin
فرمت ترجمه مقاله	pdf و ورد تایپ شده با قابلیت ویرایش
وضعیت ترجمه	انجام شده و آماده دانلود رایگان
کیفیت ترجمه	مبتدی (مناسب برای درک مفهوم کلی مطلب)
کد محصول	F2247

بخشی از ترجمه

به‌روزرسانی معادله برای وزن‌های ورودی←پنهان
پس از بدست آوردن معادلات به‌روزشده برای W^.، ما هم اکنون می‌توانیم به W حرکت کنیم. بنابراین از E بر روی خروجی لایه‌های پنهان مشتق می‌گیریم و رابطه‌ی زیر را به دست می‌آوریم که در آن h_i خروجی iامین واحد از لایه‌های پنهان است. u_j در (2) تعریف شده است، ورودی شبکه از jامین واحد در لایه خروجی؛ و e_j=y_j-t_j خطای پیش‌بینی jامین کلمه در لایه خروجی است. EH، یک بردار N بعدی، مجموع بردار خروجی همه‌ی کلمات در واژگان است که، توسط خطای پیش‌بینی وزن‌دار شده‌اند.
سپس ما باید مشتق E را نسبت به W بگیریم. ابتدا به یاد می‌آوریم که لایه‌های پنهان محاسبات خطی بر روی مقادیر لایه ورودی انجام می‌دهند. با بسط نماد بردار در (1) داریم

به‌طورمستقیم، بردار EH، مجموع بردار خروجی از تمام کلمات در واژگان وزن‌دار توسط خطای پیش‌بینی e_j=y_j=t_j است، ما می‌توانیم (16) را مانند اضافه کردن بخشی از هر بردار خروجی در واژگان به بردار ورودی از کلمه‌ی متن درک کنیم. اگر در لایه خروجی، احتمال این‌که یک کلمه‌ی w_j، کلمه خروجی دست بالا باشد y_j>t_j، سپس بردار ورودی از کلمه متن w_I تمایل به حرکت دورتر از بردار خروجی w_j دارد؛ در مقابل، اگر احتمال این‌که w_j خروجی کلمه در نظر گرفته شده باشد y_j<t_j، بردار ورودی w_I تمایل به حرکت نزدیک به بردار خروجی w_j دارد؛ اگر احتمال w_j نسبتا دقیق پیش‌بینی شده باشد، پس از آن تاثیر کمی در حرکت از بردار ورودی w_I دارد. حرکت بردار ورودی از w_I توسط خطای پیش‌بینی همه‌ی بردارها در واژگان تعیین می‌شود؛ خطای پیش‌بینی بزرگتر، توجه بیشتر یک کلمه بر روی حرکت در بردار ورودی از کلمه‌ی متن را اعمال می‌کند.
همانطور که ما مکررا پارامترهای مدل را با حرکت در طول جفت کلمه‌ی متن هدف تولید شده از یک مجموعه آموزشی به‌روز می‌کنیم، اثرات بر روی بردار تجمع می‌یابد. ما می‌توانیم تصور کنیم که بردار خروجی یک کلمه w، با بردار ورودی همسایگان عقب و جلو کشیده می‌شود، به‌عنوان مثال اگر رشته فیزیکی بین بردار w و بردار همسایگان آن وجود داشته باشد. به‌طورمشابه، یک مسیر ورودی می‌تواند توسط کشیدن بسیاری از بردارهای خروجی در نظر گرفته شود. این تفسیر می‌تواند گرانش و یا طرح نمودار نیرو را برای ما یادآوری کند. طول تعادل هر یک از رشته‌های خیالی مربوط به قدرت بین جفت کلمات در ارتباط به‌عنوان نرخ یادگیری بیان می‌شود. پس از تکرار زیاد، موقعیت نسبی بردار ورودی و خروجی در نهایت ثبات خواهد یافت.

1.2 متن چند کلمه‌ای
شکل 2 مدل CBOW را با یک تنظیم متن چندکلمه‌ای نشان می‌دهد. در هنگام محاسبه‌ی خروجی لایه پنهان، به جای کپی کردن مستقیم بردار ورودی از متن ورودی کلمه، مدل CBOW به‌طور متوسط بردار کلمات متن ورودی را گرفته و از محصول ماتریس وزن‌دار ورودی←پنهان و بردار متوسط به‌عنوان خروجی استفاده می‌کند.
2. مدل Skip-Gram
مدل Skip-Gram توسط Mikolov و همکارانش معرفی شده است(2013). شکل 3 مدل Skip-Gram را نشان می‌دهد. این مدل در مقابل مدل CBOW قرار دارد. کلمه‌ی مورد نظر درحال حاضر در لایه‌ی ورودی و کلمات متن در لایه‌ی خروجی قرار دارند.
ما هنوز هم از v_(w_I ) برای نشان دادن بردار ورودی از تنها کلمه‌ی بر روی لایه ورودی استفاده می‌کنیم، بنابراین تعریف یکسانی از خروجی‌های h لایه پنهان همانند (1) داریم، که به معنی این است که h به‌سادگی یک سطر از ماتریس وزن ورودی←پنهان، W، همراه با ورودی کلمه w_I را کپی می‌کند. تعریف h را به‌صورت زیر کپی می‌کنیم.

3. بهینه‌سازی بازده محاسباتی
تاکنون مدل‌هایی که بحث کردیم (مدل “بیگرام”، CBOW و skip-gram) هر دو در فرم اصلی خود، بدون هیچ‌گونه بهینه‌سازی ترفندهای بازده بودن بودند.
برای همه‌ی این مدل‌ها، دو نمایش از بردار برای هر کلمه در واژگان وجود دارد: بردار ورودی v_m، و بردار خروجی v_m^.. آموزش بردارهای ورودی ارزان اس ؛ اما یادگیری بردار خروجی بسیار گران است. از معادلات به‌روز شده‌ی (22) و (33)، می‌توانیم دریابیم که، به‌منظور به‌روزرسانی v_m^.، برای هر نمونه آموزش، نیاز به تکرار از طریق هر کلمهw_j در واژگان، محاسبه خالص ورودی u_j، احتمال پیش‌بینی y_j (یا y_(c.j)؛ برای skip-gram)، خطای پیش‌بینی e_j (یا〖EI〗_j برای skip-gram)، و سرانجام استفاده از خطای پیش‌بینی خود برای به‌روزرسانی بردار خروجی خود v_j^. داریم.
انجام چنین محاسباتی برای همه‌ی کلمات برای هر نمونه آموزش بسیار گران است، و بنا به مقیاس واژگان بزرگ و یا شرکتهای آموزش بزرگ غیرعملی است. برای حل این مشکل، یک بینش برای محدود کردن تعداد بردار خروجی در هر آموزش باید به‌روز شود. یکی از این روش‌های زیبا برای دستیابی به این softmax سلسله مراتبی است. دیگر رویکرد که از طریق نمونه‌برداری به‌دست می‌آید در بخش بعدی مورد بحث قرار خواهد گرفت.
هر دو ترفند بهینه‌سازی تنها در محاسبه‌ی به‌روزرسانی برای بردار خروجی هستند. در مشتقات ما، سه مقدار را مورد توجه قرار می‌دهیم: (1) E، تابع هدف جدید؛ (2) ∂E/(∂v_w^.)، معادله‌ی جدید به‌روزشده برای بردار خروجی؛ و (3) ∂E/∂h مجموع وزنی از پیش‌بینی خطاها برای به‌روزرسانی بردارهای ورودی است.

3.1 Softmax سلسله مراتبی
softmax سلسله مراتبی یک راه موثر برای محاسبه softmax (مورن و بنگیو، 2005، منیح و هینتون، 2009). مدل از یک درخت دودویی برای نمایش تمام کلمات در واژگان استفاده می‌کند. کلمات V باید واحدهای برگ درخت باشند. می‌توان ثابت کرد که N-1 واحد درونی وجود دارد. برای هر واحد برگ، یک مسیر منحصر به فرد از ریشه وجود دارد و این مسیر برای برآورد احتمال از کلمه ارائه شده توسط واحد برگ استفاده می‌شود. شکل 4 یک درخت را نشان می‌دهد.
در مدل softmax سلسله مراتبی، هیچ نمایشی برای بردار خروجی کلمات وجود ندارد. در عوض، هر یک از واحدهای V-1 درونی است یک بردار خروجی v_(n(w.j))^. دارد و احتمال این‌که یک کلمه، کلمه‌ی خروجی باشد به‌صورت تعریف شده است

توصیف پارامترهای یادگیری Word2vec

word2vec Parameter Learning Explained

دیدگاهتان را بنویسید لغو پاسخ