دانلود رایگان ترجمه مقاله بررسی داده های از دست رفته در مطالعات اپیدمیولوژی مولکولی (نشریه aacrjournals 2011)

این مقاله انگلیسی ISI در نشریه aacrjournals در 17 صفحه در سال 2011 منتشر شده و ترجمه آن 23 صفحه میباشد. کیفیت ترجمه این مقاله ارزان – نقره ای ⭐️⭐️ بوده و به صورت کامل ترجمه شده است.

 

دانلود رایگان مقاله انگلیسی + خرید ترجمه فارسی
عنوان فارسی مقاله:

رسیدگی به داده های از دست رفته در مطالعات اپیدمیولوژی مولکولی

عنوان انگلیسی مقاله:

The Handling of Missing Data in Molecular Epidemiology Studies

 
 
 
 
 

 

مشخصات مقاله انگلیسی (PDF)
سال انتشار 2011
تعداد صفحات مقاله انگلیسی 17 صفحه با فرمت pdf
رشته های مرتبط با این مقاله پزشکی
گرایش های مرتبط با این مقاله اپیدمیولوژی، پزشکی مولکولی
چاپ شده در مجله (ژورنال) اپیدمیولوژی سرطان، بیومارکرها و پیشگیری – Cancer Epidemiology, Biomarkers & Prevention
ارائه شده از دانشگاه گروه پزشکی، بخش پزشکی عمومی و اپیدمیولوژی، و گروه آمار زیستی، دانشکده پزشکی دانشگاه کارولینای شمالی
رفرنس دارد  
کد محصول F1266
نشریه aacrjournals

 

مشخصات و وضعیت ترجمه فارسی این مقاله (Word)
وضعیت ترجمه انجام شده و آماده دانلود
تعداد صفحات ترجمه تایپ شده با فرمت ورد با قابلیت ویرایش  23 صفحه با فونت 14 B Nazanin
ترجمه عناوین تصاویر و جداول ترجمه شده است ✓ 
ترجمه متون داخل تصاویر ترجمه شده است   
ترجمه متون داخل جداول ترجمه شده است  
ضمیمه ترجمه نشده است   
درج تصاویر در فایل ترجمه درج شده است 
درج جداول در فایل ترجمه درج شده است  
منابع داخل متن درج نشده است 
کیفیت ترجمه کیفیت ترجمه این مقاله متوسط میباشد 

 

فهرست مطالب
چکیده
مقدمه
مواد و روشها
داده های از دست رفته در مطالعات اپیدمیولوژی مولکولی
نتایج
مطالعات اپیدمیولوژی مولکولی که در بررسی ما گنجانده گردید
مشخصات داده های از دست رفته در مطالعات اپیدمیولوژی مولکولی
بحث
داده های از دست رفته در مطالعات اپیدمیولوژی مولکولی
روشهای داده های از دست رفته مورد استفاده 
MI: یک راه حل عملی احتمالی
سنجش های سانسور شده به دلیل اندازه گیری ها با محدودیت های شناسایی: یک مورد خاص داده های از دست رفته در مطالعات اپیدمیولوژیکی مولکولی
خط مشی های عملی مدیریت داده های از دست رفته
نتیجه گیری ها
 

 

بخشی از ترجمه
 چکیده
مطالعات اپیدمیولوژی مولکولی با مشکل داده های از دست رفته روبروست چرا که نمونه زیستی یا داده های تصویری اغلب تنها در یک نسبت از افراد مورد مطالعه واجدالشرایط برای مطالعه جمع اوری می شود. ما کلیه مطالعات منتشره اپیدمیولوژی مولکولی را مانند مقالات تحقیقاتی، مکاتبات کوتاه، یا نتایج بیطرف خلاصه شده در مجله Cancer Epidemiology, Biomarkers & Prevention را از تاریخ 1 ژانویه 2009 تا 31 مارس 2010 برای مشخصه سازی گستره وجود داده های از دست رفته و روشن سازی روش مطرح سازی این مسئله مورد تحقیق قرار دادیم. از میآن 278 مطالعه اپیدمیولوژی مولکولی ارزیابی شده، بیشتر آنها یعنی 95 درصد دارای داده های از دست رفته درمورد متغیر کلیدی (66%) بودند یا اینکه از موجودیت داده ها (اغلب اما نه همیشه داده های بیومارکر) به عنوآن معیار ورود به مطالعه (45درصد) استفاده کرده بودند. علی رغم این مورد، تنها ده درصد این مطالعات افراد مورد مطالعه را که در آنالیز گنجانده بودند با انهایی که از آنالیز خارج سازی کرده بودند، مقایسه کرده اند و 88 درصد با داده های از دست رفته یک آنالیز موردی کامل را انجام دادند ، که یک روشی است که برای کسب تخمین های سوگیرانه و ناکارامد هنگامی که داده ها کاملا به طور تصادفی از دست نرفته اند، بکار می رود. یافته های ما شواهدی را فراهم می کند مبتنی براینکه روشهای داده های از دست رفته در مطالعات اپیدمیولوژی مولکولی کمتر از حد مورد استفاده قرار می گیرد که ممکن است اثر بدی روی تفسیر نتایج داشته باشد. ما خط مشی های عملی برای تحلیل وتفسیر مطالعات اپیدمیولوژی مولکولی با داده های از دست رفته ارائه کرده ایم. 
 
1- مقدمه
با پیشرفت تکنولوژی جدید برای سنجش بیومارکرها، مطالعات در زمینه اپیدمیولوژی مولکولی به طور روزافزونی متداولتر شده است. در نتیجه، بسیاری مطالعات اپیدمیولوژیکی اکنون نمونه های زیستی را مانند خون، نمونه های دهانی، ادرار یا نمونه های بافتی را برای ارزیابی بیومارکرهایی جمع اوری می کنند که می تواند بینشی را به پاتوژنزیز بنیانی بیماری فراهم کند یا ممکن است پیشگویی کننده پیش آگهی باشد. مطالعات تصویربرداری، مانند ماموگرافی، توموگرافی صدور پوزیترون، و MRI عملیاتی، نیز برای سنجش بیومارکرهای مرتبط بیماری بکار می روند.
عموما نمونه های زیستی و داده های مبتنی بر تصویر تنها برای یک زیرمجموعه از افراد مورد مطالعه موجود است که مشکل داده های از دست رفته را دربر دارد. گاه گاهی ، حتی زمانی که نمونه ها هم موجود باشد، سنجش ها ممکن است منوط به سانسور (یعنی از دست رفتن نسبی) به دلیل محدودیت شناسایی یک روش سنجش باشد. روشهای داده های از دست رفته ولیکن به طور نمونه بکار نمی روند. در یک مطالعه 1995، Greenland & Finkle درباره استفاده کمتر از حد روشهای داده های از دست رفته در مطالعات اپیدمیولوژیکی به دلیل عدم قابلیت دسترسی و پیچیدگی آنها بحث کرده اند. هرچند روشهای داده های از دست رفته مانند نسبت دادن در حال حاضر به سهولت بیشتری موجود است، یک مطالعه اخیر توسط Klebanoff & Cole در 2008 دریافت که کمتر از 2 درصد مقالات منتشره در مجلات اپیدمیولوژی از روشهای مبتنی بر نسبت دادن استفاده می کنند. در عوض یک رهیافت متداول اجرای یک آنالیز موردی کامل یا CC است: یعنی خروج داده های از دست رفته افراد مورد مطالعه درمورد دست کم یک متغیر که در آنالیز درنظرگرفته شده است. مطالعه ما شیوع داده های از دست رفته را بویژه در مطالعات اپیدمیولوژی مولکولی مشخصه سازی می کند و یک شرح عمیق را درباره اینکه چگونه این مسئله مطرح شود، فراهم می کند.
به انواع دلایل داده های بیومارکر ممکن است در مطالعات اپیدمیولوژی مولکولی از دست برود که برخی از آنها مرتبط با مقادیر واقعی خود بیومارکرها و یا سایر متغیرهاست. این دلایل بنیانی مهم است. به ویژه رهیافتهای CC از لحاظ آماری معتبر هستند یعنی تخمین های نقطه ای بدون سوگیری و CIهایی را فراهم می کند که پوشش نامی را بدست می دهد تنها زمانی که داده ها کاملا تصادفی از دست رفته باشند (MCAR) یعنی این از دست رفتگی مرتبط با داده های مشاهده شده یا مشاهده نشده بدست امده از یک نمونه مطالعه است که نمایانگر یک کوهورت بزرگ باشد. برای مثال یک دسته نمونه های با انتخاب تصادفی را درنظر بگیرید که برایش اندازه گیری ها به دلیل یک سوعملکرد ابزاری مشاهده نشده است همانگونه که در مطالعه Clendenen و همکارانش رخ داده است. منطقی است مفروض داریم که این داده ها MCAR باشند. در این مورد، یک آنالیز CC نباید تخمین های سوگیرانه را بدست دهد هرچند تخمین ها ممکن است از عدم کارایی رنج برد. اگر این از دست رفتگی تنها به متغیرهای مشاهده شده مرتبط باشد، داده ها را به طور تصادفی از دست رفته یا MAR می نامیم. یک مثال از این مورد را Mavaddat و همکارانش داده اند که نقش پلی مورفیسم های تک نوکلئوتیدی متداول یا SNP را در زیرنوع های سرطآن سینه بررسی کرده اند. این نویسندگآن دریافتند که افراد واجدالشرایط مطالعه بدون نمونه هایی برای تعیین ژنوتیپ به احتمال بیشتری دچار سرطآن سینه مرحله پیشرفته (III/IV) شده بودند. در این خصوص، داده ها ممکن است MAR باشند اگر مشروط به مرحله بیماری احتمال اطلاعات از دست رفته SNP مرتبط با مقادیر مشاهده نشده SNP نباشد. اما اگر دلیل داده های از دست رفته مرتبط با مقادیر مشاهده نشده باشد، داده ها به طور تصادفی از دست نرفته اند یعنی NMAR هستند. برای مثال فرض کنید اندازه تومور با فراوانی کمتری طبق تومورهای کوچکتر اندازه گیری شده باشد همانند مطالعه Gilcrease و همکاران، این داده ها را NMAR در نظر می گیریم. انالیزهای CC اجرا شده روی داده هایی که NCAR نباشند (یعنی یا MAR یا NMAR باشند) می تواند به تخمین های سوگیرانه و ناکارامد منجر شود.
اغلب فرد می تواند نتیجه گیری کند که آیا این از دست رفتگی مرتبط با متغیرهای مشاهده شده است یا خیر همانگونه که Mavaddat و همکارآن در آنالیز خود مقایسه انهایی که در آنالیز امده بودند با انهایی که از آنالیز خارج شده بودند را انجام دادند که ممکن است حاکی از آن باشد که MCAR یک فرضیه منطقی برای متغیر مورد سوال نیست. ولی تشخیص میآن الگوهای NMAR و MAR بدون انجام فرضیات بدون توجیه عملی نیست چون غیرممکن است که ماهیت از دست رفتگی داده هایی را بررسی کنیم که وجود ندارند. با اینحساب می تواند به فرضیاتی براساس مفاهیم بیولوژیکی، بالینی و اپیدمیولوژیکی متکی بود.
روشهای برجسته تئوریکی برای آنالیز داده هایی که یا MAR، یا NMAR هستند وجود دارد. برای داده های MAR، روشهای مبتنی بر احتمالات و نسبت دادن چندگانه استاندارد یا MI مثالهایی از رهیافتهای معتبر آماری می باشند. وانگهی، MI بویژه برای اجرا ساده است و به سهولت در دسترس می باشد. روشهای انالوگ (مبتنی بر احتمالات و مبتنی بر MI) برای داده های NMAR موجود است هرچند آنها به سهولت قابل دسترسی نیست و برای اجرا پیچیده تر است. افزایش پیچیدگی به دلیل نیاز به مدلسازی توزیع داده های از دست رفته (یا مکانیسم داده های از دست رفته ) می باشد درصورتیکه مفروض داشتن اینکه داده ها عموما MAR باشند به فرد امکآن می دهد که این جنبه را نادیده بگیرد.
هدف این مقاله مشخصه سازی گستره ای است که داده های از دست رفته در مطالعات اپیدمیولوژی مولکولی حاضر است تا روشن سازد که چگونه این مسئله مطرح شود و روی MI به عنوآن یک راه حل ممکن عملی بحث دارد.

 

بخشی از مقاله انگلیسی

Abstract

Molecular epidemiology studies face a missing data problem, as biospecimen or imaging data are often collected on only a proportion of subjects eligible for study. We investigated all molecular epidemiology studies published as Research Articles, Short Communications, or Null Results in Brief in Cancer Epidemiology, Biomarkers & Prevention from January 1, 2009, to March 31, 2010, to characterize the extent that missing data were present and to elucidate how the issue was addressed. Of 278 molecular epidemiology studies assessed, most (95%) had missing data on a key variable (66%) and/or used availability of data (often, but not always the biomarker data) as inclusion criterion for study entry (45%). Despite this, only 10% compared subjects included in the analysis with those excluded from the analysis and 88% with missing data conducted a complete-case analysis, a method known to yield biased and inefficient estimates when the data are not missing completely at random. Our findings provide evidence that missing data methods are underutilized in molecular epidemiology studies, which may deleteriously affect the interpretation of results. We provide practical guidelines for the analysis and interpretation of molecular epidemiology studies with missing data.

1 Introduction

With the advent of new technology to measure biomarkers, studies in molecular epidemiology have become increasingly more common. As a result, many epidemiology studies now collect biospecimens such as blood, buccal, urine, or tissue samples to evaluate biomarkers that may provide insight into the underlying pathogenesis of disease or that may be predictive of prognosis. Imaging studies, such as mammography, positron emission tomography, and functional MRI, are also used to measure relevant biomarkers of disease.

Generally, biospecimens and image-based data are available only for a subset of the subjects in the study, posing a missing data problem. Occasionally, even when samples are available, measurements may be subject to censoring (i.e., partially missing) due to the detection limit of an assay. Missing data methods, however, are not typically being employed. In a 1995 study, Greenland and Finkle (1) discussed the underutilization of missing data methods in epidemiology studies due to their inaccessibility and complexity. Although missing data methods such as imputation are more readily available at present, a recent study by Klebanoff and Cole in 2008 (2) found that less than 2% of articles published in epidemiology journals make use of imputation-based methods. Instead, a common approach is to conduct a complete-case (CC) analysis (1, 2): exclusion of subjects missing data on at least one variable considered in the analysis. Our study characterizes the prevalence of missing data specifically in molecular epidemiology studies and provides an in-depth description of how the issue is addressed.

There are a variety of reasons biomarker data may be missing in molecular epidemiology studies, some of which may be related to the actual values of the biomarkers themselves and/or other variables; these underlying reasons matter. Specifically, CC approaches are statistically valid, that is, they provide unbiased point estimates and CIs that achieve nominal coverage (3), only when data are missing completely at random (MCAR), that is, when missingness is unrelated to observed or unobserved data yielding a study sample that is representative of the larger cohort (3, 4). For example, consider a batch of randomly selected samples for which measurements are not observed because of an instrumentation malfunction, as occurred in the study by Clendenen and colleagues (5); it is reasonable to assume that these data are MCAR. In this case, a CC analysis should not yield biased estimates, although the estimates may suffer from efficiency loss. If missingness is related only to observed variables, the data are considered missing at random (MAR). An example of this may be given by Mavaddat and colleagues (6), who examined the role of common single-nucleotide polymorphisms (SNP) in subtypes of breast cancer. These authors found that those eligible for study without samples for genotyping were more likely to have advanced stage breast cancer (III/IV). In this case, the data may be MAR if, conditional on stage, the probability of missing SNP information is not related to the unobserved SNP values. If, however, the reason for missing data is related to the unobserved values, the data are not missing at random (NMAR). For example, suppose tumor size is measured less frequently on smaller tumors, as in the study described by Gilcrease and colleagues (7), these data would be considered NMAR. CC analyses conducted on data that are not MCAR (i.e., MAR or NMAR) can lead to biased and inefficient estimates.

Often one can infer whether missingness is related to observed variables, as Mavaddat and colleagues (6) conducted in their analysis comparing those included in the analysis with those excluded from the analysis, which may suggest MCAR is not a reasonable assumption for the variable in question. Distinguishing between NMAR and MAR patterns, however, is not feasible without making unjustifiable assumptions, as it is impossible to examine the nature of missingness for data that do not exist. Thus, one may rely on assumptions based on biological, clinical, and epidemiologic understandings.

There are theoretically sound methods for analyzing data that are either MAR or NMAR. For MAR data, likelihood-based methods and standard multiple imputation (MI) are examples of statistically valid approaches. Furthermore, MI is particularly simple to implement and readily available (4). Analogous methods (likelihood-based and MI-based) exist for NMAR data, although they are not as easily accessible and are more complex to implement (4, 8–14). The increase in complexity is due to the need to model the missing data distribution (or missing data mechanism), whereas assuming the data are MAR generally allows one to ignore this aspect. The goals of this article are to characterize the extent that missing data are present in molecular epidemiology studies, to elucidate how the issue is being addressed, and to discuss MI as a possible, practical solution.

 

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا