البيانات المفقودة (Missing Data) هي مشكلة تحدث تقريبًا في كل مجموعة بيانات حقيقية. تعريف القيم المفقودة هو أن بعض المعلومات حول المتغيرات مفقودة. بشكل عام ، تكمن مشكلة القيم المفقودة في أنه لا يمكن بناء تحليلات صحيحة على البيانات ، وقد لا تكون الاستنتاجات المستخلصة من مجموعة بيانات ذات قيم مفقودة صادقة .

البيانات المفقودة هي مشكلة شائعة ، حتى في الدراسات البحثية جيدة التصميم والمسيطر عليها، ويمكن أن يكون لها تأثير كبير على الاستنتاجات من البيانات. يؤدي إلى فقدان الدقة والقوة الإحصائية ، ولديها القدرة على التسبب في التحيز وغالبًا ما يعقد التحليل الإحصائي.

فمن الضروري التعامل مع البيانات المفقودة ، إما عن طريق حذف المشاهدات غير المكتملة أو عن طريق استبدال أي قيم مفقودة بقيمة تقديرية بناءً على المعلومات الأخرى المتاحة ، وهي عملية تسمى التضمين (imputation)، كلتا الطريقتين يمكن أن تؤثر بشكل كبير على الاستنتاجات التي يمكن استخلاصها من البيانات.

فاالتضمين هو عملية استبدال البيانات المفقودة بقيم تقريبية. بدلاً من حذف أي أعمدة أو صفوف بها أي قيمة مفقودة ، يحافظ هذا الأسلوب على جميع الحالات عن طريق استبدال البيانات المفقودة بالقيمة المقدرة بواسطة المعلومات المتاحة الأخرى.

من المهم إجراء تمييز بين البيانات المفقودة من حيث اسباب فقدانها ، فمنها يرجع لأسباب محددة أو غير محددة. في الحالة الأولى ، يمكن أن تكون القيم المضمنة غير ملائمة وتضيف تحيزًا إلى مجموعة البيانات ، لذلك يُقال إن البيانات غير قابلة للاسترداد. من ناحية أخرى ، عندما تكون البيانات مفقودة لأسباب غير محددة ، يُفترض أن القيم مفقودة لأسباب عشوائية وبدون تدخل. يتم تصنيف هذا النوع من البيانات المفقودة على أنها قابلة للاسترداد.

عادةً ما يكون رفض المتغيرات التي تحتوي على عدد كبير من القيم المفقودة (على سبيل المثال< 50٪) قاعدة جيدة ، ولكنها ليست إجراءً خاليًا من المخاطر. قد يؤدي رفض المتغير إلى فقدان القدرة التنبؤية والقدرة على اكتشاف الفروق ذات الدلالة الإحصائية ويمكن أن يكون مصدرًا للتحيز ، مما يؤثر على تفسير النتائج. لهذه الأسباب ، يحتاج اختيار المتغير إلى تكييفه مع آلية البيانات المفقودة.

بالتالي فان الخطوات العامة التي يجب اتباعها لمعالجة البيانات المفقودة هي:
• تحديد أنماط وأسباب البيانات المفقودة.
• تحليل نسبة البيانات المفقودة.
• اختيار أفضل طريقة احتساب.

يوضح الشكل التالي بيانات من دراسة حول حاصل الذكاء (IQ) للطلاب الذين يعيشون في مدينة أو بلدة أو قرية. تم اختيار مجموعة عشوائية من الطلاب في الدراسة. لسوء الحظ ، لا يمكن الحصول على قياسات معدل الذكاء لجميع الطلاب في الدراسة ، مما أدى إلى “فقدان البيانات” (المشار إليها بواسطة NA). من أجل تقديم استنتاج صحيح ، من المهم جدًا أن نفهم سبب فقدان هذه البيانات.

كيف تؤثر البيانات المفقودة : How does the missing data affect؟

1- يمكن أن تؤدي مجموعات البيانات غير المكتملة إلى استنتاجات مضللة.
2- يقلل غياب البيانات من القوة الإحصائية ، مما يشير إلى احتمال أن يرفض الاختبار الفرضية الصفرية عندما تكون خاطئة.
3- يحدث التحيز في تقدير المعلمات بسبب القيم المفقودة. يتم تقليل أهمية العينات.

أنواع القيم المفقودة : Types of Missing Data

الآليات التي يتم من خلالها فقدان البيانات تؤثر على بعض الافتراضات التي تدعم طرق احتساب البيانات الخاصة بنا. يمكن وصف ثلاث آليات رئيسية لنقص البيانات ، اعتمادًا على العلاقة بين البيانات المرصودة (المتاحة) وغير المرصودة (المفقودة). من أجل البساطة ، دعنا نفكر في النواقص في الحالة أحادية المتغير. لتعريف النقص في المصطلحات الرياضية ، يمكن تقسيم مجموعة البيانات X إلى جزأين:

اذ ان Xo تمثل البيانات المشاهدة، و Xm تمثل البيانات المفقودة في مجموعة البيانات. لكل مشاهدة نحدد استجابة ثنائية (Binary Response) سواء كانت هذه المشاهدة مفقودة أم لا وكالاتي:

يمكن فهم آلية القيمة المفقودة من حيث احتمال أن تفتقد المشاهدة Pr(R) بوجود المشاهدات المرصودة والمفقودة ، كما في الصيغة :

القيمة الاحتمالية تخضع الى آليات ثلاث لمعرفة ما إذا كان احتمال الاستجابة R يعتمد أم لا على القيم المشاهدة و / أو المفقودة، وهي كالاتي :

1- بيانات مفقودة عشوائياً بشكل تام ((MCAR) Missing Completely at Random) :هناك نوعان من الافتراضات التي يجب توفرها للبيانات المفقودة عشوائيا بشكل تام . الافتراض الأول هو أنه لا توجد فروق منهجية في المتغيرات المشاهدة بين المتغيرات ذات القيم المفقودة. الافتراض الثاني الذي يجب تحقيقه هو أنه لا يمكن أن تكون هناك أي علاقة بين القيم المفقودة في متغير معين والقيم الموجودة في ذلك المتغير. عندما يتم استيفاء هذه الافتراضات ، يُقال إن البيانات مفقودة تمامًا بشكل عشوائي .أحد الأمثلة على هذه الآلية هو إذا نفدت بطاريات ميزان الوزن ستكون بعض البيانات مفقودة تمامًا بشكل عشوائي نظرًا لأنها مجرد مصادفة أن البطاريات تنفد وبالتالي لا يرتبط النقص بأي من المتغيرات .

2- بيانات مفقودة بشكل عشوائي (Missing at Random (MAR) ): في هذه الحالة ، يرتبط احتمال فقدان قيمة بالبيانات التي يمكن مشاهدتها فقط ، أي أن البيانات المشاهدة مرتبطة إحصائيًا بالمتغيرات المفقودة ومن الممكن تقدير القيم المفقودة من البيانات المشاهدة. على سبيل المثال، إذا كان تبليغ كبار السن للطبيب هو الاقل احتمالاً بأنهم أصيبوا بالتهاب رئوي من قبل ، فإن معدل استجابة متغير الالتهاب الرئوي سيعتمد على متغير العمر .

3- بيانات مفقودة بشكل غير عشوائي ((MNAR) Missing Not at Random) : تشير هذه الحالة عندما لا يتحقق اي من MCAR ولا MAR . تعتمد البيانات المفقودة على القيم المفقودة والمشاهدة . عادةً ما يكون تحديد الآلية المفقودة أمرًا مستحيلًا ، لأنه يعتمد على البيانات غير المشاهدة. على سبيل المثال ، يمكننا أن نتخيل أن المرضى الذين يعانون من انخفاض ضغط الدم هم أكثر عرضة لقياس ضغط الدم لديهم الاقل تكرارًا (البيانات المفقودة لمتغير “ضغط الدم” تعتمد جزئيًا على قيم ضغط الدم).

التعامل مع البيانات المفقودة :Dealing with Missing Data

ركزت مجموعة كبيرة من البحوث على مقارنة أداء طرائق معالجة البيانات المفقودة ، بشكل عام مثل نسبة البيانات المفقودة وحجم العينة . يمكن العثور على جوانب تقنية أكثر تفصيلاً ، وتطبيق هذه الأساليب في مختلف المجالات ،باختصار ، ومن اهم المعالجات للقيم المفقودة هي :

1-طريقة الحذف : Deletion Methods
إن أبسط طريقة للتعامل مع البيانات المفقودة هي تجاهل المشاهدات التي تحتوي على قيم مفقودة. بشكل عام ، تؤدي طرائق حذف المشاهدة إلى استنتاجات صحيحة بالنسبة الى MCAR فقط. هناك ثلاث طرائق للقيام بذلك: تحليل الحالة الكاملة؛ تحليل الحالة المتاحة وطرق الترجيح.

2-التضمين أحادي القيمة :Single-Value Imputation
في التضمين الفردي ، يتم ملء القيم المفقودة بنوع من القيم “المتوقعة” . يتجاهل التضمين الفردي عدم اليقين ويقلل دائمًا من أهمية التباين. يتغلب التضمين المتعدد على هذه المشكلة ، من خلال مراعاة كلا من عدم اليقين ضمن – وفيما بين – عدم اليقين في التضمين.

3-التضمين باستخدام قيم (المتوسط / المتوسط) :Imputation Using (Mean/Median) Values:

تستند هذه الطريقة على حساب المتوسط / الوسيط للقيم غير المفقودة في عمود ثم استبدال القيم المفقودة داخل كل عمود بشكل منفصل ومستقل عن القيم الأخرى. يمكن استخدامه فقط مع البيانات الرقمية.

4-تضمين الانحدار الخطي : Linear Regression

يتم استعمال جميع المتغيرات المتاحة لإنشاء نموذج انحدار خطي باستخدام المشاهدات المتاحة للمتغير محل الاهتمام كناتج. تتمثل مزايا هذه الطريقة في أنها تأخذ في الاعتبار العلاقة بين المتغيرات ، على عكس التضمين المتوسط / الوسيط. تتمثل العيوب في أنه يبالغ في تقدير ملاءمة النموذج والعلاقة بين المتغيرات ، لأنه لا يأخذ في الاعتبار عد التاكد في البيانات المفقودة ويقلل من التباينات والتغايرات. الطريقة التي تم إنشاؤها لإدخال عدم التاكد هي الانحدار الخطي العشوائي (انظر أدناه).

5-تضمين الانحدار العشوائي :Stochastic regression imputation

مشابه تمامًا لضمانات الانحدار التي تحاول التنبؤ بالقيم المفقودة عن طريق سحبها من المتغيرات الأخرى ذات الصلة في نفس مجموعة البيانات بالإضافة إلى بعض القيم المتبقية العشوائية.

6-التضمين باستعمال القيمة الاكثر تكراراً (او الصفر\ثابت): Imputation Using (Most Frequent) or (Zero/Constant) Values

القيمة الأكثر تكرارًا هي استراتيجية إحصائية أخرى لحساب القيم المفقودة اذ تعمل مع ميزات فئوية (سلاسل أو تمثيلات رقمية) عن طريق استبدال البيانات المفقودة بالقيم الأكثر شيوعًا داخل كل عمود. اما التضمين الصفري أو الثابت – كما يوحي الاسم – يستبدل القيم المفقودة إما بصفر أو بأي قيمة ثابتة تحددها.

7-التضمين القائم على الانموذج : Model-Based Imputation

في التضمين المستند إلى النموذج ، يتم إنشاء نموذج تنبؤي لتقدير القيم التي ستحل محل البيانات المفقودة. في هذه الحالة ، يتم تقسيم مجموعة البيانات إلى مجموعتين فرعيتين: واحدة لا تحتوي على قيم مفقودة للمتغير قيد التقييم ، والأخرى تحتوي على قيم مفقودة ، المراد تقديرها. يمكن استخدام العديد من طرق النمذجة مثل: الانحدار ، والانحدار اللوجستي ، والشبكات العصبية وتقنيات النمذجة البارامترية وغير البارامترية الأخرى. هناك عيبان رئيسيان في هذا النهج: عادة ما تكون قيم تقديرات النموذج أفضل من القيم الحقيقية .

8-التضمين باستعمال الجار الاقرب- Imputation Using k-NN

الجار الاقرب (k) هي خوارزمية تستخدم للتنبؤ بقيم أي نقاط بيانات جديدة. هذا يعني أنه يتم تعيين قيمة للنقطة الجديدة بناءً على مدى تشابهها مع النقاط الموجودة في مجموعة التدريب. يمكن أن يكون هذا مفيدًا جدًا في عمل تنبؤات حول القيم المفقودة من خلال العثور على أقرب جيران k للمشاهدة مع البيانات المفقودة ثم احتسابها بناءً على القيم غير المفقودة في المنطقة المجاورة.

اساس عمل خوارزمية الجار الاقرب (k) هي إنشاء متوسط أساسي ثم يستخدم القائمة الكاملة الناتجة لبناء KDTree. بعد ذلك ، يستخدم KDTree الناتج لحساب أقرب الجيران (NN). بعد أن يعثر على k-NNs ، فإنه يأخذ المتوسط المرجح لها.

9-الاستقراء والتوليد : Extrapolation and Interpolation

يتم تقدير القيم المفقودة من المشاهدات الأخرى ضمن نطاق مجموعة منفصلة من نقاط البيانات المعروفة.

10-تضمين السطح الساخن : Hot-Deck imputation

يعمل عن طريق اختيار القيمة المفقودة عشوائيًا من مجموعة متغيرات مرتبطة ومتشابهة.

11-اخر مشاهدة ترحل الى الامام : Last Observation Carried Forward

تسمى أحيانًا طريقة “أخذ العينة والاحتفاظ بها” . طريقة ترحيل القيمة الأخيرة خاصة بالنماذج الطولية (longitudinal Model) . تشير هذه التقنية إلى مساواة القيمة المفقودة مع آخر مشاهدة للمفردة . تفترض هذه الطريقة أن المشاهدة للمفردة لم تتغير على الإطلاق منذ آخر مشاهدة تم قياسها ، والتي غالبًا ما تكون غير واقعية .

الاستنتاج : Conclusion

يمكن للعديد من الأساليب الإحصائية ، بما في ذلك الامكان الاعظم (Maximum Likelihood) ، والتعظيم المتوقع (Expected Maximization) ، ونماذج Bayesian ، التعامل مع البيانات ذات القيم المفقودة. ومع ذلك ، يجب توخي الحذر الشديد لضمان عدم نتيجة الاستدلال المتحيز.

في النتيجة ، لا توجد طريقة مثالية للتعويض عن القيم المفقودة في مجموعة البيانات. يمكن أن تؤدي كل إستراتيجية أداءً أفضل بالنسبة لمجموعات معينة من البيانات وحسب أنواع البيانات المفقودة ، ولكنها قد تؤدي بشكل أسوأ بكثير في الأنواع الأخرى من مجموعات البيانات الاخرى . هناك بعض القواعد المحددة لتحديد الإستراتيجية التي يجب استخدامها لأنواع معينة من القيم المفقودة ، ولكن بعد ذلك ، يجب عليك التجربة والتحقق من النموذج الأفضل لمجموعة البيانات الخاصة بك.

المصادر :

  1. [1] Buuren, S. V., & Groothuis-Oudshoorn, K. (2011). Mice: Multivariate Imputation by Chained Equations in R. Journal of Statistical Software
  2. [2] Rubin DB (1988) An overview of multiple imputation. In: Proceedings of the survey research section, American Statistical Association, pp 79–84
  3. [3] Little RJA, Rubin DB (2002) Missing data in experiments. In: Statistical analysis with missing data. Wiley, pp 24–40

Similar Posts

اترك تعليقاً