تُعرف عملية اكتشاف البيانات الخاطئة أو غير الصحيحة أو غير ذات الصلة وحلها باسم تنظيف البيانات. تعمل هذه المرحلة الحاسمة من معالجة البيانات ، والمعروفة أيضًا باسم تنقية البيانات أو تنظيف البيانات ، على تحسين اتساق بيانات مؤسستك وموثوقيتها وفائدتها. الأرقام المفقودة ، والإدخالات في غير محلها ، والأخطاء المطبعية كلها عيوب شائعة في البيانات.
بغض النظر عن كيفية جمع البيانات (في المقابلات وجهاً لوجه ، والمقابلات الهاتفية ، والاستبيانات ذاتية الإدارة ، وما إلى ذلك) ، سيكون هناك مستوى معين من الخطأ. البيانات “غير المرتبة (الفوضوية)” تشير إلى بيانات مليئة بالتباينات (الاختلافات) ، في حين أن بعض تلك التباينات مشروعة لأنها تعكس تباينًا في النسق العام على سبيل المثال قد يعكس خطأ في القياس أو الإدخال. ويمكن أن تنتج هذه الاختلافات بسبب خطأ بشري ، أو أنظمة التسجيل سيئة التصميم ، أو ببساطة بسبب وجود تحكم غير كامل في تنسيق ونوع البيانات المستوردة من مصادر البيانات الخارجية. تؤدي هذه الاختلافات إلى إحداث الفوضى عند محاولة إجراء التحليل الاحصائي باستخدام البيانات. قبل معالجة البيانات للتحليل ، يجب توخي الحذر لضمان دقة البيانات واتساقها قدر الإمكان.
تشير مصطلحات التحقق من صحة البيانات أو تنظيف البيانات أو تنقية البيانات إلى عملية اكتشاف البيانات غير المرتبة أو تصحيحها أو استبدالها أو تعديلها أو إزالتها من مجموعة سجلات أو جداول أو قاعدة بيانات. توفر هذه المقالة إرشادات لمحللي البيانات للعثور على استراتيجية تنظيف البيانات الصحيحة عند التعامل مع بيانات تقييم الاحتياجات. الدليل قابل للتطبيق على كل من البيانات الأولية والثانوية. يغطي الحالات الاتية :
* يتم إنشاء البيانات الأولية بواسطة فرق التقييم باستخدام استبيان.
* يتم الحصول على البيانات من مصادر ثانوية (أنظمة مراقبة النزوح ، وبيانات الأمن الغذائي ، وبيانات التعداد ، وما إلى ذلك)
* تتم مقارنة البيانات الثانوية أو دمجها مع البيانات التي تم الحصول عليها من التقييمات الميدانية
اولاً: عملية تنظيف البيانات : The Data Cleaning Process
يتكون تنظيف البيانات بشكل أساسي من تنفيذ استراتيجيات منع الأخطاء قبل حدوثها (إجراءات مراقبة جودة البيانات). ومع ذلك ، يمكن أن تقلل استراتيجيات منع الأخطاء من الأخطاء الشائعة ولكن لا تقضي عليها ، وسيتم اكتشاف العديد من أخطاء البيانات بشكل عرضي أثناء أنشطة مثل:
عند جمع البيانات أو إدخالها.
عند تحويل / استخراج / نقل البيانات.
عند استكشاف أو تحليل البيانات.
عند تقديم مسودة تقرير للمراجعة .
حتى مع وجود أفضل استراتيجيات الوقاية من الأخطاء ، ستظل هناك حاجة للبحث النشط والمنهجي عن الأخطاء / المشاكل واكتشافها ومعالجتها بطريقة مخططة اذ يتضمن تنظيف البيانات دورات متكررة من الفحص والتشخيص والمعالجة والتوثيق لهذه العملية. عند تحديد أنماط الأخطاء ، يجب تكييف إجراءات جمع البيانات وإدخالها لتصحيح تلك الأنماط وتقليل الأخطاء المستقبلية.
يتضمن الفحص البحث المنهجي عن السمات المشبوهة في استبيانات التقييم أو قواعد البيانات أو مجموعات بيانات التحليل. يتطلب التشخيص (تحديد طبيعة البيانات المعيبة) والمعالجة (حذف البيانات أو تعديلها أو تركها كما هي).
ان مراحل تنظيف البيانات يتطلب فهماً متعمقاً لجميع أنواع ومصادر الأخطاء المحتملة أثناء عمليات جمع البيانات وإدخالها.
يستلزم توثيق التغييرات ترك مسار تدقيق للأخطاء المكتشفة والتعديلات والإضافات والتحقق من الأخطاء وسيسمح بالعودة إلى القيمة الأصلية إذا لزم الأمر.
ثانياً: مصادر الاخطاء Sources of Error
بعد القياس ، تكون البيانات هي هدف سلسلة من الأنشطة النموذجية: يتم إدخالها في قواعد البيانات ، واستخراجها ، ونقلها إلى جداول أخرى ، وتحريرها ، واختيارها ، وتحويلها ، وتلخيصها ، وتقديمها. من المهم إدراك أن الأخطاء يمكن أن تحدث في أي مرحلة من مراحل تدفق البيانات ، بما في ذلك أثناء تنظيف البيانات نفسها. تندرج العديد من مصادر الخطأ في قواعد البيانات في واحدة أو أكثر من الفئات التالية:
- اخطاء القياس Measurement errors: تهدف البيانات عمومًا إلى قياس بعض العمليات الفيزيائية أو الموضوعات، مثلا وقت الانتظار عند نقطة معينة ، وحجم السكان ، ومعدل الإصابة بالأمراض ، وما إلى ذلك. في بعض الحالات ، يتم إجراء هذه القياسات بواسطة عمليات بشرية يمكن أن أخطاء منهجية أو عشوائية في تصميمها (أي استراتيجيات أخذ عينات غير مناسبة) وتنفيذها (أي إساءة استخدام الأدوات ، والتحيز ، وما إلى ذلك).
- خطأ في ادخال البيانات Data entry error: إدخال البيانات “هو عملية نقل المعلومات من الوسيط الذي يسجل الاستجابة (عادةً الردود المكتوبة على استبيانات مطبوعة) إلى تطبيق كمبيوتر. تحت ضغط الوقت ، أو بسبب نقص الإشراف أو التحكم المناسب ، غالبًا ما تتلف البيانات في وقت الإدخال.يمكن منع جزء كبير من أخطاء إدخال البيانات باستخدام نموذج إلكتروني والإدخال المشروط.
-يحدث الإدخال الخاطئ إذا تم ، على سبيل المثال ، كتابة العمر بشكل خاطئ على أنه 26 بدلاً من 25.
-تضيف الإدخالات الدخيلة معلومات صحيحة ولكنها غير مرغوب فيها ، على سبيل المثال الاسم والمسمى الوظيفي في حقل الاسم فقط.
-تحدث القيمة المشتقة بشكل غير صحيح عندما تم حساب دالة بشكل غير صحيح لحقل مشتق (أي خطأ في العمر مشتق من تاريخ الميلاد).
-تحدث حالات عدم تناسق عبر الجداول أو الملفات ، على سبيل المثال. عندما لا يتطابق عدد المواقع التي تمت زيارتها في جدول المحافظة وعدد المواقع التي تمت زيارتها في جدول العينة الإجمالي.
- اخطاء المعالجة Processing errors : في الكثير من الإعدادات ، تتم معالجة البيانات الأولية مسبقًا قبل إدخالها في قاعدة البيانات. تتم معالجة البيانات هذه لعدة أسباب منها تقليل التعقيد أو الضوضاء في البيانات الأولية ، لتجميع البيانات على مستوى أعلى ، وفي بعض الحالات لمجرد تقليل حجم البيانات المخزنة. كل هذه العمليات لديها القدرة على إحداث أخطاء.
- اخطاء في توحيد البيانات Data integration errors: من النادر أن تحتوي قاعدة بيانات ذات حجم وعمر كبيرين على بيانات من مصدر واحد ، ويتم جمعها وإدخالها بنفس الطريقة بمرور الوقت. في كثير من الأحيان ، تحتوي قاعدة البيانات على معلومات تم جمعها من مصادر متعددة عبر طرائق متعددة بمرور الوقت. ومن الأمثلة على ذلك تتبع عدد الأشخاص المتأثرين خلال الأزمة ، حيث يتم تنقيح تعريف “المتضررين” أو تغييره بمرور الوقت. علاوة على ذلك ، من الناحية العملية ، تتطور العديد من قواعد البيانات من خلال دمج قواعد البيانات الأخرى الموجودة مسبقًا. تتطلب مهمة الدمج هذه دائمًا بعض المحاولات لحل الاختلافات عبر قواعد البيانات التي تتضمن وحدات بيانات مختلفة ، وفترات قياس ، وانواع… إلخ. أي إجراء يدمج البيانات من مصادر متعددة يمكن أن يؤدي إلى أخطاء. سيؤدي دمج قاعدتي بيانات أو أكثر إلى تحديد الأخطاء (حيث توجد اختلافات بين قاعدتي البيانات) وإنشاء أخطاء جديدة (أي السجلات المكررة).
نهح تدريجي لتنظيف البيانات step by step approach to data cleaning:
- أولاً: اول اهم شيء First Things First: أول شيء يجب القيام به هو عمل نسخة من البيانات الأصلية في مصنف منفصل وتسمية الأوراق بشكل مناسب ، أو حفظها في ملف جديد. احتفظ دائمًا بالملفات المصدر في مجلد منفصل وقم بتغيير السمة الخاصة بها إلى للقراءة فقط ، لتجنب تعديل أي من الملفات.
- ثانياً: عرض البيانات Screening Data : لتحضير البيانات للفحص ، قم بترتيب مجموعة البيانات عن طريق تحويل البيانات بتنسيق سهل الاستخدام. ضمن مجموعة بيانات مرتبة:
-يتم تنسيق الخطوط.
-يتم محاذاة النص إلى اليسار والأرقام إلى اليمين
-يتم تحويل كل متغير إلى عمود وكل مشاهدة إلى صف.
-لا توجد صفوف فارغة.
-رؤوس الأعمدة واضحة ومميزة بصريًا.
-تم حذف المسافات البادئة بعد ذلك ، افحص البيانات بحثًا عن الأخطاء المحتملة التالية: الاخطاء الإملائية والتنسيق: هل المتغيرات الفئوية مكتوبة بشكل غير صحيح؟ هل تنسيق التاريخ متسق؟ بالنسبة للحقول الرقمية ، هل كل القيم أرقام؟ إلخ.
نقص البيانات: هل تحتوي بعض الأسئلة على إجابات أقل بكثير مقارنة بالأسئلة الأخرى؟
فائض البيانات: هل هناك إدخالات مكررة أو إجابات أكثر من المسموح به في الأصل؟
القيم المتطرفة / التناقضات: هل هناك قيم أبعد من التوزيع النموذجي لدرجة أنها قد تبدو خاطئة؟
أنماط ملحوظة: هل هناك أنماط تشير إلى أن المستفتى أو العداد لم يجيب أو يسجل الأسئلة بصدق؟ (أي عدة استبيانات بنفس الإجابات بالضبط)؟
نتائج تحليل مشتبه بها: هل تبدو الإجابات على بعض الأسئلة معارضة للحدس أو غير مرجحة على الإطلاق؟
- ثالثاً: تشخيص البيانات Diagnosing Data : بعد تحديد الخطأ أو تسليط الضوء عليه ياتي التشخيص(اي العثور على سبب هذا الخطأ) . لتوضيح البيانات المشبوهة ، راجع جميع إجابات المستفتى لتحديد ما إذا كانت البيانات منطقية في السياق. في بعض الأحيان يكون من الضروري مراجعة مقطع عرضي لإجابات المستجيبين المختلفين ، لتحديد المشكلات مثل نمط التخطي الذي تم تحديده بشكل غير صحيح.
هناك العديد من التشخيصات الممكنة لكل نقطة بيانات مشتبه بها:
بيانات مفقودة: الإجابات التي تم حذفها من قبل المستجيب (عدم الإجابة) ، الأسئلة التي تم تخطيها من قبل العداد أو الانسحاب. (يمكن ايضا الاطلاع على المقالة تقدير القيم المفقودة)
الأخطاء: الأخطاء المطبعية أو الإجابات التي تشير إلى أن السؤال قد أسيء فهمه.
التطرف الحقيقي: إجابة تبدو عالية ولكن يمكن تبريرها بإجابات أخرى (أي أن المستفتى يعمل 60 ساعة في الأسبوع لأنه يعمل في وظيفة بدوام كامل ووظيفة بدوام جزئي)
طبيعي صحيح: سجل صالح.
لا يوجد تشخيص ، ما زلت مشكوكًا فيه: اتخذ قرارًا بشأن كيفية معالجة هذه البيانات أثناء مرحلة العلاج.
من الواضح أن بعض قيم البيانات مستحيلة منطقيًا أو بيولوجيًا (لا يمكن أن يكون الرجال حاملاً ، ولا يمكن أن يكون سعر الخبز سالبًا). تساعد نقاط التوقف المحددة مسبقًا على الفور في اكتشاف هذا النوع من الأخطاء. في بعض الأحيان تقع القيمة المشتبه بها ضمن النطاق المقبول ويكون التشخيص أقل وضوحًا. في هذه الحالات ، من الضروري تطبيق مجموعة من الإجراءات التشخيصية:
-العودة إلى المراحل السابقة من تدفق البيانات لمعرفة ما إذا كانت القيمة هي نفسها باستمرار. يتطلب هذا الوصول إلى بيانات مؤرشفة وموثقة جيداً مع مبررات لأي تغييرات يتم إجراؤها في أي مرحلة.
-ابحث عن المعلومات التي يمكن أن تؤكد الحالة القصوى الحقيقية لنقطة البيانات البعيدة. على سبيل المثال ، قد تكون الدرجة المنخفضة جدًا للوزن بالنسبة للعمر (بمعنى −6 درجات Z) ناتجة عن أخطاء في قياس العمر أو الوزن ، أو قد يكون الشخص مصابًا بسوء التغذية الشديد ، وفي هذه الحالة يجب أن تكون المتغيرات الغذائية الأخرى لها أيضًا قيم منخفضة للغاية. يتطلب هذا النوع من الإجراءات نظرة ثاقبة لترابط المتغيرات. تتوفر هذه الرؤية عادةً من التجربة أو الدروس المستفادة ويمكن استخدامها لتخطيط تنظيف البيانات وبرمجتها.
– اجمع معلومات إضافية ، على سبيل المثال ، استفسر من العداد عما قد يحدث ، وكرر القياس إذا كان ذلك ممكنًا أو ضروريًا. يمكن أن تحدث مثل هذه الإجراءات فقط إذا بدأ تنظيف البيانات بعد وقت قصير من جمع البيانات.
-مرحلة التشخيص مجهدة وتتطلب عمل كبير وعادة ما يتم التقليل من متطلبات الميزانية واللوجستية والوقت والموظفين أو حتى إهمالها في مرحلة التصميم. مطلوب موارد أقل إذا تم استخدام إدخال البيانات المشروط (على سبيل المثال من خلال النماذج الإلكترونية) وإذا بدأ التشخيص في وقت مبكر من عملية جمع البيانات.
- رابعاً : معالجة البيانات Treatment of Data: بعد تحديد القيم المفقودة والأخطاء والقيم الحقيقية (المتطرفة أو العادية) ، يجب على المحللين أن يقرروا ما يجب فعله مع المشاهدات غير الثابتة (المريبة) :
-تركها بدون تغيير: أكثر الإجراءات تحفظًا هي قبول البيانات كاستجابة صالحة وعدم إجراء أي تغيير عليها. كلما زاد حجم العينة ، قل تأثير الاستجابة المشكوك فيها على التحليل ؛ كلما كان حجم العينة أصغر ، كلما كان القرار أكثر صعوبة.
-تصحيح البيانات: إذا كان من الممكن تحديد الهدف الأصلي للمستجيب ، فقم بتصحيح الإجابة (أي بعد المناقشة مع العداد ، من الواضح أن المستفتى كان يعني نقص الدخل بدلاً من الدخل الزائد).
-حذف البيانات: تبدو البيانات غير المنطقية والقيم البعيدة جدًا عن القاعدة التي ستؤثر على الإحصائيات الوصفية أو الاستنتاجية. ما يجب القيام به؟ حذف هذه الاستجابة فقط أو حذف السجل بأكمله؟ تذكر أنه كلما تم حذف البيانات ، هناك خطر “قطف الكرز Cherry Picking” (“قطف الكرز” هو أسلوب لتحليل البيانات يستخدم عندما يكون لدى الباحث بيانات غير كافية. لذا يعتمد الباحث بالاساس على انهاء جمع البيانات بوجود الحد الادنى من مجموعة البيانات واهمال الفئات الكبيرة (اي يختار مايلائم بحثه باقل عدد مشاهدات) ويكمل التحليل.وكذلك يتم تعريف (“اختيار الأفضل أو الأكثر طلباً “) عند كتابة النتائج ، يتم تقديم الهيكل النظري للتحليل ، مع التعليق ، وأفضل الاقتباسات (وأحيانًا الوحيدة) المتاحة لتوضيح التعليق) . ولفهم تأثير حذف نقطة بيانات ، يمكن إنشاء متغير ثنائي الاستجابة (1 = سجل مريب ، 0 = غير مشبوه). يمكن استخدام هذا المتغير الجديد كعامل تصفية سجل في الجداول المحورية أو التصفية في الجدول لفهم تأثير البيانات التي قد تكون خاطئة في النتائج النهائية.
-إذا سمح الوقت والموارد ، أعد قياس القيم المشبوهة أو الخاطئة.
القواعد العامة لدعم اتخاذ قرار بشأن كيفية معالجة البيانات:
-إذا قام الشخص الذي يقوم بإدخال البيانات بإدخال قيم مختلفة عن تلك الموجودة في الاستبيان ، فيجب تغيير القيمة إلى ما تم تسجيله في نموذج الاستبيان. (على سبيل المثال ، كانت القيمة في الاستبيان 40000 وكان عامل إدخال البيانات مرتبطًا بـ 4000 – تم ترك صفر).
-عندما لا تكون القيم المتغيرة منطقية ، إذا لم يكن هناك خطأ في إدخال البيانات ، ولا توجد مشاهدات للمساعدة في تحديد مصدر الخطأ ، اترك البيانات كما هي. من خلال تغيير القيمة إلى نتيجة أكثر منطقية ، يتم إدخال تحيز كبير ولا يوجد مبرر لتغييره. يجب أن يتم سرد الحالة على أنها خارجية (أي باستخدام التنسيق الشرطي على سبيل المثال).
-عندما يتم العثور على خلايا فارغة أو كان السجل مطلوبًا على الرغم من أن الخبراء الرئيسيين قد لا يكون لديهم هذا النوع من البيانات أو تم إدخال سجلات مكررة ، فيجب حذف الحالات من ملف البيانات.
-لا تُترك القيم غير الممكنة (المتعذرة) دون تغيير مطلقًا ، ولكن يجب تصحيحها إذا أمكن العثور على قيمتها الصحيحة ، وإلا يجب حذفها. بالنسبة للمتغيرات البيولوجية المستمرة ، يمكن أن يكون هناك بعض التباين داخل الموضوع أو اختلاف صغير في القياس. إذا تم إجراء إعادة القياس بسرعة كبيرة بعد القيمة الأولية وكانت القيمتان متقاربتان بدرجة كافية ليتم تفسيرهما بالتباين وحده ، فاخذ متوسط كليهما كقيمة نهائية.
-بوجود القيم المتطرفة الحقيقية والقيم التي لا تزال موضع شك بعد مرحلة التشخيص ، يجب على المحلل فحص تأثير نقاط البيانات هذه ، بشكل فردي وكمجموعة ، على نتائج التحليل قبل اتخاذ قرار بشأن ترك البيانات دون تغيير أم لا.
-للحد من تأثير القيم المتطرفة يمكن للمحللين أن يقرروا تقديم الوسيط. هذا مقبول طالما تم شرحه بوضوح في النتائج.
-أوصى بعض المؤلفين بضرورة بقاء القيم المتطرفة الحقيقية دائمًا في التحليل. في الاساليب العملية ، هناك استثناءات كثيرة لهذه القاعدة. قد لا يرغب المحقق في النظر في تأثير القيم المتطرفة الحقيقية إذا كانت ناتجة عن عملية دخيلة غير متوقعة. يصبح هذا معيار استبعاد “لاحق”. يجب الإبلاغ عن نقاط البيانات على أنها “مستبعدة من التحليل” في فصل المنهجية في التقرير النهائي.
خامساً: البيانات المفقودة Missing Values: تتطلب القيم المفقودة اهتمامًا خاصًا. أول شيء هو تحديد الخلايا الفارغة التي يجب ملؤها بالأصفار (لأنها تمثل مشاهدات سلبية حقيقية ، مثل “لا” ، و “غير موجود” ، و “الخيار لم يتم اتخاذه” ، وما إلى ذلك) وأيها يجب تركه فارغًا (إذا الاصطلاح هو استخدام الفراغات للمفقودين أو N / A لـ “غير قابل للتطبيق”). يستبدل بعض المحللين الخلايا الفارغة ببعض رموز القيمة الصريحة المفقودة (على سبيل المثال ، استخدام 999 للإشارة إلى “لا أعرف”).
ماذا نفعل مع بقاء تلك الخلايا فارغة؟ يمكن تصنيف القيم المفقودة على أنها عشوائية أو غير عشوائية:
-قد تحدث قيم مفقودة عشوائية لأن المستجوب لم يجيب عن غير قصد على بعض الأسئلة. قد يكون التقييم شديد التعقيد أو طويل جدًا ، أو قد يكون العداد متعبًا أو لا يولي اهتمامًا كافيًا ، ويفتقد السؤال. قد تحدث أيضًا قيم مفقودة عشوائية من خلال أخطاء إدخال البيانات. إذا كان هناك عدد قليل فقط من القيم المفقودة في مجموعة البيانات (عادةً أقل من 5٪) ، فمن المحتمل جدًا أن تكون قيمة عشوائية مفقودة.
-قد تحدث قيم مفقودة غير عشوائية لأن المستجوب الرئيسي لم يجيب عن قصد على بعض الأسئلة. يحدث هذا على سبيل المثال إذا كان السؤال مربكًا أو غير مناسب أو يُنظر إليه على أنه حساس. ترتبط البيانات المفقودة بواحدة أو أكثر من خصائص المستجيب – على سبيل المثال. إذا كانت الإناث أكثر عرضة لرفض سؤال حول مستوى الدخل مقارنة بالمستجيبين الذكور.
الخيار الافتراضي للتعامل مع القيم المفقودة هو تصفية واستبعاد هذه القيم من التحليل:
-حذف بطريقة قائمة Listwise / حالة Casewise: يتم استبعاد جميع الحالات (على سبيل المثال ، المستجوب) التي تحتوي على قيم مفقودة. إذا تم تحليل متغير واحد فقط ، فإن حذف القائمة هو ببساطة تحليل البيانات الموجودة. عند تحليل متغيرات متعددة ، فإن الحذف القائم على القائمة يزيل الحالات إذا كانت هناك قيمة مفقودة في أي من المتغيرات. العيب هو فقدان البيانات الذي يحدث حيث تتم إزالة جميع البيانات لحالة واحدة ، حتى لو تمت الإجابة على بعض الأسئلة.
– الحذف المزدوج Pairwise deletion: على عكس الحذف القائم على القوائم الذي يزيل الحالات التي تحتوي على قيم مفقودة في أي من المتغيرات قيد التحليل ، فإن الحذف المزدوج يزيل فقط القيم المفقودة المحددة من التحليل (وليس الحالة بأكملها). بمعنى آخر ، يتم تضمين جميع البيانات المتاحة. عند إجراء ارتباط على متغيرات متعددة ، تتيح هذه التقنية ارتباطًا ثنائي المتغير بين جميع نقاط البيانات المتاحة ، وتتجاهل فقط تلك القيم المفقودة إذا كانت موجودة في بعض المتغيرات. في هذه الحالة ، سينتج عن الحذف الزوجي أحجام عينات مختلفة لكل متغير. يكون الحذف الثنائي مفيدًا عندما يكون حجم العينة صغيرًا أو إذا كانت القيم المفقودة كبيرة نظرًا لعدم وجود العديد من القيم للبدء بها.
–حذف جميع الحالات ذات القيم المفقودة delete all cases with missing values: وبالتالي ، يتبقى لك بيانات كاملة لجميع الحالات. تداعيات هذا النهج هو أن حجم عينة البيانات يتم تقليله ، مما يؤدي إلى فقدان القوة الإحصائية وزيادة الخطأ في التقدير (فترات ثقة أوسع). يمكن أن يؤثر أيضًا على تمثيل العينة: بعد إزالة الحالات ذات القيم المفقودة غير العشوائية من مجموعة بيانات صغيرة ، قد يكون حجم العينة غير كافٍ. بالإضافة إلى ذلك ، قد تكون النتائج متحيزة في حالة القيم المفقودة غير العشوائية. قد تختلف خصائص الحالات ذات القيم المفقودة عن الحالات التي لا تحتوي على قيم مفقودة.
–خيار آخر هو التضمين imputation : وتعني استبدال القيم المفقودة. تحافظ هذه التقنية على جميع الحالات عن طريق استبدال البيانات المفقودة بقيمة محتملة بناءً على المعلومات الأخرى المتاحة. إجراء بسيط للتضمين هو استبدال القيمة المفقودة بالمتوسط أو الوسيط. يستبدل التضمين في المجموعة القيم المفقودة بقيمة نفس المتغير المأخوذ من سجل كامل لشخص مشابه في نفس مجموعة البيانات. بمجرد احتساب جميع القيم المفقودة ، يمكن بعد ذلك تحليل مجموعة البيانات باستخدام تقنيات قياسية للحصول على بيانات كاملة. ومع ذلك ، يمكن أن تؤدي هذه الطريقة أيضًا إلى تحيز النتائج .
–في ظل ظروف معينة ، أثبتت أساليب الامكان الاعظم Maximum Likelihood أيضًا فعاليتها في التعامل مع البيانات المفقودة. لا تنسب هذه الطريقة أي بيانات ، ولكنها تستخدم جميع البيانات المتاحة للحالات المحددة لحساب تقديرات الامكان الاعظم.
تتوسع تفصيل التفاصيل الفنية وملاءمة وصلاحية كل تقنية نطاق هذه المقالة. في النهاية ، يعتمد اختيار الأسلوب الصحيح على مقدار البيانات المفقودة ، وسبب فقدان هذه البيانات ، والأنماط ، والعشوائية ، وتوزيع القيم المفقودة ، وتأثيرات البيانات المفقودة ، وكيفية استخدام البيانات للتحليل. يوصى بشدة بالرجوع إلى خبير إحصائي في حالة وجود مجموعة بيانات صغيرة بها عدد كبير من القيم المفقودة. عمليًا ، لتقييم الاحتياجات باستخدام موارد إحصائية قليلة ، قد يكون إنشاء نسخة من المتغير واستبدال القيم المفقودة بالمتوسط أو الوسيط في كثير من الأحيان كافياً ومفضلاً عن الحالات المفقودة في التحليل متعدد المتغيرات من العينات الصغيرة.
هناك عدة طرق للتعامل مع البيانات المفقودة ، بما في ذلك حذف الحالات ذات القيم المفقودة ، والتضمين وأسلوب الامكان الاعظم . ومع ذلك ، تقديم تفسير عن سبب البيانات المفقودة (“لا يمكن مقابلة النساء” ، “تعذر ملء قسم الاستبيان الأخير بسبب ضيق الوقت”) قد يكون أكثر إفادة للمستخدم النهائي من عدد كبير من إصلاحات إحصائية.
قم بإعداد متغير وهمي بالقيمة 0 لأولئك الذين أجابوا على السؤال والقيمة 1 لمن لم يجيبوا. استخدم هذا المتغير لإظهار تأثير الطرائق المختلفة.
ابحث عن المعنى في القيم المفقودة غير العشوائية. ربما يشير المستجيبون إلى شيء مهم بعدم الإجابة على أحد الأسئلة.
سادساً : توثيق التغييرات Documenting Changes:
يعد توثيق الأخطاء والتعديلات والإضافات والتحقق من الأخطاء أمرًا ضروريًا من أجل:
الحفاظ على جودة البيانات
تجنب تكرار التحقق من الأخطاء من خلال برامج تنظيف البيانات المختلفة.
استعادة أخطاء تنظيف البيانات
تحديد ملاءمة البيانات للاستخدام.
إبلاغ المستخدمين الذين ربما استخدموا البيانات بمعرفة التغييرات التي تم إجراؤها منذ آخر وصول إلى البيانات.
قم بإنشاء سجل تغيير داخل المصنف ، حيث يتم الحصول على جميع المعلومات المتعلقة بالحقول المعدلة. سيكون هذا بمثابة مسار تدقيق يظهر أي تعديلات ، وسيسمح بالعودة إلى القيمة الأصلية إذا لزم الأمر. في سجل التغيير ، قم بتخزين المعلومات التالية:
جدول (إذا تم تنفيذ عدة جداول)
عمود ، صف
تم تغيير التاريخ
تم التغيير بواسطة
القيمة القديمة
قيمة جديدة
تعليقات
تأكد من توثيق خطوات وإجراءات تنظيف البيانات التي تم تنفيذها أو اتباعها ، ومن قبل من ، وعدد الردود المتأثرة ولأي أسئلة.
قم دائمًا بإتاحة هذه المعلومات عند مشاركة مجموعة البيانات داخليًا أو خارجيًا (أي من خلال إرفاق سجل التغيير في ورقة عمل منفصلة).
الاعتبارات النهائية Final considerations:
إذا تم تنظيف البيانات بواسطة أكثر من شخص ، فإن الخطوة الأخيرة هي دمج جميع جداول البيانات معًا بحيث تكون هناك قاعدة بيانات واحدة فقط. يجب تجميع التعليقات أو سجلات التغيير التي يتم إجراؤها أثناء تقدم عملية التنظيف في مستند واحد. يجب مناقشة بيانات المشكلة في ملف التوثيق.
تحديث إجراءات التنظيف وتغيير السجل وملف توثيق البيانات مع تقدم التنظيف. تقديم التغذية الراجعة إلى العدّاديين أو قادة الفرق أو مشغلي إدخال البيانات في حالة جمع البيانات وإدخالها العملية لا تزال جارية. إذا تم ارتكاب نفس الأخطاء من قبل فريق واحد أو العدادين ، فتأكد من إبلاغ مدخل البيانات .
كن مستعدًا. تنظيف البيانات عملية مستمرة. لا يمكن تحديد بعض المشاكل حتى يبدأ التحليل. يتم اكتشاف الأخطاء حيث يتم التلاعب بالبيانات من قبل المحللين ، وعلى عدة مراحل من التنظيف مطلوب بشكل عام حيث يتم اكتشاف التناقضات. في التقييمات السريعة ، من الشائع جدًا اكتشاف الأخطاء حتى أثناء عملية مراجعة الأقران.