تنقية البيانات DATA SCREENING
الهدف من هذه المقالة التعليمية هو تعريف الباحثين بفحص البيانات وتطبيق طرق لإعداد البيانات للتحليلات أحادية المتغير. كما أشار Tabachnick and Fidell (2007) ، فإن فحص البيانات أمر بالغ الأهمية لحماية سلامة الاستنتاجات الإحصائية .سيتم في هذه المقالة التعرف على الاتي :
- الكشف عن أخطاء إدخال البيانات الخاطئة.
- تحديد والتعامل مع البيانات المفقودة.
- كشف واتخاذ القرارات حول القيم المتطرفة أحادية المتغير.
- الفرز واتخاذ القرارات حول القيم المتطرفة أحادية المتغير.
- تحويل المتغير التابع.
كشف اخطاء الادخال الخاطئ للبيانات :DETECTING ERRONEOUS DATA ENTRY ERRORS
من الواضح أن سلامة تحليل البيانات الخاصة بك يمكن أن تتعرض للخطر بشكل كبير عن طريق إدخال بيانات خاطئة. من الأفضل إدخال البيانات الخاصة بك والتحقق منها لمقارنة البيانات الأصلية بالبيانات الموجودة في طريقة عرض البيانات. عندما يقوم شخص آخر بإدخال بياناتك ، فأنت بحاجة إلى التدريب والثقة به وكذلك مراقبة إدخال البيانات الخاصة به. إذا لم تتمكن من التحقق من جميع إدخالات البيانات الخاصة بهم ، فقم بالتحقق على الأقل من مجموعة فرعية عشوائية من مجموعة البيانات. بالإضافة إلى ذلك ، استخدم الاجراء الاتي في برنامج SPSS :
من النتائج سوف تجيب على أسئلة مثل:
- هل جميع قيم المتغيرات في النطاق المتوقع؟
- هل المتوسطات والانحرافات المعيارية مقبولة؟
نستعرض مثال باستخدام التوجيهات في برنامج SPSS Ver.26 كما في أدناه:
يتم فتح ملف البيانات Data File بعدها تتبع التوجيهات
انقر فوق كلا المتغيرين إلى قائمة المتغير (المتغيرات)
ضغط على OK
راجع جداول التكرارات لكل متغير. يجب أن يكون واضحًا أن القيمة 331 في جدول التكرار لـ “المواقف تجاه الأعمال المنزلية (atthouse)” وقيمة 11 في جدول التردد لـ “سواء كان مستخدمًا حاليًا (emplmnt)” لها دقة مشكوك فيها. تم إدخال كلا القيمتين بشكل غير صحيح
انقر خارج نتائج جدول التكرار (لا تحفظ النتائج إلا إذا كنت ترغب في ذلك) وانتقل إلى عرض البيانات وصحح القيمتين غير الصحيحين ، وفقًا لذلك:
تحديد البيانات المفقودة وكيفية التعامل معها IDENTIFYING AND DEALING WITH MISSING DATA:
تظهر القيم المفقودة عندما لا يستجيب المشاركون في إحدى الدراسات لبعض الاسئلة او المتغيرات ، وكذلك تظهر عند تناقص في عدد المستجوبين او عند أخطاء إدارة البيانات ، وما إلى ذلك.
وجود البيانات المفقودة له تداعيات تتعلق بما يلي:
نمط البيانات المفقودة – إذا كانت البيانات مبعثرة بشكل عشوائي من خلال مجموعة بيانات ، فهي أقل خطورة. ومع ذلك ، فإن القيم المفقودة غير العشوائية تجعل من الصعب تعميم النتائج.
مقدار البيانات المفقودة – إذا كانت نسبة 5٪ أو أقل تتبع نمطًا عشوائيًا وكانت مفقودة من مجموعة كبيرة من البيانات ، فستكون المشكلة أقل خطورة وستعمل معظم استراتيجيات التعامل مع القيم المفقودة.
حدد Tabachnick and Fidell (2007) البدائل التالية للتعامل مع البيانات المفقودة:
حذف الحالات أو المتغيرات
o مشكلة أقل إذا كان عدد قليل فقط من الحالات لديها قيم مفقودة.
o مشكلة أقل إذا كانت القيم المفقودة مركزة على عدد قليل من المتغيرات ليست مهمة للتحليل أو شديدة الارتباط بمتغيرات أخرى.
o مشكلة أكثر إذا فقدت قدرًا كبيرًا من المشاركين.
o مشكلة أكثر إذا لم يتم توزيع القيم المفقودة بشكل عشوائي ، يمكن أن يؤدي حذف الحالة أو المتغير إلى تشويه النتائج وإمكانية التعميم.
تقدير القيم المفقودة – تقدير (حساب) القيم المفقودة ثم استخدام التقديرات في تحليل البيانات. تشمل طرق التقدير ما يلي:
o المعرفة السابقة – استبدل القيمة المفقودة بقيمة تعكس رأي (اجتهاد) الباحث. قد يشمل ذلك تقدير القيمة التي قد تكون وسيطة أو خفض تصنيف متغير مستمر إلى متغير ثنائي الاستجابة (مرتفع ، منخفض) وتقدير الفئة التي ستقع فيها القيمة المفقودة. ينتج عن هذا فقدان المعلومات المتعلقة بالمتغير.
o الاستبدال بالمتوسط – المتوسط هو تقدير جيد لقيمة متغير. إنه خيار محافظ وينتج عنه تقليل التباين (لأنه يصبح ثابتًا). النهج الأقل تحفظًا ، مقارنة بالمعرفة السابقة ، هو استخدام متوسط المجموعة كتقدير بدلاً من متوسط العينة الإجمالي.
o الانحدار – تُنشئ الحالات التي تحتوي على بيانات كاملة معادلة انحدار تُستخدم للتنبؤ بالقيم المفقودة.
o يتم استخدام طريقتين أحدث وأكثر تعقيدًا في كثير من الأحيان وهما تعظيم التوقعات (EM) والافتراضات المتعددة. هاتان الطريقتان متاحتان كبرنامج إضافي لبرنامج SPSS.
يوصى بشدة بتكرار التحليل الاحصائي مع البيانات المفقودة وبدونها. إذا كانت النتائج متشابهة ، فأنت واثق من إجراء البيانات المفقودة. إذا كانت النتائج مختلفة ، فقم بإجراء مزيد من الاستقصاء ، وقم بتقييم النتائج التي تعكس “الواقع” بشكل وثيق أو أبلغ عن كلتا المجموعتين.
سيوضح المثال التالي كيفية اكتشاف قيمة مفقودة في متغير واستبدالها بمتوسط المتغير (قبل استبدال المتغير المفقود). لنفس ملف البيانات السابقة يتم تتبع التوجيهات الاتية
اضغط على Reset للبدء باجراء احصائي جديد
– انقر فوق “المواقف تجاه الأدوية (الأدوية)” و “المواقف تجاه الأعمال المنزلية (المنزل)” و “ما إذا كان متزوجًا حاليًا (mstatus)” ضمن قائمة المتغير (المتغيرات):
-انقر فوق موافق
-من قائمة “Statistics” ، سترى أن المواقف تجاه الأعمال المنزلية (atthouse) “لها قيمة واحدة مفقودة.
للعثور على رقم الحالة (الصف) بالقيمة المفقودة ، انقر فوق نتائج التكرارات
-انقر فوق المتغير “المواقف تجاه الأعمال المنزلية (atthouse)” ضمن قائمة المتغيرات:.
-انقر فوق إيقاف حالات التحديد لأول 100 ، وعرض الحالات الصالحة فقط
-انقر فوق إظهار أرقام الحالة
-اضغط OK
-قم بالتمرير لأسفل في جدول Case Summaries حتى تجد تعريف القيمة المفقودة وقم بتدوين رقم الحالة (الصف). رقم الصف هو 253 للقيمة المفقودة.
-انقر خارج النتائج وانتقل إلى عرض البيانات للعثور على “الرقم الفرعي” للصف 253 تحت المتغير “atthouse”. “subno” للقيمة المفقودة هو 338. لاستبدال القيمة المفقودة لـ “subno” 338 في المتغير “atthouse”
-انقر فوق متغير “المواقف تجاه الأعمال المنزلية (atthouse)” تحت قائمة المتغير (المتغيرات) الجديدة:
-اختر سلسلة يعني بجانب الطريقة method: (يجب أن يكون هذا هو الافتراضي)
-اضغط OK
-انقر خارج صفحة النتائج ولاحظ إنشاء عمود جديد (متغير) يسمى “atthouse_1” باعتباره العمود الأخير في واجهة عرض البيانات Data View.
-قم بالتمرير لأسفل في جدول بيانات عرض البيانات Data View حتى تجد الصف 253 (“الرقم الفرعي” 338). لاحظ أن الخلية الموجودة ضمن “atthouse_1” هي 23.5 حيث تكون قيمة “atthouse” الأصلية مفقودة. يمكن استخدام هذا المتغير الجديد “atthouse_1” مع الاستبدال المتوسط للتحليلات اللاحقة بدلاً من “atthouse” الأصلي مع القيمة المفقودة.
توجد خيارات أخرى غير الطريقة اعلاه لاستبدال القيمة المفقودة. على سبيل المثال ، أحد الخيارات هو الاتجاه الخطي عند النقطة التي يتم فيها استخدام الانحدار للتنبؤ بالقيمة المفقودة. :
اكتشاف واتخاذ القرارات بشأن القيم المتطرفة
العديد من الأساليب الإحصائية حساسة للقيم المتطرفة ، لذا من المهم تحديد القيم المتطرفة واتخاذ قرارات بشأن ما يجب فعله بها. والسبب وفقًا لستيفنز (2002) هو ، “لأننا نريد أن تعكس نتائج تحليلنا الإحصائي لمعظم البيانات ، وألا تتأثر بدرجة كبيرة بنقطة واحدة أو نقطتين فقط من نقاط البيانات الخاطئة” ، النتائج لا تعمم إلا على عينة أخرى بوجود قيمة متطرفة مماثلة.
أسباب ظهور القيم المتطرفة (Tabachnick & Fidell ، 2007):
إدخال بيانات غير صحيح
الفشل في تحديد القيم المفقودة في بناء جملة الكمبيوتر حتى تتم قراءة القيم المفقودة على أنها بيانات حقيقية
المتطرفة ليس فردًا من السكان الذي تنوي أخذ عينة منه
المتطرفة يمثل السكان الذي تنوي أخذ عينة منه ولكن السكان لديهم درجات أكثر تطرفًا من التوزيع الطبيعي
الكشف عن القيم المتطرفة أحادية المتغير ومتعددة المتغيرات.
متغير أحادي المتغير للمتغيرات ثنائية التفرع 90-10 مقسم بين الفئات.
المتغير أحادي المتغير للمتغيرات المستمرة التي تزيد عن z = +3.29 (p <.001 ، اختبار ثنائي الذيل) (Tabachnick & Fidell، 2007، p.73). على الرغم من أنها ليست دقيقة ، يمكن للمرء أيضًا أن ينظر إلى الرسوم البيانية histograms ومخططات الصندوق box plots ورسوم الاحتمالية الطبيعي normal probability plots.
للحصول على درجات z (الدرجات القياسية) للكشف عن القيم المتطرفة أحادية المتغير للحالات تحت المتغير المعني
-انقر فوق “الزيارات إلى المهنيين الصحيين (الساعات)” ضمن قائمة المتغير (المتغيرات)
-انقر فوق المربع الموجود أسفل الشاشة الذي يشير إلى حفظ القيم الموحدة كمتغيرات Save standardized values as variables
-اضغط OK
-انقر خارج نتائج “Descriptives” وشاهد المتغير الجديد في نهاية جدول بيانات عرض البيانات المسمى “Ztimedrs” .
-نظرًا لوجود عدد كبير جدًا من الحالات ، فلنقم بالفرز لوضع أكثر النتائج تطرفًا في أعلى وأسفل عمود “Ztimedrs”
-تسليط الضوء على “Zscore: زيارات للمهنيين الصحيين (Ztimedrs)”
-انقر فوقه أسفل فرز حسب Sort by:
-انقر فوق تنازلي Descending تحت ترتيب الفرز
-اضغط OK
-يمكننا أيضًا الفرز عن طريق تحريك المؤشر فوق المتغير المعني (على سبيل المثال ، Ztimedrs) ، والنقر بزر الماوس الأيمن على الماوس والنقر على Sort Descending
-راجع “Ztimedrs” المصنفة ولاحظ الحالات الإحدى عشرة الأولى هي قيم شاذة أحادية المتغير (> 3.29). انتقل أيضًا إلى أسفل العمود ولاحظ عدم وجود قيم شاذة أحادية المتغير سلبية.
إذا لم تكن هناك قيم شاذة لهذا المتغير وكنت تخطط لتقسيم المتغير إلى مجموعات لإجراء تحليل مثل ANOVA ، فيمكنك تحليل Z-scores لكل مجموعة على المتغير لمعرفة ما إذا كانت هناك قيم شاذة أحادية المتغير موجودة داخل كل مجموعة.
-احفظ مجموعة البيانات المنقحة هذه ، حفظ باسم “2FRC-SCREEN”.
حدد كل من Tabachnick and Fidell (2007) الطرائق التالية لتقليل تأثير القيم المتطرفة أحادية المتغير:
حذف المتغير (المتغيرات) الذي قد يكون مسؤولاً عن العديد من القيم المتطرفة خاصةً إذا كان وثيق الارتباط بمتغيرات أخرى في التحليل.
إذا قررت أن الحالات ذات الدرجات القصوى ليست جزءًا من السكان الذين أخذت عينات منهم ، فاحذفهم.
إذا كانت الحالات ذات الدرجات القصوى تعتبر جزءًا من المجموعة السكانية التي أخذت عينات منها ، فإن إحدى الطرق لتقليل تأثير المتغير أحادي المتغير هو تحويل المتغير ليساهم بتغيير شكل التوزيع ليكون مقارب للتوزيع الطبيعي. اشار Tukey يمكن ان تعيد صياغة التعبير فقط عما يجب أن تسجله البيانات بعبارات أخرى (Howell ، 2007).
غالبًا ما تساعد التحولات أحادية المتغير وتعديلات النقاط في تقليل تأثير القيم المتطرفة متعددة المتغيرات ولكنها لا تزال تمثل مشكلات. عادة ما يتم حذف هذه الحالات (Tabachnick & Fidell ، 2007). يتم الإبلاغ عن جميع التحولات والتغييرات في المشاهدات والحذف في صفحة النتائج مع الأساس المنطقي والاستشهادات.
من المحتمل أن يكون أفضل خيار لنا هو تحويل المتغير ، ولكن نظرًا لأن القيم المتطرفة ربما تؤثر على التوزيع الطبيعي لمتغير مثل “زيارات المهنيين الصحيين (بالوقت)” ، سوف نحاول تقييم الافتراضات أحادية المتغير قبل أن نتخذ القرار النهائي بالحذف.
-قبل المتابعة ، دعنا نعيد مجموعة البيانات إلى ترتيبها الأصلي.
-البدء في
-نضغط Reset
-نحدد المتغير “subno” الذي يتضمن القيم المتطرفة .
-انقر فوقه أسفل فرز حسب Sort by : انقر فوق تصاعدي Ascending ضمن فرز حسب Sort by:
-اضغط OK.
-اضغط Save.
يمكننا أيضًا الفرز عن طريق تحريك المؤشر فوق متغير المراد معالجته (على سبيل المثال ، subno) ، والنقر بزر الماوس الأيمن على الماوس والنقر على فرز تصاعديAscending :
فحص واتخاذ القرارات بشأن الافتراضات الاحادية :
العديد من التحليلات الإحصائية ، بما في ذلك ANOVA ، “تتطلب أن تأتي جميع المجموعات من مجموعات سكانية ذات توزيع طبيعي اي تمتلك نفس التباين” (Norusis، 1994a، p. 89).
أن نظرية الحد المركزية Central Limit Theorem تشير أنه بغض النظر عن شكل التوزيع السكاني ، فإن متوسط توزيع أخذ العينات المأخوذة من مجتمع بتباين ومتوسط محددان ، سيقترب من التوزيع الطبيعي كعينة بزيادة حجم المجتمع N . لذلك
كلما زاد حجم كل عينة ولدت متوسط من المتوسط لتوزيع العينات ، وبالتالي زاد احتمال توزيع العينة بشكل طبيعي.
كلما ابتعدت النتائج الأولية للمجتمع عن التوزيع الطبيعي ابتعدت عن شكل التوزيع الطبيعي بالتالي يجب أن يكون حجم العينة أكبر لتوزيع العينات من المتوسط ليتم توزيعه بشكل طبيعي.
لذلك ، نحتاج إلى تقييم ما إذا كانت جميع تباينات المجموعات متساوية وأن العينات تأتي من مجموعات سكانية طبيعية.
إذا تم انتهاك هذه الافتراضات ، فنحن نريد تحديد التحويلات المناسبة.
بشكل أكثر تحديدًا ، بالنسبة للحالة الطبيعية ، سنقوم بتقييم الرسوم البيانية ، ومخططات الطبيعية Q-Q plots ، الالتواء skewness، والتفرطح kurtosis ، وإحصاء Shapiro-Wilks. سوف نفحص نسبة التباينvariance ratio (Fmax) واختبار ليفين Levene’s Test لاتخاذ قرار بشأن افتراض تجانس التباين.
لتوضيح اختبار الافتراضات أحادية المتغير ، لنبدأ بتحليل المتغير التابع dependent variable (“زيارات المهنيين الصحيين [timedrs]”) من سؤالنا البحثي الأصلي ، من أجل التوزيع الطبيعي. اكتشفنا في الفرز الشاذ أن هذا المتغير يحتوي على أحد عشر قيمة شاذة أحادية المتغير. لقد أجلنا اتخاذ قرار بشأن ما يجب فعله مع القيم المتطرفة أحادية المتغير إلى ما بعد الاختبار للتوزيع الطبيعية وتجانس التباين. قمنا بإجراء تحليل البيانات التالي:
-انقر فوق المتغير التابع (“زيارات للمهنيين الصحيين [timedrs]”) إلى قائمة المعتمد Dependent List:
-انقر فوق المتغير المستقل Independent variable (“سواء كان متزوجًا حاليًا [mstatus]”) إلى قائمة العوامل Factor List:
-لا تغير خيارات العرض – اترك على كلاهما
-توجد ثلاثة أزرار في الزاوية اليمنى العليا من مربع الحوار. انقر فوق Plot
-ثم حدد المدرج التكراري Histogram والمخططات الطبيعية مع الاختبار Normality plots with plots
-اضغط Continue.
-اضغط OK.
فحص التوزيع الطبيعي
-الرسم البياني Histograms
توفر لنا الرسوم البيانية وصفًا مرئيًا عامًا لتوزيع قيم البيانات. توضح الرسوم البيانية إلى أي مدى يكون توزيع القيم متماثلًا (mesokurtic) وما إذا كانت الحالات تتجمع حول قيمة مركزية. يمكنك معرفة ما إذا كان شكل التوزيع أكثر مدبباً أو ضيقًا (مرتفعًا في المنتصف leptokurtic) أو مسطحًا أكثر (متشتت – platykurtic). يمكنك أيضًا معرفة ما إذا كانت هناك قيم بعيدة جدًا عن القيم الأخرى مثل القيم التي تمت إزالتها بعيدًا على يمين التوزيع (الانحراف الموجب positive skew) أو القيم التي تمت إزالتها بعيدًا على يسار التوزيع (الانحراف السلبي negative skew).
ارجع إلى نتائج برنامج SPSS وقم بالتمرير لأسفل حتى تجد “زيارات للمهنيين الصحيين ، المدرج التكراري ، لـ mstatus = غير متزوج و mstatus = متزوج.” اكتب بإيجاز بعض الملاحظات عن التوزيعين.
- رسوم Q-Q الطبيعي Q – Q Plots
في رسم الاحتمال الطبيعي ، يتم إقران كل قيمة مشاهدة مع قيمتها المتوقعة من التوزيع الطبيعي. تستند القيمة المتوقعة من التوزيع الطبيعي إلى عدد الحالات في العينة وترتيب الحالة في العينة. إذا كانت العينة من توزيع طبيعي ، فإننا نتوقع أن تقع النقاط بشكل أو بآخر على خط مستقيم. خط الاتجاه العام الطبيعي هي الانحرافات الفعلية للنقاط عن الخط المستقيم. إذا كانت العينة من مجموعة سكانية تتوزيع طبيعيا، فيجب أن تتجمع النقاط حول خط أفقي يمر عبر نقط (0) ، ويجب ألا يكون هناك نمط . في حال وجود نمط ملفت للنظر فان ذلك يشير إلى الابتعاد عن التوزيع الطبيعي (Norusis، 1994b).
-قم بالتمرير لأسفل في النتائج وابحث عن مخططات Q-Q الطبيعي وقم بتفسيرها بإيجاز أدناه.
الالتواء : Skewness
التوزيع غير المتماثل ولكن تتركز حالات أكثر (أكثر على”ذيل”) تجاه أحد طرفي التوزيع أكثر من الآخر يقال إنه ملتوي (منحرف) (Norusis، 1994a).
قيمة 0 = عادي
القيمة الإيجابية = الالتواء الإيجابي (الذيل يتجه إلى اليمين)
القيمة السلبية = الالتواء السلبي (الذيل يتجه إلى اليسار)
نقوم بتقسيم إحصاء الالتواء skewness statistic على الخطأ المعياري standard error. نريد أن نعرف ما إذا كانت قيمة الدرجة القياسية هذه تلتوي بشكل كبير عن الوضع الطبيعي. ينشأ القلق عندما تكون احصاءة الالتواء مقسومة على خطأها القياسي أكبر من z = +3.29 (p <.001 ، اختبار ثنائي الذيل (باتجاهين)) (Tabachnick & Fidell ، 2003 ، 2007).
مرر لأعلى وصولاً إلى الجزء العلوي من النتائج إلى “الوصف الاحصائي “Descriptives”. سترى قيم الالتواء وقيم الخطأ المعياري لكل من “mstatus = not married” و “mstatus = married”. فسر التواء التوزيعات مع توفير المعلومات المطلوبة أدناه.
التفرطح Kurtosis:
التفرطح هو التركيز النسبي للدرجات في المركز والأطراف العلوية والسفلية (ذيول) والكتفين (بين المركز والذيل) للتوزيع (Norusis، 1994a).
قيمة 0 = mesokurtic (عادي ، متماثل)
قيمة موجبة = leptokurtic (الشكل مدبب ، قمة)
قيمة سلبية = مسطح (الشكل أكثر اتساعًا ، منتشرًا على نطاق واسع ، مسطح)
قسمة إحصاءة التفرطح kurtosis statistic على الخطأ المعياري standard error. نريد أن نعرف ما إذا كانت قيمة الدرجة القياسية هذه تنحرف بشكل كبير عن التوزيع الطبيعي. ينشأ القلق عندما تكون إحصائية التفرطح مقسومة على خطأها القياسي أكبر من z = +3.29 (p <.001 ، اختبار ثنائي الذيل (باتجاهين)) (Tabachnick & Fidell ، 2003 ، 2007)
فسر تفرطح التوزيعات مع توفير المعلومات المطلوبة أدناه.
اختبار Shapiro-Wilks
اختبار Shapiro-Wilks واختبار Kolmogorov-Smirnov مع تصحيح ليليفورس Lilliefors correction هما اختباران إحصائيان يختبران الفرضية القائلة بأن البيانات مأخوذة من التوزيع الطبيعي. إذا كان أي من الاختبارين معنوياً significant ، فلن يتم توزيع البيانات بشكل طبيعي. من المهم أن تتذكر أنه كلما كان حجم العينة كبيرًا ، فإن أي اختبار لجودة الملاءمة تقريبًا سيؤدي إلى رفض الفرضية الصفرية نظرًا لأنه يكاد يكون من المستحيل العثور على البيانات التي يتم توزيعها بشكل طبيعي تمامًا. بالنسبة لمعظم الاختبارات الإحصائية ، يكفي أن يتم توزيع البيانات بشكل طبيعي تقريبًا (Norusis ، 1994a). وفقًا لستيفنز (2002) ، لم يظهر اختبار Kolmogorov-Smirnov بنفس قوة اختبار Shapiro-Wilks ، مع أحجام أخذ العينات من 10-50 ، كان الجمع بين معاملات احصاءتي الالتواء والتفرطح واختبار Shapiro-Wilks هو الأقوى في اكتشاف الانحرافات عن الحالة الطبيعية (Stevens ، 2002).
قم بالتمرير لأسفل للنتائج إلى المربع الذي يحتوي على العنوان “اختبارات الحالة الطبيعي Tests of Normality” وتفسير اختبار Shapiro-Wilks مع تقديم المعلومات المطلوبة أدناه. استخدم مستوى ألفا من 0.001 .
نحن نختبر فرضية العدم H0: توزيع العينات تتوزع توزيعاً طبيعياً
فحص تجانس التباين Screening for Homogeneity of Variance
تحليل نسبة التباين Variance Ratio Analysis
يمكن الحصول على تحليل نسبة التباين لمجموعتين من خلال قسمة أدنى تباين لمجموعة بالنسبة إلى أعلى تباين للمجموعة من الفروق بين المجموعتين. ينشأ القلق إذا كانت النسبة الناتجة 4-5 + مما يشير إلى أن التباين الأكبر هو 4 إلى 5 أضعاف أصغر تباين . يشير Tabachnick و Fidell (2007) إلى هذه النسبة باسم Fmax ويذكران “إذا كانت أحجام العينات متساوية نسبيًا (ضمن نسبة 4 إلى 1 أو أقل لحجم الخلية الأكبر إلى الأصغر) ، فإن Fmax كبير مثل 10 مقبول. مع زيادة التناقض في حجم الخلية (على سبيل المثال ، ينتقل إلى 9 إلى 1 بدلاً من 4 إلى 1) .
قم بالتمرير لأعلى في النتائج إلى قسم “الوصف “Descriptives” ” وحساب نسبة التباين عن طريق قسمة أصغر فرق للمجموعة إلى أكبر تباين للمجموعة. ثم قم بتفسير تحليل نسبة التباين.
اختبار Levene Test
اختبار Levene هو اختبار تجانس التباين وهو أقل اعتمادًا على افتراض الحالة الطبيعية من معظم الاختبارات ، وبالتالي فهو مفيد بشكل خاص في تحليل التباين. يتم الحصول عليها عن طريق حساب الاختلافات المطلقة من وسط الخلية الخاص بها لكل حالة وإجراء تحليل أحادي الاتجاه للتباين على هذه الاختلافات. إذا كانت إحصائية اختبار ليفين معنوية ، فإن المجموعات ليست متجانسة وقد نحتاج إلى التفكير في تحويل البيانات الأصلية أو استخدام احصاءات غير معلمية (Norusis ، 1994a). للحصول على نتائج اختبار Levene ، سنحتاج إلى إجراء تحليل آخر. اتبع الإرشادات أدناه. أولاً ، انقر فوق النتائج الذي كنا نستخدمه. أوامر للحصول على إحصاء ليفين لتجانس التباين.
-انقر فوق المتغير التابع (“زيارات المهنيين الصحيين [timedrs]”) إلى قائمة المتغير التابع:
-انقر فوق المتغير المستقل (“سواء كان متزوجًا حاليًا [mstatus]”) إلى قائمة العوامل الثابتة (Fixed Factor):
-اضغط على Options
-اضغط على Homogeneity tests في Display box
-اضغط Continue
-اضغط OK
فسر بإيجاز اختبار Levene لتجانس التباين. استخدم ألفا من 0.01 نحن نختبر الفرضية
تحويل المتغير المعتمد TRANSFORMATION OF THE DEPENDENT VARIABLE
إذا كانت الحالات ذات الدرجات القصوى extreme scores تعتبر جزءًا من المجموعة السكانية التي أخذت عينات منها ، فإن إحدى الطرائق لتقليل تأثير المتغير أحادي المتغير هو تحويل المتغير لتغيير شكل التوزيع ليكون قريب من التوزيع الطبيعي. اشار Tukey إنك فقط تعيد صياغة عما يجب أن تقوله البيانات بعبارات أخرى. يوفر كل من Tabachnick و Fidell (2007) و Stevens (2002) إرشادات حول نوع التحويل الذي يجب استخدامه اعتمادًا على شكل التوزيع الذي تخطط لتحويله. على سبيل المثال ، يمكن استخدام جذر تربيعي أو تحويل لوغاريتمي للاساس 10 لتوزيعات ذات الالتواء الموجب لتسويتها. بالنسبة للتوزيعات ذات الالتواء السالب ، فإن عكس التوزيع السالب ثم استخدام جذر تربيعي أو تحويل لوغاريتمي قد يؤدي إلى جعل التوزيع طبيعياً.
نظرًا لأن لدينا متغيرًا تابعًا ملتوي إيجابي بشكل كبير (“زيارات المهنيين الصحيين [timedrs]” ، فإننا سنستخدم تحويل log10. قم بتشغيل التحليل التالي بعد النقر فوق النتائج الذي كنا نستخدمه:
-تحت نوع المتغير المستهدف Target Variable “نضع “ltimedrs””
-ضمن مجموعة الدوال Function Group: انقر فوق الكل ALL (أو الحساب Arithmetic)
-ثم في الدوال والمتغيرات الخاصة Functions and Special Variables: قم بالتمرير لأسفل حتى تجد Lg10
-نضغط على (Lg10)
-انقر فوق السهم الموجود في الجزء العلوي (إلى اليسار) من مجموعة الدوال : مربع.
-انتقل بعد ذلك إلى المتغيرات ضمن النوع والتسمية Type and Label
-انقر على “زيارات إلى المهنيين الصحيين (timedrs)”
-انقر فوق السهم الموجود على يمين مربع المتغيرات.
-سيظهر في المكان تحت التعبير الرقمي Numeric Expression: أين “؟” .
-نظرًا لأن البيانات تحتوي على أصفار ، فستحتاج إلى إضافة +1.
إذن ، التعبير الرقمي Numeric Expression: يجب أن يبدو مثل LG10(timedrs+1)
-اضغط OK
سيكون المتغير log10 المحول (“ltimedrs”) في جدول بيانات عرض البيانات.
الآن ، لنرى ما إذا كان تحويل log10 ناجحًا في تسوية توزيع المتغير التابع :
سنكرر أوامر الاستكشاف لإلقاء نظرة على مقاييس الحالة الطبيعية على المتغير المحول “ltimedrs”.
– نبدأ في
انقر فوق إعادة تعيين (Reset)
– انقر فوق المتغير التابع المحول (“ltimedrs”) إلى قائمة التابع (Dependent List):
– انقر فوق المتغير المستقل (“ما إذا كان متزوجًا حاليًا [mstatus]”) لعامل قائمة (Factor List) :
– لا تغير خيارات العرض(Display) – اترك على كلاهما (Both)
– توجد ثلاثة أزرار في الزاوية اليمنى العليا من مربع الحوار. انقر فوق الرسوم (Plots)
– ثم حدد المدرج التكراري والمخططات الطبيعية (Histogram and Normality plots) مع الاختبارات(tests)
– انقر فوق متابعة (Continue)
– انقر فوق موافق (OK).
– قم بتوفير معلومات التفسير بعد ذلك.
. المدرجة التكراري (Histogram )
“لـ mstatus = غير متزوج(not married)
– “for mstatus = متزوج”
“بالنسبة إلى الحالة = غير متزوجة” (“for mstatus = not married) انحراف إيجابي طفيف ، يتم توزيعه بشكل طبيعي ، ولا توجد انقسامات كبيرة في التوزيع
“لحالة = المتزوجة ” “for mstatus = married”: انحراف إيجابي طفيف ، أكثر توزيعًا بشكل طبيعي ، لا توجد انقسامات كبيرة في التوزيع
– رسوم Q-Q الطبيعية (Normal Q-Q Plots)
“لـ mstatus = غير متزوج
– “for mstatus = متزوج”
“لـحالة = غير متزوج” “for mstatus = not married”
توجد نقاط أكثر على الخط المستقيم (الخطي) أو بالقرب منه ، ويتم توزيعها بشكل طبيعي
” لحالة = متزوج” “for mstatus = married”
توجد نقاط أكثر على الخط المستقيم (الخطي) أو بالقرب منه ، ويتم توزيعها بشكل طبيعي
– معامل الالتواء : (Skewness)
– معامل التفرطح (Kurtosis):
– اختبار Shaprio-Wilks’ Test :
نظرًا لأن المتغير التابع يظهر الآن بشكل أكثر ملاءمة بعد التحويل ، يمكننا الآن الإجابة على سؤال الدراسة ، هل هناك فرق كبير بين النساء المتزوجات وغير المتزوجات في عدد الزيارات التي يقمن بها للمهنيين الصحيين من خلال اختبار الفرضية الصفرية (Null Hypothesis) التي تكون لا توجد فروق بين النساء المتزوجات وغير المتزوجات في عدد الزيارات التي يقمن بها للمهنيين الصحيين (H0: μ1 = μ2).
– قم بإجراء التحليل التالي بعد النقر فوق الإخراج الذي كنا نستخدمه.
– البدء في
-. انقر فوق إعادة تعيين (Reset)
-. انقر فوق المتغير التابع المحول (“ltimedrs”) إلى قائمة المتغير التابع: قائمة (Variable: list)
-. انقر فوق المتغير المستقل (independent variable) (“سواء كان متزوجًا حاليًا [mstatus]”) لعامل (عوامل) ثابتة: قائمة (Factor(s): list).
-. انقر فوق خيارات (Options)
-. انقر فوق اختبارات التجانس (Homogeneity tests) في مربع العرض (Display).
-. انقر فوق متابعة (Continue)
-. انقر فوق موافق (OK)
– اعطي المعلومات أدناه. سنستخدم معيار ألفا (alpha criterion) من 0.01 لاختبار الفرضية الصفرية.
-. أولاً ، دعنا نرى كيف عدل تحويل log10
– اكتب الآن المعلومات لتحليل التباين ( analysis of variance) :
نعود بالفرضية الصفرية (p> .01) أنه لا يوجد فرق بين النساء المتزوجات وغير المتزوجات في عدد الزيارات التي يقمن بها للمهنيين الصحيين.
تعريف بعض المصطلحات :
الوسط الحسابي Mean: متوسط مجموعة أرقام.
الوسيط (Median) : الرقم الأوسط في مجموعة من الأرقام المرتبة (تصاعدياً او تنازلياً) .
المنوال (Mode) : الرقم الأكثر تكرارًا في المجموعة.
الانحدار (Regression) : مقياس إحصائي يحاول تحديد قوة العلاقة بين متغير تابع (dependent variable) وسلسلة من المتغيرات المستقلة (independent variables) .
التحليل أحادي المتغير (Univariate analysis) : النموذج الإحصائي للتحليل الذي يقارن متغيرًا مستقلًا بمتغير تابع.
التحليل متعدد المتغيرات (Multivariate analysis) : النموذج الإحصائي للتحليل الذي يقارن المتغيرات المستقلة المتعددة بمتغير تابع.
التآكل Attrition : فقدان المشاركين طوال عملية جمع البيانات ؛ المشاركين الذين لم يستمروا طوال جمع البيانات حتى الاكتمال. قد يشمل التسرب أو عدم الإجابة (عدم إكمال استطلاع أو إهمال الإجابة على معظم الأسئلة) أو الانسحاب.
-جدول تحليل التباين أحادي الاتجاه One-Way ANOVA: اختبار إحصائي يفحص تساوي ثلاث وسائل أو أكثر في وقت واحد باستخدام التباينات. يساعد في اختبار مستويات متعددة لمتغير مستقل لتحديد التأثيرات الرئيسية أو تأثيرات التفاعل.
-اختبار t للاستقلالية Independent t-test: اختبار إحصائي يحدد ما إذا كان من غير المحتمل حدوث اختلاف بين متوسطات مجموعتين بسبب اختيار عينة عشوائية بالصدفة. تشمل مخرجاتها الأولية الأهمية الإحصائية وحجم التأثير.
القيم المتطرفة (أحادية المتغير / متعددة المتغيرات) (Outliers(univariate/multivariate)): قيمة مشاهدة بعيدة عن المشاهدات الأخرى. قد يكون الانحراف بسبب التباين في القياس أو قد يشير إلى خطأ تجريبي. هناك العديد من الخيارات للتعامل مع القيم المتطرفة ، بما في ذلك التحويل أو الاستبدال أو الحذف.
الافتراضات أحادية المتغير (Univariate Assumptions) : افتراضات الحالة الطبيعية normality والاستقلالية independence وتجانس التباين homogeneity of variance. عند استيفاء الافتراضات ، فإنها تنص على أن التوزيعات في المجموعات السكانية التي تم اختيار العينات منها لها نفس التوزيع والاوساط الحسابية والتباينات. بمعنى آخر ، هم نفس السكان ؛ الفروق على المتغير التابع متساوية عبر المجموعة.
الوضع الطبيعي Normality: الافتراض بأن توزيعات المجموعات السكانية التي تم اختيار العينات منها طبيعية.
الاستقلالية Independence: الملاحظات هي عينات عشوائية ومستقلة من السكان.
تجانس التباين Homogeneity of variance : الافتراض بأن تباينات التوزيعات في المجموعات السكانية التي تم اختيار العينات منها متساوية.
حسن المطابقة (الملائمة ) Goodness-of-fit: وصف لمدى ملاءمة النموذج الإحصائي لمجموعة من المشاهدات . عادةً ما تلخص مقاييس جودة الملاءمة التناقض بين القيم المرصودة والقيم المتوقعة في ظل النموذج المعني. تشمل اختبارات الملاءمة اختبار Kolmogorov-Smirnov أو مجموع المربعات sum of squares أو اختبار Pearson’s chi-squared test.
درجة – Z Z-score: درجة محولة تصف الفرق بين النتيجة الأولية ومتوسط المحتوى من حيث الانحراف المعياري standard deviation. درجة -Z لها متوسط 0 وانحراف معياري 1. تكون درجة z سالبة عندما تقل الدرجة عن المتوسط mean وتكون موجبة عندما تكون الدرجة أعلى من المتوسط mean.
ارجوا ان تستفيدون من الموضوع ليصلكم كل جديد قم بالتسجيل والاشتراك في الموقع ليصلكم الجديد والاطلاع على المواضيع المتنوعة