التقليص (الانكماش) Shrinkage هو حيث “تتقلص” القيم القصوى في العينة باتجاه قيمة مركزية مثل متوسط العينة. ويمكن أن يؤدي تقليص البيانات إلى:
- تقديرات أفضل وأكثر استقرارًا لمعلمات المجتمع الحقيقية ، وأخذ عينات أقل وأخطاء غير مرتبطة بأخذ العينات .
- تمهيد وتقليل التقلبات المكانية.
طرق التقليص هي تقنيات أكثر حداثة إذ لا نختار المتغيرات فعليًا بشكل صريح ولكن بدلاً من ذلك نلائم نموذجًا يحتوي على جميع المتغيرات التوضيحية باستخدام تقنية تقيد أو تنظم تقديرات المعلمات ، أو بشكل آخر ، تقلص تقديرات المعلمة نحو الصفر بالنسبة إلى تقديرات المربعات الصغرى.
لا تستخدم طرق التقليص طريقة المربعات الصغرى ، بل تستخدم معيارًا مختلفًا يتمثل بوجود دالة جزاء (عقوبة) Penalty Function . معاقبة النموذج لوجود عدد كبير من المعلمات أو حجم كبير من المعلمات سيؤدي إلى تقليص تلك المعلمات نحو الصفر عادةً.
هذا التقليص (المعروف أيضًا باسم التنظيم) له تأثير في تقليل التباين ويمكنه أيضًا إجراء اختيار متغير.
ماهو مقدر التقليص What is a Shrinkage Estimator؟
مقدر التقليص هو تقدير جديد ينتج عن طريق تقليص التقدير الأولي (مثل متوسط العينة). على سبيل المثال ، اذ يمكن دمج قيمتين متوسطتين متطرفتين لإنشاء قيمة متوسطة أكثر مركزية ؛ سيؤدي تكرار هذا لجميع المتوسطات في العينة إلى تعديل متوسط العينة الذي “تقلص” نحو الوسط الحقيقي للمجتمع . تم تطوير العشرات من تقديرات الانكماش من قبل مؤلفين مختلفين منذ أن قدم شتاين الفكرة لأول مرة في الخمسينيات من القرن الماضي. من أشهرها:
- مقدر لاسو LASSO (يستخدم في انحدار اللاسو) ،
- مقدر ريدج Ridge : يستخدم في انحدار الحرف لتحسين تقدير المربعات الصغرى عند وجود علاقة التعدد الخطي.
- مقدرات من نوع شتاين Stain ، بما في ذلك مقدر جيمس شتاين “الأصلي”.
- تشمل طرق التقليص الأخرى الانحدار التدريجي Stepwise Regression ، والذي يقلل من عامل التقليص إلى صفر أو واحد ، وانحدار الزاوية الأقل least angle regression ومنهجية التحقق المتبادل cross-validator approaches.
هذه الأساليب قوية جدا. على وجه الخصوص ، يمكن تطبيقها على البيانات الكبيرة جدًا اذ قد يكون عدد المتغيرات بالآلاف أو حتى الملايين.
مقارنة انحدار Ridge وانحدار LASSO
لمقارنة انحدار ريدج مقابل لاسو .علمياً وفي الإحصاء ، لا توجد قاعدة تعني أنه يجب عليك دائمًا استخدام تقنية على أخرى. اذ يعتمد في ذلك على الموقف.
ينتج عن انحدار اللاسو انموذج متناثر او متفرق (Sparse) (النماذج المتفرقة التي تتضمن فقط مجموعة فرعية من المتغيرات. اذ تنتج عن طريقة التقليص انموذجًا متناثرًا لأنها ستقلص (تحدد) معامل انحدار المتغيرات إلى الصفر.)
بينما نحصل على انموذج كثيف (Dense) (النماذج الكثيفة التي تتضمن جميع المتغيرات) مع انحدار الحرف . ثم إذا كان النموذج الحقيقي كثيفًا جدًا ، فيمكننا أن نتوقع أداء أفضل مع الحرف. إذا كان النموذج الحقيقي قليلًا جدًا ، فيمكننا أن نتوقع أن نحقق أداءً أفضل باستخدام lasso.
نظرًا لأننا لا نعرف الانموذج الحقيقي True Model (النموذج الحقيقي هو النموذج الذي يمثل بشكل مثالي متغير الاستجابة بدون تاثير الضوضاء (حد الخطأ العشوائي)) ، فمن المعتاد تطبيق كلتا الطريقتين واستخدام التحقق المتبادل لتحديد أفضل انموذج .
حد العقوبة (الجزاء) :Penalty Term
عندما تكون مقدار حد عقوبة صفرًا ، نحصل على مقدر المربعات الصغرى وعندما تكون قيمة Lambda لا نهائية ، لا نحصل على حل. لذا فإن اختيار حد العقوبة مهم جداً. وعلينا استخدام التحقق المتقاطع cross-validation لأن عدد درجات الحرية d غير معروف (عدد المعلمات: درجة الحرية)
اختيار الانموذج Model Selection
لاختيار معامل الضبط (Tuning Parameter) (أي العقوبة) لـ Ridge Regression و Lasso ، من المهم حقًا استخدام طريقة لا تتطلب قيمة حجم النموذج (D) ، لأنه من الصعب معرفة ماهية D. لذا فإن التحقق المتقاطع يناسب الحالة تمامًا.
معلمة الضبط (Tuning Parameter) هي معلمة تستخدم في خوارزميات الإحصاء من أجل التحكم في سلوك المتغيرات التي تعاني من التعدد الخطي . تنشئ الخوارزمية نموذجًا مختلفًا لكل قيمة من قيم معلمة الضبط. ثم يجب أن يتم اختياره بحكمة من أجل الحصول على أفضل نموذج.