تحليل الانحدار هو أسلوب إحصائي (Statistical Procedure) يستعمل لوصف العلاقات بين المتغيرات. إن أبسط حالة يجب التاكد منها هي الحالة التي قد يكون فيها المتغير Y ، المشار إليه بالمتغير المعتمد (Dependent) أو المتغير المستهدف (Target) او متغير الاستجابة (Response) ، مرتبطًا بمتغير واحد X ، ويُسمى متغيرًا مستقلًا (Independent) أو توضيحيًا او تفسيرياً (Explanatory variable) ، أو المتغير المنحدر (Regressor) .

اذ كان يُعتقد أن العلاقة بين Y و X خطية ، فقد تكون معادلة خط الانحدار المناسبة:

معادلة خط الانحدار

حيث β1 هو حد التقاطع (الحد الثابت Constant term) و β2 هو معامل الميل (Slop coefficient) .

كمفهوم بسيط ، فإن الغرض من الانحدار هو محاولة العثور على أفضل خط أو معادلة تعبر عن العلاقة بين Y و X. على سبيل المثال لتكن لديك البيانات الاتية :

الرسم البياني للأزواج المرتبة (X، Y) سيظهر على الشكل الاتي :

الزوج المرتب (X ، Y)

على الاغلب تظهر البيانات التي يتم دراستها عل شكل نقاط كما الرسم البياني اعلاه ، اذ تخضع Y و X إلى حد كبير لعلاقة خطية تقريبًا ، ولكنها ليست علاقة دقيقة (محددة) ومع ذلك ، قد يكون من المفيد وصف العلاقة في شكل معادلة ، والتعبير عن Y تساوي X وحدها ويمكن استخدام المعادلة للتنبؤ وتحليل السياسات ، مما يسمح بوجود أخطاء (لأن العلاقة ليست دقيقة).
إذاً كيف يمكن ملاءمة خط لوصف العلاقة “الخطية على نطاق واسع” بين Y و X عندما لا تقع أزواج (x ، y) كلها على خط مستقيم؟

ليكن لديك الأزواج (xi، yi). ولتكن y^i القيمة “المتوقعة” لـ yi المرتبطة بـ xi إذا تم استعمال العلاقة الخطية المناسبة. نحدد ei = yi – yˆi على أنه البواقي (Residuals) ويمثل “الخطأ Error” المتضمن.

إذا تم اعتبار زيادة او انخفاض التوقعات غير المرغوب فيها بنفس المقدار، فسيكون الهدف هو ملاءمة خط لجعل الخطأ المطلق صغيرًا قدر الإمكان ، ولكن مع ملاحظة أن العينة تحتوي على عدد n من المشاهدات (Observation) وبالنظر إلى العلاقة غير الدقيقة ، لن يكون من الممكن تصغير كل ei في آن واحد.

ان معايير تقليص الاخطاء يجب ان تستند على عدة قياسات مجتمعة :

1- Eye Balling (مقلة العين) هو مصطلح غير رسمي يستخدم على نطاق واسع في العديد من المجالات التي تتضمن علوم البيانات. معناه هو الحصول على اتجاه تقريبي أو تقدير لشيء ما باستخدام أي أدوات كمية (أدوات رقمية أو رياضية) ولكن فقط رقابة بصرية للبيانات المجدولة أو البيانية ، بمفهوم اخر (استخلاص النتائج من البيانات بمجرد النظر إلى البيانات ، إما في شكل بيانات أولية ، أو كما هو معبر عنه في الرسوم البيانية أو المخططات).

2-تقليل مجموع الاخطاء ، بمعنى

3- تقليل مجموع الاخطاء المطلقة ، بمعنى

على الرغم من أن استخدام هذا المعيار شائع ، إلا أنه ليس الأكثر استخدامًا لأنه يتضمن تطبيق البرمجة الخطية. كذلك ، قد لا يكون الحل وحيداً (Unique Solution)

تقدير معادلة الانحدار الخطية : Estimation of Liner Regression

ان الاسلوب الأكثر شيوعًا لتقدير معادلة الانحدار (Regression Equation) هو اسلوب المربعات الصغرى (Least Squares) ، يؤدي هذا الاسلوب إلى خط ملائم يقلل من مجموع مربع الأخطاء ، أي ،

لإيجاد قيم b1 و b2 التي تؤدي إلى الحد الأدنى (minimum) ،

المعادلات (1) و (2) تسمى المعادلات الطبيعية (Normal Equation). يؤدي حل المعادلتين الطبيعيتين إلى:

او

تقدير المربعات الصغرى :Least Square Estimation

تهتم طريقة المربعات الصغرى بتقدير المعلمات عن طريق تقليل مربع الفروقات بين البيانات المرصودة (المشاهدة) (observed data) من جهة والقيم المتوقعة (expected values) من جهة أخرى (انظر طرق التحسين). اذ يمكن تفسير التباين في متغير واحد ، يسمى متغير الاستجابة Y ، جزئيًا من خلال التباين في المتغيرات الأخرى ، التي تسمى المتغيرات المشتركة X (covariables). على سبيل المثال ، يرجع الاختلاف في نتائج الامتحان Y بشكل أساسي إلى التباين في القدرات والاجتهاد X للطلاب ، أو الاختلافات في أوقات البقاء على قيد الحياة Y (Survival Analysis) يرجع أساسًا إلى الاختلافات في الظروف البيئية X. نظرًا لقيمة X ، فإن أفضل تنبؤ لـ Y (من حيث متوسط مربع الخطأ) هو متوسط f (X) لـ Y بوجود X. نقول أن Y هي دالة لـ X بالإضافة إلى الضوضاء (noise):

تسمى الدالة f دالة الانحدار (Regression Function) . يتم تقديرها من خلال أخذ العينات n المتغيرات المشتركة واستجاباتها (x1 ، y1) ،(x2 ، y2)، . . . ، (xn ، yn).

لنفترض أن f معروفة للعينة n، و p من المعلمات β = (β1 ، … ، βp) ، أي f = fβ. نقدر β بالقيمة التي تعطي أفضل ملاءمة للبيانات. مقدر المربعات الصغرى ، المشار إليه بـ ^β، هو قيمة b التي تصغر المقدار الاتي :

الانحدار الخطي المتعدد: Multiple Linear Regression

ليكن لدينا العلاقة الخطية التي تكون فيها fβ دالة خطية لـ β ، أي ،

هنا (X1، …، Xp) تمثل المتغيرات المشاهدة المستخدمة في الدالة fβ (X).

لكتابة مقدر المربعات الصغرى لانموذج الانحدار الخطي ، سيكون من الملائم استخدام صيغة المصفوفات . ليكن y = (y1، …، yn) متجه ابعادة n x 1 ولتكن X هي مصفوفة بيانات ابعادها n × p للمشاهدات n على المتغيرات p

حيث xj هو متجه عمودي يحتوي على المشاهدة n في المتغير j اذ ان ، j = 1 ، … ، n. لنفرتض أن X لها رتبة كاملة (Full rank) ، أي أنه لا يمكن كتابة أي عمود في X كمجموعة خطية من الأعمدة الأخرى. بعد ذلك ، يُعطى مقدر المربعات الصغرى ^β من خلال :

تباين مقدر المربعات الصغرى: The Variance of the Least Squares Estimator

من أجل بناء فترات ثقة لمركبات ^β ، أو مجموعات خطية من هذه المركبات ، يحتاج المرء إلى مقدر التباين المشترك (covariance):

اسقاطات المتجه y على امتداد المستوى X

مصفوفة التغاير للمقدر ^β تساوي

حيث σ2 هو تباين حد الضوضاء (noise) . مقدر σ2 يساوي:

حيث eˆi هي البواقي (Residual) وتساوي

وبالتالي ، يمكن تقدير مصفوفة التغاير لـ ^β بواسطة

على سبيل المثال ، تقدير التباين β^j هو:

حيث τ2j هو العنصر j على قطري المصفوفة 1-(X X) . يتم الآن الحصول على حد الثقة لـ βj بأخذ مقدر المربعات الصغرى β^j ± :

حيث c تعتمد على مستوى الثقة المختارة . بالنسبة لحد الثقة 95٪ ، تكون القيمة c = 1.96 تقديرًا تقريبيًا جيدًا عندما تكون n كبيرة. للقيم الأصغر لـ n ، عادةً ما يأخذ المرء c أكثر تحفظًا باستخدام الجداول لتوزيع t-Student مع درجة حرية n – p.

الانحدار اللاخطي : Nonlinear regression

عندما تكون fβ دالة غير خطية لـ β ، يحتاج المرء عادةً إلى خوارزميات تكرارية للعثور على مقدر المربعات الصغرى. يمكن بعد ذلك تقريب التباين كما هو الحال في الحالة الخطية ، حيث تأخذ f (xi) دور صفوف X. هنا ، f˙β (xi) = ∂fβ (xi)/∂βi ، و هو متجه الصف لـ مشتقات fβ (xi).

الانحدار اللامعلمي : Nonparametric Regression

في الانحدار اللامعلمي ، يفترض المرء فقط قدرًا معينًا من التمهيد (Smoothness) بالنسبة لـf ، أو بدلاً من ذلك ، بعض الافتراضات النوعية مثل الرتابة (Monotonicity) . تم تطوير العديد من إجراءات المربعات الصغرى اللامعلمية ومناقشة سلوكها العددي والنظري في منهجيات البحث العلمي. التطورات ذات الصلة تشمل طرق تقدير للنماذج اذ يكون عدد المعلمات p كبيرًا ومساوية لعدد المشاهدات n. يتم التعامل مع مشكلة الأبعاد في مثل هذه النماذج من خلال تطبيق تقنيات تنظيم التعقيد المختلفة .

Similar Posts

اترك تعليقاً