من المسلم به عمومًا أن أهم التغييرات في الإحصاء خلال الخمسين عامًا الماضية كانت مدفوعة بالتكنولوجيا. وبشكل أكثر تحديدًا ، من خلال التطوير والتوافر العالمي لأجهزة الكمبيوتر السريعة والأجهزة لجمع وتخزين كميات متزايدة من البيانات. كذلك الاستشعار عن بعد عبر الأقمار الصناعية وشبكات الاستشعار واسعة النطاق والمراقبة البيئية المستمرة والتصوير الطبي والمصفوفات الدقيقة والجينومات المختلفة والمسوحات المحوسبة لم تخلق فقط حاجة لتقنيات إحصائية جديدة. تتطلب هذه الأشكال الجديدة من جمع البيانات الضخمة أيضًا التنفيذ الفعال لهذه التقنيات الجديدة في البرامج. وهكذا أصبح تطوير البرمجيات الإحصائية أكثر أهمية في العقود الماضية.

مجموعات البيانات الكبيرة تخلق أيضًا مشاكل جديدة خاصة بها. في بداية تطور الاحصاء ، التي ساد فيها اختبار t ، كان تضمين البيانات الواردة في مقالة منشورة أمرًا سهلاً ، ولم يتطلب إعادة إنتاج نتائج التحليل الكثير من الجهد. في الواقع ، كان عادةً ما يكفي توفير قيم عدد صغير من الإحصائيات الكافية. من الواضح أن هذا لم يعد هو الحال. تتطلب مجموعات البيانات الكبيرة قدرًا كبيرًا من المعالجة قبل أن تكون جاهزة للتحليل ، وغالبًا ما تستخدم تقنيات تحليل البيانات الأكثر تعقيدًا برامج ذات أغراض خاصة وبعض الضبط. اذ لا يوجد علم بدون تكرار ، وأضعف شكل من أشكال النسخ هو أن يقوم عالمان بتحليل نفس البيانات والتوصل إلى نفس النتائج.

ليس من الممكن إعطاء نظرة عامة كاملة عن جميع البرامج الإحصائية المتاحة. هناك منشورات قديمة ،اذ لم يعد هذا أسلوبًا مفيدًا بعد الآن ، فهناك عدد كبير جدًا من البرامج والحزم. في الواقع ، يقوم العديد من الإحصائيين بتطوير حزم برامج مخصصة لمشاريعهم الخاصة.

تطورت حزم البرمجيات الخاصة في التحليل الإحصائي خلال العقود الثلاثة الماضية من تلك المصممة أساسًا لتطبيقات الحواسيب المركزية إلى البرامج الموجهة إلى مستخدمي الكمبيوتر الشخصي. تتضمن أمثلة الحزم الإحصائية BMDP و SPSS و SAS و Splus و Minitab ومجموعة متنوعة من البرامج الأخرى.

سنقدم لمحة تاريخية موجزة ، مع ذكر حزم الأغراض العامة الرئيسية لتلك البرمجيات اذ علينا أن نميز بين “البرامج الإحصائية” ومجال “برمجيات الإحصاء” الأوسع نطاقاً. النوع الأول فقط هو الذي يهمنا هنا .

BMDP, SAS, SPSS, Minitab

ابتكر Wilfred Dixon وزملاؤه في الإحصاء بجامعة كاليفورنيا في لوس أنجلوس واحدة من أقدم الحزم الإحصائية الناجحة ، والمعروفة باسم BMDP. كانت هذه الحزمة لأجهزة الكمبيوتر المركزية ناجحة للغاية في الستينيات والسبعينيات من القرن الماضي حتى أن شركة BMDP تأسست في النهاية للتعامل مع إنتاج وبيع البرمجيات.تمت كتابة حزم البرامج الإحصائية الأصلية لأجهزة IBM المركزية. وكان BMDP الأول. اذ بدأ تطويره في عام 1957 ، في منشأة الحوسبة الصحية . بعدها وصلت SPSS في المرتبة الثانية ، والتي طورها علماء الاجتماع في جامعة شيكاغو ، بدءًا من عام 1968. وكان(Statistical Analysis System( SAS متزامنًا تقريبًا مع SPSS (Statistical Packages for the Social Sciences) ، والذي تم تطويره منذ عام 1968 من قبل الإحصائيين الحسابيين في جامعة ولاية كارولينا الشمالية. اختلف المنافسون الثلاثة بشكل رئيسي في نوع العملاء الذين كانوا يستهدفونهم. وبالطبع يحتاج علماء الصحة وعلماء الاجتماع والعملاء من رجال الأعمال إلى ذخيرة قياسية من التقنيات الإحصائية ، ولكن باضافة بعض الأساليب الأكثر اهمية في مجال تخصصهم . ادى ذلك الى اختلاف الحزم إلى حد ما ، على الرغم من أن مكوناتها الأساسية كانت متشابهة إلى حد كبير.

تم تصميم لغة BMDP على غرار اللغة الإنجليزية وتتكون من فقرات وأوامر. تبدأ كل فقرة بشرطة مائلة (/) وتحتوي على أمر واحد على الأقل. تنتهي كل فقرة وأمر بنقطة (.). الاستثناء هو / فقرة النهاية: لا تنتهي بنقطة. تستخدم كافة برامج BMDP فقرة / INPUT و / VARIABLE و / END. هنا مثال قصير باستخدام جميع الفقرات المطلوبة ؛ يحتوي هذا المثال على خمسة متغيرات وستة ملاحظات والبيانات المراد تحليلها مضمنة في البرنامج بأسلوب إدخال حر.

في حوالي عام 1985 ، أضافت جميع الحزم الثلاث إصدارًا لأجهزة الكمبيوتر الشخصية ، وفي النهاية طورت واجهات WIMP (نافذة ، أيقونة ، قائمة ، مؤشر). بعد ذلك بفترة وجيزة ، أضافوا أيضًا لغات برمجة المصفوفات ، وبالتالي قدموا على الأقل شكلاً من أشكال التوسعة ومشاركة الكود.

كما هو الحال في فروع الصناعة الأخرى ، كان هناك بعض الدمج. في عام 1996 ، SPSS اشترت BMDP ، وقضت عليه بشكل أساسي ، على الرغم من أن BMDP لايزال يباع في أوروبا بواسطة Statistical Solutions منذ عام 2009. لكنها الآن لم تعد منافسًا جادًا. في عام 2009 ، تم شراء SPSS نفسها من قبل شركة IBM ، حيث تستمر الآن كـ PASW (برنامج التحليلات التنبؤية) (Predictive Analytics Software) . كما يشير تغيير الاسم ، فقد تحول التركيز في SPSS من تحليل بيانات العلوم الاجتماعية إلى تحليلات الأعمال.

نفس التطور يجري في SAS ، والذي كان في الأصل نظام التحليل الإحصائي. اذ لم يعد SAS حاليًا اختصارًا. منتجاتها الرئيسية هي SAS Analytics و SAS Business Intelligence ، مما يشير إلى أن قاعدة العملاء الرئيسية موجودة الآن في مجتمع الشركات والأعمال. ويستمر كل من SPSS (حالياًPASW) و SAS في الحصول على وحدات إحصائية خاصة بهما ، لكن العناوين الرئيسية قد تحولت بالتأكيد إلى التحليلات والتنبؤ والقرار والتسويق.

Minitab هو حزمة إحصائية أخرى ذات أغراض عامة. تم تصميمه لتسهيل تدريس الأساليب الإحصائية باستخدام أجهزة الكمبيوتر. تأسس برنامج Minitab في عام 1972 ، ويستخدم على نطاق واسع في التطبيقات التعليمية. الإحصائيون المؤسسون للشركة كانوا خبراء في طرق مراقبة الجودة الإحصائية. وبالتالي ، تفخر الشركة بفائدة وملاءمة أدوات مراقبة الجودة الخاصة بها. برنامج Minitab هو أيضًا منتج سهل الاستخدام للغاية مع توثيق جيد.

DATA DESK, JMP, STATA

بدأ الجيل الثاني من حزم الإحصاءات في الظهور في الثمانينيات ، مع اختراق الكمبيوتر الشخصي. تم كتابة كل من Data Desk (1985) و JMP (1989) ، منذ البداية ، لنظام Macintosh ، أي لواجهة WIMP. لم يكن لديهم تاريخ اوحقائب حاسب مركزي. نتيجة لذلك ، كان لديهم تركيز أقوى بكثير على الرسومات والتصور وتحليل البيانات الاستكشافية.

تم تطوير Data Desk بواسطة Paul Velleman ، الطالب السابق John Tukey . كانت JMP من ابتكار John Sall ، أحد مؤسسي ومالكي SAS ، يستخدم JMP واجهة رسومية غير عادية لعرض البيانات وتحليلها. برنامج JMP عبارة عن برنامج للرسومات الإحصائية التفاعلية ويتضمن: • نافذة جدول بيانات لتحرير البيانات وإدخالها ومعالجتها • مجموعة واسعة من الأساليب الرسومية والإحصائية لتحليل البيانات، تصميم شامل لوحدة التجارب، خيارات لتمييز وعرض مجموعات فرعية من البيانات، محرر صيغة لكل عمود من أعمدة الجدول لحساب القيم حسب الحاجة، وسيلة لتجميع البيانات وحساب ملخص الإحصائيات. وعلى الرغم من وجودها وتطويرها بشكل مستقل عن منتجات SAS الرئيسية. كلتا الحزمتين تتميز برسومات ديناميكية ، واستخدمتا عناصر واجهة مستخدم رسومية لتصوير مجموعات البيانات ومعالجتها بشكل تفاعلي. كان هناك الكثير من التركيز على التنظيف بالفرشاة ، والتكبير ، والدوران. يتمتع كل من Data Desk و JMP بمستخدميهما ومعجبين بهما ، لكن كلا الحزمتين لم تصبحا مهيمنتين في أي من البحوث الإحصائية أو التطبيقات الإحصائية. لقد كانت مهمة ، على وجه التحديد لأنها ركزت على الرسومات والتفاعل ، لكنها كانت لا تزال جامدة للغاية ويصعب توسيعها.

كانت Stata ، وهي حزمة أخرى من الجيل الثاني للكمبيوتر الشخصي ، مزيجًا مثيرًا للاهتمام ومن نوع مختلف. تم تطويره منذ عام 1985 ، مثل BMDP الذي بدأ في لوس أنجلوس ، بالقرب من جامعة كاليفورنيا. كان لدى Stata (واجهة سطر الأوامر) command line interface (CLI) ، ولم تحصل على واجهة المستخدم الرسومية حتى عام 2003. وقد أكدت ، منذ البداية ، على القابلية للتوسعة والتعليمات البرمجية التي يساهم بها المستخدم. لم تحصل Stata على لغة المصفوفة الخاصة بها Mata حتى Stata-9 في عام 2007.

يرجع جزء كبير من شعبية Stata إلى أرشيفها الضخم من الشفرات المساهمة ، وآلية التحميل والتسليم التي تستخدم الإنترنت للسماح بالتنزيلات التلقائية للتحديثات وعمليات الإرسال الجديدة. تحظى Stata بشعبية كبيرة في العلوم الاجتماعية ، حيث تجذب هؤلاء المستخدمين الذين يحتاجون إلى تطوير التقنيات وتخصيصها ، بدلاً من استخدام الإجراءات غير المرنة مثل SPSS أو SAS. بالنسبة لهؤلاء المستخدمين ، غالبًا ما يُفضل CLI على واجهة المستخدم الرسومية.

S, LISP-STAT, R

كان العمل على الجيل التالي من أنظمة الحوسبة الإحصائية قد بدأ بالفعل قبل عام 1980 ، لكنه تم في الغالب في مختبرات الأبحاث. وكما كان متوقعا كانت مختبرات Bell في موراي هيل ، نيوجيرسي ، المركز الرئيسي لهذه التطورات.

Bell John Chambers ومجموعته بدأوا في تطوير لغة S (statistical language) في أواخر السبعينيات. يمكن اعتبار S كإصدار إحصائي من MATLAB ، كلغة ومترجم ملتف حول رمز مركب من التحليل العددي والاحتمالية. وقد مرت بالعديد من الترقيات والتطبيقات الرئيسية في الثمانينيات ، حيث انتقلت من الأجهزة المركزية إلى أجهزة VAX ومن ثم إلى أجهزة الكمبيوتر.

تم تطوير لغة S إلى لغة للأغراض العامة ، بوجود مكتبة مجمعة قوية من الجبر الخطي والاحتمالات والتعظيم ، ومع تطبيقات الإجراءات الإحصائية الكلاسيكية والحديثة. كانت التقنيات الإحصائية التي تم تنفيذها أكثر حداثة بكثير من التقنيات الموجودة عادةً في SPSS أو SAS. علاوة على ذلك ، كان نظام S مبنيًا على لغة غنية ، على عكس Stata ، التي كانت حتى وقت قريب تحتوي على عدد كبير نسبيًا من أوامر التحليل والتلاعب بالبيانات المعزولة. بدأت Statlib تبادل كود قيم الامتداد العام لبرامج لغة S.

لفترة طويلة ، كان S متاحًا مجانًا للمؤسسات الأكاديمية ، لكنه ظل منتجًا يستخدم فقط في المستويات العليا من الأوساط الأكاديمية. باعت شركة AT&T برنامج S إلى شركة Insightful ، التي قامت بتسويق المنتج باسم S-plus ، بنجاح كبير في البداية. روجت كتب مثل Venables و Ripley [1994 ، 2000] بشكل فعال لاستخدامها في كل من الإحصاءات التطبيقية والنظرية. كانت شعبيتها تزداد بسرعة ، حتى قبل ظهور R في أواخر التسعينيات. تم تجاوز S-plus تمامًا بواسطة R.

كان هناك تطوران مثيران حقًا في أوائل التسعينيات. قام Luke Tierney [1990] بتطوير LISP-STAT ، وهي بيئة إحصائية مدمجة في مترجم Lisp) . Lisp هي اللغة العامة للذكاء الاصطناعي لأنها تسمح لنا بمعالجة الرموز والأفكار بطريقة منطقية). لقد وفر بديلاً جيدًا لـ S ، لأنه كان متاحًا بشكل أكثر سهولة ، وأكثر ملاءمة لأجهزة الكمبيوتر الشخصية ، ومصدر مفتوح تمامًا. يمكن ، مثل S ، أن يمتد بسهولة مع رمز مكتوب بأي من Lisp أو C. وهذا جعلها مناسبة كأداة بحث ، لأن الإحصائيين يمكن أن يضعوا نماذج أولية لتقنياتهم الجديدة بسرعة ، ويوزعوها جنبًا إلى جنب مع مقالاتهم. تتمتع LISP-STAT ، مثل Data Desk و JMP ، أيضًا بقدرات رسومات ديناميكية مثيرة للاهتمام ، ولكن الآن يمكن برمجة الرسومات وتوسيعها بسهولة تامة. توقف في عام 2000 التطوير النشط لـ LISP-STAT ، وأصبح R متاحًا كبديل [Valero-Mora and Udina ، 2004].

تمت كتابة R كتطبيق بديل للغة S ، باستخدام بعض الأفكار من عالم Lisp and Scheme. إن التاريخ القصير لـ R هو قصة نجاح لا تصدق. لقد استحوذت بسرعة على العالم الأكاديمي للحسابات الإحصائية والإحصاءات ، ولتوسيع عالم تدريس الإحصاء ونشره وتطبيقه في العالم الحقيقي. تم إجبار SAS و SPSS ، اللذان يميلان في البداية إلى تجاهل R وفي بعض الحالات التقليل من شأنها ، على تضمين واجهات لـ R ، أو حتى مترجمي R الكامل ، في منتجاتهم الرئيسية. يحتوي SPSS على امتداد Python ، والذي يمكنه تشغيل R منذ اصدار SPSS-16.

تهتم R باشياء عديدة لكثير من الناس: بيئة النماذج الأولية السريعة للتقنيات الإحصائية ، ووسيلة للإحصاءات الحسابية ، وبيئة للتحليل الإحصائي الروتيني ، وأساس لتدريس الإحصائيات على جميع المستويات. أو ، بالعودة إلى أصول S ، R مترجم مناسب لتغليف الكود المترجم الموجود ، والمحرك الأساسي متطور لدعم معدل التغيير في حجم وطبيعة البيانات ، والتطورات في الأجهزة.

نجاح R هو ديناميكي وتحرري. لكنه يظل مشروعًا مفتوح المصدر ، ولا أحد مسؤول بشكل مباشر . يمكن للمرء الاستمرار في وضع علامة على الحزم التي توسع الوظائف الأساسية لـ R لتضمين XML والمعالجة متعددة النواة والحوسبة العنقودية والشبكات . هناك الآن أربع طرق للقيام (أو التظاهر بالقيام) بالبرمجة الموجهة للكائنات ، وأربعة أنظمة مختلفة للقيام بالرسومات ، وأربع طرق مختلفة للربط في كود C المجمع. هناك الآلاف من الحزم الإضافية ، مع التكرار الهائل ، وغالبًا ما تحتوي على تعليمات برمجية ليست جيدة جدًا وتوثيقها رديء. يتعلم العديد من الإحصائيين والعديد من الإحصائيين المستقبليين لغة R كلغة برمجتهم الأولى ، بدلاً من تعلم لغات برمجة حقيقية مثل Python و Lisp أو حتى C و FORTRAN. يبدو من الواقعي أن تقلق على الأقل إلى حد ما بشأن المستقبل ، وأن تتوقع احتمال أن يتم تجاهل كل تلك الآلاف من الاكواد التي تتطور الآن بسرعة.

المصدر المفتوح والتطور الامحدود

تتمثل إحدى عواقب ثورة الكمبيوتر والإنترنت في أن المزيد والمزيد من العلماء يروجون لبرامج مفتوحة المصدر وأبحاث قابلة للتكرار. يجب أن يكون العلم ، حسب التعريف ، مفتوحًا وقابلًا للتكرار. في سياق الإحصاء [Gentleman and Temple-Lang، 2004] هذا يعني أن المقال أو التقرير المنشور ليس النتيجة العلمية الكاملة. لكي تكون النتائج قابلة للتكرار ، يجب أن نتمكن أيضًا من الوصول إلى البيانات ونسخة من البيئة الحسابية التي كانت اجريت عليها الحسابات.

أصبح النشر أكثر انفتاحًا ، مع المجلات الإلكترونية وخوادم ما قبل الطباعة والوصول المفتوح. يجعل النشر الإلكتروني كلاً من المصدر المفتوح وإمكانية التكاثر أكثر سهولة في التحقيق. مجلة البرامج الإحصائية ، على http://www.jstatsoft.org ، المجلة الوحيدة التي تنشر وتراجع البرامج الإحصائية ، تصر على كود كامل وأمثلة قابلة للتكرار بالكامل.اذ أصبحت أنظمة البرمجة المتعلمة مثل Sweave ، في http://www.stat.uni-muenchen.de/~leisch/Sweave/ ، طرقًا أكثر شيوعًا لدمج النص والحسابات في المنشورات الإحصائية.

لقد اعطينا هذه النظرة العامة للبرامج الإحصائية استنادا إلى ثورة الكمبيوتر التي دفعت الى التطور الأخير للإحصاءات ، من خلال زيادة حجم البيانات وتوافرها. لقد حدد استبدال الحواسيب الكبيرة بالحواسيب الصغيرة ، وفي النهاية بأجهزة كمبيوتر شخصية قوية ، الاتجاهات في تطوير البرمجيات الإحصائية. في الآونة الأخيرة ، أدت ثورة الإنترنت إلى تسريع هذه الاتجاهات ، وهي تعمل على تغيير الطريقة التي يتم بها نشر المعرفة العلمية ، والتي تعد البرامج الإحصائية مجرد مثال واحد منها.

ATISTICAL SOFTWARE – OVERVIEW ،JAN DE LEEUW مصدر

موضوعات ذات صلة

اترك تعليقاً