9/02/2020

ما هي مفارقة سيمبسون؟

أعداد : د. محمد 
تصميم : م.م أحمد




 مفارقة سيمبسون





إنه عيد ميلاد أخيك في غضون أيام قليلة ومن مسؤوليتك اختيار أفضل مطعم للحفلة.
 بعد إجراء بحث شامل ، اخترت مطعمًا يسمى "The Orchard". تُظهر معظم التعليقات على الإنترنت تقييمًا يزيد عن 4.5 ، مما يعني أنه يجب على الجميع تقريبًا حب المطعم.

لسوء الحظ ، لا يبدو أي من أصدقائك متحمسًا.
 قرروا تقسيم المراجعات إلى فئتين من الشباب وكبار السن.
 يوضح تحليلهم أن المزيد من الشباب وكبار السن يفضلون مطعم "The Bistro" ، على الرغم من أن تقييمه على الإنترنت هو 4.2 فقط.

لماذا هذا؟ هل نظام التقييم بأكمله واجهة أم أن هذا نوع من الشعوذة؟

في الواقع ، أنت عالق في مفارقة سيمبسون.

هل يمكن أن تكون الإحصائيات مضللة؟

تتزايد أهمية تحليلات البيانات والإحصاءات مع مرور كل يوم.
 سواء كان الأمر يتعلق بالتنبؤ بالطقس ، أو انخفاض مبيعات شركة ما ، أو حتى توقع العلاقات المستقبلية لبلد ما مع جيرانه ، يتم النظر إلى كل شيء على الكرة الأرضية والتأكيد عليه من خلال فحص مجموعات البيانات الضخمة.
 من الواضح أن هذه هي الطريقة الأكثر موضوعية لعمل الأشياء.

السؤال هو ، هل تساعدك بياناتك في الوصول إلى استنتاجات كاملة ، أم أن هناك أي تحيز ضمني؟

لسوء الحظ ، في بعض الأحيان قد تستنتج استنتاجات خاطئة بسبب مفارقة سيمبسون.

وفقًا لمفارقة سيمبسون ، يمكن عكس الاستنتاج المستخلص من مجموعة بيانات معينة عندما يتم تقسيم مجموعة البيانات نفسها إلى مجموعات فرعية.

في الحالة المذكورة أعلاه ، عندما تم تقسيم نفس البيانات إلى مجموعتين من الشباب وكبار السن ، انعكس الاتجاه المتعلق بشعبية المطاعم.

دعونا نعبر عن مثالنا رياضيًا لتوضيحه.

   الشباب    كبار السن                 
النسبة المئوية للأشخاص الذين يحبون
The Orchard
80/100 = 80%370/400 = 92.5%450/500 = 90%
النسبة المئوية للأشخاص الذين يحبون The Bistro326/400 = 81.5%94/100 = 94%420/500 = 84%
الجدول 1: المطعم الأكثر تفضيلاً
يمكن ملاحظة أنه عند مقارنة إجمالي تقييمات The Orchard و The Bistro ، فإن 90٪ يفضلون الأولى ، بينما 84٪ فقط يفضلون الثانية. ومع ذلك ، عندما يتم تقسيم المراجعات إلى مجموعتين من الشباب وكبار السن ، يظهر The Bistro باعتباره المطعم الأكثر تفضيلًا ، ولا يوجد سحر مسؤول عن هذا التناقض ، ولكنه يحدث بسبب التغيير في مستوى التفسير. على سبيل المثال ، تم هنا تقسيم السكان إلى مجموعتين فرعيتين.

في بعض الأحيان قد تحدث المفارقة أيضًا بسبب جهل متغير ثالث. على سبيل المثال ، عند النظر في معدل وفيات البشر في بلدين "أ" و "ب" ، قد يبدو أن البلد "أ" أفضل حالًا ، ولكن ما قد تتجاهله هو مستوى صحة السكان.

وبالتالي ، فإن تحليل البيانات وحده لا يمكن أن يوفر استنتاجات كاملة وأن تحليل البيانات ليس ثابتًا. بدلا من ذلك ، يمكن أن تكون العلاقات الإحصائية مضللة في بعض الأحيان.
كيف نشأت مفارقة سيمبسون؟

تُعرف مفارقة سيمبسون بأسماء مختلفة بين المجتمع العالمي للإحصائيين - انعكاس سيمبسون ومفارقة الاندماج وتأثير يول-سيمبسون.


كان إدوارد هـ. سيمبسون هو أول من نشر ورقة فنية (في عام 1951) بعنوان "تفسير التفاعل في جداول الطوارئ" يوضح فيها التناقض ، ولكن من الممتع ملاحظة أنه لم يكن أول من لاحظ هذا الشذوذ. ذكر أودني يول في عام 1903 وكارل بيرسون في عام 1899 أيضًا مفهومًا مشابهًا.

ومع ذلك ، فقد كان كوهين وناجل في عام 1934 هم من توصلوا إلى أول مشكلة عملية ، وكان بليث في عام 1972 هو من وصفها بالمفارقة.
في عام 1981 ، تم نشر ورقة بعنوان "دور التبادل في الاستدلال" من قبل ليندلي ونوفيك. لقد أجروا تحليلًا أعمق لمفارقة سيمبسون واستخلصوا استنتاجًا مفاده أن الإحصائيات لا يمكن بأي حال من الأحوال أن تساعد الشخص الذي يحسب مجموعة بيانات لمعرفة ما إذا كان الاستنتاج المستخلص صحيحًا أم لا.

وبناءً على ذلك ، ذكروا أنه يجب اختيار مجموعة البيانات ، سواء كانت مجمعة أو مقسمة ، وفقًا للسياق. في حالة طلب مجموعتي البيانات وكان هناك انعكاس للاستنتاجات ، يجب مراعاة بعض المعلومات الخارجية التي لا تتعلق بالإحصاءات ، مثل صحة عامة السكان عند حساب معدل الوفيات.

الحالة الغريبة لجامعة كاليفورنيا في بيركلي
عندما تم تحليل بيانات القبول في جامعة كاليفورنيا في بيركلي لخريف عام 1973 ، بدا أن هناك تحيزًا بين الجنسين. تم رفع دعوى على الجامعة لتفضيلها الرجال على النساء. لوحظ أنه من بين 4351 أنثى تقدمت بطلبات ، تم اختيار 35٪ فقط ، بينما تم اختيار 44٪ من بين 8442 ذكرًا تقدموا بطلبات.

ومع ذلك ، عندما تم إجراء تحليل البيانات على مستوى القسم ، لوحظ أن العديد من الإدارات تبدو متحيزة تجاه النساء.

مفارقة سيمبسون وأزمة COVID-19

لقد أثبتت مفارقة سيمبسون نفسها أيضًا في إحصائيات COVID-19. تمت مقارنة معدلات الوفيات الناجمة عن حالات الإصابة بفيروس كوفيد -19 (معدل وفيات الحالات أو معدل الوفيات الناجمة عن حالات الإصابة بفيروس كوفيد -19 فرص نجاة مريض مصاب بفيروس كوفيد -19) في الصين وإيطاليا.
عند مقارنة إجمالي الحالات في الصين (فبراير 2020) بإجمالي الحالات في إيطاليا (9 مارس 2020) ، وجد أن فرص البقاء على قيد الحياة في الصين كانت أعلى من تلك الموجودة في إيطاليا.
ومع ذلك ، عندما تم تقسيم السكان إلى مجموعات عمرية مختلفة ثم تمت مقارنة معدل CFR ، وجد أن فرص البقاء على قيد الحياة لكل فئة عمرية كانت أعلى في إيطاليا.

هذه حالة واضحة لانقلاب سيمبسون. نشأت المفارقة بسبب الاختلاف في التركيبة السكانية العمرية للبلدين. لوحظ أن إيطاليا لديها نسبة أعلى من حالات COVID-19 المؤكدة في الفئة العمرية الأكبر - الأشخاص الذين يكون خطر الموت أعلى بالفعل. توضح هذه النقطة عدم التوافق بين CFRs. ومع ذلك ، وفقًا للباحثين ، فإن بعض العوامل الأخرى ، مثل الاختلافات في الاختبار ، قد تساهم أيضًا في هذا الشذوذ.

خاتمة

بينما يغرق هذا العالم في محيط من الإحصائيات والبيانات ، هناك مفارقات معينة ، مثل مفارقة سيمبسون ، التي تدق الأجراس في أذهان الإحصائيين.
 تعيدنا مفارقة سيمبسون إلى حقيقة أن البيانات وحدها لا يمكن أن تكون الدواء الشافي لجميع المشاكل ، ولا يمكننا دائمًا عمل تنبؤات صحيحة بناءً على البيانات.
 في كثير من الأحيان ، هناك حاجة للنظر إلى ما هو أبعد من ذلك وإبراز العديد من المعايير الخارجية ، والتي قد تكون في كثير من الأحيان غير واضحة ، مثل مشاعر الجماهير تجاه حكومتهم الحاكمة. وبالتالي ، يمكن أن يكون هناك تفسيرات سببية لمثل هذه المفارقات التي يتم تجاهلها أثناء إجراء تحليل إحصائي عملي وتقليدي بحت.

ليست هناك تعليقات:

إرسال تعليق