艾巴生活网

您现在的位置是:主页>科技 >内容

科技

什么是辛普森悖论(辛普森悖论的重要性)

2024-01-20 13:02:01科技帅气的蚂蚁
对于数据科学家来说,理解统计现象并问为什么。想象这样一个场景:有一天,你约了一个朋友吃饭,你们俩都想找一家完美的餐厅。因为选项太多

什么是辛普森悖论(辛普森悖论的重要性)

对于数据科学家来说,理解统计现象并问为什么。

想象这样一个场景:有一天,你约了一个朋友吃饭,你们俩都想找一家完美的餐厅。因为选项太多,所以今天两个人的口味也不一定一样。为了避免数小时的争论,你保守地采用了现代人常用的方法:查美食评论。

在用同一个应用查看了所有的餐厅后,你最终锁定了其中的两家:Carlo s餐厅和索菲亚餐厅。你更喜欢卡洛,因为从性别数据来看,男女食客都给出了较高的好评率(例如:男性好评率=男性好评率数/男性评论总数);而你的朋友更倾向于索菲亚,因为他发现,总的来说,索菲亚的好评率更高,口味应该更受欢迎。

这到底是怎么回事?APP是统计错误吗?事实上,这两个统计结论是正确的,但你输入了辛普森不知不觉的s悖论。在这里,我们可以用同一组数据证明两个完全相反的论点。

什么是辛普森悖论?

这个悖论是以英国统计学家E.H .辛普森的名字命名的。是他在1951年阐述的一个现象:当我们用分组和聚合两种方式统计同一个数据集时,最终得到的两种趋势可能完全相反。在上面吃凯斯,卡洛餐厅两性推荐率较高,但整体推荐率较低。如果你不不想晕头转向,我们可以用一些直观的数据来说明:

上表清楚地表明,卡洛数据分组时首选s,数据合并时首选Sophia!

这个悖论的原因是样本量。当我们分组统计时,女性的推荐率在卡洛餐厅高达90%,但其样本只有40个,仅占评论者总数的10%;而索菲亚餐厅的女性推荐率只有80%,有250位女性点评者,显然会大大提高餐厅的整体好评率。

所以在选择餐厅的时候,我们要提前确定数据的统计方法,是组合还是分组更合理。——这个取决于数据产生的过程,也就是数据的因果模型。

相关反转

在我们的生活中,另一个常见的辛普森的悖论是,在对讨论数据进行分组和聚合之后,元素之间的相关性也发生了逆转。举个简单的例子,假设我们有两组50岁以上和50岁以下的病人。在收集了他们每周的运动时间和患病风险后,我们得到了以下两张关于运动和疾病恶化概率之间关系的图表:

左:50岁以下;右图:50岁以上(横坐标是运动小时数,纵坐标是恶化风险)

图表清楚地显示了两者之间的负相关关系。每周锻炼的时间越长,患者患病的可能性就越低。她的情况会恶化。然而,如果我们结合两组数据:

各年龄段患者运动时间与病情恶化概率的关系图

运动和病情恶化的相关性完全颠倒了!如果只呈现这张图,我们得出的最终结论将是,运动增加了恶化的概率。同样一组数据,完全不同的结论,同样,这个例子的问题出在数据生成过程3354。我们未能收集完整的原因数据,自然我们也不能I don’我无法解释最终的结果。

解决悖论

为了避免辛普森的悖论导致我们得出两个相反的结论,最直接的方法是决定是分组还是聚合。看起来简单,做起来却不容易。正确做选择题,首先要考虑因果关系:数据是如何产生的?影响结果的因素有哪些?其中有哪些是我们没有不在场?

以运动和病情加重的分析为例。显然,运动绝对不是影响病情加重的唯一因素。饮食、环境、遗传……其影响因素非常复杂。但在上图中,我们只看到了恶化概率和运动持续时间的关系。在没有控制变量的情况下,这相当于假设恶化只是由运动引起的,这显然是不合理的。

例如,如果我们考虑原始数据中忽略的因素:年龄。

从下图中,我们可以发现病人之间有很强的正相关性年龄和恶化的可能性,不管是50岁以下还是50岁以上。这意味着,随着患者年龄的增长,即使他们每周的运动量相同,老年患者也更有可能比年轻患者的病情恶化。

病人之间的关系年代和变质概率

在这种情况下,分组讨论数据是避免辛普森悖论。这和做科学实验是一样的,但是每当数据之间存在因果关系的时候,就要在分析之前控制好变量,保证数据的合理分层。

在选择餐厅的例子中,解决悖论的方法是重新审视你想要解决的问题。3354既然目标是选择完美的餐厅,尽一切努力普及口味,避免踩雷,那么性别统计就没有意义了。在这种情况下,聚合数据最有意义。

现实生活中的辛普森悖论

看到这里,也许有些读者会觉得这个悖论太简单了,它应该只是统计学中的一个概念,没有人会犯这样的错误。但事实上,在现实世界中,我们确实有许多著名的辛普森研究案例悖论。

一个典型的例子就是肾结石两种治疗方案的选择。医生根据临床实验数据发现,方案A在治疗小结石和大结石方面效果更好。但如果两种肾结石合并,方案B治愈率更高。以下是具体数据:

如果是你,你会选择哪种治疗方法?这个问题要结合医学领域的数据生成过程3354的因果模型。在实际操作中,就病情严重程度而言,大结石肯定比小结石严重得多,A方案比B方案更有创伤性(医学上有一些创伤性的治疗措施)。因此,如果病人肾结石较小,医生出于保守考虑一般会采用B方案;如果病人肾结石很大,医生会直接采用最佳方案a。

因为A方案更适合重症,所以它的整体治愈率肯定会低于b方案。

我们称之为疾病的严重程度在这个例子中是一个混杂变量,因为它与自变量(治疗计划)和因变量(治愈)都相关。我们可以我们无法直接从数据中看到这个变量,但是如果我们画一个因果图,一切就都清楚了:

因果图和混淆变量

如上图所示,两种方案的治愈率受所选治疗方案和结石大小的影响,所选治疗方案本身也受结石大小的影响。这意味着如果要做全面的定量实验,必须控制结石的大小,比较两种方案的治愈率。从实验结果来看,方案A的效果较好。

如果我们不如果不做这个实验,我们可以用另一种方法来解决这个问题。如果病人结石越小,A方案越好,治愈率越高;如果病人石头很大,A计划更好。因为患者身上肯定会有或大或小的结石,所以综合来看,方案A肯定是最好的。

有时,查看聚合数据是有用的,但在某些情况下,它也可能掩盖事件的真相。

另一个真实的案例

第二个现实的案例是辛普森政治视野中的悖论。下表显示了杰拉尔德福特期间的税收和税率变化美国总统。可以发现,从1974年到1978年,各收入群体的税率都有不同程度的下降,但全社会的税率却有所上升。

所有的个别税率都降低了,但总体税率却提高了。

根据前面的介绍,看完这里,相信大家应该已经学会了如何解释这个悖论:寻找影响整体税率的其他因素。社会总体税率是两个因素的函数,与各收入群体的税率和各收入群体的总收入有关。1978年,由于美国的通货膨胀,居民工资大幅增长,国民总体收入增加,高收入群体税率下降较少,所以全国总体税率实际上是上升的。

除了数据生成过程,是否汇总数据也要看我们要回答的问题。就拿还在交税来说吧。在个体层面,我们只是个体,所以我们只关心自己的税率。但为了确定我们是否多交了税,除了观察税率的变化,我们还应该关注工资的增长。影响税率的重要因素有两个,表格中只提供了其中一个,因此由此得出的统计结果是不准确的。

辛普森的重要性悖论

辛普森悖论非常重要,因为它时刻提醒我们,表格中显示的数据可能不是全部数据。我们可以不要仅仅满足于数字和数据,我们必须关注数据产生的过程。——因果模型3354负责数据。在大学里思考因果关系并不是大多数数据科学家会在课堂上学习的技能,但它可以有效地防止我们从数字中得出错误的结论。一个真正优秀的数据科学家不仅仅是数据分析方面的专家,还能结合专业领域的知识做出更好的决策。

数据是强大的武器。它可以是帮助我们认识世界的工具,也可以是别人愚弄我们的帮凶。我们必须始终保持对数据的怀疑,理性思考并问为什么更多的时候。