2021-01-10 身边的统计悖论——辛普森悖论?辛普森悖论
本文目录
2021-01-10 身边的统计悖论——辛普森悖论
情景:季度要结束了,又该拿数据说话了。拿到数据后,业务急冲冲得跑过来,“怎么回事,我们A类班续费率从之前的60%上升到了70%,B类班也上升突破到了35%,都变好了,整体续费率应该是变好了呀,正要跟老大汇报呢。你却跟我说整体续费率下降了,你赶紧看看,是不是统计错啦?”。 面对业务的质疑,是不是慌了呢?(坏了坏了,他说的好像有道理呀) 其实,莫慌。相信自己,比例的问题嘛,整体并一定就是所有个体的简单平均哦,有时候,整体他就不是简单的等于所有个体的和或者平均呢。 这时候,可以跟业务亮一下续费率背后的分母-样本数量是多少了。可以回答业务:“你们不能忽略每个季度的学员来源分布,要看看是哪类班的人数比重更大,是不是发生了变化!我们整体的续费率受到主要班型的学员影响比较大。之前的几个季度,你看,学员主要集中在A类班,续费率大概在60%。但是到了最后一个季度,学员主要来源于B类班,B类班的续费率一直低于A类班,虽然也上升了,但是上升后的续费率35%还是比A类班前几个季度的60%低,当学员来源发生了变化,我们就要谨慎计算了。你们可以用学员人数和续费人数汇总下,来验证下这个结果”。 上述情景中遇到的问题,在工作中,当我们对业务指标进行各维度的下钻分析时,是比较常见的一种数据陷阱,需要警惕。在统计学上,这被称为“辛普森悖论”。 辛普森悖论,由英国统计学家E.H.辛普森于1951年提出,即在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。(推荐一篇相关文章,https://www.sohu.com/a/235918522_114819)
辛普森悖论
辛普森悖论(Simpson’s Paradox)是统计学里一个很重要的悖论,在实验分析中经常被用到,是一个很反直觉的效应。 维基百科的定义如下: 下面来举一个很简单的例子: 小明的爸爸让小明去菜市场买苹果和香蕉一共10斤 苹果 1 块钱一斤, 小明买了 1 斤,花了1 * 1 = 1块钱 香蕉 2 块钱一斤,小明买了 9 斤, 花了2 * 9 = 18块钱 如果计算一下小明所买的水果的平均单价 = 19 / 10 = 1.9 块/斤 时光荏苒,岁月如梭,如今小明已经都结婚生子了。这一天,小明让小小明也去菜市场买苹果和香蕉一共10斤。因为通货膨胀,苹果和香蕉都涨价了 苹果 1块5 一斤,小小明买了 8 斤,花了 1.5 * 8 = 12块钱 香蕉 2块5 一斤,小小明买了 2 斤,花了 1.5 * 2 = 5块钱 水果平均单价是 17 / 10 = 1.7 块/斤 小明就纳闷了,为什么明明两种水果都涨价了,总的单价还降了呢?小小明说爸爸你好笨,因为我多买了便宜的水果,少买了贵的水果呀!这就是辛普森悖论的一个最简单也是最常见的应用,在做A/B实验的时候,我们经常会比较实验组和对照组的总指标(Metrics)变化,而没有具体分析每个类别的变化,有时候就会得出完全相反的结论,变成了笨笨的小明。这种现象一般也叫 Mix-Shift
辛普森悖论在那本教材上
在《商务与经济统计》中定义:辛普森悖论为英国统计学家E.H.辛普森于1951年提出的悖论,即在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。
更多文章:
广东队新外援(广东队的新外援莱多,2013年被雄鹿队选中!他在NBA的表现如何)
2026年3月2日 22:10
重返前八的热火,可拿下补强的三大中锋?3000万美元!热火中锋将宣布留队,莱利自己断了总冠军之路
2026年3月2日 20:57
韩国选手拒绝采访直接离场(韩国选手拒绝采访直接离场,其行为有多掉价)
2026年3月2日 20:20







