首页 网站首页 商业资讯 数据 查看内容

数据迷思2:辛普森悖论下的香港死亡数字

引流拓客 数据 2023-1-10 12:47 8252人围观

倘使有两名篮球手A和B,原本,不管是两分球还是三分球,A都要比B投得准,可是一个赛季下来,我们在汇总数据的时辰却发现:A的整体射中率居然比B要低!这能够吗?别说,还真有能够,而且在数据分析中极为常见。这就是以英国统计学家E.H.辛普森命名的所谓“辛普森悖论”。

我们可以举出具体的数字来证实这一点。以下表:

两分球脱手两分球射中两分球射中率三分球脱手三分球射中三分球射中率整体
脱手
整体
射中
整体
射中率
A1006060%40016040%50022044%
B60030050%2006030%80036045%

从表中的数据,我们可以看出:A在赛季中的两分射中率是60/100=60%,而B是300/600=50%,A高于B。别的,A的三分球射中率是160/400=40%,而B则是30/100=30%,一样,A也高于B。

但是,假如把一切的数据“汇总”起来,计较一个整体的射中率,此时结论就会发生180度的反转。虽然A不管两分还是三分射中率都要高于B,但他的整体射中率却只要44%,低于B的45%!

这是怎样回事呢?假如仔细研讨数据,我们会发现,这是由于三分球的射中率在整体上明显要比两分球低,所以,哪怕一个“好的三分投手”,其射中率也要低于一个“坏的两分投手”。现在,虽然A同时是一个“好的三分投手”和一个“好的两分投手”,而B同时是“坏的三分投手”以及“坏的两分投手”,但假如A一向热衷于投三分,而B则更多地投两分,那末,就算A在两者的射中率上都高于B,他的整体射中率也会被更多的三分球脱手而大幅拉低,最初反而落后于B。

在现实傍边,我们也很轻易找到类似的例子。例如说NBA著名的神射手库里,我们可以把他跟76人的中锋恩比德做一下比力。库里职业生活的两分球射中率是53.3%,高于恩比德的53.2%,而三分射中率则高达42.8%,更是远高于后者的33.8%。但是,由于库里脱手的三分球比例要大大跨越恩比德,这致使他的整体射中率只要47.3%,反而低于后者的49.0%。

但是,这说明什么呢?说明恩比德在整体上是一个比库里更优异的射手吗?明显,没人会这么以为。究竟上,库里不管是投两分,还是投三分,射中率都要比前者出色。只不外由于小我气概,大概战术放置等缘由,他在角逐中更多地挑选了“三分投手”的脚色,而恩比德则更多地充任“外线”。这样一来,在两人的总脱手次数傍边,两分和三分球的比例就有很大分歧。所以,是这个“战术缘由”,而不是“技术缘由”,才致使库里的整体射中率低于恩比德。但假如仔细考查分组数据,我们照旧可以得出结论:现实上库里才是那位加倍出色的投手,不管是两分还是三分。




库里和恩比德:谁是更好的射手?

所以,辛普森悖论告诉我们,光看一个合并起来的“总数据”,偶然辰会具有欺骗性。很有能够,当我们把这个数据细分到更具体的组别时,会获得截然相反的结论。特别是当这些组别之间存在着很大的整体性差别,而由于某种缘由,数据又恰幸亏这些组别之间散布得很不平衡时,就出格轻易致使辛普森悖论的出现。

现在,让我们回到上次提起的香港疫情灭亡数字。乍看上去,香港因新冠灭亡的人群傍边,似乎高龄老人出格多,以80岁以上为例,占比高达71.05%。这是由于Omicron对老人出格“偏心”吗?

在这里,我们需要首先大白一点,就是哪怕在自然状态下,每年“原本”就应当是老年人死很多,特别是香港这样一个高度老龄化的城市。按2021年的情况,每年灭亡约5万2千人,其中80岁以上占比57.31%。

可是,有人必定要说了,原本只占57%的灭亡,现在却占了71%,这还不能说明Omicron对老年人危险更大?哎,这就是“辛普森悖论”所带来的错觉了。上回说了,在香港的例子里,我们还需要斟酌到一个“潜伏”的变量,统计学上称为lurking variable,就是在分歧年龄层之间,存在着差别极大的疫苗接种率。

在本轮疫情爆发之前,港府为了推行疫苗,实在下了很多气力,例如说规定假如没有“疫苗通行证”的话,就不能进入各类公众场所,包括公务员不能上班,门生不能上学,不能进入特定的商场、超市、食肆,剃头店等。在仲春初甚至公布过:未来假如没有疫苗通行证,将不获得公司工作。

众所周知,香港人历来是“返工大过天”。在如此严酷的行动下,凡是有上学或工作需求的香港人,根基上都接种了疫苗。特别是20-50岁之间的青壮年,按照港府公布的数字,接种人数甚至跨越了香港在这些年龄层的总生齿(这是由于港府公布的数字还包括非香港居民等)。

而与之构成鲜明对照的是,香港老年人的接种率却一向上不去。由于一方面,很多老年人并没有出行的刚需,又担忧身材虚弱,承受不起疫苗的副感化。加上香港部分媒体持久炒作“打疫苗死了很多人”,在老年人傍边形成了很大的发急。直到仲春份疫情爆发时,香港仍有大量老年人连一针也未接种。在80岁以上的超高龄人群傍边,未接种比例甚至接近一半。

所以工作很明显,香港老人在阳性人群中超高的灭亡比例,极能够是由于更多老人没有去打疫苗而酿成的一种假象。假如我们想要认真地探访一下Omicron能否是对老年人风险更大,那末,首先需要严酷地控制“能否打了疫苗”这个变量才行。

现在,为了简单起见,让我们把全部香港人分红两大组:接种0针和1针的归类为“未完玉成程疫苗”,而接种2针或以上的则归类为“全程接种疫苗”。在某种水平上,你可以设想,现在香港被“朋分”成了两座分歧的城市,一座叫“无疫苗香港”,其居民没有任何人完玉成程接种。而另一座叫“疫苗香港”,其居民全数完成了疫苗接种。

按照官方统计,这两座“城市”的生齿数目和响应的年龄散布以下(注1):

年龄组别“无疫苗香港”总人数“疫苗香港” 总人数
<31236000
3-11373376129224
12-19110111337189
20-2982159689741
30-39118508975992
40-49991011061199
50-591413841049916
60-69246062876038
70-79190155401145
80+217286180914
总数17017435701357

可以明显看出,由于青壮年根基都去打了疫苗,而大量老人则未接种,致使这两座“城市”的生齿年龄散布出现了庞大的差别。相比之下,“无疫苗香港”的老龄化水平要比“疫苗香港”严重很多。

好,现在让我们来看看,Omicron对这两座“城市”别离形成了怎样的冲击。按照港府的报告,从今年头至5月11日为止,香港新冠灭亡共9142人,其中有2人年龄“待定”,没法归入统计,临时解除。在剩下的9140人中,有8026人死在了“无疫苗香港”,而唯一1114人死在“疫苗香港”。斟酌到前者的“总生齿”唯一后者的1/3不到,其中灭亡率差异之大,实在使人张口结舌。

可是,灭亡率高是一回事,这个高灭亡率带来的额外风险能否有出格针对某个年龄段呢?为了研讨这个工作,首先我们需要求出在“自然”状态下,“无疫苗香港”这座“城市”每年的预期灭亡散布,然后再把它跟现实数字停止对照。这很轻易,由于依照香港的“生齿生命表”,我们可以获得每个年龄段每年的自然灭亡率,再乘以无疫苗生齿响应的年龄散布,就能获得最初的答案,以下表:

年龄组别“无疫苗香港”总人数每年预期灭亡占比新冠阳性灭亡阳性灭亡占比
<31236000.25%10.01%
3-113733760.12%60.07%
12-191101110.06%40.05%
20-29821590.08%80.10%
30-391185080.21%180.22%
40-49991010.52%420.52%
50-591413841.85%1792.23%
60-692460627.37%6097.59%
70-7919015514.23%129516.14%
80+21728675.32%586473.06%
总数1701743100.00%8026100.00%

我们惊奇地发现,除了10岁以下的幼儿之外,对于一切的年龄段来说,这波疫情酿成的灭亡比例,相比“无疫苗香港”在自然状态下的一般灭亡比例,几近都是差不多的!例如说,对于80岁以上的老人,在一切8026个灭亡案例傍边,他们占了5864个,占比73.06%。可是,这个比例实在一点也不“高”,由于“无疫苗香港”自己就是一座比香港加倍老龄化的“虚拟城市”。从上面的数字可以看到,在170万“总生齿”傍边,80岁以上老人有快要22万,远超香港本来的比例。是以,换算下来,他们每年原本就应当占总灭亡人数的75.32%才对。相比之下,在未接种的新冠死者傍边,高龄老人的比例实在跟自然预期值相差无几,甚至还要略少。

这说明什么题目呢?明显,虽然在“无疫苗”的人群傍边,绝对灭亡数确切大大增加了,可是,灭亡年龄的散布却照旧是“一般”的。也就是说,在没有接种疫苗的情况下,Omicron实在对所丰年龄层的人都发生了一样的冲击,而并没有出格针对老年人。你可以设想,它就像是一个“灭亡放大镜”,对所丰年龄的灭亡人数都一概“按同比例”放大。这跟我们上次得出的结论是分歧的:新冠实在对所丰年龄(极低龄除外)“等量齐观”,并没有对老年人形成出格大的额外危险。

为了加倍直观起见,我们还可以经过生命表预算出从年头至今,“疫苗香港”和“无疫苗香港”原本应当发生几多灭亡,然后再经过模子,模拟出两者“现实上”到底各自死了几多人(注2),并与前者停止对照。成果以下图:



可以看出,一方面,在“无疫苗香港”,情况比力悲凉。这座“城市”以170万的总生齿,年头至今预期灭亡7918人,而模拟现实灭亡为14894人,“多死”了6976人,时代整体逾额灭亡比例高达88%。不外,正如之前说的,除了10岁以下的幼儿之外,这个逾额风险是各个年龄层“均匀承当”的,大致都在85%-110%之间,变化不大。

另一方面,在“疫苗香港”,则几近没有逾额灭亡。究竟上,模子给出的逾额灭亡率是-3.27%。在这座生齿为570万的“城市”傍边,原今年头至今,估计灭亡11154人,而模拟现实灭亡为10790人,甚至“少死”了364人。值得一提的是,这些少死的人,也根基合适该城市的年龄“自然散布”,换句话说,虽然逾额灭亡风险是负数,但也根基上由各个年龄层“均匀承当”,根基上都在-10%-0%之间稍微变更。从中,我们可以得出另一个结论,就是疫苗的庇护感化也并没有明显的年龄偏好,它带来的“福利”,根基上也照旧是按比例“均匀分派”给各个年龄层的。

但是,假如我们把两座“城”放在一路,把它们的数字汇总起来,“奇异”的现象就出现了。原本,在每一座“分城”傍边,新冠带来的逾额灭亡风险都并不随年龄剧烈波动,但一旦把它们合起来,工作就发生了变化,逾额灭亡率曲线起头剧烈地高低升沉,而且看上去,似乎老年人的“风险”变得更大了。



例如说,假如我们抽取两个年龄组做比力,一个是20-29岁,一个是70-79岁。原本,在“无疫苗香港”组,前者的额外灭亡率是113%,后者是102%,明显是前者略高于后者。而在“疫苗香港”组,前者的额外灭亡率是-1.95%,后者是-3.41%。由因而负数,所以照旧是前者略高于后者。

可是,把数据合并以后,我们就会惊奇地发现:20多岁年轻人的“整体”逾额灭亡风险为10.31%,而70多岁老年人的“整体”逾额风险则高达30.38%!忽然之间,后者远远跨越了前者。

为什么在每一个分组傍边,都是前者比后者高,而合起来以后,却反而酿成后者比前者高?哎,这就是我们一开首提到的,由于“辛普森悖论”而带来的错觉了。简单来说,由于不接种疫苗组,其整体逾额风险远高于接种疫苗组,而年轻人不接种疫苗的少,接种疫苗的多,老年人则恰好相反。是以合并数据以后,经过加权,前者的数据就会更多遭到“接种疫苗”带来的影响,后者的数据则更多遭到“不接种疫苗”带来的影响。最初,就出现了系统性的不同。在这里,疫苗接种率被称为一个“对撞因子”(Collider),它和“年龄”还有“逾额灭亡率”两个变量同时相关。是以,假如不仔细控制疫苗接种率这个变量,我们就极能够得出一个整体上似是而非的毛病结论。



固然,很多人必定还会想到,关于疫苗接种题目上,还存在别的一个“对撞因子”,就是“疫苗接种志愿”,它和“身材健康水平”以及“接种率”同时都有关系。简单地说,就是身材越差,越有根本病的人,就越是“不愿意”去接种疫苗,而这些人以老年为多。这样一来,就会形成一个“自我挑选”的误差,致使老年人更多地不去接种,最初形成疫情中的灭亡率偏高。

无疑,这也是一个题目,不外,从今朝的数据看来,自我挑选也许会致使疫苗的效力被高估(比如说“疫苗香港”甚至出现了负数的逾额灭亡,这极能够是由于健康人群自我挑选致使的,而并非美满是疫苗自己的感化)。可是,它似乎并没无形成整体上的年龄误差。简单地说,假如身材虚弱的老人不愿意去接种疫苗,那末,身材虚弱的年轻人也会做出一样的挑选,而他们之间的比例照旧是“自然”的。关于疫苗的题目,我们今后有机遇再来谈。

总之,由于辛普森悖论的存在,我们在分析数据的时辰,时辰需要留意,能否其中存在着潜伏的“对撞因子”?否则,光是单看整体的数字,得出的结论极能够会背道而驰。


注1:生齿数字和疫苗接种情况别离来自香港政府网站上的生齿报告和“新冠灭亡个案报告初步数据分析”文档。可是,后者关于疫苗接种的具体数据最早只能追溯到4月21日,没法反应疫情初起时的状态(疫情爆发后,香港的疫苗接种也迎来了一轮高峰,所以现在的数字要远高于当初)。加上之条件到过的,由于接种数字傍边还包括在香港工作的非当地居民等,致使有些年龄段的接种数甚至大于总生齿。为此,我们对这些数据停止了一些处置,下降总接种生齿的比例,对于某些年龄段还要乘上0.98-0.99不等的系数,使得未接种人数不至因而负数。总而言之,这里的数据只管试图复原仲春底时的疫苗接种状态。

注2:模子采用的预算方式,跟我们在上海案例中用的法子是类似的。在预算逾额灭亡率时一样如此,就是按照阳性人数逐日的变化,画出一条“阳性活跃曲线”,然后将这条曲线对时候做积分,求出其占“全民总时候”的比例。这样便可以晓得一切的阳性生齿在活跃时代“应当”一般灭亡几多人,以便和现实报告灭亡数对照。

固然,香港的情况稍微有些分歧。第一,港府判定灭亡人数的标准是“新冠检测阳性后28天”,只要在这个时代灭亡的都算。所以我们应当画的是“28天内阳性活跃曲线”,而不是“逐日活跃”。第二,港府至今仅报告了117万个阳性病例,但由于香港从未停止过全民核酸筛查,疫情高峰起来以后更是爽性放弃了严酷的检测,所以这个数字很明显是大大低估的。究竟上,早在3月22日,港大的报告就以为那时最少已经传染了400万人。

由于缺少牢靠的检测数据,我们只能按照各类其他信息,对模子停止调剂和测试,以拟合现实发生的情况。就今朝利用的参数来说,它显现至今为止,香港总共传抱病毒生齿已高达550万之多,几近已经快要到达群体免疫阈值(这也就是为什么香港疫情现在大大放缓的缘由)。按照该模子,全香港从年头1月1日至5月14日,“本该”灭亡19072人,而现实灭亡25684人,“多死”了6612人,时代逾额了34%。

有人能够会质疑模子的正确度,可是,模子给出的数字自己有多正确,在这里并不重要,只是用来举例而已。现实上,逾额灭亡率必定是一个定值,所以就算有误差,相差的不过就是一个比例。这最多影响具体的数字,而并不影响文中的结论,也就是逾额灭亡率的散布,在“接种疫苗”和“未接种”两个分组傍边,并反面年龄散布高度相关。

高端人脉微信群

高端人脉微信群

人脉=钱脉,我们相信天下没有聚不拢的人脉,扫码进群找到你所需的人脉,对接你所需的资源。

商业合作微信

商业合作微信

本站创始人微信,13年互联网营销经验,擅长引流裂变、商业模式、私域流量,高端人脉资源丰富。

我有话说......
  • HZ666 2023-1-10 12:57
    无疫苗香港的各年龄层健康状况和疫苗香港的健康状况是不一样的吧,这个基础变量不考虑,你这个统计分析有点不靠谱。
    结论也就会产生极大的偏差[思考]
  • 光明峰 2023-1-10 12:56
    其实就是定比分点公式,将四个数从小到大排列,实际上可以整理出来概率是最后对应的数量加权平均。把四个数画在数轴上,只需对两个概率都小的点间取靠右的点,概率大的点间靠左取就行。
    思考题:求对已知如图排列的p1到p4,发生"辛普森悖论"的期望查看图片
  • moody52 2023-1-10 12:56
    除非全民染疫,否则这句话不成立
  • 心随674 2023-1-10 12:56
    你不妨直接说没死的老年人死亡占比低于平均水平
  • 落败的青春阳落s 2023-1-10 12:55
    等欧美那边阳性不用请假的时候我们补补疫苗差不多就可以放开了
  • David902 2023-1-10 12:55
    这可以说明omicron病毒的毒性并没有弱化,只不过疫苗的防御作用,大大降低了中青年群体的死亡率,但老年人施打比例低,死亡率下降的有限。

查看全部评论>>

相关推荐

各领域公开数据集下载

各领域公开数据集下载

整理了网上的公开数据集,分类下载如下,希望节约大家的时间。1.经济金融1.1.宏观经济

快速找到论文数据的19个方法

快速找到论文数据的19个方法

在这个用数据说话的时代,能够打动人的往往是用数据说话的理性分析,无论是对于混迹职

有哪些可以获取数据的网站?[大数据]

有哪些可以获取数据的网站?[大数据]

做数据可视化或者数据分析的朋友可能经常会碰到的问题就是有想法没有数据。想到我有几

Detectron2训练自己的数据集手把手指导

Detectron2训练自己的数据集手把手指导

Detectron2训练自己的实例分割数据集This article was original written by Jin Tian,

数据增强(Data Augmentation)

数据增强(Data Augmentation)

我们常常会遇到数据不足的情况。比如,你遇到的一个任务,目前只有小几百的数据,然而

数据迷思2:辛普森悖论下的香港死亡数字

数据迷思2:辛普森悖论下的香港死亡数字

如果有两名篮球手A和B,本来,无论是两分球还是三分球,A都要比B投得准,但是一个赛季

数据看中国vs世界:2021世界各国/地区薪资排名

数据看中国vs世界:2021世界各国/地区薪资排名

数据源:NUMBEO自从我的“randy77:数据看中国vs世界:2020年世界各国人均GDP最新排名

数据可视化:打造高端的数据报表

数据可视化:打造高端的数据报表

本文是《如何快速成为数据分析师》的第五篇教程,如果想要了解写作初衷,可以先行阅读

最通俗易懂的理解什么是数据库

最通俗易懂的理解什么是数据库

1.什么是数据库呢?每个人家里都会有冰箱,冰箱是用来干什么的?冰箱是用来存放食物的

数据可视化:深入浅出BI

数据可视化:深入浅出BI

本文是《如何快速成为数据分析师》的第六篇教程,如果想要了解写作初衷,可以先行阅读

数据分析师这个岗位,可能近几年会消亡

数据分析师这个岗位,可能近几年会消亡

近期成为月入两万的数据分析师的广告遍地都是,可能会对一些未入行的同学造成错觉。我

没数据分析项目经验,找工作也别太慌!

没数据分析项目经验,找工作也别太慌!

1. 你问不少同学加了微信,第一句往往类似这样: 在校或刚毕业的学生,没有实习经验,

Excel函数公式大全(图文详解)

Excel函数公式大全(图文详解)

我把每个函数的中文名都制作成了目录,通过目录能够快速定位到相应的函数。如果这篇文

18个超实用的神级免费网站,找论文和文献必备!

18个超实用的神级免费网站,找论文和文献必备!

写论文至关重要的一步就是查文献,为了让小伙伴们能够在查文献的路上少走弯路,顺利写

30个值得推荐的数据可视化工具(2020年更新)

30个值得推荐的数据可视化工具(2020年更新)

30个数据可视化工具(2020年更新)目录摘要• 零编程工具◦ 图表(9个)◦ 信息图(2

从三次人口普查的公开数据看兵源人口的变化与“征兵难”问题 ... ...

从三次人口普查的公开数据看兵源人口的变化与“征兵难”问题 ...

最近很多人私信询问如何看待出生人口或人口总量减少对征集兵员和国家安全的影响。这可

数据看中国VS世界:世界各国人类发展指数排名-2020

数据看中国VS世界:世界各国人类发展指数排名-2020

人类发展指数:Human Development Index(HDI),是联合国开发计划署从1990年开始发布

GIS数据免费下载网站

GIS数据免费下载网站

刚学习GIS和RS的同学肯定很困惑于数据的问题,因为没有数据,就没法分析,那么GIS最基

2022新数据出炉:透过性别比例与出生人口,我看到两个残酷的现实

2022新数据出炉:透过性别比例与出生人口,我看到两个残酷的现实

2022重磅数据公布,全年出生人口956万人,死亡人口1041万人。从性别构成来看,男性人

数据中台(一)什么是数据中台

数据中台(一)什么是数据中台

本文从数据中台的定义、核心能力、优点出发阐述企业数据中台建设的意义与必要性。一、

TA还没有介绍自己。

最近内容

电话咨询: 15924191378
添加微信