Documentation

基于统计分析和统计测试的Covid-19数据分析

  • 作者:王金元
  • 学号:121260910054
  • 教师:张莉维
  • 日期:2021.12.17

1. 简介

2019年12月,在中国武汉首次发现一种由新型冠状病毒引起的流行肺炎,后来被确定为“新型冠状病毒肺炎”(Covid-19)。2022年12月26日,国家卫生健康委员会发布公告,将新型冠状病毒肺炎更名为新型冠状病毒感染。

截止2023年1月1日,全球已累计报告逾6.60亿名确诊病例,逾669万名患者死亡,目前仍在持续扩散中。为防控新型冠状病毒肺炎疫情,中国政府采取“动态清零”防疫政策。截至12月23日24时,据31个省(自治区、直辖市)和新疆生产建设兵团报告,累计治愈出院病例350117例,累计死亡病例5241例,累计报告确诊病例397195例,累计追踪到密切接触者15377952人,尚在医学观察的密切接触者147724人。经国务院批准,自2023年1月8日起,解除对新型冠状病毒感染采取的《中华人民共和国传染病防治法》规定的甲类传染病预防、控制措施;新型冠状病毒感染不再纳入《中华人民共和国国境卫生检疫法》规定的检疫传染病管理。

基于15个国家和地区的公开新型冠状病毒肺炎死亡统计数据,本报告采用主成分分析法(PCA)、相关因子分析(FAC)和辨别因子分析(DFA)方法,研究新型冠状病毒肺炎疫情的死亡率、人群年龄分布和人群性别分布之间的潜在关系。在此背景下,本报告采用估计测试、充分性测试以及独立性测试等统计学测试方法,尝试确定部分数据的内生分布和分布之间的相关性。

在本文中,我们将聚焦于以下三个部分:

  • 数据处理:观察数据格式,总结归纳数据规律,使用Python脚本,从给定的多个xlsx文件中,自动化读取数据;
  • 统计分析:采用主成分分析法(PCA)、相关因子分析(FAC)和辨别因子分析(DFA)方法,研究新型冠状病毒肺炎疫情的死亡率、人群年龄分布和人群性别分布之间的潜在关系;
  • 统计测试:采用估计测试、充分性测试以及独立性测试等统计学测试方法,尝试确定部分数据的内生分布和分布之间的相关性。

2. 数据处理

经过观察数据,我们选择使用的数据有:

  • 每个国家2022年的人口统计数据:按照年龄段、性别区分
  • 每个国家2020-2022年累计新型冠状病毒肺炎死亡统计数据:按照年龄段、性别区分

2.1 统一化处理

由于葡萄牙(Portugal)、韩国(Republic of Korea)和罗马尼亚(Romania)缺失部分统计数据,我们选择排除掉这三个国家的数据。

由于每个国家对年龄段的划分不尽相同,我们经过分析和取舍,决定将年龄段进行统一划分,其中美国(USA)和奥地利(Austria)的年龄段划分较为特殊,因此我们处理过的数据或与真实情况有偏差。

对于每个国家的数据,我们按照以下维度进行分类统计:

  • 年龄段:40岁以下,40-60岁,60岁以上
  • 性别: 男性、女性、两种性别
  • 方面:死亡人数、人口总数、每千人死亡数

因此,我们共有27栏数据,为以上三个维度组合得到。

2.2 归一化处理

为了保证数据之间的量级相同,我们进行了以下归一化处理:

  • 对于每个国家,我们将各年龄段、各性别的死亡人数除以该国各年龄段、各性别的死亡人口总数,得到各年龄段、各性别的死亡百分比;
  • 对于每个国家,我们将各年龄段、各性别的人口数据除以该国各年龄段、各性别的总人口数,得到各年龄段、各性别的人口分布百分比;
  • 对于每个国家,我们将各年龄段、各性别的死亡人数除以该国各年龄段、各性别的相应的人口数,再乘以1000,得到各年龄段、各性别的每千人死亡数,然后对所有国家的各年龄段、各性别的每千人死亡数进行归一化处理。

2.3 发展程度标签

我们根据发展程度,手动为每个国家打上“发展中国家”和“发达国家”的表情,以备后续辨别因子分析使用。除了乌克兰(Ukraine)和摩尔多瓦(Moldova)两个国家为“发展中国家”,其余国家均为“发达国家”。

3. 统计分析

在本节中,我们将按以下顺序对数据进行分析:

  • 主成分分析;
  • 判别因子分析;
  • 对应因子分析。

3.1 主成分分析(PCA)

主成分分析 (PCA) 是一种流行的技术,用于分析每次观察包含大量维度/特征的大型数据集,在保留最大信息量的同时提高数据的可解释性,并实现多维数据的可视化。

形式上,PCA 是一种用于降低数据集维度的统计技术。这是通过将数据线性变换到一个新的坐标系中来实现的,在该坐标系中(大部分)数据的变化可以用比初始数据更少的维度来描述。

在本实验中,我们将选择 6 列数据作为特征并使用 PCA 将数据的维数减少到2维。我们将找到数据中最大方差的2个主成分,并尝试解释。

我们的代码如图所示,结果如图2所示。我们发现:

  1. 第一个组成部分代表 60 岁以上或以下老年人的“死亡”,不分性别。
  2. 第二个组成成分代表按“性别”区分的“40-60”岁人群的“死亡”。

我们进一步将“每千人死亡百分比”数据投影到前 2 个主成分并绘制结果,结果以橙色圆点显示。我们发现:

  1. 美国、奥地利、乌克兰和摩尔多瓦在第二个轴上表现比较显著,美国和乌克兰分别是两个极端。
  2. 瑞士和摩尔多瓦在第一个轴上表现比较显著,分别是两个极端。

3.2 辨别因子分析(DFA)

判别分析在因子方法中具有特殊的地位,因为它可以赋予“学习”阶段以意义。DFA的使用情况如下:

  • 我们有定量数据(对 n 个人的 p 测量);
  • 我们还有定义 k 个类别的定性数据;
  • 我们知道,对于每个个体他属于哪一类

目标是“教”计算机识别任何新个体并将其分类为 k 个类别(具有最大可能的可靠性)。

在本实验中,我们将“发达国家”标记为 1,将“发展中国家”标记为 0。我们将使用 6 列数据作为特征,并使用判别因子分析将国家分为两类,我们的函数代码如图所示。

我们可以看到,两类国家被纵轴很明显地分开了,这说明我们找到的第一个因子可以很好辨别“发展中国家”和“发达国家”的死亡比例分布的差异。

3.3 对应因子分析(FAC)

行为者对应分析 (FAC) 是一种用于分析分类数据的统计方法。 它是主成分分析 (PCA) 对分类数据的推广。它用于减少列联表的维数,并识别数据的潜在结构。在本实验中,我们将尝试找到数据中最大方差的 2 个潜在因素。

我们的函数代码如下所示,我们的实验结果如图所示。

我们可以得出以下结论:

  • 对于日本、挪威、法国、加拿大、意大利、德国、丹麦、西班牙、瑞典、瑞士和英格兰威尔士,这些国家和“60岁以上死亡人数”距离较近,说明这些国家高龄人群死亡人数较多,这和这些国家属于“发达国家”的现状以及我们的直觉是比较符合的;
  • 美国年轻人的“每千人死亡率”较高,它虽然是发达国家,但可能医疗资源多为富人服务,年轻人可能在医疗资源的获得性上不占优势,因此死亡率较高;
  • 对于乌克兰和摩尔多瓦,这两个国家为“发展中国家”,中年(40-60岁)人口死亡占比较大,中年人口“每千人死亡率”也比较高。

4. 统计测试

在本节中,我们将按以下顺序对数据进行统计检验:

  • 估计测试(包括均值估计和标准差估计);
  • 充分性测试;
  • 独立性测试。

4.1 估计测试(均值)

我们选择第一栏数据进行估计测试,计算出均值为24.22。我们的假设是:H0H_0: 均值为hh,我们采取间隔采样的方法,从20到30取样,间隔为1.

我们使用st.ttest_1samp()函数来计算p值,选定的alpha=0.05,当p值小于0.05的时候,我们拒绝H_0,否则,我们不拒绝H_0

测试结果如上所示,我们可以看到,随着显著性等级(significance level)的提高,区间的精度在不断提高。

4.2 估计测试(标准差)

我们选择第一栏数据进行估计测试,计算出标准差为2.50。我们的假设是:

我们使用卡方测试(\chi^2)来确定标准差所在的区间,代码如图下所示。

测试结果如图下所示,我们可以看到,随着显著性等级(significance level)的提高,区间的精度在不断提高。

4.3 充分性测试

我们以奥地利的两性人口的年龄分布情况进行检验,分布如图下所示。

虽然这个分布看起来像是一个正态分布,我们测试了均匀分布、正态分布、泊松分布和指数分布。 但是不幸的是,如下所示, 这些测试的p值都远小于0.05,因此我们不得不拒绝显著性等级(significance level)为0.05下的所有假设。

4.4 独立性测试

我们想研究这15个国家的中年人(40-60岁)和老年人(60岁以上)的“每千人死亡率”的分布之间是否遵循同一个分布,如图下所示。

我们的假设H0H_0是:“这两个分布遵循同一个分布法则”,我们选择的显著性等级(significance level)为0.050.05

如上所示,我们使用st.chi2_contingency()st.chi2\_contingency()计算得到p值为0.4640.464,大于0.050.05,因此我们不能拒绝H0H_0

5. 结论

在本项目中,我们针对15个国家的新型冠状病毒肺炎死亡统计数据进行了数据处理、统计分析和统计测试,将课程上所学的主成分分析法、辨别因子分析法和对应因子分析法投入实际应用中,并得出了有趣的结论。我们还对真实数据进行估计测试、充分性测试和独立性测试,对相关知识有了更深刻的理解。

返回首页