1.本发明涉及医疗卫生技术领域,特别是涉及一种基于聚类的疫情发展趋势分析方法及系统。
背景技术:2.现有大多数对于疫情发展趋势的研究都是通过在传统预测模型的基础上添加患者确诊数来进行相关预测。例如,尹楠等人基于sir(susceptible infectedrecovered)模型进行了有限区域内病毒传播的模拟分析;梅文娟等人将极限学习机与sir模型相结合构建了极限ir实时预测模型;盛华雄等人将sir模型与logistic模型相结合,对不同防控措施进行了模拟和对比;喻孜等人使用基于时变参数的sir模型预测得到了疫情拐点和最大确诊数;zhou等人基于 seir(susceptible exposedinfected recovered)模型计算得到了病毒的再生数;林俊锋等人在seir模型的基础上增加了“隐形传播者”,对隐形传播者的数量进行了预测;范如国等人基于seir模型对3种不同潜伏期下的疫情进行了拐点预测;凡友荣等人提出的sir-f模型在sir模型的基础上增加了未确诊的感染者(具有传染性),这一点与seir模型相同,其还将“移除者”(removed) 细分为“治愈者”(recovered)和“死亡者”(fatal),从而能够进一步分析治愈人数、死亡人数的变化趋势,提高分析结果的准确性。除此之外,还有基于神经网络和深度学习等方法构建预测模型,例如,刘晓夏等人提供一种基于bi-lstm与tf-idf的疫情预测与分析方法,其综合利用人工智能和自然语言处理技术,针对区域的不同情况采取相应的处理策略,动态建立预测模型;王灵钰等人通过调节前馈神经网络模型参数,将现有疫情数据进行训练,从而实现对疫情发展的预测;温亮等人通过整合疫情数据的arima(autoregressiveintegratedmovingaverage model)模型直接进行疫情预测;李少亭等人通过基于自适应噪声的完整集合经验模态分解建立每日新增确诊人数预测模型等。上述方法虽然可以得到整体的疫情发展情况走势,但存在一定的局限性:由于不同地区的基础建设规模、gdp、人口规模等不同,所以疫情发展状况也不尽相同,因此整体的疫情发展状况不能代表各地区的疫情发展趋势。而一些地区又具备相似的基建、gdp、人口规模等信息,所以合理准确地识别出这类具有相似发展趋势的地区,制定相应的防控策略具有重大的研究意义。
3.综上,现有的技术大多为宏观预测疫情发展趋势,考虑的角度大多是某一个地区的整体疫情发展趋势,而无法将这个整体内的单元识别出来,例如“世界的所有地区”、“亚欧大陆的所有国家”等。基于此,如何准确得到不同地区的疫情发展趋势,将世界整体内具有相似疫情发展趋势的地区识别出来,从而为制定相应的防控策略提供决策,成为本领域技术人员亟待解决的问题。
技术实现要素:4.本发明的目的是提供一种基于聚类的疫情发展趋势分析方法及系统,能够准确得到不同地区的疫情发展趋势,将世界整体内具有相似疫情发展趋势的地区识别出来,从而
为制定相应的防控策略提供决策。
5.为实现上述目的,本发明提供了如下方案:
6.一种基于聚类的疫情发展趋势分析方法,所述方法包括:
7.建立疫情的传染病系统动力学模型;
8.基于所述传染病系统动力学模型提取疫情数据特征;所述疫情数据特征包括人口密度、公共交通密度、迁入规模指数和gdp;
9.对各地区对应的所述疫情数据特征进行相关性分析,确定影响疫情发展的疫情数据特征;所述影响疫情发展的疫情数据特征包括迁入规模指数和gdp;
10.根据疫情爆发前各地区的迁入规模指数和疫情爆发前各地区的gdp,对各地区进行第一次聚类,得到疫情爆发前的各地区分类情况;
11.根据实施防控措施前各地区的确诊人数、所述疫情爆发前各地区的迁入规模指数以及所述疫情爆发前各地区的gdp,对各地区进行第二次聚类,得到疫情爆发后的各地区分类情况;所述防控措施包括限行和居家;
12.根据所述疫情爆发前各地区的gdp、实施防控措施后各地区的确诊人数和实施防控措施后各地区的迁入规模指数,对各地区进行第三次聚类,得到实施防控措施后的各地区分类情况;
13.根据所述疫情爆发前的各地区分类情况、所述疫情爆发后的各地区分类情况以及所述实施防控措施后的各地区分类情况,确定各地区的疫情发展趋势;
14.根据所述各地区的疫情发展趋势确定世界整体内具有相似疫情发展趋势的地区。
15.可选地,所述方法还包括:
16.根据所述实施防控措施前各地区的确诊人数、所述实施防控措施后各地区的确诊人数以及所述疫情爆发前各地区的gdp,对各地区进行第四次聚类,得到疫情对各地区的破坏程度。
17.可选地,所述建立疫情的传染病系统动力学模型,具体包括:
18.对人群进行分类,得到分类结果;所述分类结果包括健康人群、潜伏期人群和发病期人群;
19.获取所述潜伏期人群的来源;所述潜伏期人群的来源包括外地输入、健康人群防护不当被感染、被感染的医务人员和被有过危险性社交活动的亲朋好友感染;
20.获取所述发病期人群的来源;所述发病期人群的来源包括外地输入和所述潜伏期人群的转化;
21.获取医院内部人群的转化;所述医院内部人群的转化包括所述潜伏期人群和所述发病期人群进入医院单独在一个区域进行治疗后,转化为所述健康人群或不幸罹难;
22.根据所述分类结果、所述潜伏期人群的来源、所述发病期人群的来源和所述医院内部人群的转化,建立疫情的传染病系统动力学模型。
23.可选地,所述基于所述传染病系统动力学模型提取疫情数据特征,具体包括:
24.根据所述潜伏期人群的来源中所述外地输入以及所述发病期人群的来源中所述外地输入,确定所述疫情数据特征包括迁入规模指数;
25.根据所述潜伏期人群的来源中所述被有过危险性社交活动的亲朋好友感染,确定所述疫情数据特征包括人口密度和公共交通密度;
26.根据所述医院内部人群的转化,确定所述疫情数据特征包括gdp。
27.可选地,所述对各地区对应的所述疫情数据特征进行相关性分析,确定影响疫情发展的疫情数据特征,具体包括:
28.利用函数分析法和pearson相关系数分析法依次确定各地区对应的疫情数据特征与确诊人数的相关性;所述疫情数据特征与确诊人数的相关性为所述疫情数据特征与实施防控措施前确诊人数的相关性;
29.根据各地区对应的所述疫情数据特征与确诊人数的相关性,确定影响疫情发展的疫情数据特征。
30.本发明还提供了如下方案:
31.一种基于聚类的疫情发展趋势分析系统,所述系统包括:
32.系统动力学模型建立模块,用于建立疫情的传染病系统动力学模型;
33.疫情数据特征提取模块,用于基于所述传染病系统动力学模型提取疫情数据特征;所述疫情数据特征包括人口密度、公共交通密度、迁入规模指数和 gdp;
34.影响疫情发展的疫情数据特征确定模块,用于对各地区对应的所述疫情数据特征进行相关性分析,确定影响疫情发展的疫情数据特征;所述影响疫情发展的疫情数据特征包括迁入规模指数和gdp;
35.第一次聚类模块,用于根据疫情爆发前各地区的迁入规模指数和疫情爆发前各地区的gdp,对各地区进行第一次聚类,得到疫情爆发前的各地区分类情况;
36.第二次聚类模块,用于根据实施防控措施前各地区的确诊人数、所述疫情爆发前各地区的迁入规模指数以及所述疫情爆发前各地区的gdp,对各地区进行第二次聚类,得到疫情爆发后的各地区分类情况;所述防控措施包括限行和居家;
37.第三次聚类模块,用于根据所述疫情爆发前各地区的gdp、实施防控措施后各地区的确诊人数和实施防控措施后各地区的迁入规模指数,对各地区进行第三次聚类,得到实施防控措施后的各地区分类情况;
38.各地区疫情发展趋势确定模块,用于根据所述疫情爆发前的各地区分类情况、所述疫情爆发后的各地区分类情况以及所述实施防控措施后的各地区分类情况,确定各地区的疫情发展趋势;
39.相似地区确定模块,用于根据所述各地区的疫情发展趋势确定世界整体内具有相似疫情发展趋势的地区。
40.可选地,所述系统还包括:
41.第四次聚类模块,用于根据所述实施防控措施前各地区的确诊人数、所述实施防控措施后各地区的确诊人数以及所述疫情爆发前各地区的gdp,对各地区进行第四次聚类,得到疫情对各地区的破坏程度。
42.可选地,所述系统动力学模型建立模块具体包括:
43.人群分类单元,用于对人群进行分类,得到分类结果;所述分类结果包括健康人群、潜伏期人群和发病期人群;
44.潜伏期人群来源获取单元,用于获取所述潜伏期人群的来源;所述潜伏期人群的来源包括外地输入、健康人群防护不当被感染、被感染的医务人员和被有过危险性社交活动的亲朋好友感染;
45.发病期人群来源获取单元,用于获取所述发病期人群的来源;所述发病期人群的来源包括外地输入和所述潜伏期人群的转化;
46.医院内部人群转化获取单元,用于获取医院内部人群的转化;所述医院内部人群的转化包括所述潜伏期人群和所述发病期人群进入医院单独在一个区域治疗后,转化为所述健康人群或不幸罹难;
47.系统动力学模型建立单元,用于根据所述分类结果、所述潜伏期人群的来源、所述发病期人群的来源和所述医院内部人群的转化,建立疫情的传染病系统动力学模型。
48.可选地,所述疫情数据特征提取模块具体包括:
49.迁入规模指数确定单元,用于根据所述潜伏期人群的来源中所述外地输入以及所述发病期人群的来源中所述外地输入,确定所述疫情数据特征包括迁入规模指数;
50.人口密度和公共交通密度确定单元,用于根据所述潜伏期人群的来源中所述被有过危险性社交活动的亲朋好友感染,确定所述疫情数据特征包括人口密度和公共交通密度;
51.gdp确定单元,用于根据所述医院内部人群的转化,确定所述疫情数据特征包括gdp。
52.可选地,所述影响疫情发展的疫情数据特征确定模块具体包括:
53.疫情数据特征与确诊人数相关性确定单元,用于利用函数分析法和 pearson相关系数分析法依次确定各地区对应的疫情数据特征与确诊人数的相关性;所述疫情数据特征与确诊人数的相关性为所述疫情数据特征与实施防控措施前确诊人数的相关性;
54.影响疫情发展的疫情数据特征确定单元,用于根据各地区对应的所述疫情数据特征与确诊人数的相关性,确定影响疫情发展的疫情数据特征。
55.根据本发明提供的具体实施例,本发明公开了以下技术效果:
56.本发明公开的基于聚类的疫情发展趋势分析方法及系统,根据疫情实际传播过程建立疫情的传染病系统动力学模型,因此能够更准确地刻画疫情传播的过程,基于建立的疫情的传染病系统动力学模型,提取出人口密度、公共交通密度、迁入规模指数和gdp四个疫情数据特征,对四个疫情数据特征进行相关性分析,确定迁入规模指数和gdp影响疫情发展,基于迁入规模指数、gdp 和确诊人数,采用聚类的方式对不同阶段的疫情发展进行分析,能够准确得到不同地区的疫情发展趋势,将世界整体内具有相似疫情发展趋势的地区识别出来,从而为制定相应的防控策略提供决策。
附图说明
57.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
58.图1为本发明基于聚类的疫情发展趋势分析方法实施例的流程图;
59.图2为本发明疫情传播系统的动力学模型示意图;
60.图3为本发明相关性分析图;
61.图4为本发明聚类模型示意图;
62.图5为本发明基于聚类的疫情发展趋势分析系统实施例的结构图。
具体实施方式
63.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
64.本发明的目的是提供一种基于聚类的疫情发展趋势分析方法及系统,能够准确得到不同地区的疫情发展趋势,将世界整体内具有相似疫情发展趋势的地区识别出来,从而为制定相应的防控策略提供决策。
65.为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
66.图1为本发明基于聚类的疫情发展趋势分析方法实施例的流程图。参见图 1,该基于聚类的疫情发展趋势分析方法包括:
67.步骤101:建立疫情的传染病系统动力学模型。
68.该步骤101具体包括:
69.对人群进行分类,得到分类结果;分类结果包括健康人群、潜伏期人群和发病期人群。
70.获取潜伏期人群的来源;潜伏期人群的来源包括外地输入、健康人群防护不当被感染、被感染的医务人员和被有过危险性社交活动的亲朋好友感染。
71.获取发病期人群的来源;发病期人群的来源包括外地输入和潜伏期人群的转化。
72.获取医院内部人群的转化;医院内部人群的转化包括潜伏期人群和发病期人群进入医院单独在一个区域治疗后,转化为健康人群或不幸罹难。
73.根据分类结果、潜伏期人群的来源、发病期人群的来源和医院内部人群的转化,建立疫情的传染病系统动力学模型。
74.传染病系统动力学是进行理论性定量研究的一种重要方法,是根据种群生长的特性、疾病的发生及在种群内的传播、发展规律,以及与之有关的社会等因素,建立能反映传染病动力学特性的数学模型。通过对模型动力学性态的定性、定量分析和数值模拟,来分析疾病的发展过程、揭示流行规律、预测变化趋势等关键因素。
75.本发明疫情的传染病系统动力学模型(疫情系统动力学模型)构建过程具体为:
76.疫情在爆发初期,由于人类对其缺乏认知,加之现代社会人口的高流动性,因此会出现大规模的传播。但随着人们逐渐意识到其具有人传人特性和极强破坏性后,社会系统就会做出反应,采取一系列管控措施如潜在传播人群单独在一个区域、居住区域定时消杀、建立定点治疗医院和设立个人健康出行码等,以防止疫情态势进一步蔓延。所以,疫情的传播和控制系统是一个非线性的、动态反馈复杂的系统,符合系统动力学的设计模式。
77.根据系统动力学原理,本发明设计了图2所示疫情传播与控制的系统动力学模型,即疫情的传染病系统动力学模型,建立该模型的方法是现有技术。传染病系统动力学模型通常用作大规模的恶性传染病预测,例如sars病毒、埃博拉病毒。
78.通过传染病模型(疫情的传染病系统动力学模型)抽象得到下列信息:模型将人群
分为三类,分别为健康人群、潜伏期人群和发病期人群。处于潜伏期的患者主要来源为外地输入、健康人群防护不当被感染、被感染的医务人员和被有过危险性社交活动的亲朋好友感染。处于发病期的患者主要来源为外地输入和处于潜伏期患者的转化。处于潜伏期和发病期的患者如果长时间滞留在社会上,则可能感染更多的人,所以应当及时送往医院单独在一个区域治疗。在医院内,由于医务人员防护不到位,患者可能会感染医务人员。最后,患者经过精心治疗健康出院,或者,由于其它种种原因,不幸罹难。传染病系统动力学模型本身就是一种对传染病在人群中传播的抽象,因此通过构建模型,可抽象得到上述信息。
79.步骤102:基于传染病系统动力学模型提取疫情数据特征;疫情数据特征包括人口密度、公共交通密度、迁入规模指数和gdp。
80.该步骤102具体包括:
81.根据潜伏期人群的来源中外地输入以及发病期人群的来源中外地输入,确定疫情数据特征包括迁入规模指数。
82.根据潜伏期人群的来源中被有过危险性社交活动的亲朋好友感染,确定疫情数据特征包括人口密度和公共交通密度。
83.根据医院内部人群的转化,确定疫情数据特征包括gdp。
84.疫情数据特征提取过程具体为:
85.由图2可知,对于各地区,病毒主要的来源为外地输入,所以各地区的迁入规模指数可以作为一个良好的疫情特征;由于一些人对于病毒的忽视,在疫情期间仍然进行社交活动,而病毒在人群中具有高传染性,所以各地区的人口密度和公共交通密度可以作为两个良好的疫情特征;对于潜伏期和发病期的患者,应及时在一个单独区域采取治疗措施,减少其滞留在社会上的时间,降低健康人群被感染的风险,而各地区的医疗水平往往与gdp有直接联系,所以各地区的gdp可以作为一个良好的疫情特征。
86.因此,从模型中抽象出四个疫情数据特征:人口密度、公共交通密度、迁入规模指数和gdp,即提出下列四个疫情数据特征:人口密度、公共交通密度、迁入规模指数和gdp。人口密度和公共交通密度主要对处于潜伏期和发病期的患者产生“积极”影响,当患者在社会上滞留相同的时间,高人口密度和高公共交通密度的地区会有更高风险被感染。迁入规模指数主要对外地输入患者产生“积极”影响,迁入规模指数越高的地区,迁入人口中混有患者的概率越大,该地区被感染的概率也随之增大。gdp主要对疫情整体发展产生一个宏观的影响,gdp越高的地区,基础公共建设越好,疫情传播具有更好的条件,但医疗水平也具有更高的标准,对于疫情整体发展来说是把“双刃剑”。
87.步骤103:对各地区对应的疫情数据特征进行相关性分析,确定影响疫情发展的疫情数据特征;影响疫情发展的疫情数据特征包括迁入规模指数和 gdp。
88.该步骤103具体包括:
89.利用函数分析法和pearson相关系数分析法依次确定各地区对应的疫情数据特征与确诊人数的相关性;疫情数据特征与确诊人数的相关性为疫情数据特征与实施防控措施前确诊人数的相关性。
90.根据各地区对应的疫情数据特征与确诊人数的相关性,确定影响疫情发展的疫情数据特征。
91.疫情数据特征相关性分析过程具体为:
92.由于不同的疫情数据特征可能对疫情发展产生不同程度的影响,因此需要对四种特征进行相关性分析,选取出重要特征。相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。
93.本发明选择了两种不同的相关性分析方法,即函数分析法与pearson相关系数分析法,这两种方法均为常见的相关性分析方法。
94.函数分析法通过将确诊人数作为横坐标,四种不同特征作为纵坐标来构建函数图像,然后在函数图像上添加趋势线,定性的判断特征是否与确诊人数相关,如图3所示,图3中(a)部分表示确诊人数与人口密度相关性分析图,图3中(b)部分表示确诊人数与公共交通密度相关性分析图,图3中(c)部分表示确诊人数与迁入规模指数相关性分析图,图3中(d)部分表示确诊人数与gdp相关性分析图。
95.第二种为pearson相关系数分析法,通过计算出四种不同特征与确诊人数之间的pearson相关系数值,定量的判断特征是否与确诊人数相关,结果如表 1所示。
96.表1相关性分析表
[0097][0098]
pearson相关系数的值在-1到1之间,符号表示相关性的正负性。绝对值越大,相关性越强。一个变量用来测量另一个变量的精度。数值越大,说明两个变量的相关性越大。通常皮尔逊相关系数的绝对值在0.8-1.0之间,相关性很强;在0.6-0.8之间,相关性较强;0.4-0.6之间为中度相关;0.2-0.4之间是弱相关;0-0.2之间为非常弱或没有相关性。
[0099]
图3中,数据点表示各地区确诊人数与不同特征构成的二元离散点,函数图像表示离散点的变化趋势。从变化趋势可以清晰看出,人口密度和公共交通密度与确诊人数的相关性较低,迁入规模指数和gdp与确诊人数的相关性较高。
[0100]
通过表1可以进一步得出,迁入规模指数和gdp与确诊人数的pearson 指数显著高于人口密度和公共交通密度。
[0101]
因此,可以得出结论:随着某地区迁入规模指数和gdp的增高,该地区疫情的严重性也随之提高,迁入规模指数和gdp是影响疫情发展的重要因素。
[0102]
步骤102-步骤103主要进行特征相关性分析,步骤102-步骤103中的特征都是通过对步骤101所提模型抽象得到的。首先根据图2所示传染病动力学模型对疫情传播过程进行抽象概括,然后基于概述模型对疫情特征进行提取并进行相关性分析。
[0103]
步骤104:根据疫情爆发前各地区的迁入规模指数和疫情爆发前各地区的gdp,对各地区进行第一次聚类,得到疫情爆发前的各地区分类情况。
[0104]
步骤105:根据实施防控措施前各地区的确诊人数、疫情爆发前各地区的迁入规模指数以及疫情爆发前各地区的gdp,对各地区进行第二次聚类,得到疫情爆发后的各地区分类情况;防控措施包括限行和居家。
[0105]
步骤106:根据疫情爆发前各地区的gdp、实施防控措施后各地区的确诊人数和实
施防控措施后各地区的迁入规模指数,对各地区进行第三次聚类,得到实施防控措施后的各地区分类情况。
[0106]
步骤107:根据疫情爆发前的各地区分类情况、疫情爆发后的各地区分类情况以及实施防控措施后的各地区分类情况,确定各地区的疫情发展趋势。
[0107]
步骤108:根据各地区的疫情发展趋势确定世界整体内具有相似疫情发展趋势的地区。
[0108]
该步骤104-步骤108进行聚类模型构建与聚类结果分析,具体为:
[0109]
聚类研究的是如何仅利用数据自身的特征将数据分割成有意义的簇的问题。通过聚类划分,实现簇内数据高相关性,簇间数据高差异性,从而为后续过程提供决策,聚类分析是最具应用价值的技术之一。
[0110]
由于疫情呈环状趋势向外传播,其传播过程可以抽象地看作是从高密度地区向低密度地区传播的过程,符合基于密度聚类的基本思想,因此采取基于密度的方式构建聚类模型。在众多基于密度的聚类算法中,club算法由于其输入参数少,聚类效果好的特点而广泛地应用。相较于其它同类型算法,club 算法仅需要输入最近邻数k便可进行聚类,避免了大量参数限制下导致的过拟合与欠拟合。同时,由于club算法使用了一种全新的簇主干识别方法,结合参数少的优势,该算法可以有效且稳定地识别簇结构和噪声,具有高鲁棒性的特点。
[0111]
因此本发明结合club算法思想,设计聚类实验。在club算法中,最近邻数k作为聚类时的一个重要参数,对程序的结果起到了决定性的影响。通过多次实验得出,当k的取值大于4或小于1时,簇结构划分过于稀疏或稠密,对疫情的传播趋势均不具备良好的表征意义。所以k值的初始值设定为4、3、 2。
[0112]
具体过程如下:首先根据高相关性特征聚类,得到受疫情影响最大的地区信息,这些地区可看作是高密度点;然后根据高密度地区信息和高相关性特征,对未划分地区进行聚类,得到世界疫情分布总体情况;最后结合确诊患者人数,对各地区受疫情破坏程度进行评估,从而制定合理的防控措施。
[0113]
在疫情爆发以后,各地区的确诊人数可作为最直观的标准来衡量各地区的疫情风险等级情况,所以本发明结合聚类结果和各地区的确诊人数对各地区的疫情等级进行划分,等级区间为0-10,其中聚类结果包括k=2时疫情爆发前聚类结果、k=3时疫情爆发前聚类结果、k=4时疫情爆发前聚类结果、k=2时疫情爆发后聚类结果、k=3时疫情爆发后聚类结果、k=4时疫情爆发后聚类结果、k=2时采取限行措施后聚类结果、k=3时采取限行措施后聚类结果以及k=4 时采取限行措施后聚类结果。
[0114]
使用本发明提出并得到的疫情数据的高相关性特征“迁入规模指数”和“gdp”设计数据聚类实验,具体过程如下:
[0115]
首先使用疫情爆发前的迁入规模指数和gdp数据对各地区进行聚类,得到疫情爆发前的各地区分类情况。聚类的作用包括验证本发明所提出的高相关性特征是否合理准确,逻辑关系为:首先使用高相关性特征进行聚类得到一次聚类结果,然后将各地区的确诊人数数据作为一个新的特征加入到聚类模型中进行第二次聚类,如果两次聚类结果差异显著,则说明提出的高相关性特征有错误,如果差异很小,则说明提出的高相关性特征正确。
[0116]
在疫情爆发前,通过综合考虑各地区的gdp和迁入规模指数数据,可以得出各地区
的建设规模划分。当k取4时,共划分为3个簇。当k取3时,共划分为9个簇。当k取2时,共划分为15个簇。结果显示出gdp和迁入规模指数数据的综合指数普遍高的地区和普遍低的地区。由于gdp和迁入规模指数均为疫情的高相关性特征,所以可以提出一个初步的猜想:gdp和迁入规模指数数据的综合指数普遍高的地区在疫情中会受到更严重的破坏。
[0117]
然后将各地区的确诊人数数据作为新的特征加入进行第二次聚类,即以三个特征“迁入规模指数”、“gdp数据”和“确诊人数”对各个地区进行聚类,得到疫情爆发后的各地区分类情况,可以验证所提出模型是否合理,能否将疫情的起源地单独划分出来可以作为本次实验是否合理的基本判断。
[0118]
因此,在上述实验的基础上,引入各地区一段时间内的确诊人数总和作为新的特征,进行新的实验,得到疫情爆发后的各地区聚类结果。当k取4时,共划分为5个簇,其中,疫情起源地被划分成独立簇。当k取3时,共划分为 10个簇,划分的独立簇中包括疫情起源地。当k取2时,共划分为15个簇,划分的独立簇中包括疫情起源地。
[0119]
结果显示,在引入各地区一段时间内的确诊人数总和数据后,疫情起源地被准确的识别出来,说明算法以及实验正确合理。相较于疫情爆发前聚类结果,疫情爆发后聚类结果在簇的划分结构方面基本与疫情爆发前聚类结果保持一致,说明提出的猜想,即gdp和迁入规模指数数据的综合指数普遍高的地区在此次疫情中受到了更严重的破坏,是正确的。
[0120]
然后将各地区的历史迁入规模指数数据和确诊人数数据更换成实施相关防控措施,例如“限行”以后的数据,还是以三个特征“gdp”、“限行后的确诊人数”和“迁入规模指数”进行第三次聚类,得到限制出行后的各地区分类情况,比较此结果与第二次聚类结果是否不同,若相同,则说明相关措施,例如限行措施并不能对疫情防控起到很好的作用和效果,若不相同,即第三次聚类结果与第二次聚类结果相比,结果降低,则说明限行措施起到了很关键的作用,如果各地区风险等级均下降,则说明相关措施起到了很好的效果。其中,第三次聚类不是以两个特征进行聚类,在第一次和第二次进行聚类的时候,使用的迁入规模指数数据为疫情爆发前的数据,即正常状态下的社会人口流动。第二次聚类使用的确诊人数数据也是基于正常状态下的人口流动得到的。而第三次聚类使用的数据是限制出行以后的迁入规模指数数据和相对应的新确诊患者人数。
[0121]
在疫情爆发以后,通过采取防控措施,如限行和居家,以减少人员流动,以及在一个单独区域对患者采取治疗措施,各地区的迁入规模指数数据相较之前均得到了下降,为了探究限行后各地区疫情情况是否得到了控制,在上述实验的基础上,将各地区一段时间内的确诊人数总和替换为该段时间之后的一段时间内的确诊人数总和,进行新的实验,得到限行以后的各地区聚类结果。
[0122]
当k取4时,共划分为7个簇,其中,划分的独立簇中包括疫情起源地。当k取3时,共划分为10个簇,其中,划分的独立簇中包括疫情起源地。当 k取2时,共划分为13个簇,划分的独立簇中包括疫情起源地。
[0123]
结果显示,在限行以后,gdp和迁入规模指数数据的综合指数普遍高的地区疫情情况普遍得到了控制,大多数地区疫情情况趋于好转,说明限行和居家以及在一个单独区域对患者采取治疗措施的举措对于疫情防控是有效的。
[0124]
该基于聚类的疫情发展趋势分析方法还包括:
[0125]
根据实施防控措施前各地区的确诊人数、实施防控措施后各地区的确诊人数以及
疫情爆发前各地区的gdp,对各地区进行第四次聚类,得到疫情对各地区的破坏程度。
[0126]
由于迁入规模指数是一个动态量,随着实施的相关措施的变化而变化,因此无法均衡稳定地衡量各地区所受疫情破坏程度,因此本发明最后使用总确诊人数和gdp数据进行第四次聚类,得到本次疫情对各地区破坏程度的划分情况。本发明最终要得到的是疫情的发展趋势和疫情的破坏程度,二者都有一部分,通过第二次和第三次聚类,可以得到经过限行措施之后疫情的发展趋势,通过第四次聚类可以得到疫情的破坏程度。本发明最终结果即根据聚类结果来确定疫情的发展趋势和疫情的破坏程度。其中,本次疫情对各地区破坏程度的划分情况通过第四次聚类结果得到,第四次聚类与前两次聚类(第三次和第二次聚类)严格意义上没有关系,仅是使用了gdp数据和前两次的确诊人数之和,可以看作是一次独立的聚类实验。前三次聚类中都使用了迁入规模指数,而迁入规模指数是一个动态量,随着实施的相关措施在变化,因此无法稳定地衡量各地区所受疫情破坏程度,因此第四次聚类仅使用gdp和总确诊人数进行聚类。
[0127]
本实验选取自一段时间内所有确诊的患者和各地区的gdp数据作为数据特征进行聚类,对各地区所受疫情破坏程度分级,得到k=2时各地区所受疫情破坏聚类结果,k=3时各地区所受疫情破坏聚类结果,k=4时各地区所受疫情破坏聚类结果。结果显示,各地区所受疫情破坏等级基本上同爆发初期一致,普遍大于限行后各地区所受破坏等级。说明疫情在爆发初期造成的破坏是最严重的,其奠定了某个地区在本次疫情期间所受到的最终损失。限行措施对于疫情防控起到了积极的影响作用,对于正受疫情影响的地区,可作为参考。本发明数据模型,即聚类模型如图4所示。
[0128]
本发明基于现有技术大多为宏观预测,考虑的角度大多是某一个地区的整体发展,而无法将这个整体内的单元识别出来,例如世界中的所有地区,即现有技术无法准确得到不同地区的疫情发展趋势,首先通过构建动力学模型找到与疫情传播有内在联系的高相关性特征,然后构建聚类模型对现有的疫情数据进行三次聚类,然后根据聚类结果验证本发明所提出的高相关性特征是合理的并得到限行前后的疫情发展趋势,从而进一步得到合理的各地区受疫情破坏的影响程度。聚类技术的特点为研究如何仅利用数据自身的特征将数据分割成有意义的类,因此本发明基于聚类方式得到不同地区的疫情发展趋势,由于使用了高相关性特征数据和基于密度的聚类算法,而疫情的爆发和传播过程可以抽象地看作是从高密度地区向低密度地区传播的过程,符合密度聚类的思想,因此,采用基于密度的聚类算法能够准确得到不同地区的疫情发展趋势,进而能够将世界整体内具有相似发展的地区识别出来,从而为制定相应的防控策略提供决策。
[0129]
本发明为了现有技术存在的问题,提出了一种基于聚类的全新分析模型解决方案。该方案的核心在于:它创新性地采用系统动力学的方式模拟疫情在人群中的传播过程,因此能够更准确地捕获与疫情传播有关的重要因素,然后其结合两种不同的相关性分析方法进行分析,能够定性定量的分析出高相关性特征。此外,在分析疫情变化的过程中,该模型对疫情发展不同阶段分别进行了聚类,克服了传统预测模型仅从宏观的角度考虑疫情发展的局限性,能够更准确地得到不同地区的疫情发展趋势,分析出具备相似发展动态的地区,从而为制定相应的防控策略提供决策。
[0130]
本发明还解决了如何预测世界的疫情发展情况的问题,关于预测,可根据本发明所提出的高相关性特征进行线性回归,理论上亦可得到合理的结果,本发明未做深入讨论。
[0131]
本发明共分为如下五个部分:首先是根据系统动力学原理设计了疫情传播与控制的系统动力学模型;然后根据系统动力学模型提取出疫情数据特征,并使用了两种不同的方法进行分析,得到高相关性特征;其次根据高相关性特征和密度聚类的思想,构建了聚类模型;再次根据聚类模型设计了三种聚类实验,分别得到疫情爆发前,疫情爆发后和采取限行措施后的各地区聚类结果;最后选取上述三个阶段所有确诊的患者和高相关性数据特征进行聚类,对各地区所受疫情破坏程度进行分析。
[0132]
本发明提出了一种基于全新聚类模型的疫情影响因素分析方法,该方法基于密度聚类的思想,通过使用不同时间段的疫情高相关性特征数据与确诊人数数据,能够科学的对疫情发展的不同时期进行划分,本发明可概括为以下几部分:
[0133]
(1)采用系统动力学模型提取疫情相关特征,相较于现有大多数预测模型直接将疫情数据作为训练集构建模型的方式,本发明首先根据疫情真实传播状态设计了一个系统动力学模型,通过分析模型提炼出数据特征,因此能够有效地去除数据中的冗余信息。
[0134]
(2)采用两种不同的分析方法“函数分析法”与“pearson相关系数分析法”同时得到疫情高相关性特征,克服了仅通过单一方法进行相关性分析的片面性,在保留疫情真实信息的基础上,进一步得到了疫情的高相关性特征,使得结果更具意义。
[0135]
(3)最后本发明创新性地提出了一种基于聚类的分析模型,通过对不同阶段的疫情信息变化数据进行聚类分析,能够同时得到世界整体疫情变化状况以及各地区疫情发展趋势,使得结果更科学全面。
[0136]
本发明相较于现有大多数方法通过拟合函数的方式预测世界疫情发展变化,不仅能得到各地区的疫情发展趋势,更能分析出具备相似发展动态的地区,从而为制定相应的防控策略提供决策。
[0137]
与现有技术相比,本发明的优点在于:
[0138]
1、本发明创新性地设计了一个疫情传播与控制的系统动力学模型,其根据实际传播过程进行建模,因此能够更准确地刻画疫情传播的过程。在此基础上,本发明基于对模型动力学性态的定性模拟,来分析疾病的发展过程,从而提出四个疫情数据特征:人口密度、公共交通密度、迁入规模指数和gdp。
[0139]
2、本发明创新性地采用两种不同的分析方法:函数分析法与pearson相关系数分析法,来同时得到疫情高相关性特征,克服了仅通过单一方法进行相关性分析的片面性,使得结果更具意义。
[0140]
3、本发明创新性地采用聚类的方式对不同阶段的疫情发展进行了分析,能够同时得到世界整体疫情变化状况以及各地区疫情发展趋势,从世界宏观的角度和各地区微观的角度同时得到结果。
[0141]
图5为本发明基于聚类的疫情发展趋势分析系统实施例的结构图。参见图 5,该基于聚类的疫情发展趋势分析系统包括:
[0142]
系统动力学模型建立模块501,用于建立疫情的传染病系统动力学模型。
[0143]
该系统动力学模型建立模块501具体包括:
[0144]
人群分类单元,用于对人群进行分类,得到分类结果;分类结果包括健康人群、潜伏期人群和发病期人群。
[0145]
潜伏期人群来源获取单元,用于获取潜伏期人群的来源;潜伏期人群的来源包括
外地输入、健康人群防护不当被感染、被感染的医务人员和被有过危险性社交活动的亲朋好友感染。
[0146]
发病期人群来源获取单元,用于获取发病期人群的来源;发病期人群的来源包括外地输入和潜伏期人群的转化。
[0147]
医院内部人群转化获取单元,用于获取医院内部人群的转化;医院内部人群的转化包括潜伏期人群和发病期人群进入医院单独在一个区域治疗后,转化为健康人群或不幸罹难。
[0148]
系统动力学模型建立单元,用于根据分类结果、潜伏期人群的来源、发病期人群的来源和医院内部人群的转化,建立疫情的传染病系统动力学模型。
[0149]
疫情数据特征提取模块502,用于基于传染病系统动力学模型提取疫情数据特征;疫情数据特征包括人口密度、公共交通密度、迁入规模指数和gdp。
[0150]
该疫情数据特征提取模块502具体包括:
[0151]
迁入规模指数确定单元,用于根据潜伏期人群的来源中外地输入以及发病期人群的来源中外地输入,确定疫情数据特征包括迁入规模指数。
[0152]
人口密度和公共交通密度确定单元,用于根据潜伏期人群的来源中被有过危险性社交活动的亲朋好友感染,确定疫情数据特征包括人口密度和公共交通密度。
[0153]
gdp确定单元,用于根据医院内部人群的转化,确定疫情数据特征包括 gdp。
[0154]
影响疫情发展的疫情数据特征确定模块503,用于对各地区对应的疫情数据特征进行相关性分析,确定影响疫情发展的疫情数据特征;影响疫情发展的疫情数据特征包括迁入规模指数和gdp。
[0155]
该影响疫情发展的疫情数据特征确定模块503具体包括:
[0156]
疫情数据特征与确诊人数相关性确定单元,用于利用函数分析法和 pearson相关系数分析法依次确定各地区对应的疫情数据特征与确诊人数的相关性;疫情数据特征与确诊人数的相关性为疫情数据特征与实施防控措施前确诊人数的相关性。
[0157]
影响疫情发展的疫情数据特征确定单元,用于根据各地区对应的疫情数据特征与确诊人数的相关性,确定影响疫情发展的疫情数据特征。
[0158]
第一次聚类模块504,用于根据疫情爆发前各地区的迁入规模指数和疫情爆发前各地区的gdp,对各地区进行第一次聚类,得到疫情爆发前的各地区分类情况。
[0159]
第二次聚类模块505,用于根据实施防控措施前各地区的确诊人数、疫情爆发前各地区的迁入规模指数以及疫情爆发前各地区的gdp,对各地区进行第二次聚类,得到疫情爆发后的各地区分类情况;防控措施包括限行和居家。
[0160]
第三次聚类模块506,用于根据疫情爆发前各地区的gdp、实施防控措施后各地区的确诊人数和实施防控措施后各地区的迁入规模指数,对各地区进行第三次聚类,得到实施防控措施后的各地区分类情况。
[0161]
各地区疫情发展趋势确定模块507,用于根据疫情爆发前的各地区分类情况、疫情爆发后的各地区分类情况以及实施防控措施后的各地区分类情况,确定各地区的疫情发展趋势。
[0162]
相似地区确定模块508,用于根据各地区的疫情发展趋势确定世界整体内具有相似疫情发展趋势的地区。
[0163]
该基于聚类的疫情发展趋势分析系统还包括:
[0164]
第四次聚类模块,用于根据实施防控措施前各地区的确诊人数、实施防控措施后各地区的确诊人数以及疫情爆发前各地区的gdp,对各地区进行第四次聚类,得到疫情对各地区的破坏程度。
[0165]
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0166]
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。