本发明是属于基于数据挖掘下的网络安全领域,具体是一种基于格兰杰因果检验解释的关联规则大数据传染病溯源方法。
背景技术:
1、
2、传染病溯源技术的实现是当前备受关注的话题,它对于防控传染病的重要性不言而喻。目前,有多种技术可以用于传染病溯源,其中包括传统溯源技术和分子生物学溯源技术等。
3、传统溯源技术主要是通过对病原体的流行病学调查和病原学分析来确定传染源和传播途径。这种方法需要大量的人力和物力投入,而且效率较低,不太适合应对突发性传染病事件。
4、分子生物学溯源技术则是一种比较新颖的技术,它利用分子生物学技术对病原体进行基因分析,从而确定传染源和传播途径。但该方法存在耗时较长,对实验设备及检测人员能力要求较高等问题。
技术实现思路
1、发明目的:针对目前传染病溯源的问题,本发明提出一种基于格兰杰因果检验解释的关联规则大数据传染病溯源方法,该方法是一种能够通过对传染病数据集进行关联规则挖掘后得到可解释的城市溯源路径的方法。该方法可以有效地提高传染病溯源的准确性和效率,为传染病溯源提供了新的思路和方法。
2、为了实现上述技术目的,本发明采用如下具体技术方案:
3、一种基于格兰杰因果检验解释的关联规则大数据传染病溯源方法,包括以下步骤:
4、步骤1:对有关传染病的数据集进行数据预处理以获得apriori算法所需要的数据形式,数据形式具体包括:
5、11)数据集中第一批感染的城市数据,即初始感染城市数据集合;
6、12)获取时间序列和由时间城市的键值对所形成的时间城市序列数据集;
7、13)获取格兰杰因果检验时所需要对比的数据,该数据形式为以时间为行、城市为列而组成的二维表格;
8、步骤2:关联规则挖掘,具体的挖掘步骤为:
9、21)对时间城市序列数据集进行关联规则挖掘;
10、22)通过对每一次挖掘后得到的强关联规则进行遍历筛选规则,具体操作为:判断步骤11所述的初始感染城市数据集合中每条关联规则的传染城市项是否是感染城市集合中存在的数据项,如果存在,加入强关联规则列表,通过遍历后获得一批强关联规则;
11、23)遍历这些步骤22获得的所述强关联规则,将其中被传染城市项提取出来放入下一次的感染城市之中;
12、24)重复上面的步骤获得所有强关联规则;
13、步骤3:格兰杰因果检验与溯源
14、格兰杰因果检验:在上述步骤后获得初步的强关联规则,通过使用步骤13中获得的以时间为行、城市为列而组成的二维表格结合格兰杰因果检验对每一条强关联规则进行测试,通过测试的强关联规则即是最后的结果;
15、溯源:考虑基于格兰杰因果检验的原理,通过比较强关联规则在格兰杰因果检验后的置信概率而实现强关联规则之间的比较,从而实现待溯源城市的单源溯源路径的溯源。
16、步骤11中,包括以下两种情形:
17、情形一,数据集中有标注为海外感染或他国感染的,这些城市视为初始感染城市;
18、情形二,数据集中以一段时间为标准,在这段时间内出现的城市视为初始感染城市,该段时间的选取标准为数据集中最初出现感染的一段时间。
19、步骤12中,所述时间序列为数据集中所有的时间所组成的列表,按时间先后顺序排列;
20、所述时间城市序列数据集为每一个时间所对应的在这个时间内出现的感染城市列表,列表项是以时间为键,城市序列为值的字典。
21、步骤13中,以时间为行、城市为列而组成的二维表格中的数据为当前时间、当前城市感染的人数,若无人数数据,将出现感染情况置为1,无感染情况置为0。
22、步骤1和步骤2之间还设有时间城市划分步骤,将数据集按照时间顺序按照一定的时间间隔进行划分以减少时间因素所造成的影响,在每一段时间内分别使用关联规则进行挖掘,具体划分方法是将步骤12获得的所述时间序列和时间城市的键值对按照时间进行划分。
23、所述步骤2中,使用改良的apriori算法,具体表现为使用循环挖掘的方法进行关联规则挖掘,即在下一次关联规则挖掘时受到上一次关联规则挖掘结果的影响,并且,去除了3项集及以上的k项集的挖掘,同时,在每一轮的循环挖掘中根据数据集的情况分别设定不同的最小支持度,最后的强关联规则的确定受到最小支持度、最小置信度和最小提升度的值限制,满足上述三个阈值的规则将加入初步的强关联规则集中,最后再使用步骤13中获得的以时间为行、城市为列而组成的二维表格结合通过使用格兰杰因果检验进一步对强关联规则进行筛选。
24、步骤24中,除最后一次挖掘之外,将每一次获得的强关联规则中的被传染城市项加入下一步感染城市之中作为下一次的关联规则筛选的判别标准。
25、所述步骤3中,具体操作步骤为:
26、首先选定所需要溯源的城市,将该城市放入已访问城市集合,通过遍历所有的强关联规则寻找到所有传染到该城市的城市集;
27、接着,通过比较这些强关联规则之间的格兰杰因果检验概率,选出概率最大的强关联规则,此时获得了待溯源城市的上一个节点的传染城市,将该传染城市放入已访问城市集合;
28、以该传染城市为目标,再次重复上述操作直到找到传染源城市,通过上述递归操作后获得的一系列强关联规则即为待溯源城市的单源溯源路径。
29、本发明的有益效果是:
30、本发明提出一种基于格兰杰因果检验解释的关联规则大数据传染病溯源方法,该方法是一种能够通过对传染病数据集进行关联规则挖掘后得到可解释的城市溯源路径的方法。关联规则挖掘是一种数据挖掘方法,可以发现数据集变量之间潜在的关系。通过挖掘传染病数据,可以发现不同变量之间的潜在关联关系,从而更好地理解传染病的传播规律,为传染病防控提供科学依据。并且关联规则在溯源技术的实现方面目前也有许多成果,虽然对于传染病溯源问题而言,关联规则会忽略时间因素而造成溯源结果不准确的问题,在本发明中通过划分时间序列减少这种影响。此外,由于格兰杰因果检验可以测试不同时间序列之间的关系,正好能够解释通过使用关联规则对传染病溯源的可行性。
31、具体的,相比于现有最接近的溯源方法,具有以下技术优势:
32、第一.本发明结合了关联规则及格兰杰因果检验两种技术进行传染病溯源技术的实现。首先基于关联规则的原理实现对传染病数据集的关联规则挖掘;接着基于格兰杰因果检验的原理,通过对挖掘出的强关联规则进行测试,证明了该方法的可行性与可解释性,最后通过格兰杰因果检验的结果对规则进行比较实现了城市之间的单路径溯源。同时,格兰杰因果检验可以排除偶然性和干扰因素,确保溯源结果的可靠性和科学性。
33、第二.本发明在规则挖掘过程中使用的apriori算法根据课题研究对象和数据集的特殊性做了特殊处理,首先由于城市之间多传染多的关系仍然可以表现为单对单的关系于是去除了3项集及以上的k项集的挖掘,并且由于时间的跨度可能会导致的挖掘结果的不准确,本发明通过对时间进行了城市拆分并分别进行关联规则挖掘以减少时间因素造成的影响。
34、第三.高扩展性:在实验中所针对传染病溯源项目的溯源,该方法同样可以延伸到其他传染病领域,只要有相关的充足的传染病数据,就可以针对相应情况进行关联规则挖掘从而实现传染病溯源。
35、本发明提出了一种传染病溯源的新方法,即基于关联规则的大数据传染病溯源方法,同时基于格兰杰因果检验对强关联规则进行验证。该方法可以有效地提高传染病溯源的准确性和效率,为传染病溯源提供了新的思路和方法。通过对大量的病例数据进行分析,可以发现不同病例之间的关联规律,从而找到病源地和传播途径。这种基于关联规则的传染病溯源方法具有较高的实用价值和推广前景,可以在疫情防控、疾病监测和公共卫生等领域得到广泛应用。