一种科研创新平台中的数据传输方法

文档序号:33478117发布日期:2023-03-15 11:04阅读:44来源:国知局
一种科研创新平台中的数据传输方法

1.本发明涉及数据传输技术领域,具体涉及一种科研创新平台中的数据传输方法。


背景技术:

2.基于大数据的科研创新平台通过多种途径采集数据,但对采集到的原始数据并不进行筛选,导致需要较长的时间进行数据收集。而数据收集是一个经验积累的过程,收集到的数据中大部分并不是重要的,甚至可以是完全没有意义的,这些数据消耗了大量的系统资源,并且在后续的数据分析与数据挖掘中也是冗余数据,对科研是无意义的。原始数据传输到互联网云端对带宽和空间要求很大,如果不对原始数据做约束,很容易造成存储容量增长过大,存储空间不足的问题,使得存储成本增加。
3.目前对于原始数据进行约束,通常通过统计原始数据中每种数据词条的出现次数,将出现次数少的数据作为无效数据进行删除,将保留的数据作为有效数据进行数据传输,但是数据存在关联,而该方法没有考虑数据之间的关联性,仅根据出现次数的多少来确认数据的有效和无效,会导致数据传输过程中有效数据的缺失。


技术实现要素:

4.为了解决上述现有对于原始数据的约束不准确,导致数据传输过程中有效数据的缺失问题,本发明的目的在于提供一种科研创新平台中的数据传输方法,所采用的技术方案具体如下:本发明一个实施例提供了一种科研创新平台中的数据传输方法,该方法包括:采集待传输的原始数据,将原始数据根据词条存入至少两个数据库中,每个数据库至少有两个词条;统计每个重复词条所在的数据库数量,重复词条是指在所有词条中至少重复出现两次的词条;根据每个重复词条所在的数据库数量计算对应重复词条在所有数据库中的全局关联指标;对于任意一个数据库中的任意一个重复词条,在数据库中获取重复词条的扩展词条,扩展词条是指对重复词条进行扩展得到的词条,根据重复词条的数量和对应扩展词条的数量获取重复词条在数据库中的局部关联指标;对于任意一个重复词条,结合重复词条的所述全局关联指标以及重复词条分别在每个数据库中的所述局部关联指标得到重复词条的关联系数;根据关联系数完成数据传输。
5.进一步的,所述全局关联指标的获取方法,包括:以重复词条所在的数据库数量为分子,数据库的总数量为分母得到对应的比值,将以自然常数为底数,比值为指数得到的结果作为对应重复词条的所述全局关联指标。
6.进一步的,所述局部关联指标的获取方法,包括:对于重复词条的扩展词条,统计每个扩展词条的数量作为第一数量,获取每个扩展词条的权重值,获取每个扩展词条的第一数量与对应权重值的乘积,得到乘积之和;统计
重复词条在数据库中的数量作为第二数量,以乘积之和与第二数量的相加结果为分子,数据库内的词条总数量为分母得到的比值作为重复词条在数据库中的局部关联指标。
7.进一步的,所述权重值的获取方法,包括:对于任意一个扩展词条,统计扩展词条所包含的每个重复词条的数量作为第三数量,分别将每个第三数量与常数1的相加结果作为以常数2为底数的对数函数的真数,得到的结果作为第一值,将第一值的均值作为对应扩展词条的权重值。
8.进一步的,所述关联系数的获取方法,包括:根据重复词条分别在每个数据库中的所述局部关联指标计算局部关联指标均值,将局部关联指标均值与所述全局关联指标的乘积作为重复词条的关联系数。
9.进一步的,所述根据关联系数完成数据传输的方法,包括:所述根据关联系数完成数据传输的方法,包括:对重复词条进行归一化得到对应的归一化关联系数,设置关联系数阈值,将归一化关联系数小于关联系数阈值所对应的重复词条下的原始数据舍去,将归一化关联系数大于等于关联系数阈值所对应的重复词条下的原始数据进行数据传输。
10.本发明具有如下有益效果:本发明考虑到数据之间存在关联性,则采集待传输的原始数据,将原始数据根据词条存入至少两个数据库中,以实现分类存放,便于后续分析;又因为词条重复出现说明了某一数据的重要性,且在同一数据库内复现频次越多,说明词条在本数据库所属的分类中越重要,而词条在不同数据库内分布越广,说明该词条在整体数据中越重要,因此统计每个重复词条所在的数据库数量,用于体现重复词条涉及的数据库情况,进而根据每个重复词条所在的数据库数量计算对应重复词条在所有数据库中的全局关联指标,全局关联指标越大,说明对应重复词条在整个数据中越重要;如果重复词条与其对应的扩展词条的复现频次越多,说明重复词条在该数据库内越重要,在数据库内的关联性越强,因此根据重复词条的数量和对应扩展词条的数量获取重复词条在数据库中的局部关联指标,局部关联指标越大,对应重复词条越重要;考虑到数据在一个数据库内复现的次数越多,即局部关联指标越大,对应重复词条的关联越深,数据复现的数据库个数越多,即全局关联指标越大,对应重复词条的关联越广,则基于每个重复词条的全局关联指标和该重复词条在每个数据库中的局部关联指标计算对应重复词条的关联系数,进而将关联系数作为数据传输的标准,根据关联系数完成数据传输,减少了数据传输过程中有效数据的缺失。
附图说明
11.为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
12.图1为本发明一个实施例所提供的一种科研创新平台中的数据传输方法的步骤流程图。
具体实施方式
13.为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种科研创新平台中的数据传输方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
14.除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
15.本发明所针对的具体场景为:基于大数据的科研创新平台在收集数据时并不对无用数据进行过滤,造成海量数据在传输和加密过程过消耗大量资源,并降低数据传输分析的效率,在后续的数据分析和数据挖掘中无关数据还会造成误差影响,因此根据大数据的特征对数据进行初步筛选,择优传输到科研创新平台,减少处理数据的时间。
16.下面结合附图具体的说明本发明所提供的一种科研创新平台中的数据传输方法的具体方案。
17.请参阅图1,其示出了本发明一个实施例提供的一种科研创新平台中的数据传输方法的步骤流程图,该方法包括:步骤s001,采集待传输的原始数据,将原始数据根据词条存入至少两个数据库中,每个数据库至少有两个词条。
18.具体的,本方案以医疗科研平台为例,该医疗平台提供过往病例的经验积累和医院管理能力,通过大数据分析以结合历史收治患者的症状,对患者的病症诊断提供帮助,相较于传统的专家会诊,医疗科研平台由于结合了过往病例和互联网数据使得给出的病症诊断更加全面。
19.医院数据管理方面,包括病人的病例、患者信息、药品库存、收费信息等多项数据,并且医院科室众多,每天需要采集的数据量巨大。考虑到医院录入数据通过是人工录入,存在重复录入、缺失、数据不一致、数据异常等情况,并且医生之间存在医学术语表达的语义鸿沟,对疾病术语、药品术语、症状术语等并没有严格标准化,造成数据在上传到科研平台时会良莠不齐,数据之间还存在重要程度与否的情况,因此通过采集待传输的医疗数据作为原始数据,并对原始数据进行预处理。
20.预处理的具体方法为:首先,将采集到的原始数据分为非结构化数据和结构化数据,结构化数据是可以直接存入数据库的数据,而非结构化数据需要通过数据结构化再存放入数据库中,则将原始数据都转化为结构化数据。其中,数据结构化为公知技术,本方案不再赘述。然后,对于数据结构化的原始数据,需要进行数据清洗,目的是去除原始数据中缺失、不一致或异常值等质量问题的数据,并且需进行格式转换、初步去除冗余、数据填补、数据纠正等清晰和修复处理,避免错误的数据传输到平台造成不良后果。
21.作为一个示例,一个患者对应的身份信息被同时上传了两次会造成数据冗余,如果两次的身份信息存在差异,则会在管理平台生成两份相同的病例,造成资源的浪费,而通过数据清洗可以对数据预处理,避免这些情况的发生。
22.将原始数据经过清洗后消除了大量的干扰数据,并将这些数据结构化存入数据库中时,根据采集的原始数据的种类、类型进行分类存放。
23.作为一个示例,将预处理后的原始数据,根据词条存入m个数据库中,m大于等于2,且数据库m中存在个词条,大于等于2。
24.步骤s002,统计每个重复词条所在的数据库数量,重复词条是指在所有词条中至少重复出现两次的词条;根据每个重复词条所在的数据库数量计算对应重复词条在所有数据库中的全局关联指标。
25.具体的,数据存在关联,例如医疗系统中一个病人在各科室的检查结果被传输到科研平台中,由于科室不同结果不同,所以被保存在不同的数据库中,这些分布在不同数据库中的数据通过病人的身份信息连接起来,那么病人的名字就是数据的关联词条,并且该关联词条可能作为其他词条的一部分组成,复现在多个数据库中。
26.词条重复出现说明了某一数据的重要性,在同一数据库内复现频次越多,说明词条在本数据库所属的分类中越重要,且在不同数据库内分布越广,说明该词条在整体数据中越重要,因此获取每个数据库中的重复词条,重复词条是指在所有词条中至少重复出现两次的词条,然后根据每个数据库中的重复词条,统计每个重复词条所在的数据库数量,记在m个数据库中,重复词条j所在的数据库数量为,也即是重复词条j所涉及的数据库数量。
27.需要说明的是,重复词条是基于数据库的模糊查询获取的,基于数据库的模糊查询是公知技术,本方案不再赘述。
28.同一个重复词条在所有数据库中的出现越多,说明这个重复词条的全局关联性越强,这个重复词条下的数据越值得被优先上传到科研平台上,故根据重复词条所涉及的数据库数量构建全局关联指标,具体为:对于任意一个重复词条,以重复词条所在的数据库数量为分子,数据库的总数量为分母得到对应的比值,将以自然常数为底数,比值为指数得到的结果作为对应重复词条的所述全局关联指标。
29.作为一个示例,全局关联性是指在当前数据库内出现过的词条,在其他数据库内也出现过,体现了数据在原始数据中的分布特性,分布越广,说明该数据越重要,因此,以重复词条j所在的数据库数量为例,重复词条j的全局关联指标的计算公式为:式中,表示重复词条j在所有数据库中的全局关联指标;e为自然常数;m为数据库的总数量;为重复词条j所在的数据库数量。
30.需要说明的是,表示重复词条所涉及的数据库的数量在所有数据库数量中的占比,占比越大,重复词条涉及的数据库越多,即数据库数量的值越大,则说明对应数据关联的其他数据越多,对应重复词条越重要,重复词条的全局关联指标越大。
31.利用重复词条j的全局关联指标的计算公式,获取每个重复词条在所有数据库中的全局关联指标。
32.步骤s003,对于任意一个数据库中的任意一个重复词条,在数据库中获取重复词条的扩展词条,扩展词条是指对重复词条进行扩展得到的词条,根据重复词条的数量和对应扩展词条的数量获取重复词条在数据库中的局部关联指标。
33.具体的,大数据的数据挖掘通过分布在不同区域内的数据之间存在的关联得到有用的信息和知识,词条之间的关联性体现在数据在不同数据库的复现和作为其他词条的组成被引用情况,数据在一个数据库内复现的次数越多说明该数据的关联越深。
34.根据词条在单一数据库内复现的次数,包括重复词条和扩展词条,扩展词条是指对重复词条进行扩展得到的词条,例如重复词条为swnk,对应扩展词条为swnk123、swnk1234等,如果重复词条与其对应的扩展词条的复现频次越多,说明重复词条在该数据库内越重要,在数据库内的关联性越强,因此基于单一数据库中每个重复词条的扩展词条分析重复词条在单一数据库中的局部关联性,以数据库m的重复词条j为例,具体如下:在数据库m中,一个重复词条j可能会产生多个扩展词条k,产生的扩展词条的数量越多,说明数据库m内以重复词条j为结点的关系网就越复杂,以重复词条j为结点的关联程度越高。一个由重复词条j扩展的关系网中,数据库m的每个关系网的结点的权重越大,即词条数量越多,则关系网在数据库中的占比越大,表明关联程度越大,故通过数据库m中的重复词条j以及重复词条j的扩展词条k获取重复词条j在数据库m中的局部关联指标,具体为:对于重复词条的扩展词条,统计每个扩展词条的数量作为第一数量,获取每个扩展词条的权重值,获取每个扩展词条的第一数量与对应权重值的乘积,得到乘积之和;统计重复词条在数据库中的数量作为第二数量,以乘积之和与第二数量的相加结果为分子,数据库内的词条总数量为分母得到的比值作为重复词条在数据库中的局部关联指标。
35.需要说明的是,扩展词条可能是由多个重复词条通过组合得到的,因此一个扩展词条可能包括多个重复词条,那么通过一个扩展词条将多个重复词条扩展得到的关系网连接在一起,此时整个关系网的每个词条数据都值得被传输,且以重复词条j为节点延伸的关系网中每个节点的权重越大,在整个数据库中的占比越大,则该重复词条越重要;其中扩展词条是基于数据库对重复词条进行模糊查询得到的,属于公知技术,本方案不再赘述。
36.作为一个示例,重复词条j在数据库m中的局部关联指标的计算公式为:其中,为重复词条j在数据库m中的局部关联指标;为数据库m内的词条总数量;为重复词条j在数据库m中的数量,也即是第二数量;为数据库m内的扩展词条k的权重值;为重复词条j的扩展词条k在数据库m中的第一数量;为重复词条j在数据库m中的扩展词条数量,也即是扩展词条的类型数量。
37.需要说明的是,扩展词条k是由重复词条j扩展而来的,而扩展词条k越复杂、数量越多,对应扩展词条k的权重值越大,的值越大,越说明以重复词条j为结点的关系
网就越复杂,因此令每个扩展词条的第一数量与其对应的权重值相乘然后相加,用相加的结果来间接反映重复词条j在数据库m中的关联程度,的值越大,对应重复词条j在数据库m中的局部关联指标越大;利用重复词条j在数据库m中的数量来直接反映重复词条j在数据库m中的关联程度,数量的值越大,说明在数据库中越重要,对应局部关联指标越大;数据库m内的词条总数量用于归一化,的值越大,重复词条j在数据库m中的局部关联指标越大。
38.其中对于扩展词条k的权重值,扩展词条k可能是由多个基础重复词条和数据字节组成的,因此一个扩展词条会关联到多个重复词条,关联的重复词条越多且该重复词条的个数越多,则整个关系网的关联性越强,其权重占比越大,则扩展词条的权重值的具体获取方法为:对于任意一个扩展词条,统计扩展词条所包含的每个重复词条的数量作为第三数量,分别将每个第三数量与常数1的相加结果作为以常数2为底数的对数函数的真数,得到的结果作为第一值,将第一值的均值作为对应扩展词条的权重值。
39.作为一个示例,权重值的计算公式为:其中,为数据库m内的扩展词条k的权重值;为重复词条的数量,也即是重复词条的类型数量;为在数据库m中,扩展词条k中包含的重复词条f的数量,也即是第三数量;为以常数2为底数的对数函数。
40.需要说明的是,扩展词条关联到的重复词条的类型越多且每个重复词条的数量越多,即n值越大,值越大,对应扩展词条在关系网中越重要,权重值越大;当扩展词条k不包含重复词条时,第一值取到最小值0;包含的重复词条越多,取值越大,故根据扩展词条包含的每个重复词条的第一值,计算第一值的均值作为权重值,使得权重值的计算更加具有说服力,更加准确。
41.基于重复词条j在数据库m中的局部关联指标的计算公式,获取重复词条j在每个数据库中的局部关联指标,进而得到每个重复词条在每个数据库中的局部关联指标。
42.步骤s004,对于任意一个重复词条,结合重复词条的全局关联指标以及重复词条分别在每个数据库中的局部关联指标得到重复词条的关联系数;根据关联系数完成数据传输。
43.具体的,数据在一个数据库内复现的次数越多说明关联越深,复现的数据库个数越多说明关联越广,基于每个重复词条的全局关联指标和该重复词条在每个数据库中的局部关联指标计算对应重复词条的关联系数,以作为数据传输的标准。根据步骤s002获取的每个重复词条的全局关联指标和步骤s003获取的每个重复词条在每个数据库中的局部关联指标,分析每个重复词条的关联系数,则关联系数的获取方法为:对于任意一个重复词条,根据重复词条分别在每个数据库中的所述局部关联指标计算局部关联指标均值,将局部关联指标均值与所述全局关联指标的乘积作为重复词条的关联系数。
44.作为一个示例,关联系数的计算公式为:其中,为重复词条j的关联系数;为重复词条j的全局关联指标;为数据库的总数量;为重复词条j在数据库m中的局部关联指标。
45.需要说明的是,全局关联指标表示重复词条所涉及的数据库的范围,全局关联指标越大,说明涉及范围越大,对应重复词条越重要,关联范围越大,关联系数越大;表示重复词条在单一数据库中的关联程度,也即是重要程度,的值越大,说明重复词条在单一数据库中的重要程度越大,越是有效数据,因此计算重复词条在每个数据库中的局部关联指标的均值,用于准确分析重复词条在所有数据库的重要程度,均值越大,对应关联系数越大,在数据库中的占比越大,越有必要传输。
46.利用关联系数的计算公式,获取每个重复词条的关联系数,同时令非重复词条的关联系数为预设值,预设值小于等于0,用于表示冗余数据,本发明中令非重复词条的关联系数为0。
47.关联系数的最小值为0,表示词条在数据库中无关联,属于冗余数据,可以被舍弃,也即是不进行数据传输,而关联系数的最大值为,由于数据的传输受限于带宽和设备的因素,所有关联系数不为0的数据量依旧大于带宽的传输量,则需要对数据筛选,其筛选操作为:对重复词条进行归一化得到对应的归一化关联系数,设置关联系数阈值,将归一化关联系数小于关联系数阈值所对应的重复词条下的原始数据舍去,将归一化关联系数大于等于关联系数阈值所对应的重复词条下的原始数据进行数据传输。
48.作为一个示例,归一化的计算公式为:式中,为重复词条i的关联系数,为重复词条i的归一化关联系数,为关联系数的最大值。
49.通过归一化操作将关联系数映射到0-1之间,根据传输的带宽大小设置一个关联
系数阈值,,当重复词条i的归一化关联系数时,将对应重复词条下的原始数据进行传输,当重复词条i的归一化关联系数时,将对应重复词条下的原始数据舍弃,达到筛选数据的目的。
50.优选的,本方案考虑到当带宽实时最大传输量为需要传输数据的时,选择关联系数阈值,表示只传输归一化关联系数对应的重复词条下的原始数据。
51.需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
52.本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
53.以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1