基于算法和区块链的生物大数据分析、疾病精准识别分类预测系统的制作方法

文档序号:31522595发布日期:2022-09-14 13:06阅读:84来源:国知局
基于算法和区块链的生物大数据分析、疾病精准识别分类预测系统的制作方法

1.本发明创造涉及生物大数据领域,具体涉及一种基于算法和区块链的生物大数据分析、疾病精准识别分类预测系统。


背景技术:

2.随着高通量生物技术的快速发展,使得生物医学领域产生了大量不同类型的生物数据,这些生物数据中包含医生和研究人员用来了解病人患有何种疾病的信息,并确定应该用于临床管理的可能治疗方案,因此,这些生物数据对了解人类生物学和我们遇到的疾病至关重要。通过生物技术的进步,生物技术中的信息现在可以被轻易的提取,导致大量的数字数据以机器可读的形式被捕获。这种生物特异性的“数据化”产生不同类型的生物数据,反映疾病中正在发生的分子事件。在建立个性化的疾病治疗框架时,必须以有意义和可操作的方式来对生物大数据进行分析,从而从生物大数据中捕获疾病信息。
3.支持向量机是数据挖掘中的一种技术,利用最优化的方法使其可以处理机器学习相关问题,这种方法在最近几年取得了很大的发展,成为了解决“过学习”和“维数灾难”等问题的重要方法。将支持向量机用于疾病预测中,能够有效的研究生物大数据和疾病之间的关联,从而实现对疾病的有效预测。而支持向量机存在参数选择的问题,参数选择的不同会直接影响支持向量机的预测精度和泛化能力。近年来不少学者对支持向量机中参数寻优的方法进行改进,基于布谷鸟算法对支持向量机的参数寻优的效果相较其他方法更为优秀,但同样也存在一些不足,如布谷鸟算法寻优精度不够高,收敛速度较慢等。


技术实现要素:

4.针对上述问题,本发明旨在提供一种基于算法和区块链的生物大数据分析、疾病精准识别分类预测系统。
5.本发明创造的目的通过以下技术方案实现:
6.基于算法和区块链的生物大数据分析、疾病精准识别分类预测系统,包括多个数据端、区块链存储模块和生物数据分析平台;
7.数据端:包括用户登录单元、数据上传单元和健康报告显示单元,用户在用户登录单元通过登录密码在数据端进行登录,用户在登录数据端后通过数据上传单元向区块链存储模块和生物数据分析平台上传用户的身份信息和用户的生物数据,所述健康报告显示单元用于显示数据端接收到的用户的健康报告;
8.区块链存储模块:用于存储各数据端上传的生物数据;
9.生物数据分析平台:包括生物数据库、数据预处理单元、数据分析单元和健康报告生成单元,所述生物数据库中存储有带疾病标签的生物大数据,并按照给定的更新周期调取区块链存储模块中未被调取的生物大数据进行存储,从而对生物数据库中的生物大数据进行更新,将更新后的生物数据库中的生物大数据输入数据预处理单元,所述数据预处理
单元在每次接收到新的生物大数据时,对接收到的生物大数据进行归一化处理,并采用半监督聚类算法将归一化处理后的生物大数据进行聚类,从而对所述生物大数据中未带疾病标签的生物数据进行标记,将聚类所得的各个类作为样本子集输入数据分析单元,数据分析单元在接收到新的样本子集时,根据所述新的样本子集和其对应的疾病标签对支持向量机重新进行训练和测试,从而建立基于生物数据的疾病预测模型,所述健康报告生成单元用于将接收到的用户的生物数据写入当前的疾病预测模型中,并根据疾病预测模型的输出结果生成用户的健康报告,将生成的用户的健康报告传输至用户对应的数据端,并在健康报告显示单元进行显示。
10.优选地,所述用户的健康报告包括用户的身份信息和用户的疾病标签。
11.优选地,所述生物数据库包括有标签生物数据库和无标签生物数据库,所述有标签生物数据库用于存储带疾病标签的生物大数据,所述无标签生物数据库每隔给定的更新周期在区块链存储模块中调取未被调取的生物大数据进行存储,从而对无标签生物数据库中的生物大数据进行更新,将有标签生物数据库中的生物大数据和更新后的无标签生物数据库中的生物大数据输入数据预处理单元。
12.优选地,利用布谷鸟算法对数据分析单元的支持向量机的惩罚因子和核函数参数进行寻优。
13.优选地,在所述布谷鸟算法中,设xi(t)表示种群中的第i个鸟巢在第t次采用莱维飞行模式进行更新后保留下来的位置,xi(t)表示种群中的第i个鸟巢在第t次迭代更新后保留下来的位置,pa表示发现概率,鸟巢位置xi(t)随机产生0到1之间的随机数rand,当该随机数rand≤pa时,则xi(t)=xi(t);当该随机数rand》pa时,则采用下列方式确定xi(t)的值:
14.设xj(t)表示种群中第j个鸟巢在第t次采用莱维飞行模式进行更新后保留下来的位置,当鸟巢位置xj(t)满足:f(xj(t))《f(xi(t))时,则将鸟巢位置xj(t)加入到集合mi(t)中,其中,mi(t)表示种群中相较于鸟巢位置xi(t)的较优鸟巢位置集合,f(xj(t))表示鸟巢位置xj(t)对应的适应度函数值,f(xi(t))表示鸟巢位置xi(t)对应的适应度函数值;将集合mi(t)中的鸟巢位置按照其距离鸟巢位置xi(t)的欧式距离由近到远进行排序组成序列qi(t),将qi(t)表示为:qi(t)={x
i,l
(t),l=1,2,

,ni(t)},其中,x
i,l
(t)表示序列qi(t)中的第l个鸟巢位置,ni(t)表示序列qi(t)中的鸟巢数,定义hi(t)表示鸟巢位置xi(t)的空间检测系数,则hi(t)的表达式为:
[0015][0016]
其中,r
i,l
(t)表示鸟巢位置x
i,l
(t)以鸟巢位置xi(t)为中心的空间半径,且r
i,l
(t)=|x
i,l
(t)-xi(t)|,设x
i,n
(t)表示序列qi(t)中的第n个鸟巢位置,r
i,n
(t)表示鸟巢位置x
i,n
(t)以鸟巢位置xi(t)为中心的空间半径,且r
i,n
(t)=|x
i,n
(t)-xi(t)|,表示序列qi(t)中的前k个鸟巢位置以鸟巢位置xi(t)为中心的空间半径的均值,且k为给定的正整数,且k满足:k《ni(t),α和β为权重系数,α和β满足:α,β∈(0,1)且α+β=1;
[0017]
设ji(t)表示种群中参与鸟巢位置xi(t)的随机改变的较优鸟巢位置组成的集合,利用参数ki(t)确定集合ji(t)中的较优鸟巢位置,具体为:
[0018]
(1)根据鸟巢位置xi(t)的空间检测系数hi(t)确定参数ki(t)的值:
[0019][0020]
式中,ki(t)表示鸟巢位置xi(t)在随机改变时的局部范围控制参数,表示种群在第t次采用莱维飞行模式进行更新后保留下来的鸟巢位置的空间检测系数的中值,且群在第t次采用莱维飞行模式进行更新后保留下来的鸟巢位置的空间检测系数的中值,且其中,median表示取中值函数,表示向下取整,n表示种群中的鸟巢数;
[0021]
(2)序列qi(t)中的前ki(t)个鸟巢位置即为种群中参与鸟巢位置xi(t)的随机改变的较优鸟巢位置,即在序列qi(t)中选取前ki(t)个鸟巢位置加入到集合ji(t)中;
[0022]
所述鸟巢位置xi(t)即采用下列方式进行随机改变:
[0023][0024]
式中,χi(t)表示鸟巢位置xi(t)通过随机改变后获得的新的鸟巢位置,rand1为随机产生的一个0到1之间的随机数,和分别为在集合ji(t)中随机选取的鸟巢位置,且
[0025]
设f(χi(t))表示鸟巢位置χi(t)的适应度函数值,当f(χi(t))≥f(xi(t))时,则xi(t)=xi(t),当f(χi(t))《f(xi(t))时,则xi(t)=χi(t)。
[0026]
本发明创造的有益效果:基于支持向量机建立疾病预测模型,实现了对疾病的精准识别预测,有助于人们了解生物数据和疾病之间的关联,从而帮助人们了解疾病的发病机制,并对于疾病的预防、诊断、监控、预后和治疗起到非常重要的作用;通过改进的布谷鸟算法对支持向量机的参数进行寻优,避免了人为选择参数的盲目性且提高了支持向量机的预测精度。
附图说明
[0027]
利用附图对发明创造作进一步说明,但附图中的实施例不构成对本发明创造的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
[0028]
图1是本发明结构示意图。
具体实施方式
[0029]
结合以下实施例对本发明作进一步描述。
[0030]
参见图1,本实施例的基于算法和区块链的生物大数据分析、疾病精准识别分类预测系统,包括多个数据端、区块链存储模块和生物数据分析平台;
[0031]
数据端:包括用户登录单元、数据上传单元和健康报告显示单元,用户在用户登录单元通过登录密码在数据端进行登录,用户在登录数据端后通过数据上传单元向区块链存储模块和生物数据分析平台上传用户的身份信息和用户的生物数据,所述健康报告显示单
元用于显示数据端接收到的用户的健康报告;
[0032]
区块链存储模块:用于存储各数据端上传的生物数据;
[0033]
生物数据分析平台:包括生物数据库、数据预处理单元、数据分析单元和健康报告生成单元,所述生物数据库中存储有带疾病标签的生物大数据,并按照给定的更新周期调取区块链存储模块中先前未被调取的生物大数据进行存储,从而对生物数据库中的生物大数据进行更新,将更新后的生物数据库中的生物大数据输入至数据预处理单元,所述数据预处理单元在每次接收到新的生物大数据时,对接收到的生物大数据进行归一化处理,并采用半监督聚类算法将归一化处理后的生物大数据进行聚类,从而对所述生物大数据中未带疾病标签的生物数据进行标记,将聚类所得的各个类作为样本子集输入至数据分析单元,数据分析单元在接收到新的样本子集时,根据所述新的样本子集和其对应的疾病标签对支持向量机重新进行训练和测试,从而建立基于生物数据的疾病预测模型,所述健康报告生成单元用于将接收到的用户的生物数据写入当前的疾病预测模型中,并根据疾病预测模型的输出结果生成用户的健康报告,将生成的用户的健康报告传输至用户对应的数据端,并在健康报告显示单元进行显示。
[0034]
优选地,所述用户的健康报告包括用户的身份信息和用户的疾病标签。
[0035]
优选地,所述生物数据库包括有标签生物数据库和无标签生物数据库,所述有标签生物数据库用于存储带疾病标签的生物大数据,所述无标签生物数据库每隔给定的更新周期在区块链存储模块中调取先前未被调取的生物大数据进行存储,从而对无标签生物数据库中的生物大数据进行更新,将有标签生物数据库中的生物大数据和更新后的无标签生物数据库中的生物大数据输入至数据预处理单元。
[0036]
本优选实施例基于支持向量机建立疾病预测模型,实现了对疾病的精准识别预测,有助于人们了解生物数据和疾病之间的关联,从而帮助人们了解疾病的发病机制,并对于疾病的预防、诊断、监控、预后和治疗起到非常重要的作用。
[0037]
优选地,利用布谷鸟算法对数据分析单元的支持向量机的惩罚因子和核函数参数进行寻优,在所述布谷鸟算法中,用支持向量机的输出值和期望输出值之间的均方差作为布谷鸟算法的适应度函数,鸟巢位置对应的适应度函数值越小,表明该鸟巢位置越优。
[0038]
优选地,在所述布谷鸟算法中,设xi(t)表示种群中的第i个鸟巢在第t次采用莱维飞行模式进行更新后保留下来的位置,xi(t)表示种群中的第i个鸟巢在第t次迭代更新后保留下来的位置,鸟巢位置xi(t)随机产生0到1之间的随机数rand,当该随机数rand≤pa时,则xi(t)=xi(t);当该随机数rand》pa时,则采用下列方式确定xi(t)的值:
[0039]
设xj(t)表示种群中第j个鸟巢在第t次采用莱维飞行模式进行更新后保留下来的位置,当鸟巢位置xj(t)满足:f(xj(t))《f(xi(t))时,则将鸟巢位置xj(t)加入到集合mi(t)中,其中,mi(t)表示种群中相较于鸟巢位置xi(t)的较优鸟巢位置集合,f(xj(t))表示鸟巢位置xj(t)对应的适应度函数值,f(xi(t))表示鸟巢位置xi(t)对应的适应度函数值;将集合mi(t)中的鸟巢位置按照其距离鸟巢位置xi(t)的欧式距离由近到远进行排序组成序列qi(t),将qi(t)表示为:qi(t)={x
i,l
(t),l=1,2,

,ni(t)},其中,x
i,l
(t)表示序列qi(t)中的第l个鸟巢位置,ni(t)表示序列qi(t)中的鸟巢数,定义hi(t)表示鸟巢位置xi(t)的空间检测系数,则hi(t)的表达式为:
[0040][0041]
其中,r
i,l
(t)表示鸟巢位置x
i,l
(t)以鸟巢位置xi(t)为中心的空间半径,且r
i,l
(t)=|x
i,l
(t)-xi(t)|,设x
i,n
(t)表示序列qi(t)中的第n个鸟巢位置,r
i,n
(t)表示鸟巢位置x
i,n
(t)以鸟巢位置xi(t)为中心的空间半径,且r
i,n
(t)=|x
i,n
(t)-xi(t)|,表示序列qi(t)中的前k个鸟巢位置以鸟巢位置xi(t)为中心的空间半径的均值,且k为给定的正整数,且k满足:k≤ni(t),k的值可以取5,α和β为权重系数,α和β满足:α,β∈(0,1)且α+β=1;
[0042]
设ji(t)表示种群中参与鸟巢位置xi(t)的随机改变的较优鸟巢位置组成的集合,利用参数ki(t)确定集合ji(t)中的较优鸟巢位置,具体为:
[0043]
(1)根据鸟巢位置xi(t)的空间检测系数hi(t)确定参数ki(t)的值:
[0044][0045]
式中,ki(t)表示鸟巢位置xi(t)在随机改变时的局部范围控制参数,表示种群在第t次采用莱维飞行模式进行更新后保留下来的鸟巢位置的空间检测系数的中值,且群在第t次采用莱维飞行模式进行更新后保留下来的鸟巢位置的空间检测系数的中值,且其中,median表示取中值函数,表示向下取整,n表示种群中的鸟巢数;
[0046]
(2)序列qi(t)中的前ki(t)个鸟巢位置即为种群中参与鸟巢位置xi(t)的随机改变的较优鸟巢位置,即在序列qi(t)中选取前ki(t)个鸟巢位置加入到集合ji(t)中;
[0047]
所述鸟巢位置xi(t)即采用下列方式进行随机改变:
[0048][0049]
式中,χi(t)表示鸟巢位置xi(t)通过随机改变后获得的鸟巢位置,rand1为随机产生的一个0到1之间的随机数,和分别为在集合ji(t)中随机选取的鸟巢位置,且
[0050]
设f(χi(t))表示鸟巢位置χi(t)的适应度函数值,当f(χi(t))≥f(xi(t))时,则xi(t)=xi(t),当f(χi(t))《f(xi(t))时,则xi(t)=χi(t)。
[0051]
本优选实施例利用布谷鸟算法优化支持向量机的惩罚因子和核函数参数,避免了人为选择参数的盲目性且提高了支持向量机的分类精度;传统的布谷鸟算法存在局部寻优精度不够高、收敛速度不够快等问题,这些问题又容易导致采用传统的布谷鸟算法并不能获得支持向量机的最优参数,因此,为了提高采用布谷鸟算法优化支持向量机的精度,本优选实施例对传统的布谷鸟算法进行改进,旨在提高布谷鸟算法的寻优精度和收敛速度,具体为:传统布谷鸟算法在采用莱维飞行模式对鸟巢位置进行更新后,通常对种群中的部分鸟巢位置进行随机改变,即在种群中随机选择两个鸟巢位置对当前的鸟巢位置进行随机改
变,但该种随机改变的方式过于随机,缺少自适应性,并不能很好的起到提高局部寻优精度和收敛速度的效果,因此,本优选实施例设置在对鸟巢位置进行随机改变时,在种群中选取两个较优的鸟巢位置对所述鸟巢位置进行随机改变,从而起到提高算法的收敛速度的技术效果,进一步地,为了加强算法的局部寻优精度和避免算法陷入局部最优,在对鸟巢位置进行随机改变的过程中,本优选实施例通过定义的空间检测系数来衡量种群中距离所述鸟巢位置较近的较优鸟巢位置和所述鸟巢位置之间的空间重叠度,当所述鸟巢位置对应的空间检测系数的值越小时,表明种群中距离所述鸟巢位置较近的较优鸟巢位置和所述鸟巢位置形成的局部空间重叠度较高,此时,令参数ki(t)的值较大,即在序列qi(t)中选取较多的鸟巢位置参与所述鸟巢位置的随机改变,从而增加种群的多样性,当所述鸟巢位置的空间检测系数的值较大时,表明种群中距离所述鸟巢位置较近的较优鸟巢位置和所述鸟巢位置形成的局部空间的重叠度较小,此时,令参数ki(t)的值较小,即在序列qi(t)中选取较少的鸟巢位置参与所述鸟巢位置的随机改变,从而在随机改变过程中加强该布谷鸟的局部搜索,提高算法的寻优精度。
[0052]
最后应当说明的是,以上实施例仅用以说明本发明的技术方案,而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细地说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1