一种基于模糊聚类的病毒相似性分析系统

文档序号:30381262发布日期:2022-06-11 04:10阅读:89来源:国知局
一种基于模糊聚类的病毒相似性分析系统

1.本发明涉及病毒基因组领域,尤其涉及一种基于模糊聚类的病毒相似性分析系统。


背景技术:

2.目前来说,传统医学大多使用传统的生物信息学工具,而融入数据科学的分析方法均基于计算机平台完成计算过程,其软件实现方法较基于半定制集成电路系统的fpga硬件加速器而言,并行度低、运算速度慢,尤其对大量数据样本进行分析时,其效率更加受限。另外,基于计算机平台的数据分析方法,其成本相对高、设备体积大,难以适应快速、低功耗、低成本和嵌入式应用需要。


技术实现要素:

3.本发明提供一种基于模糊聚类的病毒相似性分析系统,以克服基于计算机平台完成病毒相似性分析,其并行度低、速度慢、成本高、设备体积大,无法满足嵌入式系统应用的技术问题。
4.为了实现上述目的,本发明的技术方案是:
5.一种基于模糊聚类的病毒相似性分析系统,包括:病毒特征聚类中心产生模块和相似性距离计算模块;
6.所述病毒特征聚类中心产生模块接收待分析的新型冠状病毒数值特征和预存第一隶属度矩阵u1,并根据新型冠状病毒数值特征和第一隶属度矩阵u1进行更新获得新型冠状病毒特征聚类中心vi;
7.所述相似性距离计算模块预存对照的动物冠状病毒特征,根据动物冠状病毒特征和新型冠状病毒特征聚类中心vi获得动物冠状病毒特征与新型冠状病毒聚类中心的欧氏距离,用于量化病毒相似性,根据量化结果预测病毒的同源性和亲缘性关系。
8.进一步的,所述病毒特征聚类中心产生模块包括新冠病毒特征存储模块、隶属度初值存储模块、隶属度更新模块、聚类中心更新模块和隶属度矩阵变化最大值判断模块;
9.所述新冠病毒特征存储模块用于接收待分析的新型冠状病毒数值特征;
10.所述隶属度初值存储模块预存第一隶属度矩阵u1;
11.所述聚类中心更新模块预存聚类数c,并调用新型冠状病毒数值特征并进行更新,获得新型冠状病毒特征的聚类中心vi;
12.所述隶属度更新模块调用第一隶属度矩阵u1并结合聚类中心vi进行更新,获得第二隶属度矩阵u
ij

13.所述隶属度矩阵变化最大值判断模块根据第一隶属度矩阵u1和第二隶属度矩阵u
ij
得到矩阵变化最大值,并判断矩阵变化最大值是否小于预设值ε,若小于预设值ε,则所述聚类中心更新模块输出当前新型冠状病毒特征聚类中心vi,若大于等于预设值ε,则所述聚类中心更新模块调用聚类数c并进行更新。
14.进一步的,所述相似性距离计算模块包括动物冠状病毒特征存储模块和欧氏距离计算模块;
15.所述动物冠状病毒特征存储模块用于存储对照的动物冠状病毒特征;
16.所述欧氏距离计算模块根据动物冠状病毒特征和聚类中心vi获得动物冠状病毒特征与聚类中心vi的欧氏距离,用于量化病毒相似性,根据量化结果预测病毒的同源性和亲缘性关系。
17.进一步的,所述聚类中心更新模块调用新型冠状病毒数值特征并进行更新,获得新型冠状病毒特征聚类中心vi的具体计算公式为:
[0018][0019]
其中,代表第二隶属度矩阵u
ij
中第j个样本属于第i类的隶属度,新型冠状病毒特征聚类中心vi为聚类数c的第i类中心,xj代表新型冠状病毒第j个数值特征,n代表新型冠状病毒数值特征数,m是大于1的实数。
[0020]
进一步的,所述隶属度更新模块调用第一隶属度矩阵u1并结合聚类中心vi进行更新,获得第二隶属度矩阵u
ij
的具体计算公式为:
[0021][0022]
其中,vk代表第k个聚类中心。
[0023]
进一步的,所述新型冠状病毒数值特征、所述第一隶属度矩阵u1和所述聚类数c通过串行端口输入到fpga芯片上ram中;所述聚类中心更新模块和所述隶属度更新模块通过fpga芯片获得新型冠状病毒特征的聚类中心vi和第二隶属度矩阵u
ij

[0024]
有益效果:本发明实现跨学科、跨领域研究,将病毒相似性分析模块集成在系统中,并应用于传统医学领域,实现与数据科学相结合,达到了高速、低功耗的硬件加速器设计和实现。
[0025]
通过本系统计算病毒相似性能够降低运算时间投入,数据结果严谨。产品耗能小,并且系统模块化计算结构清晰,计算结果快速可靠。
[0026]
首先,通过串行端口模块接收新型冠状病毒基因组特性数据和其它动物曾感染过的冠状病毒数据,以及初始隶属度矩阵u1和聚类数c,并暂存于fpga片上ram中,充分利用了fpga片上sram的高速读写特性,提高运算速度;接着,迭代更新新型冠状病毒特征聚类中心vi,并迭代更新隶属度矩阵u,充分利用fpga片上丰富的硬件电路资源,实现各聚类中心和隶属度的流水线处理,提高运算速度。整个系统设计采用结构化方式,方便进行扩展。并且,利用fpga自身低功耗特点,实现低功耗加速计算设计,可以满足低成本、小体积的嵌入式应用需求。
附图说明
[0027]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现
有技术描述中所需要使用的附图作以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0028]
图1为本发明基于模糊聚类的病毒相似性分析系统结构示意图;
[0029]
图2为本发明系统运算鸡、鸭、牛、蝙蝠感染过的冠状病毒与新型冠状病毒相似性分析结果仿真图;
具体实施方式
[0030]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0031]
本实施例提供了一种基于模糊聚类的病毒相似性分析系统,如图1,包括:病毒特征聚类中心产生模块和相似性距离计算模块;
[0032]
所述病毒特征聚类中心产生模块接收待分析的新型冠状病毒数值特征和预存第一隶属度矩阵u1,并根据新型冠状病毒数值特征和第一隶属度矩阵u1进行更新获得新型冠状病毒特征聚类中心vi;
[0033]
所述相似性距离计算模块预存对照的动物冠状病毒特征,根据动物冠状病毒特征和新型冠状病毒特征聚类中心vi获得动物冠状病毒特征与新型冠状病毒聚类中心的范式距离,用于量化病毒相似性,根据量化结果预测病毒的同源性和亲缘性关系。距离越近,说明相似性越高,同源可能性越大;反之,距离越远,说明相似性越低,同源可能性越小
[0034]
在具体实施例中,所述病毒特征聚类中心产生模块包括新冠病毒特征存储模块、隶属度初值存储模块、隶属度更新模块、聚类中心更新模块和隶属度矩阵变化最大值判断模块;
[0035]
所述新冠病毒特征存储模块用于接收待分析的新型冠状病毒数值特征;本模块接收将新型冠状病毒数值特征整数化后的n个特征[x0,x1,

,xn],经过串行端口输入到系统内部,并暂存于片上ram中;
[0036]
所述隶属度初值存储模块预存第一隶属度矩阵u1,暂存于片上ram中;
[0037]
所述聚类中心更新模块预存聚类数c,并调用新型冠状病毒数值特征并进行更新,获得新型冠状病毒特征的聚类中心vi;
[0038]
所述隶属度更新模块调用第一隶属度矩阵u1并结合聚类中心vi进行更新,获得第二隶属度矩阵u
ij

[0039]
所述隶属度矩阵变化最大值判断模块根据第一隶属度矩阵u1和第二隶属度矩阵u
ij
得到矩阵变化最大值,并判断矩阵变化最大值是否小于预设值ε,若小于预设值ε,则所述聚类中心更新模块输出当前新型冠状病毒特征聚类中心vi,若大于等于预设值ε,则所述聚类中心更新模块调用聚类数c并进行更新。
[0040]
在具体实施例中,所述相似性距离计算模块包括动物冠状病毒特征存储模块和欧氏距离计算模块;
[0041]
所述动物冠状病毒特征存储模块用于存储对照的动物冠状病毒特征;
[0042]
所述欧氏距离计算模块根据动物冠状病毒特征和新型冠状病毒特征聚类中心vi获得动物冠状病毒特征与新型冠状病毒聚类中心的欧式距离,用于量化病毒相似性,根据量化结果预测病毒的同源性和亲缘性关系。本模块接收串口输入冠状病毒数值特征整数化后的n个特征,暂存于片上ram,并计算与新型冠状病毒聚类中心的欧氏距离,判断相似性,并通过串口等接口输出计算结果,以备其它设备使用。
[0043]
在具体实施例中,所述聚类中心更新模块调用新型冠状病毒数值特征并进行更新,获得新型冠状病毒特征聚类中心vi的具体计算公式为:
[0044][0045]
其中代表第二隶属度矩阵u
ij
中第j个样本属于第i类的隶属度,新型冠状病毒特征聚类中心vi为聚类数c的第i类中心,xj代表新型冠状病毒第j个数值特征,n代表新型冠状病毒数值特征数,m是大于1的实数。为方便电路实现,m取值2。为简化计算电路结构采用状态机控制方式实现,具体的,乘法采用加法再求和的方式实现,除法采用减法再做差的方式实现。
[0046]
在具体实施例中,所述隶属度更新模块调用第一隶属度矩阵u1并结合聚类中心vi进行更新,获得第二隶属度矩阵u
ij
的具体计算公式为:
[0047][0048]
其中,vk代表第k个聚类中心。
[0049]
第二隶属度矩阵u
ij
具体为[u
00,0
u1,

,u
0c
;u
10
,u
11
,
…u1c


;u
n0
,u
n1
,

,u
nc
]。
[0050]
整个系统采用并行结构、流水线设计,提高数据处理速度和数据吞吐量;从上至下,采用结构化电路设计方式同时,通过本系统计算病毒相似性能够降低运算时间投入,数据结果严谨。产品耗能小,并且系统模块化计算结构清晰,计算结果快速可靠。
[0051]
首先,本发明中的病毒特征聚类中心产生模块和相似性距离计算模块均嵌入在fpga片上,病毒特征聚类中心产生模块通过串行端口模块接收新型冠状病毒基因组特性数据和其它动物曾感染过的冠状病毒数据,以及初始隶属度矩阵u1和聚类数c,并暂存于fpga片上ram中,充分利用了fpga片上sram的高速读写特性,提高运算速度;接着,迭代更新新型冠状病毒特征聚类中心vi,并迭代更新隶属度矩阵u,充分利用fpga片上丰富的硬件电路资源,实现各聚类中心和隶属度的流水线处理,提高运算速度。整个系统设计采用结构化方式,方便进行扩展。并且,利用fpga自身低功耗特点,实现低功耗加速计算设计,可以满足低成本、小体积的嵌入式应用需求。
[0052]
图2为本发明鸡、鸭、牛、蝙蝠感染过的冠状病毒与新型冠状病毒相似性分析仿真仿真图。由图2可知,在对动物曾感染过的冠状病毒样本与新型冠状病毒样本基因相似性分析过程中发现,蝙蝠曾经感染过的冠状病毒与新型冠状病毒样本基因相似性最高(欧式距离最小),由此可以推断,新型冠状病毒来源于蝙蝠的可能性最大。其中,ofrom_gallus、ofrom_duck、ofrom_bat、ofrom_cattle为同源性判断结果;
[0053]
w_distance_gallus、w_distance_duck、w_distance_bat、w_distance_cattle为相似性计算结果。
[0054]
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1