本发明涉及生物信息学,尤其涉及一种基于信息内容的心脏病分类词向量开发方法。
背景技术:
1、心脏病是全世界死亡的主要原因,估计每年影响1790万人。心脏病是心脏和血管疾病的集合,包括心肌梗塞(心脏病发作)、冠心病、主动脉疾病等。而心脏病发作占心脏病死亡人数的五分之四以上。在中国,许多人患有糖尿病、高血压和吸烟,这些都是心脏病的主要原因。此外,由于人口老龄化的压力和中国心脏病危险因素的显着增加,需要进一步研究以创建更有效的分类技术来早期检测心脏病。现有的心脏病分类模型仍然存在一些缺点,例如现有的几种疾病分类模型利用glove算法来学习词向量,这些词向量被提供作为分类的输入层楷模。这些词向量没有考虑一个词的信息内容(ic),这降低了现有模型的效率。为了解决这个问题,在本发明中,提出了一种新方法,通过将医学概念的信息内容(ic)值合并到其相关的glove向量中来改进单词向量。新开发的基于信息内容(ic)的词向量将作为心脏病分类模型的输入层提供,以提高其效率。
2、现有技术具有如下问题:
3、(1)大型医学文本语料库的构建困难。
4、(2)无法使用公开可用的医学数据库计算医学概念的信息内容(ic)值。
5、(3)不能开发新的基于信息内容(ic)的词向医学概念量。
技术实现思路
1、本发明的目的在于提供一种基于信息内容的心脏病分类词向量开发方法。
2、为了实现上述发明目的,本发明采用技术方案具体为:
3、一种基于信息内容的心脏病分类词向量开发方法,包括以下步骤:
4、步骤一、使用glove(global vector for word representation)算法学习词向量,即医学概念;
5、步骤二、计算医学概念的信息内容(information content:ic)值;
6、步骤三、计算医学概念的平均信息内容(ic);
7、步骤四、基于信息内容:ic的医学概念向量的开发;
8、步骤五、对心脏病进行分类。
9、步骤一具体包括:
10、将医院提供的医学数据与统一医学语言系统(unified medical languagesystem:umls)、snomed-ct(systematized nomenclature of medicine clinical terms)、mesh(medical subject headings)、pmc(pubmed central)公开数据库相结合,构建医学文本语料库,使用glove算法用于生成词向量。
11、
12、其中medcon表示一个医学概念,函数glovealgorithm提供其对应的向量
13、步骤二具体包括:
14、信息内容(ic)衡量一个词所提供的信息量。
15、使用umls数据库计算医学概念medcon的ic,如下所示:
16、
17、其中函数|descendant(medcon)umls|表示umls数据库中医学概念的后代数,而函数|max(medcon)umls|表示umls数据库中医学概念的总数;
18、使用snomed-ct数据库计算医学概念(medcon)的ic,如下所示:
19、
20、其中函数|descendant(medcon)snomed-ct|表示snomed-ct数据库中医学概念的后代数。而函数|max(medcon)snomed-ct|表示snomed-ct数据库中医学概念的总数;
21、使用mesh数据库计算医学概念medcon的ic,如下所示:
22、
23、其中函数|descendant(medcon)mesh|表示mesh数据库中医学概念的后代数。而函数|max(medcon)mesh|代表mesh数据库中医学概念的总数;
24、将使用pmc数据库计算医学概念medcon的ic,如下所示:
25、
26、其中函数(|count(medcon)|)表示pmc研究文章中特定medcon的计数;每个medcon最多被计算一次,函数|pmc(article)|表示pmc数据库中pmc文章的总数。
27、步骤三具体包括:
28、平均医学概念信息内容,如下所示:
29、
30、其中:|m|代表数据库的总数。
31、步骤四具体包括:
32、使用公式(7)进行开发:
33、
34、函数ic(medcon)mean表示医学概念(medcon)的平均信息量(ic)值;函数表示基于glove算法的医学概念向量(medcon);其中二元运算符(*)表示标量值与向量的乘积。
35、步骤五包括:
36、现有的(long short-term memory(lstm)model)模型将根据患有心脏病(包括心肌梗塞(心脏病发作)、冠心病和主动脉疾病)的患者的病历进行训练。这些病历将从南通大学附属医院心内科获得。新开发的基于信息内容(ic)的医学概念向量将作为lstm模型的输入层提供,这将提高心脏病分类任务的准确性。本发明将对以下心脏病进行分类:1)心肌梗塞(心脏病发作);2)冠心病;3)主动脉疾病。
37、本发明在实际使用时:
38、与现有技术相比,本发明的有益效果为:
39、1、使用本发明提供的技术方法,可以显着提高疾病分类任务的性能,并促进针对患有心肌梗塞(心脏病发作)、冠心病和主动脉疾病的患者的临床决策支持系统。
40、2、数据采集和预处理步骤以及医学文本语料库的开发解决了大型医学文本语料库的构建困难的问题。
41、3、公式(6),可以使用公开可用的医学数据库计算医学概念的信息内容(ic)值。
42、4、公式(7)解决了医学概念的基于信息内容(ic)的向量。
1.一种基于信息内容的心脏病分类词向量开发方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于信息内容的心脏病分类词向量开发方法,其特征在于,步骤一具体包括:
3.根据权利要求2所述的一种基于信息内容的心脏病分类词向量开发方法,其特征在于,步骤二具体包括:
4.根据权利要求3所述的一种基于信息内容的心脏病分类词向量开发方法,其特征在于,步骤三具体包括:
5.根据权利要求4所述的一种基于信息内容的心脏病分类词向量开发方法,其特征在于,步骤四具体包括: