一种增强局部特征提取的中医辅助诊断系统及方法

文档序号:25726948发布日期:2021-07-02 21:13阅读:1438来源:国知局
一种增强局部特征提取的中医辅助诊断系统及方法

本发明涉及医药技术领域,尤其涉及一种增强局部特征提取的中医辅助诊断系统及方法。



背景技术:

本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。

中医(tcm)可作为现代医学的补充疗法。在中医诊断中,中医执业医师对患者的相应证候进行分析,根据中医四种诊断方法获得的信息进行鉴别诊断,但是由于中医诊断存在模糊性和主观性,在诊断推理的过程中,容易发生误诊的情况,影响中医人工诊断的准确性;为此,可以通过建立中医临床诊治的智能辅助模型,帮助从业人员利用复杂的医学知识,在临床诊断决策中更有效、更快速地处理各种医学问题,避免遗漏以及重要信息和线索的丢失,从而为疑难杂症找到更多解决方案。

传统的中医辅助诊断模型用的方法是综合分析法,结合数据挖掘技术,提出一种个人理解方法和统计分析方法,以探索中医疾病治疗的辩证法和治疗规律,但由于个人水平和研究目的不同,结论相对主观且费时,结论推广相对较差。近年来,机器学习尤其是深度学习的发展为中医临床诊断的辅助模型提供了许多新方法,以从海量的医学数据中快速发现医生的学术思想和临床经验。例如,卷积神经网络、递归神经网络(rnn)以及fasttext,为了提高准确性,不少学者将attention机制引入到相关的模型中来;张诗如等人基于卷积神经网络提出了一种辅助诊断的模型,此模型可以通过人们的手腕脉搏诊断来对病人的病情进行诊断。kale等人将现代lstm应用于多元临床时间序列的大型数据集的工作并取得了不错的效果;胡秦安,于彤等人基于fasttext提出了一种可以通过计算阴阳辩证法来进行辅助诊断的模型,以及使用神经网络和随机森林进行建模,在多类别分类的临床诊断中显示出很高的准确性。这些模型虽然绕过了传统方法存在的一些问题,但中医文本具有模糊性,采用传统的方法提取文本特征时,会丧失大量的文本信息,从而降低模型的准确性。



技术实现要素:

本公开为了解决上述问题,提出了一种增强局部特征提取的中医辅助诊断系统及方法,通过bert网络对全局信息进行了编码,然后对融入了全局信息的局部特征进行特征提取,从而使最终提取的特征包含更多的文本信息,提高了预测的准确性。

为实现上述目的,本公开采用如下技术方案:

第一方面,提出了一种增强局部特征提取的中医辅助诊断系统,包括:

数据获取模块,用于获取待测中医诊断文本;

局部特征向量获取模块,用于获取待测中医诊断文本中的局部特征向量;

疾病预测模块,用于将局部特征向量输入训练好的中医辅助诊断模型中,获得疾病预测结果,其中,中医辅助诊断模型包括bert网络、卷积神经网络和softmax层,bert网络的输出与局部特征向量一起作为卷积神经网络的输入,卷积神经网络的输出作为softmax层的输入。

第二方面,提出了一种增强局部特征提取的中医辅助诊断方法,包括:

获取待测中医诊断文本;

获取待测中医诊断文本中的局部特征向量;

将局部特征向量输入训练好的中医辅助诊断模型中,获得疾病预测结果,其中,中医辅助诊断模型包括bert网络、卷积神经网络和softmax层,bert网络的输出与局部特征向量一起作为卷积神经网络的输入,卷积神经网络的输出作为softmax层的输入。

第三方面,提出了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成以下步骤:

获取待测中医诊断文本;

获取待测中医诊断文本中的局部特征向量;

将局部特征向量输入训练好的中医辅助诊断模型中,获得疾病预测结果,其中,中医辅助诊断模型包括bert网络、卷积神经网络和softmax层,bert网络的输出与局部特征向量一起作为卷积神经网络的输入,卷积神经网络的输出作为softmax层的输入。

第四方面,提出了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成以下步骤:

获取待测中医诊断文本;

获取待测中医诊断文本中的局部特征向量;

将局部特征向量输入训练好的中医辅助诊断模型中,获得疾病预测结果,其中,中医辅助诊断模型包括bert网络、卷积神经网络和softmax层,bert网络的输出与局部特征向量一起作为卷积神经网络的输入,卷积神经网络的输出作为softmax层的输入。

与现有技术相比,本公开的有益效果为:

通过bert网络对全局信息进行了编码,然后对融入了全局信息的局部特征进行特征提取,从而使最终提取的文本特征包含更多的文本信息,依据该文本特征进行疾病预测时,提高了疾病预测的准确性。

本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。

图1为本公开实施例1公开的中医辅助诊断模型的结构框图。

具体实施方式:

下面结合附图与实施例对本公开作进一步说明。

应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在本公开中,术语如“上”、“下”、“左”、“右”、“前”、“后”、“竖直”、“水平”、“侧”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系,只是为了便于叙述本公开各部件或元件结构关系而确定的关系词,并非特指本公开中任一部件或元件,不能理解为对本公开的限制。

本公开中,术语如“固接”、“相连”、“连接”等应做广义理解,表示可以是固定连接,也可以是一体地连接或可拆卸连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的相关科研或技术人员,可以根据具体情况确定上述术语在本公开中的具体含义,不能理解为对本公开的限制。

实施例1

为了实现通过中医诊断文本对疾病进行准确预测,在该实施例中,公开了一种增强局部特征提取的中医辅助诊断系统,包括:

数据获取模块,用于获取待测中医诊断文本;

局部特征向量获取模块,用于获取待测中医诊断文本中的局部特征向量;

疾病预测模块,用于将局部特征向量输入训练好的中医辅助诊断模型中,获得疾病预测结果,其中,中医辅助诊断模型包括bert网络、卷积神经网络和softmax层,bert网络的输出与局部特征向量一起作为卷积神经网络的输入,卷积神经网络的输出作为softmax层的输入。

进一步的,疾病预测模块中中医辅助诊断模型具体为:

bert网络以局部特征向量为输入,输出文本的全局表示向量,在局部特征向量中融入全局表示向量后作为卷积神经网络的输入,输出文本特征向量,将文本特征向量输入softmax层中进行疾病预测。

进一步的,局部特征向量获取模块对于获取的待测中医诊断文本采用字符级输入方式。

进一步的,局部特征向量获取模块在通过待测中医诊断文本获取局部特征向量前,对待测中医诊断文本进行去除停用词操作。

进一步的,局部特征向量获取模块通过获取待测中医诊断文本每个句子的特征向量,组成局部特征向量。

进一步的,疾病预测模块通过获取已有的中医诊断文本与对应疾病,构建训练集;通过训练集对构建的中医辅助诊断模型进行训练,获取训练好的中医辅助诊断模型。

进一步的,疾病预测模块通过bert网络获取全局表示向量的具体过程为:

将局部特征向量输入bert网络中进行编码,获取局部特征表示向量;

将局部特征表示向量经过平均池化获得全局表示向量。

对本实施例公开的一种增强局部特征提取的中医辅助诊断系统进行详细说明,包括:数据获取模块、局部特征向量获取模块和疾病预测模块。

中医辅助诊断是指利用计算机建模技术辅助中医医师记录病情,及时诊断,辅助处方,进行一些远程医疗和教学的计算机辅助系统。具体任务是根据输入的一段中医诊断描述文本,预测最终的疾病诊断结果。

其中,数据获取模块,用于获取待测中医诊断文本。

中医医案文本语言与日常中所使用的语言有一定的差别,中医术语的四种独有的特点如下:

①模糊性。在中医理论中,许多概念无法进行明确定义,在表述上具有一定的模糊性,中医文本的模糊性在中医医案的表述中也是普遍存在的,如词语“胃火”、“肝火”、“肝阳”、“肾水”、“脾湿”,短语“痰湿困脾”、“水饮凌心”、“肝火上炎”、“湿热下注”等等。

②文言性。中医学成形于几千年前,具有鲜明的历史性,名词术语多为古代汉语,即使是现代的中医术语,也具有明显的古汉语特点。因此,中医医案文本也具有鲜明的文言性。诸如“从表达邪”即是利用药物使邪气自肌表而出,“培土生金”即是利用五行相生的理论用补益脾气的方法滋补肺气等等,这些术语都是文言性,现代中医医案也依然在使用。

③固定性。中医医案文本的固定性是指它的组成和词序是固定的。比如在医案的望诊部分,舌诊是每个医师都要重点观察的部分,也是中医医案不可缺少的部分,而在中医医案的表述里,舌诊就具有固定的格式。对于舌质,一般要描述舌色、质地,表述为“舌××或舌质××”,如“舌红”、“舌淡红”、“舌暗”、“舌质淡”、“舌质淡胖”等等。对于舌苔,则要描述舌苔的颜色、润燥、厚薄,表述为“苔××”,如“苔薄白”、“苔腻”、“苔黄”等等。

④非结构化。中医的诊疗流程是首先通过望、闻、问、切四种诊法[21]获得病患的临床信息(即症状、体征),然后判断人体内部气血阴阳、脏腑经络的改变、正邪的进退,进而得出病名,归纳出证型。然后根据辨出的证型进行辨证论治,确立治则治法,最后落脚到具体的治疗措施如中药、针灸、推拿等等,从而达到治疗目的。这是一个连续的过程,被记录到医案中,所使用的都是中医专业术语,都是非结构化数据,难以被采集利用。

因为中医文本的特殊性,所以现有的切词工具不能很好的对中医文本进行分词,所以为了保证所用文本的质量,局部特征向量获取模块对获取的待测中医诊断文本进行去除停用词操作,并使用字符级输入的方式,之后从待测中医诊断文本中提取了局部特征向量。

在疾病预测模块中构建中医辅助诊断模型,并对构建的中医辅助诊断模型进行训练,获得训练好的中医辅助诊断模型,从待测中医诊断文本中获取的局部特征向量输入训练好的中医辅助诊断模型中,获取疾病预测结果。

其中,构建的中医辅助诊断模型结构如图1所示,包括bert网络、卷积神经网络和softmax层,bert网络以局部特征向量为输入,输出文本的全局表示向量,将全局表示向量融入局部特征向量中作为卷积神经网络的输入,由卷积神经网络输出文本特征向量,将文本特征向量输入softmax层中进行疾病预测,具体为:

令wt为长度为n的句子的特征向量中第t个字的向量表示,则使用bert进行编码得到ht:

ht=bert(wt)

将所有句子的特征向量输入到bert后,便可以得到当前文本的局部特征表示向量h:

h=[h1;h2;...hn]

将所得到的当前文本的局部特征表示向量h经过平均池化层得到最终的全局表示向量g:

g=average(h)

在获得全局表示向量g之后,将全局表示向量g融入到局部特征向量中,作为卷积神经网络的输入来进行文本特征提取。经过卷积神经网络提取后得到文本特征向量l:

l=conv(xt-1,g,xt)

在经过卷积神经网络得到文本特征向量l之后,将其通过softmax层得到最终的预测结果pl:

pl=softmax(l)。

获取已有的中医诊断文本与对应疾病,构建训练集;通过训练集对构建的中医辅助诊断模型进行训练,获取训练好的中医辅助诊断模型,利用训练好的中医辅助诊断模型进行疾病预测。

本实施例公开的中医辅助诊断模型,首先对文本的全局信息进行编码,然后对融入了全局信息的局部特征进行文本特征提取,这样可以使提取的文本特征包含更多的局部特征,从而提高了疾病预测的准确性,该模型不仅可以用于中医药领域,而且可以通过微调应用于其他特殊领域。

本实施例还textcnn,textrnn,fasttext这些模型与本实施例公开的中医辅助诊断模型进行了比较,所有实验均在nvidiagtx1080和rtx2080tigpu上执行。

根据收集的中医医案构建测试数据集。

在文本预处理阶段使用nltk工具对数据集中每一个问句及其对应的答案进行处理,处理过程包括大小写转换、词干还原、去停用词等,对于处理完的数据集合采用pennington等人[29]提出的glove模型进行训练,训练得到300维的初始化词向量,不在词典中词的词向量初始化为300维的零向量。在优化器选择方面本文采用adam,第一动量系数为0.9,第二动量系数为0.999,学习率采用[1×10-9,4×10-5,1×10-7],l2参数采用[1×10-6,4×10-7,1×10-7],batch_size大小为[64,128,256],我们在校验集上选择最佳的参数,然后在测试数据集上去评估最后的性能。

为了评价本实施例提出的中医辅助诊断模型的性能,本文采用f1、准确率(acc)及map(meanaverageofprecision)三个指标对实验进行评价,同时与7种不同的分类模型进行对比实验。

实验结果表明:

(1)采用基于n-grams的fasttext模型比textcnn与textrnn模型在map、f1及accs三个评价指标上都要好,主要是因为在本文实验的数据集中有大量的中医专有名词,因此n-grams特征能够发挥更加好的效果。

(2)采用基于textrcnn方法要优于textcnn、textrnn及fasttext三个模型,主要是textrcnn结合了textcnn及textrnn两个模型的优点,集两个模型精华与一身,使得两个模型互补,因此效果要好于这三个模型,另外也证明了虽然n-grams特征在中医诊断过程中有比较重要的作用,但随着深度学习网络模型的架构变的复杂,效果将低于深度学习模型。

(3)采用基于dpcnn方法在前五种方法中表现出非常差的结果,主要是dpcnn模型相对较为复杂,同时测试采用的数据集大多是短文本,因此表现除了最差的结果,进而证明了并不是所有的任务应用深度学习方法都能取得不错的效果,在针对具体任务时应该选择适合任务的模型,才能有效的获得不错的效果。

(4)采用基于textrnn_att方法相对于textcnn、textrnn、fasttext、dpcnn及textrcnn在本文采用的三个评价指标上均高于这五种方法,主要是因为textrnn_att将注意力机制引入textrnn,注意力机制很高的捕捉了文本序列特征,因此表现除了良好的效果,进一步证明了引入注意力机制能更好的辅助中医辅助诊断。

(5)采用transformer的方法仅仅比dpcnn方法好一点点,相对于其他几个模型在map、f1及accs三个评价指标上都要差,主要是因为测试本文采用的数据集大多数短文本,transformer相对更加复杂,在捕捉短文本特征时候表现出比较差的能力,因此效果要差于其他模型,实验进一步证明了transformer模型不适合中医辅助诊断任务。

(6)本实施例所提出的增强局部特征提取的中医辅助诊断模型,比以上所有的模型在map、f1及acc值都有所提高,可以看出所提出的模型能够有效的利用全局信息增强对中医文本的局部信息提取能力,从而也表明本文提出的模型能够有效辅助中医诊断。

实施例2

在该实施例中,公开了一种增强局部特征提取的中医辅助诊断方法,包括:

获取待测中医诊断文本;

获取待测中医诊断文本中的局部特征向量;

将局部特征向量输入训练好的中医辅助诊断模型中,获得疾病预测结果,其中,中医辅助诊断模型包括bert网络、卷积神经网络和softmax层,bert网络的输出与局部特征向量一起作为卷积神经网络的输入,卷积神经网络的输出作为softmax层的输入。

实施例3

在该实施例中,公开了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成以下步骤:

获取待测中医诊断文本;

获取待测中医诊断文本中的局部特征向量;

将局部特征向量输入训练好的中医辅助诊断模型中,获得疾病预测结果,其中,中医辅助诊断模型包括bert网络、卷积神经网络和softmax层,bert网络的输出与局部特征向量一起作为卷积神经网络的输入,卷积神经网络的输出作为softmax层的输入。

实施例4

在该实施例中,公开了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成以下步骤:

获取待测中医诊断文本;

获取待测中医诊断文本中的局部特征向量;

将局部特征向量输入训练好的中医辅助诊断模型中,获得疾病预测结果,其中,中医辅助诊断模型包括bert网络、卷积神经网络和softmax层,bert网络的输出与局部特征向量一起作为卷积神经网络的输入,卷积神经网络的输出作为softmax层的输入。

以上仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1