本技术涉及自然语言处理,具体地,涉及一种文本分析方法、计算机设备及计算机可读存储介质。
背景技术:
1、医生对患者进行疾病的诊断时,通常都是基于自己的经验进行,准确度有限。因此,目前常利用人工智能手段辅助医生进行疾病的诊断。
2、尤其是针对罕见病的诊断。罕见病,又称“孤儿病”,是患病率极低的各类疾病的统称,到目前为止已发现的罕见病数量大约为6000-8000种。虽然罕见病的发病率极低,但由于病种繁多,患有罕见病的总体人数并不少,据估计,全世界约有3.5亿人患有罕见病。
3、由于训练数据数量少、测试数据不均衡等问题,导致在利用人工智能手段进行疾病,特别是罕见病预测时的结果不够好。
技术实现思路
1、有鉴于此,本技术实施例的目的是提供一种文本分析方法、计算机设备及计算机可读存储介质,能够解决现有在利用人工智能手段进行疾病,特别是罕见病预测时的结果不够好的问题。
2、为了解决上述技术问题,本技术是这样实现的:
3、第一方面,本技术实施例提供了一种文本分析方法,包括:
4、获取病人的待分析病历文本;
5、将所述待分析病历文本输入至表型抽取模型的提取模块进行提取,得到所述待分析病历文本中的多个医学实体;
6、将所述医学实体输入至所述表型抽取模型的表型链接模块,得到所述多个医学实体对应的标准hpo表型集合;
7、将所述标准hpo表型集合利用预测算法根据融合医学知识库进行预测,得到所述待分析病历文本的初始预测结果,其中,所述初始预测结果包括多个疾病以及每个疾病的概率。
8、根据本技术公开的一种具体实施方式,所述表型抽取模型的表型链接模块的训练方法包括:
9、获取中文hpo叙词表与医学实体样本;
10、构建第一训练集,其中,所述第一训练集包括由中文hpo叙词表中的一个hpo标准词和一个医学实体样本构成的文本对样本,以及所述文本对的匹配度;
11、将所述第一训练集输入至第一预设模型,得到所述文本对样本对应的两个语义向量;
12、根据所述两个语义向量的距离以及所述文本对的匹配度,以最小化预设损失函数为目标进行迭代训练,得到所述表型抽取模型的表型链接模块。
13、根据本技术公开的一种具体实施方式,所述获取中文hpo叙词表与医学实体样本之前,还包括:
14、基于多种翻译接口对统一医学语言系统进行中文翻译,得到中文统一医学语言系统;
15、将多个中文医学词表与所述中文统一医学语言系统进行词条链接,得到中文统一医学叙词表;
16、从所述中文统一医学叙词表中导出与hpo表型相关的子集,得到所述中文hpo叙词表。
17、根据本技术公开的一种具体实施方式,所述基于多种翻译接口对统一医学语言系统进行中文翻译,得到中文统一医学语言系统,包括:
18、基于多种翻译接口对统一医学语言系统进行中文翻译,得到每种翻译接口对应的翻译结果;
19、基于预设过滤规则,对每种翻译接口对应的翻译结果进行过滤,得到所述中文统一医学语言系统,其中,所述预设过滤规则包括针对第一翻译接口保留预设标签类别的翻译结果,以及针对第二翻译接口和第三翻译接口保留相同的翻译结果。
20、根据本技术公开的一种具体实施方式,所述融合医学知识库的构建方法包括:
21、对预设文本进行表型抽取,构建所述预设文本中的疾病与表型的对应关系,得到第一医学知识库;
22、构建所述第一医学知识库与第二医学知识库的第一疾病映射关系;
23、基于所述第一疾病映射关系以及所述第二医学知识库与第三医学知识库的第二疾病映射关系,将相同的疾病以及对应的表型进行融合,得到融合医学知识库。
24、根据本技术公开的一种具体实施方式,所述预测算法包括icto,所述将所述标准hpo表型集合利用预测算法根据融合医学知识库进行预测,得到所述待分析病历文本的初始预测结果,包括:
25、根据第一预设公式计算所述标准hpo表型集合与所述融合医学知识库中的疾病的表型集合的匹配程度,得到所述待分析病历文本的初始预测结果,其中,所述第一预设公式包括:式中, q表示所述标准hpo表型集合, d k表示所述融合医学知识库中的疾病的表型集合,表示 q与 d k的单边匹配得分,表示 d k与 q的单边匹配得分,单边匹配得分的表达式为:式中,表示在 f u (s 2 )的所有表型中,只有同在 s 1的表型参与计算, f u (s 2 )表示集合 s 2与集合 s 2中的每个表型的祖先集合的并集,ic表示表型 t的信息内容值,ic的表达式为:式中, t i表示表型, n表示所述融合医学知识库中的疾病总数, nt i表示被表型 t i及所述表型 t i的子孙节点注释的疾病数量;或,
26、根据第二预设公式计算所述标准hpo表型集合与所述融合医学知识库中的疾病的表型集合的匹配程度,得到所述待分析病历文本的初始预测结果,其中,所述第二预设公式包括:式中,表示取在 f u (d k )的所有表型中,同在 q的表型,与在 f u (q)的所有表型中,同在 d k的表型的并集参与计算。
27、根据本技术公开的一种具体实施方式,所述预测算法包括ppo,所述将所述标准hpo表型集合利用预测算法根据融合医学知识库进行预测,得到所述待分析病历文本的初始预测结果,包括:根据第三预设公式计算所述标准hpo表型集合与所述融合医学知识库中的疾病的表型集合的匹配程度,得到所述待分析病历文本的初始预测结果,其中,所述第三预设公式包括:式中, q表示所述标准hpo表型集合, t i表示 q中的任意一个表型, d k表示所述融合医学知识库中的疾病的表型集合,的表达式为:式中, p ik表示表型注释数据直接提供的患有疾病 d k的病人有表型 t i的频率, p(t i )表示表型 t i的背景概率, f pp表示表型概率传播函数, p(t i )的表达式为:式中, n表示所述融合医学知识库中的疾病总数, nt i表示被表型 t i及所述表型 t i的子孙节点注释的疾病数量;
28、 f pp的表达式为 f max、 f ind、 f sum中的任意一个:式中, c ik的表达式为 f ch (t i )表示表型 t i的子节点集合, f u (d k )表示集合 d k与集合 d k中的每个表型的祖先集合的并集。
29、根据本技术公开的一种具体实施方式,所述预测算法包括补集朴素贝叶斯模型和多层感知机模型。根据本技术公开的一种具体实施方式,所述方法还包括:
30、将多种所述预测算法的初始预测结果基于次序统计量进行融合,得到所述待分析病历文本的预测结果。
31、根据本技术公开的一种具体实施方式,所述将多种所述预测算法的初始预测结果基于次序统计量进行融合,得到所述待分析病历文本的预测结果,包括:
32、将每种预测算法的初始预测结果除以所述融合医学知识库中的疾病总数,利用n维次序统计量的联合累计分布计算z统计量,作为所述待分析病历文本的预测结果。
33、第二方面,本技术实施例提供了一种计算机设备,包括处理器和存储器,所述存储器上存储有程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
34、第三方面,本技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
35、本技术的上述实施例提供的文本分析方法、计算机设备及计算机可读存储介质,采用表型抽取模型得到待分析病例文本中的标准hpo表型集合,表型抽取精度高,为后续的预测提供了基础;基于多个医学知识库构建融合医学知识库,并且在此基础上,基于预测方法进行预测,进一步提升预测结果的准确性。
36、本技术的其它特征和优点将在随后的具体实施方式部分予以详细说明。