一种恶性肿瘤诊疗知识获取方法及装置与流程

文档序号:24791183发布日期:2021-04-23 14:23阅读:126来源:国知局
一种恶性肿瘤诊疗知识获取方法及装置与流程

1.本申请涉及医学知识处理领域,具体而言,涉及一种恶性肿瘤诊疗知识获取方法及装置。


背景技术:

2.乳腺癌是一种高度异质化的肿瘤,循证医学的进展细化了乳腺癌的亚型,不同亚型相关情况都不同,其中包括了病理组织、表型、对治疗的反应等,同时,精准医学检测技术中基因谱分析、二代测序等则推动了新亚型的不断发现。上述医学的快速进展为进一步提高乳腺癌精准、个体化诊治水平的同时,大量的数据、文献成果的发表也使得乳腺癌临床医生学习新知识的压力日益增大。为了解决这一问题,就需要帮助乳腺癌临床医生快速地对知识进行获取和应用,提高临床实践的效果,也节省了时间成本。
3.由于最新数据和文献成果的更新频率高,数量庞大,且多以非结构化的自由文本存在,再加上存在信息来源和内容的质量参差不齐,现有技术中知识的获取基本上是由人工进行筛选、理解和整理,这种方式效率低、工作量大,并且由于人员的专业程度不同,知识的质量也存在差异。


技术实现要素:

4.有鉴于此,本申请的目的在于提供一种恶性肿瘤诊疗知识获取方法及装置,用于解决现有技术中如何实现从文献中高效提取诊疗知识的问题。
5.第一方面,本申请实施例提供了一种恶性肿瘤诊疗知识获取方法,该方法包括:
6.接收用户端的文献范围选择信息,并根据所述文献范围选择信息从乳腺癌文献库中筛选出目标文献;所述文献范围选择信息包括文献选择信息和文献内容选择信息;
7.从所述目标文献中随机选取预设数量的文献构成训练语料库,根据所述训练语料库进行模型训练,得到知识提取模型;
8.通过知识提取模型对目标文献进行知识提取,得到待处理知识信息;
9.根据预设知识词典对所述待处理知识信息进行标准化词匹配,并对匹配到的标准化词进行知识整理,得到标准化知识。
10.在一些实施例中,在根据预设知识词典对所述待处理知识信息进行标准化词匹配,并对匹配到的标准化词进行知识整理,得到标准化知识之后,还包括:
11.根据预设模糊消解词典对所述标准化知识进行待明晰化词匹配,并对匹配到的待明晰化词进行知识整理,得到模糊消解后的标准化知识。
12.在一些实施例中,在根据预设知识词典对所述待处理知识信息进行标准化词匹配,并对匹配到的标准化词进行知识整理,得到标准化知识之后,还包括:
13.根据所述标准化知识,通过预设表示方式进行知识展示,并根据预设推理算法进行知识推理;所述预设表示方式包括本体和知识图谱;所述预设推理算法包括确定性推理算法和不确定性推理算法。
14.在一些实施例中,所述从所述目标文献中随机选取预设数量的文献构成训练语料库,根据所述训练语料库进行模型训练,得到知识提取模型,包括:
15.从所述目标文献中随机选取预设数量的文献构成训练语料库;所述训练语料库中的文献信息按照预设比例分为训练集合、测试集合和验证集合;
16.针对训练集合中的训练样本,进行样本标注,得到标注后的训练样本;
17.依据所述标注后的训练样本和预设学习算法进行模型训练,得到待测试模型;所述预设学习算法包括深度学习算法和浅层学习算法;
18.依据测试集合对所述待测试模型进行模型测试,得到模型精确度,判断该模型精确度是否大于预设阈值;
19.若模型精确度小于预设阈值,则依据验证集合对所述待测试模型进行模型验证,根据验证结果进行参数调节,并再次进行模型测试;
20.若模型精确度大于预设阈值,则将所述待测试模型确认为知识提取模型。
21.在一些实施例中,所述依据所述标注后的训练样本和预设学习算法进行模型训练,得到待测试模型,包括:
22.将所述标注后的训练样本转换成融合向量输入到待训练模型中进行模型训练,得到待测试模型;所述融合向量是由字向量、词向量、位置向量和乳腺癌词向量对齐相加得到的。
23.第二方面,本申请实施例提供了一种恶性肿瘤诊疗知识获取装置,包括:
24.筛选模块,用于接收用户端的文献范围选择信息,并根据所述文献范围选择信息从乳腺癌文献库中筛选出目标文献;所述文献范围选择信息包括文献选择信息和文献内容选择信息;
25.训练模块,用于从所述目标文献中随机选取预设数量的文献构成训练语料库,根据所述训练语料库进行模型训练,得到知识提取模型;
26.提取模块,用于通过知识提取模型对目标文献进行知识提取,得到待处理知识信息;
27.标准化模块,用于根据预设知识词典对所述待处理知识信息进行标准化词匹配,并对匹配到的标准化词进行知识整理,得到标准化知识。
28.在一些实施例中,还包括:
29.模糊消解模块,用于根据预设模糊消解词典对所述标准化知识进行待明晰化词匹配,并对匹配到的待明晰化词进行知识整理,得到模糊消解后的标准化知识。
30.在一些实施例中,还包括:
31.应用模块,用于根据所述标准化知识,通过预设表示方式进行知识展示,并根据预设推理算法进行知识推理;所述预设表示方式包括本体和知识图谱;所述预设推理算法包括确定性推理算法和不确定性推理算法。
32.第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面中任一项所述的方法的步骤。
33.第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述第一方面中任一项所
述的方法的步骤。
34.本申请实施例提出的一种恶性肿瘤诊疗知识获取方法,通过依据用户端发送的文献范围选择信息筛选出目标文献,然后,从目标文献中随机选取部分文献进行知识提取模型的训练,再用训练好的知识提取模型对目标文献进行知识提取,并对提取到的待处理知识信息进行标准化处理,得到标准化知识。本申请实施例所提出的恶性肿瘤诊疗知识获取方法实现了乳腺癌文献中知识信息高效提取,提高了知识提取的效率,并且提升了提取知识的质量。
35.为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
36.为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
37.图1为本申请实施例提供的一种恶性肿瘤诊疗知识获取方法的流程示意图;
38.图2为本申请实施例提供的一种知识提取模型获得方法的流程示意图;
39.图3为本申请实施例提供的一种恶性肿瘤诊疗知识获取装置的结构示意图;
40.图4为本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
41.为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
42.本申请实施例提供了一种恶性肿瘤诊疗知识获取方法,如图1所示,包括以下步骤:
43.步骤s101、接收用户端的文献范围选择信息,并根据上述文献范围选择信息从乳腺癌文献库中筛选出目标文献;上述文献范围选择信息包括文献选择信息和文献内容选择信息;
44.步骤s102、从上述目标文献中随机选取预设数量的文献构成训练语料库,根据上述训练语料库进行模型训练,得到知识提取模型;
45.步骤s103、通过知识提取模型对目标文献进行知识提取,得到待处理知识信息;
46.步骤s104、根据预设知识词典对上述待处理知识信息进行标准化词匹配,并对匹配到的标准化词进行知识整理,得到标准化知识。
47.具体地,文献范围的选择包括了对于文献的选择和对于文献内容的选择。
48.其中,对于文献的选择是基于目标主题、研究机构、研究者、研究时间、文献研究类型、文献质量评级、可行性标记等进行选择确定。
49.对于文献内容的选择是基于信息内容的不同指向(包括诊断、治疗、护理、预后等)进行选择确定。
50.以上的文献范围都由用户在用户端上进行选择,以文献范围选择信息的形式发送到乳腺癌诊疗知识提取服务平台。
51.在接收到上述文献范围选择信息后,先根据文献范围选择信息从乳腺癌文献库中将符合用户所选文献范围的文献筛选出来,作为目标文献。然后从目标文献中随机选取部分文献进行知识提取模型的训练,该知识提取模型所使用的算法根据所提取乳腺癌文献中的内容知识的类型对应的知识模式可能有所变化,也就是知识提取模型可以分为两大部分。
52.乳腺癌文献中的内容知识的类型对应的知识模式包括陈述性知识和过程性知识。
53.陈述性知识包含了实体类别和关系类别。
54.陈述性知识的实体类别包括了人群、组织学类型、肿瘤分期、分子分型、突变基因、伴随症状、检查、影像、治疗、治疗步骤、药品、身体结构、护理、预后等。陈述性知识中的每一实体类别下都包含呈树状发散的细分类别,例如:人群又可以分为青年、中年、老年等;组织学类型可以分为导管内癌、小叶原位癌、导管内乳头状癌、乳头湿疹样乳腺癌、浸润性导管癌、浸润性特殊癌、浸润性小叶癌等;肿瘤分期可以分为i、ii、iii、iv等;分子分型可以分为her2、er、pr、ki

67等;突变基因可以分为brca1、brca2等;治疗可以分为手术、化疗、放疗、内分泌治疗、传统医学、姑息治疗等;伴随症状可以分为内脏危象、心脏功能异常、肝脏功能异常、妊娠、脑转移、骨转移、淋巴转移等;预后可以分为随访、生育、康复等;影像可以分为超声、x线、ct、mri等;护理可以分为心理、术后护理等。
55.陈述性知识的关系类别包括父子继承关系和属性关系等。父子继承关系是表示实体类别之间的上下所属关系的关系类别;属性关系是表示实体类别下具体的相关属性的关系类别,例如:伴随症状相关的部位、形态、严重程度等,再比如手术相关的直接部位、间接部位、形态、方法等,以及药品相关的靶点等。
56.过程性知识是与医疗中的治疗步骤相关的知识,具体分为条件类、顺序类和并列类。
57.通过训练得到的知识提取模型对目标文献进行知识的初步提取,抽取到的待处理知识信息以疾病以及具体的亚型作为中心进行知识整合和组织,对于每一个知识实体,都添加对应的属性信息(包括文献id、研究机构、研究者、研究时间、文献研究类型、文献质量评级、可行性标记、内容指向等)。
58.待处理知识信息中对于知识的表达形式可能由于文献来源的不同而不同,为了统一表达形式,需要对待处理知识信息进行标准化处理。将待处理知识信息通过匹配的方式与预设知识词典中的词汇进行匹配,预设知识词典中包含了词语id、词语名称、词语语言、词语关系、关系词语id和关系词语名称,其中词语关系包括了同义词、别名、俗称等。通过对待处理知识信息中的字段进行识别,识别到的字段可能是标准词,也可能是标准词的同义词、别名、俗称等,将非标准词都转化为标准词,得到标准化知识。
59.在一些实施例中,在步骤s104之后,还包括:
60.步骤105、根据预设模糊消解词典对上述标准化知识进行待明晰化词匹配,并对匹配到的待明晰化词进行知识整理,得到模糊消解后的标准化知识。
61.具体地,标准化知识中可能存在部分知识的表达不够明确具体,而对于用户来说在获取知识前提下,需要获取到更明确的内容,例如对于靶向加内分泌联合治疗方案,需要明确所使用的靶向药物和内分泌治疗药物分别是什么。
62.将标准化知识信息通过匹配的方式与预设模糊消解词典中的词汇进行匹配,预设模糊消解词典中包含了词语id、词语名称、词语语言、词语关系、关系词语id、关系词语名称、优先级,其中词语关系包括了定义、可选定义等。通过对标准化知识信息中的字段进行待明晰化词识别,将待明晰化词都转化为定义或可选定义,得到模糊消解后的标准化知识。
63.在一些实施例中,在步骤s104之后,还包括:
64.步骤106、根据上述标准化知识,通过预设表示方式进行知识展示,并根据预设推理算法进行知识推理;上述预设表示方式包括本体和知识图谱;上述预设推理算法包括确定性推理算法和不确定性推理算法。
65.具体地,对于提取到的知识还需要通过展示来呈现给用户,以方便用户阅读,可以通过以本体的形式也可以是通过知识图谱等表示方式来展示提取到的知识。
66.对于提取到的知识还可以进行进一步地知识推理,所使用的算法可以是谓词逻辑、贝叶斯推理等推理算法进行相关的知识推理。
67.在一些实施例中,上述步骤s102,如图2所示,包括:
68.步骤s201、从上述目标文献中随机选取预设数量的文献构成训练语料库;上述训练语料库中的文献信息按照预设比例分为训练集合、测试集合和验证集合;
69.步骤s202、针对训练集合中的训练样本,进行样本标注,得到标注后的训练样本;
70.步骤s203、依据上述标注后的训练样本和预设学习算法进行模型训练,得到待测试模型;上述预设学习算法包括深度学习算法和浅层学习算法;
71.步骤s204、依据测试集合对上述待测试模型进行模型测试,得到模型精确度,判断该模型精确度是否大于预设阈值;
72.步骤s205、若模型精确度小于预设阈值,则依据验证集合对上述待测试模型进行模型验证,根据验证结果进行参数调节,并再次进行模型测试;若模型精确度大于预设阈值,则将上述待测试模型确认为知识提取模型。
73.具体地,以从目标文献中随机选取的预设数量的文献构成训练语料库,将语料库中的文献信息、文献段落或语句按照预设比例分为训练集合、测试集合和验证集合,本申请实施例优选预设比例为7:1.5:1.5。
74.然后对于训练集合中的样本按照样本的知识内容对应的知识模式进行样本标注,例如,知识模式为陈述性知识,那么就要对样本进行实体类别和关系类别的标注。
75.模型所使用到的预设学习算法可以包括lstm(long short

term memory,长短期记忆网络)、cnn(convolutional neural networks,卷积神经网络)等深度学习算法也可以包括crf(conditional random field,条件随机场)等浅层学习算法,可根据需要预设,本申请不予限制。
76.在训练的过程中可以针对不同的实体类别或治疗步骤分为多个不同的子模型进行训练,然后再将子模型整合为一个组合模型。
77.对于训练得到的待测试模型通过将上述测试集合中的样本输入以测试待测试模型的精确度,若在进行测试后精确度没有超过预设阈值,则需要通过验证集合对待测试模型进行模型验证,以调整待测试模型中的参数,然后对调整过参数的待测试模型再次进行模型测试,如此往复,直至模型测试得到的精确度超过预设阈值,就可将当前的待测试模型作为最终的知识提取模型。
78.在一些实施例中,上述步骤s203,包括:
79.步骤2031、将上述标注后的训练样本转换成融合向量输入到待训练模型中进行模型训练,得到待测试模型;上述融合向量是由字向量、词向量、位置向量和乳腺癌词向量对齐相加得到的。
80.具体地,输入到待训练模型中的训练样本需要转换成融合向量的形式。该融合向量中包含了字向量、词向量、位置向量和乳腺癌词向量等向量。
81.其中,字向量是由输入字符序列经过嵌入层而得到的;词向量是由经过预先训练的词向量模型得到的;位置向量是由字符的位置id经过嵌入层而得到的;乳腺癌词向量是由当前字符是否属于事先建立的乳腺癌词库标记(属于为1,不属于为0)经过嵌入层而得到的。
82.将得到的字向量、词向量、位置向量和乳腺癌词向量等向量对齐相加后得到的就是融合向量。
83.本申请实施例还提供了一种恶性肿瘤诊疗知识获取装置,如图3所示,包括:
84.筛选模块30,用于接收用户端的文献范围选择信息,并根据上述文献范围选择信息从乳腺癌文献库中筛选出目标文献;上述文献范围选择信息包括文献选择信息和文献内容选择信息;
85.训练模块31,用于从上述目标文献中随机选取预设数量的文献构成训练语料库,根据上述训练语料库进行模型训练,得到知识提取模型;
86.提取模块32,用于通过知识提取模型对目标文献进行知识提取,得到待处理知识信息;
87.标准化模块33,用于根据预设知识词典对上述待处理知识信息进行标准化词匹配,并对匹配到的标准化词进行知识整理,得到标准化知识。
88.在一些实施例中,该装置还包括:
89.模糊消解模块34,用于根据预设模糊消解词典对上述标准化知识进行待明晰化词匹配,并对匹配到的待明晰化词进行知识整理,得到模糊消解后的标准化知识。
90.在一些实施例中,该装置还包括:
91.应用模块35,用于根据上述标准化知识,通过预设表示方式进行知识展示,并根据预设推理算法进行知识推理;上述预设表示方式包括本体和知识图谱;上述预设推理算法包括确定性推理算法和不确定性推理算法。
92.对应于图1中的一种恶性肿瘤诊疗知识获取方法,本申请实施例还提供了一种计算机设备400,如图4所示,该设备包括存储器401、处理器402及存储在该存储器401上并可在该处理器402上运行的计算机程序,其中,上述处理器402执行上述计算机程序时实现上述一种恶性肿瘤诊疗知识获取方法。
93.具体地,上述存储器401和处理器402能够为通用的存储器和处理器,这里不做具
体限定,当处理器402运行存储器401存储的计算机程序时,能够执行上述一种恶性肿瘤诊疗知识获取方法,解决了现有技术中如何实现从文献中高效提取诊疗知识的问题。
94.对应于图1中的一种恶性肿瘤诊疗知识获取方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述一种恶性肿瘤诊疗知识获取方法的步骤。
95.具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述一种恶性肿瘤诊疗知识获取方法,解决了现有技术中如何实现从文献中高效提取诊疗知识的问题,本申请实施例提出的一种恶性肿瘤诊疗知识获取方法,通过依据用户端发送的文献范围选择信息筛选出目标文献,然后,从目标文献中随机选取部分文献进行知识提取模型的训练,再用训练好的知识提取模型对目标文献进行知识提取,并对提取到的待处理知识信息进行标准化处理,得到标准化知识。本申请实施例所提出的恶性肿瘤诊疗知识获取方法实现了乳腺癌文献中高效提取知识信息,提高了知识提取的效率,并且提升了提取知识的质量。
96.在本申请所提供的实施例中,应该理解到,所揭露方法和装置,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
97.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
98.另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
99.所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read

only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
100.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
101.最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻
易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1