病历文本数据结构化的文本分词解析方法及系统与流程

文档序号:25423734发布日期:2021-06-11 21:36阅读:来源:国知局

技术特征:

1.病历文本数据结构化的文本分词解析方法,其特征在于包括如下步骤:

基于医疗文本数据构建医学词库,所述医学词库包括医学词语、权重和词性,所述词性包括词语传统词性和词语医学词性;

基于词库词典生成待分词医疗文本数据的所有成词,并基于上述所有成词构建有向无环图;

基于上述医学词库和有向无环图,通过动态规划查找最大归零路径查找语句词频的最大切分组合,得到带有前后文顺序和词性的词语集合;

基于词语所处位置、词语原本词性以及词语医学词性三个维度构建三元结构数据以及三元结构数据之间的映射关系组成三元关系模型,并通过上述三元关系模型对上述词语集合进行解析,得到三元映射关系数据组;

对上述三元映射关系数据组进行标准化处理,得二元映射关系数据组,所述二元映射关系数据组匹配标准医疗词典。

2.根据权利要求1所述的病历文本数据结构化的文本分词解析方法,其特征在于所述词语传统词性包括名词、动词、副词和标点;

所述词语医学词性包括诊断、疾病、药品、化疗方案、放疗方案以及称谓。

3.根据权利要求1或2所述的病历文本数据结构化的文本分词解析方法,其特征在于基于医疗文本数据构建医学词库,包括如下步骤:

获取医疗文本数据,通过词库对医疗文本数据进行分词,得到分词结果数据集;

通过tf-idf算法模型对分词结果数据集进行关键医学词汇抽词,得到抽词结果数据集;

添加医学词汇相关的权重和词性,得到包括医学词语、权重和词性的医学词库。

4.根据权利要求3所述的病历文本数据结构化的文本分词解析方法,其特征在于对抽词结果数据集中连续多个单字进行医学词汇组合拼接后,添加医学词汇相关的权重和词性,得到包括医学词语、权重和词性的医学词库。

5.根据权利要求3所述的病历文本数据结构化的文本分词解析方法,其特征在于对于医学词库中未登录的医疗文本数据,通过基于汉字成词的hmm模型进行分词。

6.病历文本数据结构化的文本分词解析系统,其特征在于通过如权利要求1-5任一项所述的病历文本数据结构化的文本分词解析方法对病历文本数据进行结构化的分词和解析,所述系统包括:

医学词库构建模块,所述医学词库构建模块用于基于医疗文本数据构建医学词库,所述医学词库包括医学词语、权重和词性,所述词性包括词语传统词性和词语医学词性;

分词模型构建模块,所述分词模型构建模块用于基于词库词典生成待分词医疗文本数据的所有成词,并基于上述所有成词构建有向无环图;

分词模块,所述分词模块用于基于上述医学词库和有向无环图,通过动态规划查找最大归零路径查找语句词频的最大切分组合,得到带有前后文顺序和词性的词语集合;

三元解析模块,所述三元解析模块用于基于词语所处位置、词语原本词性以及词语医学词性三个维度构建三元结构数据以及三元结构数据之间的映射关系组成三元关系模型,并通过上述三元关系模型对上述词语集合进行解析,得到三元映射关系数据组;

标准化模块,所述标准化模块用于对上述三元映射关系数据组进行标准化处理,得二元映射关系数据组,所述二元映射关系数据组匹配标准医疗词典。

7.根据权利要求6所述的病历文本数据结构化的文本分词解析系统,其特征在于所述词语传统词性包括名词、动词、副词和标点;

所述词语医学词性包括诊断、疾病、药品、化疗方案、放疗方案以及称谓。

8.根据权利要求7所述的病历文本数据结构化的文本分词解析系统,其特征在于医学词库构建模块用于通过如下步骤基于医疗文本数据构建医学词库:

获取医疗文本数据,通过词库对医疗文本数据进行分词,得到分词结果数据集;

通过tf-idf算法模型对分词结果数据集进行关键医学词汇抽词,得到抽词结果数据集;

对抽词结果数据集中连续多个单字进行医学词汇组合拼接;

添加医学词汇相关的权重和词性,得到包括医学词语、权重和词性的医学词库。

9.根据权利要求5所述的病历文本数据结构化的文本分词解析系统,其特征在于对于医学词库中未登录的医疗文本数据,所述分词模块用于通过基于汉字成词的hmm模型进行分词。

10.计算机可读介质,其特征在于,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行权利要求1至5任一所述的方法。


技术总结
本发明公开了病历文本数据结构化的文本分词解析方法及系统,属于病历数据挖掘技术领域,要解决的技术问题为如何解决传统病历数据中存在的挖掘效率低、精确性差以及不满足病例实体映射关系的缺陷。包括如下步骤:基于医疗文本数据构建医学词库;基于词库词典生成待分词医疗文本数据的所有成词,并基于上述所有成词构建有向无环图;基于上述医学词库和有向无环图,通过动态规划查找最大归零路径查找语句词频的最大切分组合,得到带有前后文顺序和词性的词语集合;通过三元关系模型对上述词语集合进行解析,得到三元映射关系数据组;对上述三元映射关系数据组进行标准化处理,得二元映射关系数据组。

技术研发人员:钟信真;左霖
受保护的技术使用者:山东健康医疗大数据有限公司
技术研发日:2021.03.01
技术公布日:2021.06.11
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1