本发明涉及信息提取,更具体地说,本发明涉及一种基于多类型病历文本的结构化信息提取方法。
背景技术:
1、随着医疗信息化的发展,病历文档的数字化已成为趋势,然而,由于病历文本的复杂性和多样性,如何高效地从多类型病历文本中提取结构化信息成为了一大挑战,传统的方法通常依赖于人工审查,不仅耗时耗力,而且容易出错。近年来,随着自然语言处理(nlp)技术的进步,自动化的病历文本处理方法逐渐成为研究热点。
2、现有的病历文本处理技术主要包括文本分类、信息抽取、情感分析等。这些技术大多基于机器学习或深度学习算法,如支持向量机(svm)、卷积神经网络(cnn)和长短时记忆网络(lstm)。尽管这些方法在一定程度上提高了病历文本处理的效率和准确性,但它们主要集中在对单一类型病历文本的处理上,对于多类型病历文本的结构化信息提取仍存在一些不足:例如,通用性差,大多数方法针对特定类型的病历文本进行了优化,难以直接应用于其他类型的病历文本;复杂度管理不足,现有的技术往往没有专门针对病历文本复杂度的评估机制,无法有效识别和处理复杂度过高的文本;自动化程度不高,虽然有部分自动化工具,但在文本纠错和精简方面仍然需要较多的人工干预。
技术实现思路
1、为了克服现有技术的上述缺陷,为实现上述目的,本发明提供如下技术方案:一种基于多类型病历文本的结构化信息提取方法,包括:
2、s1、采集原始病历文本数据,进行预处理,并构建高维向量;
3、s2、构建异常检测模型,将高维向量作为输入变量,对病历文本的文本复杂度进行预测分析,得到复杂度异常系数,生成复杂度状态信号;
4、s3、基于复杂度状态信号,对复杂度不合格的病历文本进行处理和纠错,并转换为简化文本。
5、进一步地,所述进行预处理的方式为文本清洗和标准化;
6、所述构建高维向量的方式包括:
7、提取病历文本的相关特征,结合词汇多样值和句法结构复杂度,构建高维向量;
8、其中,病历文本的相关特征包括文本长度、句子数量、平均句子长度、命名实体数量和情感得分;
9、文本长度包括病历文本的总字数和总词数;
10、平均句子长度定义为总词数与句子数量的比值;
11、命名实体数量的提取方法为:
12、使用ner技术对病历文本中的命名实体进行识别,并统计其数量;
13、情感得分包括正面情感得分、负面情感得分和中性情感得分;
14、其中,情感得分的提取方法为:
15、使用情感分析技术,对病历文本的情感倾向进行分析,得到相应的情感得分。
16、进一步地,所述词汇多样值和句法结构复杂度的计算方法包括:
17、使用jieba技术对病历文本进行分词,创建词汇列表;
18、对词汇列表去重,形成分类词汇集合,并统计词汇集合数量及总词汇数;
19、将词汇集合的数量与总词汇数量进行比值计算,得到词汇多样值;
20、使用spacy技术对病历文本进行分句和句法分析,提取从句和短语,并统计数量;
21、将从句和短语的总数量与句子数量进行比值计算,得到句法结构复杂度。
22、进一步地,所述构建异常检测模型的方式包括:
23、收集并转化历史病历文本为高维向量,并整合成文本数据集;
24、将文本数据集等分为s_u组训练数据,并以预设比例划分为训练集和测试集;
25、使用高斯混合模型构建异常检测模型,将训练集作为输入,输出得到复杂度异常系数;
26、设定模型的收敛容差与k值,使用期望最大化算法对模型参数进行迭代更新,在每次迭代后计算当前对数似然值与上一次迭代的对数似然值之差,若差值小于收敛容差,判定模型已经收敛,停止迭代。
27、进一步地,所述k值为高斯分布的数量;
28、其中,k值的设定方法为通过使用bic准则选择得到最优的高斯分布数量k;
29、所述对数似然值logp(x∣θ)的计算公式定义为:
30、
31、其中,x是训练集,包含n个病历文本的高维向量x,i是病历文本的索引,i=1,2,...,n,θ是模型的参数集合,包括高斯分布的数量k、每个高斯分布的权重πj、均值μj和协方差矩阵σj,j是高斯分布的索引,j=1,2,...,k,p(x∣θ)是xi在模型参数θ下的似然值,n(xi∣μj,σj)是多维高斯分布的概率密度函数;
32、概率密度函数
33、其中,|∑j|是协方差矩阵σj的行列式,(xi-μj)是高维向量xi与高斯分布均值μj之间的差值向量,(xi-μj)t是差值向量的转置,是协方差矩阵σj的逆矩阵。
34、进一步地,所述生成复杂度状态信号的方式包括:
35、将病历文本数据的高维向量输入异常检测模型,得到病历文本的复杂度异常系数;
36、设定异常系数阈值,若复杂度异常系数大于异常系数阈值,判定病历文本复杂度高,生成复杂度不合格信号;
37、反之,生成复杂度合格信号;
38、基于复杂度合格信号,设定参考阈值,选取复杂度异常系数低于参考阈值的病历文本作为参考文本,整合形成参考文本库。
39、进一步地,所述基于复杂度状态信号,对复杂度不合格的病历文本进行处理和纠错,并转换为简化文本的方式包括:
40、基于复杂度不合格信号和参考文本库,将复杂度不合格的文本定义为异常文本;
41、计算异常文本的高维向量与各参考文本高维向量间的余弦相似度;
42、余弦相似度
43、其中,ac为异常文本的高维向量,bc为参考文本的高维向量,ac×bc是高维向量ac和bc的点积,||ac||和||bc||分别为高维向量ac和bc的模;
44、选取余弦相似度最高的参考文本,作为与异常文本最相似的参考文本,并与异常文本进行对比分析,得到异常文本中的错误或复杂部分,生成简化文本。
45、进一步地,所述生成简化文本的方式包括:
46、使用bert模型的分词器将包含复杂度合格文本和复杂度不合格文本的历史病历文本数据进行分词,并转换为bert模型所需的输入格式;
47、按预设比例将转换后的历史病历文本数据划分为训练集和验证集,使用训练集对预训练的bert模型进行微调,使模型适应病历文本的生成和改写任务;
48、标注异常文本中的错误或复杂部分,使用标注后的异常文本作为输入数据,以最相似的参考文本作为模板,通过bert模型生成简化文本,并进行拼写及语法校验。
49、进一步地,所述进行拼写及语法校验的方式包括对简化文本进行拼写校验以及对简化文本进行语法校验;
50、所述对简化文本进行拼写校验的方式包括:
51、构建医学专业术语词汇表字典,对简化文本中的每个词汇进行字典匹配,若词汇未在字典中出现,判定为异常词汇;
52、计算异常词汇与字典中词汇的编辑距离,选取最小编辑距离的字典词汇,若异常词汇与该字典词汇的编辑距离小于等于1,则判定为拼写错误,并用字典词汇替换;
53、所述计算异常词汇与字典词汇编辑距离的方式包括:
54、创建一个(p+1)×(q+1)的矩阵d,其中,p为异常词汇w_1的字数,q为字典词汇w_2的字数;
55、使用动态规划算法计算w_1和w_2的编辑距离,并填充矩阵,矩阵的d[p][q]值为两个词汇的编辑距离;
56、其中,对于矩阵内每个元素位置d[p_p][q_q],定义计算规则为:
57、若w_1[p_p-1]=w_2[q_q-1],则d[p_p][q_q]=d[p_p-1][q_q-1],否则,d[p_p][q_q]=min(d[p_p-1][q_q],d[p_p][q_q-1],d[p_p-1][q_q-1])+1。
58、进一步地,所述对简化文本进行语法校验的方式包括:
59、使用依存关系分析技术对简化文本中的句子进行解析,生成语法树和依存关系图;
60、解析语法树,识别句子主谓一致性和语序正确性;
61、解析依存关系图,识别句子主谓关系和动宾关系合理性;
62、若识别得到主谓不一致问题,将谓语的人称和数调整至与主语相匹配;
63、若识别得到语序错误或依存关系错误,对句子成分重新排列,使其符合“主谓宾”结构的语序。
64、本发明一种基于多类型病历文本的结构化信息提取方法的技术效果和优点:
65、本发明主要针对结构化信息提取前的准备阶段,旨在将复杂度过高的病历文本转化为简化文本,以方便后续的信息提取工作;通过构建异常检测模型来评估病历文本的复杂度,本发明能有效识别复杂度高的病历文本并生成复杂度状态信号,帮助提前发现潜在问题,减少错误处理成本,其次,采用自然语言处理技术,如jieba分词、spacy分句技术和bert模型等,实现了从病历文本预处理到生成简化文本的全流程自动化,减少了对人工干预的需求,降低了人力成本,本发明还能通过计算与参考文本的余弦相似度,准确识别并处理复杂度不合格的病历文本,生成更为简洁、准确的文本内容,且通过拼写和语法校验进一步保证了文本质量,增强了信息的可读性和可用性,利用历史病历文本数据不断训练和优化bert模型,本发明具备持续的学习与优化能力,确保了技术的长期有效性,并为未来可能出现的新需求提供了强大的技术支持,综上,本发明不仅解决了现有病历文本处理技术中的多个问题,还为医疗行业的信息化建设提供了支持。