一种文本处理方法、装置及设备与流程

文档序号:36268750发布日期:2023-12-06 17:51阅读:38来源:国知局
一种文本处理方法与流程

本发明涉及计算机,尤其涉及一种文本处理方法、装置及设备。


背景技术:

1、随着计算机技术的快速发展,需要对医生填写的病例文本进行切分,以便满足下游服务的标记需求。

2、目前,通常是对病例文本进行字符串匹配的方式进行切分。然而,由于医生自身填写习惯不同,从而在对疾病、手术相关的病历文本填写时会表现出较大的结构差异,比如存在互相嵌套的复杂文本等。可见,现有的字符串匹配方式进行切分时往往会出现误拆和漏拆的情况,无法有效保证文本切分的准确性。


技术实现思路

1、本发明提供了一种文本处理方法、装置及设备,以对病例文本进行全面且准确的切分处理,从而避免误拆和漏拆的情况,有效保证文本切分的准确性。

2、第一方面,本发明实施例提供了一种文本处理方法,包括:

3、获取待处理的第一病例文本;

4、对所述第一病例文本的首尾位置进行序号、标点符号和空格的去除,获得第二病例文本;

5、基于多个分位引擎对应的识别优先级顺序,逐个对所述第二病例文本进行分位点的识别匹配和切分,其中,所述分位引擎包括:序号分位引擎、编码分位引擎、标点符号分位引擎、空格分位引擎和字词分位引擎;

6、若存在匹配成功的目标分位引擎,则检测所述目标分位引擎切分后的目标文本集合中是否存在至少两个文本元素;

7、若所述目标文本集合存在至少两个文本元素,则将每个文本元素作为待处理的病例文本进行递归循环处理。

8、第二方面,本发明实施例还提供了一种文本处理装置,包括:

9、第一文本获取模块,用于获取待处理的第一病例文本;

10、第二文本获取模块,用于对所述第一病例文本的首尾位置进行序号、标点符号和空格的去除,获得第二病例文本;

11、文本匹配切分模块,用于基于多个分位引擎对应的识别优先级顺序,逐个对所述第二病例文本进行分位点的识别匹配和切分,其中,所述分位引擎包括:序号分位引擎、编码分位引擎、标点符号分位引擎、空格分位引擎和字词分位引擎;

12、文本元素监测模块,若存在匹配成功的目标分位引擎,则检测所述目标分位引擎切分后的目标文本集合中是否存在至少两个文本元素;

13、循环处理模块,若所述目标文本集合存在至少两个文本元素,则将每个文本元素作为待处理的病例文本进行递归循环处理。

14、第三方面,本发明实施例还提供了一种电子设备,所述电子设备包括:至少一个处理器;以及

15、与所述至少一个处理器通信连接的存储器;其中,

16、所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任意实施例所提供的文本处理方法。

17、第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时能够执行本发明任意实施例所提供的文本处理方法。

18、本发明实施例的技术方案,通过对待处理的第一病例文本的首尾位置进行序号、标点符号和空格的去除,获得第二病例文本,从而避免首位位置处的信息干扰,保证文本切分的准确性。通过设置多个分位引擎:序号分位引擎、编码分位引擎、标点符号分位引擎、空格分位引擎和字词分位引擎,并基于多个分位引擎对应的识别优先级顺序,逐个对所述第二病例文本进行分位点的识别匹配和切分。若存在匹配成功的目标分位引擎,则检测所述目标分位引擎切分后的目标文本集合中是否存在至少两个文本元素;若所述目标文本集合存在至少两个文本元素,则将每个文本元素作为待处理的病例文本进行递归循环处理,从而利用多个分位引擎和递归循环处理的方式可以对病例文本进行全面且准确的切分,避免了误拆和漏拆的情况,有效保证了文本切分的准确性。

19、应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。



技术特征:

1.一种文本处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,基于序号分位引擎,对所述第二病例文本进行分位点的识别匹配和切分,包括:

3.根据权利要求2所述的方法,其特征在于,对多个候选文本集合进行筛选,确定序号分位引擎切分后的目标文本集合,包括:

4.根据权利要求1所述的方法,其特征在于,基于编码分位引擎,对所述第二病例文本进行分位点的识别匹配和切分,包括:

5.根据权利要求1所述的方法,其特征在于,基于标点符号分位引擎,对所述第二病例文本进行分位点的识别匹配和切分,包括:

6.根据权利要求1所述的方法,其特征在于,基于空格分位引擎,对所述第二病例文本进行分位点的识别匹配和切分,包括:

7.根据权利要求1所述的方法,其特征在于,基于字词分位引擎,对所述第二病例文本进行分位点的识别匹配和切分,包括:

8.根据权利要求1-7任一项所述的方法,其特征在于,所述方法还包括:

9.一种文本处理装置,其特征在于,包括:

10.一种电子设备,其特征在于,所述电子设备包括:


技术总结
本发明公开了一种文本处理方法、装置及设备,该方法包括:获取待处理的第一病例文本;对第一病例文本的首尾位置进行序号、标点符号和空格的去除,获得第二病例文本;基于多个分位引擎对应的识别优先级顺序,逐个对第二病例文本进行分位点的识别匹配和切分;若存在匹配成功的目标分位引擎,则检测目标分位引擎切分后的目标文本集合中是否存在至少两个文本元素;若目标文本集合存在至少两个文本元素,则将每个文本元素作为待处理的病例文本进行递归循环处理。通过本发明实施例的技术方案,以对病例文本进行全面且准确的切分处理,从而避免误拆和漏拆的情况,有效保证文本切分的准确性。

技术研发人员:袁佰煜
受保护的技术使用者:联仁健康医疗大数据科技股份有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1