文档的处理方法、装置、计算机设备及存储介质与流程

文档序号:30976409发布日期:2022-08-02 23:25阅读:68来源:国知局
文档的处理方法、装置、计算机设备及存储介质与流程

1.本技术涉及研发和人工智能技术领域,尤其涉及文档的处理方法、装置、计算机设备及存储介质。


背景技术:

2.随着计算机、互联网和数字媒体的进一步普及,以文本、图形、图像等非结构化数据为主的信息急剧增加,而如何存储、查询、分析、挖掘和利用这些海量信息资源就显得尤为关键。
3.以健康险为例,在客户健康险产品体检套餐投放过程中沉淀了大量的客户体检报告。实际使用中,基于客户的体检结果,可以整合客户投保、出险、家庭结构等信息,构建客户健康画像,搭建健康生态。因此,如何提取、处理这些非结构化数据,解决其结构化管理,使之适用于传统的关系数据库显得尤为重要。
4.现有技术中,可以使用ocr图像识别技术实现这一过程,但图像识别技术使用成本较高,且转换后仍需要进行文字处理以获取有价值的信息,数据加工链路不连贯。


技术实现要素:

5.本技术实施例的目的在于提出一种文档的处理方法、装置、计算机设备及存储介质,以解决现有技术中通过图像识别技术对文件内容进行结构化管理而造成的成本较高、数据加工链路不连贯的问题。
6.为了解决上述技术问题,本技术实施例提供一种文档的处理方法,采用了如下所述的技术方案:
7.获取目标文档,所述目标文档为预进行结构化处理的体检报告;
8.读取所述目标文档中的文本信息,所述文本信息包括文字信息和列表信息;
9.从所述文本信息中提取所有体检项、体检项结论以及至少一个体检子项,形成第一表格;
10.根据第一预设规则,将所述列表信息排序形成第二表格,所述第二表格中至少包括所有体检子项;
11.根据所述至少一个体检子项,将所述第一表格与所述第二表格取并集,获取目标结果表。
12.进一步的,在所述从所述文本信息中提取所有体检项、体检项结论以及至少一个体检子项,形成第一表格之前,所述方法还包括:
13.在python中使用正则表达式对所述文本信息进行预处理,删除重叠出现的文字字符。
14.进一步的,在所述从所述文本信息中提取所有体检项、体检项结论以及至少一个体检子项,形成第一表格之前,所述方法还包括:
15.从所述文本信息中提取基础信息,所述基础信息包括体检报告编号、客户证件号、
体检时间、客户年龄中的至少一项;
16.在所述从所述文本信息中提取所有体检项、体检项结论以及至少一个体检子项,形成第一表格之后,所述方法还包括:
17.将所述基本信息填入所述第一表格。
18.进一步的,在所述根据第一预设规则,将所述列表信息排序形成第二表格之前,所述方法还包括:
19.对所述列表信息进行循环遍历,去除空缺值。
20.进一步的,所述根据所述至少一个体检子项,将所述第一表格与所述第二表格取并集,获取目标结果表包括:
21.获取所述第二表格中与所述至少一个体检子项相同的至少一个体检子项;
22.关联所述第一表格与所述第二表格;
23.对所述第一表格与所述第二表格取并集,获取目标结果表。
24.进一步的,在所述根据所述至少一个体检子项,将所述第一表格与所述第二表格取并集,获取目标结果表之后,所述方法还包括:
25.判断所述目标结果表中是否有空值;
26.在判断有所述空值时,根据预设第二规则,对所述目标结果表中的所述空值进行填充。
27.进一步的,在所述根据所述至少一个体检子项,将所述第一表格与所述第二表格取并集,获取目标结果表之后,所述方法还包括:
28.对所述目标结果表与预设的异常符号进行匹配,在所述目标结果表中存在所述异常符号时,删除所述异常符号;和/或
29.获取用户指令,根据所述用户指令对所述目标结果表进行调整,所述用户指令包括列名编辑、字段顺序排列中的至少一项。
30.为了解决上述技术问题,本技术实施例还提供一种文档的处理装置,采用了如下所述的技术方案:
31.获取模块,用于获取目标文档,所述目标文档为预进行结构化处理的体检报告;
32.读取模块,用于读取所述目标文档中的文本信息,所述文本信息包括文字信息和列表信息;
33.提取模块,用于从所述文本信息中提取所有体检项、体检项结论以及至少一个体检子项,形成第一表格;
34.排序模块,用于根据第一预设规则,将所述列表信息排序形成第二表格,所述第二表格中至少包括所有体检子项;
35.处理模块,用于根据所述至少一个体检子项,将所述第一表格与所述第二表格取并集,获取目标结果表。
36.进一步的,所述装置还包括:删除模块,用于在python中使用正则表达式对所述文本信息进行预处理,删除重叠出现的文字字符。
37.进一步的,所述提取模块,还用于从所述文本信息中提取基础信息,所述基础信息包括体检报告编号、客户证件号、体检时间、客户年龄中的至少一项;
38.所述装置还包括填入模块,用于将所述基本信息填入所述第一表格。
39.进一步的,所述删除模块还用于对所述列表信息进行循环遍历,去除空缺值。
40.进一步的,所述处理模块包括获取单元、关联单元以及处理单元;
41.所述获取单元,用于获取所述第二表格中与所述至少一个体检子项相同的至少一个体检子项;
42.所述关联单元,用于关联所述第一表格与所述第二表格;
43.所述处理单元,用于对所述第一表格与所述第二表格取并集,获取目标结果表。
44.进一步的,所述装置还包括判断模块和填充模块;
45.所述判断模块,用于判断所述目标结果表中是否有空值;
46.所述填充模块,用于在判断有所述空值时,根据预设第二规则,对所述目标结果表中的所述空值进行填充。
47.进一步的,所述删除模块,还用于对所述目标结果表与预设的异常符号进行匹配,在所述目标结果表中存在所述异常符号时,删除所述异常符号;
48.所述装置还包括调整模块,用于获取用户指令,根据所述用户指令对所述目标结果表进行调整,所述用户指令包括列名编辑、字段顺序排列中的至少一项。
49.为了解决上述技术问题,本技术实施例还提供一种计算机设备,采用了如下所述的技术方案:
50.提供一种计算机设备,包括,一个或多个处理器;存储器,用于存储一个或多个程序,使得一个或多个处理器实现上述任意一项所述的文档的处理方法。
51.为了解决上述技术问题,本技术实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
52.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的文档的处理方法。
53.与现有技术相比,本技术实施例主要有以下有益效果:
54.本技术通过获取目标文档,所述目标文档为预进行结构化处理的体检报告,以实现目标文件的获取;读取目标文档中的文本信息,文本信息包括文字信息和列表信息,以实现对目标文件中文字部分和表格部分的读取;从文本信息中提取所有体检项、体检项结论以及至少一个体检子项,形成第一表格,以实现对体检报告中体检项和体检子项信息的抽取;根据第一预设规则,将列表信息排序形成第二表格,第二表格中至少包括所有体检子项,以实现对体检报告中所有体检子项信息的抽取;以及,根据至少一个体检子项,将第一表格与第二表格取并集,获取目标结果表,以实现根据体检子项,整合第一表格和第二表格,完成对体检报告的信息管理。本技术可以对文件进行处理,形成结构化的数据表格,提高了数据的处理效率,降低了数据的加工成本,提高了企业的整体投入产出比。
附图说明
55.为了更清楚地说明本技术中的方案,下面将对本技术实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
56.图1是本技术可以应用于其中的示例性系统架构图;
57.图2根据本技术的文档的处理方法的一个实施例的流程图;
58.图3是根据本技术的文档的处理装置的一个实施例的结构示意图;
59.图4是根据本技术的计算机设备的一个实施例的结构示意图。
具体实施方式
60.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本技术;本技术的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本技术的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
61.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
62.为了使本技术领域的人员更好地理解本技术方案,下面将结合附图,对本技术实施例中的技术方案进行清楚、完整地描述。
63.如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
64.用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
65.终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、mp3播放器(movi ng pi cture expertsgroup aud i o layer i i i,动态影像专家压缩标准音频层面3)、mp4(movi ng pi ctureexperts group aud i o layer iv,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
66.服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
67.需要说明的是,本技术实施例所提供的文档的处理方法一般由服务器/终端设备执行,相应地,文档的处理装置一般设置于服务器/终端设备中。
68.应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
69.继续参考图2,示出了根据本技术的文档的处理方法的一个实施例的流程图。所述的文档的处理方法,包括以下步骤:
70.步骤201,获取目标文档,目标文档为预进行结构化处理的体检报告。
71.具体地,目标文件为预进行结构化数据管理的格式的体检报告。
72.步骤202,读取所述目标文档中的文本信息,所述文本信息包括文字信息和列表信息。
73.在本实施例中,以pdf文件为例,通过pdfplumber包读取文件,将文件中的内容以文本的形式存储在字符串中,形成文字信息。另外,将文件中的表格解析后存放在列表中,形成列表信息。
74.步骤203,从所述文本信息中提取所有体检项、体检项结论以及至少一个体检子项,形成第一表格。
75.具体的,本实施例在python中使用正则表达式(re包)从文本信息中提取体检项、体检项结论以及体检项下的一个体检子项,存放在新的第一表格中。实际使用中,使用正则表达式从文本信息中提取的体检项是完整的,但是各个体检报告的体检子项并不相同,因此,本发明在此主要提取体检项,另提取一个体检子项用于与后续的第二表格产生关联。
76.步骤204,根据第一预设规则,将所述列表信息排序形成第二表格,所述第二表格中至少包括所有体检子项。
77.具体地,本技术实施例根据预设的规则,对列表信息进行重新排序,形成第二表格。实际使用中,可以将各体检子项的表格进行重新排列,根据每个体检大项特征进行列表分割,使其成为如[[[大项1,细项项目,细项结论,细项结果值,细项参考区间],[细项1,结论1,结果1,区间1],[细项2,结论2,结果2,区间2],[..,..,..,..]],[[大项2,细项项目,细项结论,细项结果值,细项单位,细项简称,细项参考区间],[细项1,结论1,结果1,单位1,简称1,区间1],[细项2,结论2,结果2,单位2,简称2,区间2],[..,..,..,..]]]格式的嵌套列表。针对此种嵌套列表,采用横向合并、纵向合并,使其成为m*n维列表,其中n=大项1表头4列+大项2表头6列-大项1和大项2相同列4列得到6列,m=大项1行数+大项2行数。
[0078]
步骤205,根据所述至少一个体检子项,将所述第一表格与所述第二表格取并集,获取目标结果表。
[0079]
本技术通过获取目标文档,以实现目标文件的获取,目标文档为预进行结构化处理的体检报告;读取目标文档中的文本信息,文本信息包括文字信息和列表信息,以实现对目标文件中文字部分和表格部分的读取;从文本信息中提取所有体检项、体检项结论以及至少一个体检子项,形成第一表格,以实现对体检报告中体检项和体检子项信息的抽取;根据第一预设规则,将列表信息排序形成第二表格,第二表格中至少包括所有体检子项,以实现对体检报告中所有体检子项信息的抽取;以及,根据至少一个体检子项,将第一表格与第二表格取并集,获取目标结果表,以实现根据体检子项,整合第一表格和第二表格,完成对体检报告的信息管理。本技术可以对文件进行处理,形成结构化的数据表格,提高了数据的处理效率,降低了数据的加工成本,提高了企业的整体投入产出比。
[0080]
在本实施例的一些可选的实现方式中,在步骤203从所述文本信息中提取所有体检项、体检项结论以及至少一个体检子项,形成第一表格之前,上述电子设备还可以执行以下步骤:
[0081]
在python中使用正则表达式对所述文本信息进行预处理,删除重叠出现的文字字符。
[0082]
具体地,本发明在python中使用正则表达式(re包)对文本信息进行初步处理,删除重叠出现的中文字符,去除多余的内容。
[0083]
在本实施例的一些可选的实现方式中,在步骤203从所述文本信息中提取所有体检项、体检项结论以及至少一个体检子项,形成第一表格之前,上述电子设备还可以执行以
下步骤:
[0084]
从所述文本信息中提取基础信息,所述基础信息包括体检报告编号、客户证件号、体检时间、客户年龄中的至少一项;
[0085]
在所述从所述文本信息中提取所有体检项、体检项结论以及至少一个体检子项,形成第一表格之后,所述方法还包括:
[0086]
将所述基本信息填入所述第一表格。
[0087]
具体地,本发明在python中使用正则表达式(re包)从文本信息中提取体检报告编号、客户证件号、体检时间、客户年龄等基础信息,然后将基础信息填入第一表格中,用以对体检报告的信息进行标记。
[0088]
在一些可选的实现方式中,在上述步骤204根据第一预设规则,将所述列表信息排序形成第二表格之前,上述电子设备可以执行以下步骤:
[0089]
对所述列表信息进行循环遍历,去除空缺值。
[0090]
具体地,本发明对列表信息进行循环遍历,去除空缺值,避免未检测的体检子项出现在体检报告结果表中。
[0091]
在一些可选的实现方式中,上述步骤205根据所述至少一个体检子项,将所述第一表格与所述第二表格取并集,获取目标结果表,上述电子设备可以执行以下步骤:
[0092]
获取所述第二表格中与所述至少一个体检子项相同的至少一个体检子项;
[0093]
关联所述第一表格与所述第二表格;
[0094]
对所述第一表格与所述第二表格取并集,获取目标结果表。
[0095]
具体地,本发明使用正则表达式从第二表格中提取各个体检子项和指标结果,通过体检子项与第一表格中的体检子项进行关联,取两个表格的并集,形成目标结果表。
[0096]
在一些可选的实现方式中,上述步骤205根据所述至少一个体检子项,将所述第一表格与所述第二表格取并集,获取目标结果表之后,上述电子设备可以执行以下步骤:
[0097]
判断所述目标结果表中是否有空值;
[0098]
在判断有所述空值时,根据预设第二规则,对所述目标结果表中的所述空值进行填充。
[0099]
实际使用中,目标结果表中会出现空值,本技术根据预设的规则,对目标结果表出现的空值进行填充。
[0100]
在一些可选的实现方式中,上述步骤205根据所述至少一个体检子项,将所述第一表格与所述第二表格取并集,获取目标结果表之后,上述电子设备可以执行以下步骤:
[0101]
对所述目标结果表与预设的异常符号进行匹配,在所述目标结果表中存在所述异常符号时,删除所述异常符号;和/或
[0102]
获取用户指令,根据所述用户指令对所述目标结果表进行调整,所述用户指令包括列名编辑、字段顺序排列中的至少一项。
[0103]
具体地,本技术预先对体检报告中可能会出现的异常符合进行存储,然后将该异常符号与目标结果表中的数据进行匹配,当目标结果表中出现异常符号时,比如*号,上、下箭头时,对异常符号进行删除。另外,本技术也可以根据客户的要求,对表格中列名进行编辑,对字段顺序等进行重新排序。
[0104]
需要强调的是,为进一步保证上述目标结果表的私密和安全性,上述目标结果表
还可以存储于一区块链的节点中。
[0105]
本技术所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
[0106]
本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
[0107]
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
[0108]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(read-on l y memory,rom)等非易失性存储介质,或随机存储记忆体(random access memory,ram)等。
[0109]
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0110]
进一步参考图3,作为对上述图2所示方法的实现,本技术提供了一种文档的处理装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
[0111]
如图3所示,本实施例所述的文档的处理装置300包括:获取模块301、读取模块302、提取模块303、排序模块304以及处理模块305。其中:
[0112]
获取模块301,用于获取目标文档,所述目标文档为预进行结构化处理的体检报告;
[0113]
读取模块302,用于读取所述目标文档中的文本信息,所述文本信息包括文字信息和列表信息;
[0114]
提取模块303,用于从所述文本信息中提取所有体检项、体检项结论以及至少一个体检子项,形成第一表格;
[0115]
排序模块304,用于根据第一预设规则,将所述列表信息排序形成第二表格,所述第二表格中至少包括所有体检子项;
[0116]
处理模块305,用于根据所述至少一个体检子项,将所述第一表格与所述第二表格
取并集,获取目标结果表。
[0117]
在本实施例中,获取模块301获取目标文档,目标文档为预进行结构化处理的体检报告,以实现目标文件的获取;读取模块302读取目标文档中的文本信息,文本信息包括文字信息和列表信息,以实现对目标文件中文字部分和表格部分的读取;提取模块303从文本信息中提取所有体检项、体检项结论以及至少一个体检子项,形成第一表格,以实现对体检报告中体检项和体检子项信息的抽取;排序模块304根据第一预设规则,将列表信息排序形成第二表格,第二表格中至少包括所有体检子项,以实现对体检报告中所有体检子项信息的抽取;以及,处理模块305根据至少一个体检子项,将第一表格与第二表格取并集,获取目标结果表,以实现根据体检子项,整合第一表格和第二表格,完成对体检报告的信息管理。本技术可以对文件进行处理,形成结构化的数据表格,提高了数据的处理效率,降低了数据的加工成本,提高了企业的整体投入产出比。
[0118]
在本实施例的一些可选的实现方式中,上述装置300还包括:删除模块306,用于在python中使用正则表达式对所述文本信息进行预处理,删除重叠出现的文字字符。
[0119]
具体地,本发明在python中使用正则表达式(re包)对文本信息进行初步处理,删除重叠出现的中文字符,去除多余的内容。
[0120]
在本实施例的一些可选的实现方式中,提取模块303进一步用于:从所述文本信息中提取基础信息,所述基础信息包括体检报告编号、客户证件号、体检时间、客户年龄中的至少一项;
[0121]
所述装置300还包括:填入模块307,用于将所述基本信息填入所述第一表格。
[0122]
具体地,本发明在python中使用正则表达式(re包)从文本信息中提取体检报告编号、客户证件号、体检时间、客户年龄等基础信息,然后将基础信息填入第一表格中,用以对体检报告的信息进行标记。
[0123]
在本实施例的一些可选的实现方式中,删除模块306进一步用于:对所述列表信息进行循环遍历,去除空缺值。
[0124]
具体地,本发明对列表信息进行循环遍历,去除空缺值,避免未检测的体检子项出现在体检报告结果表中。
[0125]
在本实施例的一些可选的实现方式中,处理模块305包括获取单元3051、关联单元3052以及处理单元3053;
[0126]
所述获取单元3051,用于获取所述第二表格中与所述至少一个体检子项相同的至少一个体检子项;
[0127]
所述关联单元3052,用于关联所述第一表格与所述第二表格;
[0128]
所述处理单元3053,用于对所述第一表格与所述第二表格取并集,获取目标结果表。
[0129]
具体的,本发明使用正则表达式从第二表格中提取各个体检子项和指标结果,通过体检子项与第一表格中的体检子项进行关联,取两个表格的并集,形成目标结果表。
[0130]
在本实施例的一些可选的实现方式中,上述装置300还包括:判断模块308和填充模块309;
[0131]
所述判断模块308,用于判断所述目标结果表中是否有空值;
[0132]
所述填充模块309,用于在判断有所述空值时,根据预设第二规则,对所述目标结
果表中的所述空值进行填充。
[0133]
实际使用中,目标结果表中会出现空值,本技术根据预设的规则,对目标结果表出现的空值进行填充。
[0134]
在本实施例的一些可选的实现方式中,上述删除模块306,还用于对所述目标结果表与预设的异常符号进行匹配,在所述目标结果表中存在所述异常符号时,删除所述异常符号;
[0135]
上述装置300还包括:调整模块310,用于获取用户指令,根据所述用户指令对所述目标结果表进行调整,所述用户指令包括列名编辑、字段顺序排列中的至少一项。
[0136]
具体地,本技术预先对体检报告中可能会出现的异常符合进行存储,然后将该异常符号与目标结果表中的数据进行匹配,当目标结果表中出现异常符号时,比如*号,上、下箭头时,对异常符号进行删除。另外,本技术也可以根据客户的要求,对表格中列名进行编辑,对字段顺序等进行重新排序。
[0137]
需要强调的是,为进一步保证上述目标结果表的私密和安全性,上述目标结果表还可以存储于一区块链的节点。
[0138]
为解决上述技术问题,本技术实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
[0139]
所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是,图中仅示出了具有组件41-43的计算机设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(app l i cat i on spec i f i c i ntegrated ci rcu it,as i c)、可编程门阵列(fi e l d-programmab l e gate array,fpga)、数字处理器(di g ita l s i gna l processor,dsp)、嵌入式设备等。
[0140]
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
[0141]
所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41也可以是所述计算机设备4的外部存储设备,例如该计算机设备6上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件,例如文档的处理方法的计算机可读指令等。此外,所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。
[0142]
所述处理器42在一些实施例中可以是中央处理器(central processing unit,
cpu)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据,例如运行所述文档的处理方法的计算机可读指令。
[0143]
所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。
[0144]
本技术计算机设备通过获取目标文档,以实现目标文件的获取,目标文档为预进行结构化处理的体检报告;读取目标文档中的文本信息,文本信息包括文字信息和列表信息,以实现对目标文件中文字部分和表格部分的读取;从文本信息中提取所有体检项、体检项结论以及至少一个体检子项,形成第一表格,以实现对体检报告中体检项和体检子项信息的抽取;根据第一预设规则,将列表信息排序形成第二表格,第二表格中至少包括所有体检子项,以实现对体检报告中所有体检子项信息的抽取;以及,根据至少一个体检子项,将第一表格与第二表格取并集,获取目标结果表,以实现根据体检子项,整合第一表格和第二表格,完成对体检报告的信息管理。本技术可以对文件进行处理,形成结构化的数据表格,提高了数据的处理效率,降低了数据的加工成本,提高了企业的整体投入产出比。
[0145]
本技术还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的文档的处理方法的步骤。
[0146]
本技术计算机可读存储介质通过获取目标文档,以实现目标文件的获取,目标文档为预进行结构化处理的体检报告;读取目标文档中的文本信息,文本信息包括文字信息和列表信息,以实现对目标文件中文字部分和表格部分的读取;从文本信息中提取所有体检项、体检项结论以及至少一个体检子项,形成第一表格,以实现对体检报告中体检项和体检子项信息的抽取;根据第一预设规则,将列表信息排序形成第二表格,第二表格中至少包括所有体检子项,以实现对体检报告中所有体检子项信息的抽取;以及,根据至少一个体检子项,将第一表格与第二表格取并集,获取目标结果表,以实现根据体检子项,整合第一表格和第二表格,完成对体检报告的信息管理。本技术可以对文件进行处理,形成结构化的数据表格,提高了数据的处理效率,降低了数据的加工成本,提高了企业的整体投入产出比。
[0147]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本技术各个实施例所述的方法。
[0148]
显然,以上所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例,附图中给出了本技术的较佳实施例,但并不限制本技术的专利范围。本技术可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本技术的公开内容的理解更加透彻全面。尽管参照前述实施例对本技术进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本技术说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本技术专利保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1