结构化数据的生成方法、装置、计算机设备及存储介质与流程

文档序号:35706654发布日期:2023-10-12 07:16阅读:47来源:国知局
本发明涉及人工智能及医疗健康领域,尤其涉及一种结构化数据的生成方法、装置、计算机设备及存储介质。
背景技术
::1、便携文件格式(portable document format,pdf)电子文件格式可以将文字、表格等封装在一个文件中,具有跨平台、高集成度和高安全性等优点。电子书、公司文告、网络资料、产品说明以及检查报告等资料开始使用pdf格式的文件。2、对于pdf文件提取结构化数据是企业提高数据资产使用效率的一种方式。目前,从pdf文件中提取结构化数据的技术,主要是基于规则以及统计的方法,使用过程结合人工指定目标内容所在页码、坐标范围等信息,对pdf中规范的表格文本转换为结构化数据。3、由于体检中心和医院等机构对于检查报告的格式不统一,检查报告中可能包括表格、文本段落等。现有技术的方式无法实现将检查报告中数据都转换为结构化数据。技术实现思路1、本发明提供一种结构化数据的生成方法、装置、计算机设备及存储介质,以解决现有技术中无法实现将检查报告中的数据都转换为结构化数据的技术问题。2、第一方面,本发明实施例提供了一种结构化数据的生成方法,方法包括:3、对目标文件进行文本块提取,获得多个初始文本块;4、根据科室文本块获取规则,对各所述初始文本块进行筛选,获得科室文本块;5、根据所述初始文本块中的文本块行号,对除了所述科室文本块的各所述初始文本块进行划分,得到属于每个科室文本块的至少一个初始文本块;6、将所述科室文本块和属于所述科室文本块的所述初始文本块,依序作为待划分文本块;7、根据特征数据划分规则,对各所述待划分文本块进行划分,得到第一表格特征数据、第二表格特征数据以及文本段落特征数据;8、根据所述第一表格特征数据、所述第二表格特征数据以及所述文本段落特征数据,生成所述目标文件的结构化数据。9、第二方面,本发明实施例还提供了一种结构化数据的生成装置,装置包括:10、初始文本块获取模块,用于对目标文件进行文本块提取,获得多个初始文本块;11、初始文本块筛选模块,用于根据科室文本块获取规则,对各所述初始文本块中进行筛选,获得科室文本块;12、初始文本块划分模块,用于根据所述初始文本块中的文本块行号,对除了所述科室文本块的各所述初始文本块进行划分,得到属于每个科室文本块的至少一个初始文本块;13、待划分文本块获取模块,用于将所述科室文本块和属于所述科室文本块的所述初始文本块,依序作为待划分文本块;14、待划分文本块划分模块,用于根据特征数据划分规则,对各所述待划分文本块进行划分,得到第一表格特征数据、第二表格特征数据以及文本段落特征数据;15、结构化数据生成模块,用于根据所述第一表格特征数据、所述第二表格特征数据以及所述文本段落特征数据,生成所述目标文件的结构化数据。16、第三方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述方法的步骤。17、第四方面,本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述方法的步骤。18、上述结构化数据的生成方法、装置、计算机设备及存储介质所实现的方案中,可以通过客户端接收目标文件,并对目标文件进行文本块提取,获得多个初始文本块,根据科室文本块获取规则,对各初始文本块进行筛选,获得科室文本块,根据初始文本块中的文本块行号,对除了科室文本块的各个初始文本块进行划分,得到属于每个科室文本块的至少一个初始文本块,根据科室文本块和属于科室文本块的至少一个初始文本块,得到待划分文本块。根据特征数据划分规则,对各待划分文本块进行划分,得到第一表格特征数据、第二表格特征数据以及文本段落特征数据,根据第一表格特征、第二表格特征以及文本段落特征数据,生成目标文件的结构化数据,将目标文件的结构化数据反馈回客户端,在本发明中,通过科室文本块和属于科室文本块的至少一个初始文本块,得到待划分文本块,对待划分文本块进行不同特征数据的划分,得到三种不同的特征数据,实现了在目标文件的文本块格式不同的情况下,可以获得对应的特征数据。根据得到的第一表格特征数据、第二表格特征数据以及文本段落特征数据,生成目标文件的结构化数据,实现了对目标文件中不同文本形式的有针对性的处理,生成结构化数据,提高了结构化数据生成的准确度。技术特征:1.一种结构化数据的生成方法,其特征在于,包括:2.根据权利要求1所述的结构化数据的生成方法,其特征在于,所述对目标文件进行文本块提取,获得多个初始文本块,包括:3.根据权利要求1所述的结构化数据的生成方法,其特征在于,所述初始文本块还包括文本块坐标;4.根据权利要求1所述的结构化数据的生成方法,其特征在于,所述目标文件包括至少一个页面;所述根据特征数据划分规则,对各所述待划分文本块进行划分,得到第一表格特征数据、第二表格特征数据以及文本段落特征数据,包括:5.根据权利要求4所述的结构化数据的生成方法,其特征在于,所述根据特征数据获取子规则,对各第一文本块进行筛选,获得第二文本块,包括:6.根据权利要求5所述的结构化数据的生成方法,其特征在于,所述针对各第一文本块中包括的每个科室文本块,根据所述科室文本块下的每个表头文本块中首个字符的字符坐标,与所述科室文本块下的至少一个第三文本块的首个字符的字符坐标,判断是否存在所述第三文本块属于所述表头文本块之前,所述方法还包括:7.根据权利要求5所述的结构化数据的生成方法,其特征在于,所述根据所述科室文本块下的每个表头文本块中首个字符的字符坐标,与所述科室文本块下的至少一个第三文本块的首个字符的字符坐标,判断是否存在所述第三文本块属于所述表头文本块,包括:8.一种结构化数据的生成装置,其特征在于,包括:9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。技术总结本发明涉及人工智能和医疗健康领域,公开了一种结构化数据的生成方法、装置、计算机设备及存储介质。方法包括从目标文件提取各初始文本块;对各初始文本块中进行筛选,获得科室文本块;对除了科室文本块的各初始文本块进行划分,得到属于每个科室文本块的至少一个初始文本块;将科室文本块和属于科室文本块的初始文本块,依序作为待划分文本块;对各待划分文本块进行划分,得到第一表格特征数据、第二表格特征数据以及文本段落特征数据;根据获得的三种特征数据,生成目标文件的结构化数据,实现了对目标文件中不同文本形式的有针对性的处理,进而基于三种特征数据生成结构化数据,提高了结构化数据生成的准确度。技术研发人员:何军受保护的技术使用者:平安科技(深圳)有限公司技术研发日:技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1