本技术涉及计算机,尤其涉及文档标注,具体涉及一种标注数据的生成方法、装置、计算机设备及存储介质。
背景技术:
::1、pdf文档(portable document format)是一种用于电子文档的文件格式,因其具有高度可移植性、跨平台性、安全性和可读性,常用于电子书籍、官方公文、证明材料等领域,故很多公司和机构会通过pdf文档来分享信息并进行数据传递,所以对于数据情报公司而言,从承载大量丰富信息的pdf文档中抽取关键信息是不可或缺的能力。2、相对于纯文本数据,pdf这种模态的文档因其结构复杂、排版多种多样、相关联的信息在文档中展示分散等原因,并不利于数据工作人员或者机器去做信息处理,针对pdf文档中信息的标注效率也相对较低,标注数据的准确度不高。技术实现思路1、本技术提供一种标注数据的生成方法、装置、计算机设备及存储介质,使得pdf文档的标注数据生成更准确,标注效率更高,同时在生成的标注信息中加入关联信息以及目标信息在pdf文档中的相对位置信息,使得从pdf文档中确定的目标信息也方便进行关联和溯源,帮助数据人员提升信息读取效率。2、一方面,本技术提供一种标注数据的生成方法,包括:3、获取待标注的pdf文档;4、响应于信息标注指令,确定pdf文档中目标标签对应的目标信息,目标信息的关联信息,及目标信息在pdf文档中的相对位置信息;5、根据目标标签、关联信息以及相对位置信息,生成目标信息的标注数据。在本技术另一些实施方式中,信息标注指令包括连续的第一信息标注指令和第二信息标注指令;6、其中,响应于信息标注指令,确定pdf文档中目标标签对应的目标信息,目标信息的关联信息,及目标信息在pdf文档中的相对位置信息,包括:7、响应于第一信息标注指令和第二信息标注指令,确定pdf文档中目标标签对应的目标信息;8、确定目标信息的关联信息;9、确定目标信息在pdf文档中的相对位置信息。10、在本技术另一些实施方式中,响应于第一信息标注指令和第二信息标注指令,确定pdf文档中目标标签对应的目标信息,包括:11、在人机交互界面显示pdf文档的情况下,响应于第一信息标注指令,确定目标标签;其中,目标标签为至少一个预设标签中被选中的标签,至少一个预设标签被显示在人机交互界面的预设位置;12、响应于第二信息标注指令,确定pdf文档中被选中的文本内容信息,作为目标标签对应的目标信息。13、在本技术另一些实施方式中,确定目标信息的关联信息,包括:14、对目标信息进行上下文语义分析,得到语义分析结果;15、基于语义分析结果,确定目标信息的关联信息,关联信息用于显示在预设大小的浮窗中,浮窗与pdf文档的显示窗口不重合。16、在本技术另一些实施方式中,确定目标信息在pdf文档中的相对位置信息,包括:17、以pdf文档的一个端点为原点,将一页pdf文档的高宽归一化到预设数值范围;18、根据预设数值范围,确定目标信息在pdf文档中的相对位置信息。19、在本技术另一些实施方式中,根据预设数值区间,确定目标信息在pdf文档中的相对位置信息,包括:20、确定目标信息所占用的目标文本框,目标文本框包括至少一个文本框;21、获取目标文本框的高度值和宽度值,并计算目标文本框中各文本框间隔pdf文档2个预设边的距离值,得到目标距离四元组,目标距离四元组中包括至少一个距离四元组,每个距离四元组对应目标文本框中一个文本框;22、将目标距离四元组,作为目标信息在pdf文档中的相对位置信息。23、在本技术另一些实施方式中,标注数据的生成方法还包括:24、将目标信息的标注数据渲染到人机交互界面的标签列表中;25、响应作用于标签列表的指令,更新目标信息的标注数据。26、在本技术另一些实施方式中,响应作用于标签列表的指令,更新目标信息的标注数据,包括:27、响应针对于标签列表的第一标签选中指令,通过pdf文档的显示窗口,跳转显示第一标签对应的第一文字内容;28、获取针对第一标签和第一文字内容的第一审核意见;29、基于第一审核意见,更新第一标签和第一文字内容的对应关系。30、在本技术另一些实施方式中,响应作用于标签列表的指令,更新目标信息的标注数据,包括:31、响应针对于目标信息的第二文字内容选中指令,确定标签列表中与第二文字内容对应的第二标签;32、获取针对第二标签和第二文字内容的第二审核意见;33、基于第二审核意见,更新第二标签和第二文字内容的对应关系。34、另一方面,本技术实施例还提供一种标注模型的训练方法,包括:35、获取采集的多个pdf文档和多个pdf文档的多个标注数据,每个标注数据对应一个pdf文档,多个标注数据中至少一个为权利要求1至6中任一标注数据的生成方法生成的;36、根据多个pdf文档和多个标注数据,对预设的pdf文档的初始标注模型进行训练,得到pdf文档标注模型,pdf文档标注模型用于获取pdf文档的标注数据。37、另一方面,本技术还提供一种标注数据的生成装置,装置包括:38、获取模块,用于获取待标注的pdf文档;39、确定模块,用于响应于信息标注指令,确定pdf文档中目标标签对应的目标信息,目标信息的关联信息,及目标信息在pdf文档中的相对位置信息;40、标注数据生成模块,用于根据目标标签、关联信息以及相对位置信息,生成目标信息的标注数据。41、在本技术另一些实施方式中,信息标注指令包括连续的第一信息标注指令和第二信息标注指令;42、其中,确定模块具体用于:43、响应于第一信息标注指令和第二信息标注指令,确定pdf文档中目标标签对应的目标信息;44、确定目标信息的关联信息;45、确定目标信息在pdf文档中的相对位置信息。46、在本技术另一些实施方式中,确定模块具体用于:47、在人机交互界面显示pdf文档的情况下,响应于第一信息标注指令,确定目标标签;其中,目标标签为至少一个预设标签中被选中的标签,至少一个预设标签被显示在人机交互界面的预设位置;48、响应于第二信息标注指令,确定pdf文档中被选中的文本内容信息,作为目标标签对应的目标信息。49、在本技术另一些实施方式中,确定模块具体用于:50、对目标信息进行上下文语义分析,得到语义分析结果;51、基于语义分析结果,确定目标信息的关联信息,关联信息用于显示在预设大小的浮窗中,浮窗与pdf文档的显示窗口不重合。52、在本技术另一些实施方式中,确定模块具体用于:53、以pdf文档的一个端点为原点,将一页pdf文档的高宽归一化到预设数值范围;54、根据预设数值范围,确定目标信息在pdf文档中的相对位置信息。55、在本技术另一些实施方式中,确定模块具体用于:56、确定目标信息所占用的目标文本框,目标文本框包括至少一个文本框;57、获取目标文本框的高度值和宽度值,并计算目标文本框中各文本框间隔pdf文档2个预设边的距离值,得到目标距离四元组,目标距离四元组中包括至少一个距离四元组,每个距离四元组对应目标文本框中一个文本框;58、将目标距离四元组,作为目标信息在pdf文档中的相对位置信息。59、在本技术另一些实施方式中,装置还包括人机交互模块,人机交互模块用于:60、将目标信息的标注数据渲染到人机交互界面的标签列表中;61、响应作用于标签列表的指令,更新目标信息的标注数据。62、在本技术另一些实施方式中,人机交互模块具体用于:63、响应针对于标签列表的第一标签选中指令,通过pdf文档的显示窗口,跳转显示第一标签对应的第一文字内容;64、获取针对第一标签和第一文字内容的第一审核意见;65、基于第一审核意见,更新第一标签和第一文字内容的对应关系。66、在本技术另一些实施方式中,人机交互模块具体用于:67、响应针对于目标信息的第二文字内容选中指令,确定标签列表中与第二文字内容对应的第二标签;68、获取针对第二标签和第二文字内容的第二审核意见;69、基于第二审核意见,更新第二标签和第二文字内容的对应关系。70、另一方面,本技术实施例还提供一种标注模型的训练装置,装置包括:71、获取模块,用于获取采集的多个pdf文档和多个pdf文档的多个标注数据,每个标注数据对应一个pdf文档,多个标注数据中至少一个为第一方面中任一标注数据的生成方法生成的;72、训练模块,用于根据多个pdf文档和多个标注数据,对预设的pdf文档的初始标注模型进行训练,得到pdf文档标注模型,pdf文档标注模型用于获取pdf文档的标注数据。73、另一方面,本技术还提供一种计算机设备,其包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行计算机程序时实现如第一方面任一实施方式中的标注数据的生成方法,或者实现第二方面标注模型的训练方法中的步骤。74、另一方面,本技术一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器进行加载,以执行权利要求第一方面任一实施方式中的标注数据的生成方法中的步骤,或者实现第二方面标注模型的训练方法中的步骤。75、相较于现有技术,本技术实施例中,通过获取待标注的pdf文档;响应于信息标注指令,确定pdf文档中目标标签对应的目标信息,目标信息的关联信息,及目标信息在pdf文档中的相对位置信息;根据目标标签、关联信息以及相对位置信息,生成目标信息的标注数据。由于本技术实施例针对pdf文档中目标信息的标注数据是结合目标标签、目标信息的关联信息以及目标信息在所述pdf文档中的相对位置信息等多种信息来生成的,因此使得pdf文档的标注数据生成更准确,标注效率更高,同时在生成的标注信息中加入关联信息以及目标信息在pdf文档中的相对位置信息,使得从pdf文档中确定的目标信息也方便进行关联和溯源,帮助数据人员提升信息读取效率。当前第1页12当前第1页12