一种文件信息处理方法、装置、计算机设备及存储介质与流程

文档序号：34140333发布日期：2023-05-12 21:42阅读：36来源：国知局

本发明涉及计算机，更具体地说，涉及一种文件信息处理方法、装置、计算机设备及存储介质。
背景技术：
：：1、pdf（portable document format）又称为“便携式文档格式”，是由adobe systems用于与应用程序、操作系统、硬件无关的方式进行文件交换所发展出的文件格式。pdf文件以postscript语言图象模型为基础，无论在哪种打印机上都可保证精确的颜色和准确的打印效果，即pdf会忠实地再现原稿的每一个字符、颜色以及图象。2、随着科技的发展，半导体芯片作为现代科技的核心，已经广泛应用于计算机、智能手机、电视、汽车、医疗设备等众多领域。然而，在半导体芯片研发过程中，涉及到的元素和材料种类越来越多，使得研发变得更加复杂和困难，并且这些数据通常以图片和表格的形式出现在pdf文件中，因此需要对pdf文件进行数据挖掘和抽取。在研发半导体芯片时，速度和效率也是非常重要的因素，手动从pdf文件中提取图片和表格是一项非常繁琐和耗时的任务。可见目前对于pdf文件正文中图片及对应图注信息的识别，还没有一套自动化、准确度高、速度快的方法。此外，现有技术中，由于原始pdf文件表格中的格式样式差异化较大，识别表格效果不理想，识别准确率较低。更重要的是，表格标题作为表格数据主体的说明，是表格中不可或缺的一部分，对于数据检索具有重要意义，而现有表格识别软件大多忽略了其标题。由此，需要将pdf文件中的关键信息自动化识别并重组，给阅读者提供精确到文本、表格、图片的内容查找，而不仅仅停留在文件整体的搜索，从而提高文件的阅读效率。3、经检索，中国专利申请，申请公布号cn106951400a，申请公布日2017年7月14日，公开了一种pdf文件的信息抽取方法及装置。该发明针对pdf文件，分别将每一页中的信息生成相应的树形结构；分别统计每一页相应的树形结构中每一个节点的信息，从每一页中识别并抽取标题、正文、图表标题和图表结尾；进行汇总，对标题进行等级划分，并根据图表标题和图表结尾对图表进行抽取，分别将正文、图表映射到相应的标题和图表标题中，最终生成pdf文件的结构化数据，但是该方案需要统计树形结构中每一节点的信息，操作步骤繁琐，从而在pdf文件中识别效率不高。技术实现思路1、1.要解决的技术问题2、针对现有技术中存在的对pdf文件中图片及对应图注信息识别准确度低、表格及对应表格标题匹配速度慢等问题，本发明提供了一种文件信息处理方法、装置、计算机设备及存储介质，它可以实现自动化、准确高效地识别pdf文件中的图片及图注、表格及表格标题，极大地提高了pdf文件信息识别的工作效率，进一步提升阅读体验感。3、2.技术方案4、本发明的目的通过以下技术方案实现。5、一种文件信息处理方法，其步骤包括：6、输入pdf文件，对pdf文件进行预处理，得到待识别图片；7、将待识别图片进行区域分割得到信息区域，将信息区域进行分类，所述信息区域包括图片区域、表格区域和文本区域中的一项或多项；8、建立直角坐标系，提取图片区域以及文本区域，设定区域置信度值，排除区域置信度小于设定区域置信度值的图片区域以及文本区域，对保留区域坐标标准化，得到标准化区域；计算标准化区域中图片区域与文本区域的横坐标重叠率以及纵坐标重叠率，得到与图片区域匹配的文本区域，提取文本区域中的图注文字，筛选出文本区域中为图片区域的图注区域；将图片区域与图注区域进行归一化处理；9、提取表格区域以及文本区域，获取表格主体区域坐标，将表格主体区域坐标在横向坐标轴和纵向坐标轴上扩展得到待识别区域坐标，通过分析待识别区域坐标得到文本区域坐标，提取文本区域坐标中的文本区域，预定义正则表达式，通过正则表达式得到符合表格标题特征的文本区域；计算表格主体区域与符合表格标题特征的文本区域的距离，确定表格标题；10、输出识别结果，所述识别结果包含图片区域、图注区域、图注文字，以及与表格主体匹配的表格标题。11、进一步地，通过排版工具划分待识别图片得到所述信息区域，所述信息区域信息包括区域置信度，设定所述区域置信度值为r，其中，0＜r＜1。12、进一步地，所述标准化区域中图片区域与文本区域的横坐标重叠率以及纵坐标重叠率的计算公式为：13、h横=mx/min（ax，bx）14、h纵=my/min（ay，by）15、其中，h横表示图片区域与文本区域横坐标重叠率，mx表示图片区域与文本区域横坐标重叠部分，ax表示图片区域横坐标重叠部分，bx表示文本区域横坐标重叠部分，h纵表示图片区域与文本区域纵坐标重叠率，my表示图片区域与文本区域纵坐标重叠部分，ay表示图片区域纵坐标重叠部分，by表示文本区域纵坐标重叠部分；16、设定标准重叠率值k，若h横大于k且h纵大于k，则得到与图片区域匹配的文本区域。17、进一步地，所述将图片区域与图注区域进行归一化处理的步骤为：选择图片区域坐标为（f_x_min，f_y_min，f_x_max，f_y_max），选择图注区域坐标为（w_x_min，w_y_min，w_x_max，w_y_max）；计算图片区域与图注区域横坐标与纵坐标的距离进行匹配图片与图注，所述计算公式为：18、p横=min(abs(w_x_min - f_x_max)，abs(w_x_max - f_x_min)) - prefer19、p纵=min(abs(w_y_min - f_y_max)，abs(w_y_max - f_y_min)) - prefer20、其中，f_x_min表示图片区域横坐标最小值，f_y_min表示图片区域纵坐标最小值，f_x_max表示图片区域横坐标最大值，f_y_max表示图片区域纵坐标最大值，w_x_min表示图注区域横坐标最小值，w_y_min表示图注区域纵坐标最小值，w_x_max表示图注区域横坐标最大值，w_y_max表示图注区域纵坐标最大值，p横表示图片区域与图注区域的横坐标距离，p纵表示图片区域与图注区域的纵坐标距离，prefer表示当前页修正量。21、进一步地，所述扩展是指将表格主体区域坐标沿横向坐标轴扩大m倍且沿纵向坐标轴上扩大n倍，得到待识别区域坐标，m≥1，n≥0.15。22、进一步地，所述得到符合表格标题特征的文本区域的计算公式为：23、m水平=δx/min(δx1,δx2)24、m垂直=δy/min(δy1,δy2)25、其中，m水平表示表格主体区域与文本区域的水平重叠率，δx表示表格主体区域与文本区域的水平重叠部分，δx1表示表格主体区域水平长度，δx2表示文本区域水平长度，m垂直表示表格主体区域与文本区域的垂直重叠率，δy表示表格主体区域与文本区域的垂直重叠部分，δy1表示表格主体区域垂直长度，δy2表示文本区域垂直长度；26、设定重叠率阈值f，若m水平＞f且m垂直＞f，则得到符合表格标题特征的文本区域。27、进一步地，表格主体区域与符合表格标题特征的文本区域的距离的计算公式为：28、h水平=min(abs(x1max-x2max),abs(x1max-x2min),abs(x1min-x2max),abs(x1min-x2min))29、h垂直=min(abs(y1max-y2min),abs(y1max-y2max),abs(y1min-y2min),abs(y1min-y2max))30、其中，h水平表示表格主体区域与符合表格标题特征的文本区域的水平距离，x1max表示表格主体区域横坐标极大值，x1min表示表格主体区域横坐标极小值，x2max表示文本区域横坐标极大值，x2min表示文本区域横坐标极小值，h垂直表示表格区域与符合表格标题特征的文本区域的垂直距离，y1max表示表格主体区域纵坐标极大值，y1min表示表格主体区域纵坐标极小值，y2max表示文本区域纵坐标极大值，y2min表示文本区域纵坐标极小值。31、一种文件信息处理装置，包括：32、输入模块，输入pdf文件，对pdf文件进行预处理，得到待识别图片；33、识别模块，将待识别图片进行区域分割得到信息区域，将信息区域进行分类，所述信息区域包括图片区域、表格区域和文本区域中的一项或多项；34、处理模块，建立直角坐标系，提取图片区域以及文本区域，设定区域置信度值，排除区域置信度小于设定区域置信度值的图片区域以及文本区域，对保留区域坐标标准化，得到标准化区域；计算标准化区域中图片区域与文本区域的横坐标重叠率以及纵坐标重叠率，得到与图片区域匹配的文本区域，提取文本区域中的图注文字，筛选出文本区域中为图片区域的图注区域，将图片区域与图注区域进行归一化处理；提取表格区域以及文本区域，获取表格主体区域坐标，将表格主体区域坐标在横向坐标轴和纵向坐标轴上扩展得到待识别区域坐标，通过分析待识别区域坐标得到文本区域坐标，提取文本区域坐标中的文本区域，预定义正则表达式，通过正则表达式得到符合表格标题特征的文本区域，计算表格主体区域与符合表格标题特征的文本区域的距离，确定表格标题；35、输出模块，输出识别结果，所述识别结果包含标准图片区域、图注区域、图注文字，以及与表格主体匹配的表格标题。36、一种计算机设备，包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述所述的方法。37、一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述所述的方法。38、3.有益效果39、相比于现有技术，本发明的优点在于：40、本发明提供的一种文件信息处理方法、装置、计算机设备及存储介质，通过将pdf文件中的关键信息自动化抽取并重组，实现自动化、准确高效地识别pdf文件中的图片及图注，同时，不仅能够快速识别出表格主体内容，还能够准确识别出表格标题，完成表格主体和表格标题的匹配，使表格数据更易于分析和处理，给阅读者提供精确到文本、表格、图片的内容查找，有效提高pdf文件信息识别的工作效率。当前第1页12当前第1页12

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郑磊宋炤坤鲍琦
技术所有人：合肥机数量子科技有限公司
我是此专利的发明人

上一篇：窗口管理器的制作方法
上一篇：GaAs集成电路的MIM电容器的失效定位方法和装置与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。