一种基于PDF的信息处理方法、系统和存储介质与流程

文档序号：35377086发布日期：2023-09-08 19:38阅读：56来源：国知局

本发明涉及网络媒体新闻管理发布，特别是涉及一种基于pdf的信息处理方法、系统和存储介质。

背景技术：

1、目前传统的报业机构需要通过新型网络媒体平台上传电子报刊，由于新闻行业的严肃性，就要求对外发布的新闻必须经过编辑和审核之后才能正式对外发布。

2、现有技术中传统的反解处理方案为需要借助自然语言处理、机器学习等技术，并涉及到文本分类、信息抽取、关系分析等多个方面，例如，新闻文本反解技术将文本中的信息进行结构化、归纳、分类等处理，从而实现对文本内容的理解和分析，其主要步骤如下：文本预处理：对原始文本进行清洗、分段、分句等操作，以去除无用信息和干扰因素；实体识别：对文本中出现的人名、地名、组织机构名等实体进行识别和提取，以帮助理解文本中的主要内容；事件抽取：通过分析文本中的关键词、实体等信息，抽取文本所描述的事件或者主题，并将其分类归纳；语法分析：通过自然语言处理等技术，对文本中的语法结构进行分析，把握文本的语义、逻辑、情感等要素；建立知识库：根据分析结果，将相关的实体、事件等信息存储到知识库中，建立起词汇、语义、逻辑等方面的关系。

3、但现有技术中的新闻文本反解技术比较复杂。

技术实现思路

1、为了克服现有技术存在的缺陷与不足，本发明提出了一种基于pdf的信息处理方法、系统和存储介质。

2、为了达到上述第一目的，本发明采用以下技术方案：

3、一种基于pdf的信息处理方法，所述方法包括以下步骤：

4、获取pdf文件；

5、响应于针对所述pdf文件的转换请求，对所述pdf文件的每一页进行页处理转换，以得到与所述pdf文件对应的第一目标素材信息和第二目标素材信息；

6、响应于操作焦点的触发条件以对目标空间对应的第一目标素材信息和第二目标素材信息进行内容整合，即通过对所述目标空间识别成块、成行、成段以形成反解文本内容，其中所述目标空间为通过所述操作焦点的触发条件确定。

7、作为优选的技术方案，在页处理转换中，具体包括：

8、提取pdf文件的二进制编码信息，所述二进制编码信息包含对应所有素材信息；

9、对所述二进制编码信息进行分类得到第一目标素材信息和第二目标素材信息；

10、当素材信息的类型为第一素材类型时，确定该素材信息的字体、大小、颜色以及位置分类为所述第一目标素材信息；

11、当素材信息的类型为第二素材类型或第三素材类型时，确定该素材信息的颜色、大小、位置分类为所述第二目标素材信息。

12、作为优选的技术方案，所述触发条件包括点击行为；

13、在响应于操作焦点的触发条件以对目标空间对应的第一目标素材信息和第二目标素材信息进行内容整合中，包括：

14、响应于操作焦点的所述点击行为，确定第一文段联系信息以识别第一块区；

15、对所述第一块区对应的第一目标素材信息、第二目标素材信息进行内容整合。

16、作为优选的技术方案，所述触发条件包括移动行为；

17、在响应于操作焦点的触发条件以对目标空间对应的第一目标素材信息和第二目标素材信息进行内容整合中，还包括：

18、响应于操作焦点的所述移动行为，确定第二文段联系信息以识别第二块区，其中所述第二文段联系信息包括字符字体和文字大小，所述第二块区为根据字符字体和文字大小使得字符与字符之间识别成行得到；

19、对所述第二块区对应的第一目标素材信息和第二目标素材信息进行内容整合。

20、作为优选的技术方案，在响应于操作焦点的触发条件以对目标空间对应的第一目标素材信息和第二目标素材信息进行内容整合中，还包括：

21、当通过操作焦点的多次所述点击行为产生多个第一块区时，确定多个第一文段联系信息，每个第一文段联系信息用于识别其点击行为对应的第一块区；

22、当两个第一块区在内容上具有上下文关联且在所述pdf文件中的位置区域为隔断关系时，则标记为跨块状态；

23、确定第三文段联系信息以对标记为跨块状态的第一区块建立内容关联；

24、根据所述第三文段联系信息对所述多个第一块区对应的第一目标素材信息和第二目标素材信息进行内容整合；

25、其中所述第一文段联系信息为字符和字符间的距离，所述第一块区为根据所述字符和字符间的距离使得字符与字符之间识别成块得到，所述第三文段联系信息包括行位置和行间距，根据所述行位置和行间距使得行与行之间识别成段，以完成对标记为跨块状态的第一区块建立内容关联。

26、作为优选的技术方案，在响应于操作焦点的触发条件以对目标空间对应的第一目标素材信息和第二目标素材信息进行内容整合中，包括：

27、在内容整合时，采用预设语义预测模型进行新闻语义识别，其中所述预设语义预测模型具体根据识别维度进行处理，所述识别维度为字符字体类型、文字大小以及文字位置中的任一个或多个组合。

28、为了达到上述第二目的，本发明采用以下技术方案：

29、一种基于pdf的信息处理系统，所述系统包括：

30、数据资源模块，用于获取pdf文件，其中所述pdf文件；

31、页处理转换模块，用于响应于针对所述pdf文件的转换请求，对所述pdf文件的每一页进行页处理转换，以得到与所述pdf文件对应的第一目标素材信息和第二目标素材信息；

32、内容整合模块：响应于操作焦点的触发条件以对目标空间对应的第一目标素材信息和第二目标素材信息进行内容整合，通过对所述目标空间识别成块、成行、成段以形成反解文本内容，其中所述目标空间为通过所述操作焦点的触发条件确定。

33、作为优选的技术方案，所述内容整合模块包括第一识别子模块、第一内容整合子模块、第二识别子模块、第二内容整合子模块、第三识别子模块、跨块标记子模块、内容关联子模块、第三内容整合子模块以及新闻语义识别子模块；

34、第一识别子模块，用于响应于操作焦点的点击行为，确定第一文段联系信息以识别第一块区；

35、第一内容整合子模块，用于对所述第一块区对应的第一目标素材信息和第二目标素材信息进行内容整合；

36、第二识别子模块，用于响应于操作焦点的移动行为，确定第二文段联系信息以识别第二块区；

37、第二内容整合子模块，用于对所述第二块区对应的第一目标素材信息和第二目标素材信息进行内容整合；

38、第三识别子模块，用于当通过操作焦点的多次点击行为产生多个第一块区时，确定多个第一文段联系信息，每个第一文段联系信息用于识别其点击行为对应的第一块区；

39、跨块标记子模块，用于当两个第一块区在内容上具有上下文关联且在所述pdf文件中的位置区域为隔断关系时，则标记为跨块状态；

40、内容关联子模块，用于确定第三文段联系信息以对标记为跨块状态的第一区块建立内容关联；

41、第三内容整合子模块，用于根据所述第三文段联系信息对所述多个第一块区对应的第一目标素材信息和第二目标素材信息进行内容整合；

42、新闻语义识别子模块，用于内容整合，采用预设语义预测模型进行新闻语义识别，该预设语义预测模型具体根据识别维度进行处理，其中识别维度为字符字体类型、文字大小以及文字位置中的任一个或多个组合；

43、其中，所述第一文段联系信息为字符和字符间的距离，所述第一块区为根据所述字符和字符间的距离使得字符与字符之间识别成块得到；

44、所述第二文段联系信息包括字符字体和文字大小，所述第二块区为根据字符字体和文字大小使得字符与字符之间识别成行得到；

45、所述第三文段联系信息包括行位置和行间距，根据所述行位置和行间距使得行与行之间识别成段，以完成对标记为跨块状态的第一区块建立内容关联。

46、作为优选的技术方案，所述系统基于c/s架构，所述系统包括第一处理子系统和多个第二处理子系统，所述第一处理子系统分别与所述多个第二处理子系统连接；

47、所述第一处理子系统用于执行所述数据资源模块和所述页处理转换模块；

48、每个第二处理子系统用于执行所述内容整合模块。

49、为了达到上述第三目的，本发明采用以下技术方案：

50、一种存储介质，所述存储介质用于存储程序代码，所述程序代码用于执行上述任一所述的基于pdf的信息处理方法。

51、本发明与现有技术相比，具有如下优点和有益效果：

52、(1)通过对pdf文件的每一页面进行处理转换，来提取出与该pdf文件对应的第一目标素材信息和第二目标素材信息，进而完成对反解文本内容所需数据的筛选，接着通过确定第一文段联系信息以识别第一块区，即根据字符和字符间的距离使得字符与字符之间识别成块，通过确定第二文段联系信息以识别第二块区，即根据字符字体和文字大小使得字符与字符之间识别成行，进而实现以一种更简单的方式完成对pdf文件的反解效果，提高了基于pdf文件的文章反解的效率，针对需要对pdf文件文章反解的用户而言，能够更快捷地获取到相应的反解文本内容，提高了新媒体或新闻工作人员的工作效率，以便工作人员后续继续完成编辑发布的任务。

53、(2)进一步通过确定第三文段联系信息以对标记为跨块状态的第一区块建立内容关联，即根据行位置和行间距使得行与行之间识别成段，从而解决了在pdf文件的排版时存在跨开分隔情况的识别率低问题，根据行位置和行间距的判断机制提高了对跨块状态属于同段内容的识别效果，同时在对跨块状态包含英文跨块、中文跨块、中英文跨块以及符号跨块的情况下均具有较好的识别效果，提高了跨块问题的整体识别准确率。

54、(3)在内容整合时，通过采用预设语义预测模型进行新闻语义识别，并根据字符字体类型、文字大小以及文字位置中的任一个或多个组合进行判断以获取预测的新闻语义，提高了在反解时对新闻语义的识别准确率，进而提高了新媒体或新闻工作人员的工作效率。

55、(4)在系统中，基于c/s架构实现页面的交互，每个第一处理子系统分别与多个第二处理子系统连接，每个第二处理子系统均用于显示交互页面，同时每个第一处理子系统包括数据资源模块和页处理转换模块，每个第二处理子系统包括内容整合模块，这样一方面，只需通过第一处理子系统执行一次页面处理转换，无需每个第二处理子系统针对同一个pdf文件实现反解文本内容时都重复处理，即达到了与多个执行主体实现共享处理结果数据的效果，避免了在多个执行主体交互时多个第二处理子系统重复对同一个pdf文件进行处理，节省了计算资源，提高了系统在页面显示交互中的运行效率；另一方面，多个第二处理子系统根据用户实际需要只需接收用于内容整合的相关数据，减少了对无关数据的处理和传输过程，提高了对指定的pdf文件进行新闻内容编辑时的数据处理效率。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄先财
技术所有人：广州万彩信息技术有限公司
我是此专利的发明人

上一篇：具有薄层壳体结构的双层式驱动电源及使用方法
上一篇：捆扎机用机头及捆扎机的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。