确定文本的方法、深度学习模型的训练方法和装置与流程

文档序号：35682054发布日期：2023-10-08 21:23阅读：57来源：国知局

本公开涉及人工智能，尤其涉及计算机视觉、图像处理、深度学习等，可应用于智慧政务等场景。更具体地，本公开提供了一种确定文本的方法、深度学习模型的训练方法、装置、电子设备和存储介质。

背景技术：

1、文档智能化是指从文档图像中识别出文本内容，再从识别出的文本内容中提取出用户需要的关键信息。然而，不同类型的文档，用户需要的关键信息不同，且即使同一类型的文档，用户的需求也会发生变化。

技术实现思路

1、本公开提供了一种确定文本的方法、深度学习模型的训练方法、装置、设备以及存储介质。

2、根据第一方面，提供了一种确定文本的方法，该方法包括：从目标文档图像中确定包含文本段的至少一个图像块；响应于接收输入文本，计算输入文本与每个图像块之间的相似度；以及根据相似度，从至少一个图像块中确定目标图像块包含的文本段为与输入文本对应的目标文本。

3、根据第二方面，提供了一种深度学习模型的训练方法，该方法包括：从样本文档图像中确定包含文本段的多个图像块；针对每个图像块，计算图像块与样本文本之间的相似度，其中，样本文本标注有标签文本段；根据相似度以及标签文本段，确定深度学习模型的损失；以及根据损失，调整深度学习模型的参数。

4、根据第三方面，提供了一种确定文本的装置，该装置包括：第一图像块确定模块，用于从目标文档图像中确定包含文本段的至少一个图像块；第一相似度计算模块，用于响应于接收输入文本，计算输入文本与每个图像块之间的相似度；以及目标文本确定模块，用于根据相似度，从至少一个图像块中确定目标图像块包含的文本段为与输入文本对应的目标文本。

5、根据第四方面，提供了一种深度学习模型的训练装置，该装置包括：第二图像块确定模块，用于从样本文档图像中确定包含文本段的多个图像块；第二相似度计算模块，用于针对每个图像块，计算图像块与样本文本之间的相似度，其中，样本文本标注有标签文本段；损失确定模块，用于根据相似度以及标签文本段，确定深度学习模型的损失；以及调整模块，用于根据损失，调整深度学习模型的参数。

6、根据第五方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行根据本公开提供的方法。

7、根据第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行根据本公开提供的方法。

8、根据第七方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序存储于可读存储介质和电子设备其中至少之一上，所述计算机程序在被处理器执行时实现根据本公开提供的方法。

9、应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

技术特征：

1.一种确定文本的方法，包括：

2.根据权利要求1所述的方法，其中，所述响应于接收输入文本，计算所述输入文本与每个所述图像块之间的相似度包括：

3.根据权利要求1或2所述的方法，还包括：

4.根据权利要求3所述的方法，其中，所述根据所述相似度，从所述至少一个图像块中确定目标图像块包含的文本段为与所述输入文本对应的目标文本包括：

5.根据权利要求1或2所述的方法，其中，所述根据所述相似度，从所述至少一个图像块中确定目标图像块包含的文本段为与所述输入文本对应的目标文本包括：

6.根据权利要求1至5中任一项所述的方法，其中，所述输入文本包括需求描述信息，所述需求描述信息包括主题信息、属性信息和关键字的至少之一。

7.一种深度学习模型的训练方法，包括：

8.根据权利要求7所述的方法，其中，所述根据所述相似度以及所述标签文本段，确定所述深度学习模型的损失包括：

9.根据权利要求7或8所述的方法，其中，所述样本文本包括需求描述信息，所述样本需求描述信息包括主题信息、属性信息和关键字的至少之一。

10.一种确定文本的装置，包括：

11.根据权利要求10所述的装置，其中，所述第一相似度计算模块包括：

12.根据权利要求10或11所述的装置，还包括：

13.根据权利要求12所述的装置，其中，所述目标文本确定模块包括：

14.根据权利要求10或11所述的装置，其中，所述目标文本确定模块包括：

15.根据权利要求10至14中任一项所述的方法，其中，所述输入文本包括需求描述信息，所述需求描述信息包括主题信息、属性信息和关键字的至少之一。

16.一种深度学习模型的训练装置，包括：

17.根据权利要求16所述的装置，其中，所述损失确定模块包括：

18.根据权利要求16或17所述的装置，其中，所述样本文本包括需求描述信息，所述样本需求描述信息包括主题信息、属性信息和关键字的至少之一。

19.一种电子设备，包括：

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1至9中任一项所述的方法。

21.一种计算机程序产品，包括计算机程序，所述计算机程序存储于可读存储介质和电子设备其中至少之一上，所述计算机程序在被处理器执行时实现根据权利要求1至9中任一项所述的方法。

技术总结
本公开提供了一种确定文本的方法，涉及人工智能技术领域，尤其涉及计算机视觉、图像处理、深度学习等技术领域。具体实现方案为：从目标文档图像中确定包含文本段的至少一个图像块；响应于接收输入文本，计算输入文本与每个图像块之间的相似度；以及根据相似度，从至少一个图像块中确定目标图像块包含的文本段为与输入文本对应的目标文本。本公开还提供了一种深度学习模型的训练方法、装置、电子设备和存储介质。

技术研发人员：李泊翰,吴亮,吕鹏原,章成全,姚锟
受保护的技术使用者：北京百度网讯科技有限公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李泊翰吴亮吕鹏原章成全姚锟
技术所有人：北京百度网讯科技有限公司
我是此专利的发明人

上一篇：固件升级方法及装置与流程
上一篇：一种大型弧形水室方法兰更换方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。