手指查句方法、装置、电子设备及计算机存储介质与流程

文档序号：35453241发布日期：2023-09-14 11:35阅读：28来源：国知局

本技术涉及人工智能，具体涉及一种手指查句方法、装置、电子设备及计算机存储介质。

背景技术：

1、随着信息技术的快速发展，人们对信息获取的效率和准确率都有了更高的要求。手指查句是指将用户手指点到的文本信息返回给用户，通过对带有手指信息的图像进行检测，进而识别到手指所在的文本信息。通过手指查句可以快速识别到用户手指所指的文本信息，提高对文本信息的获取效率。

2、当前，在手指查句中，主要通过一些常规的文本识别模型对文本图像进行检测，识别得到手指所在的文本信息。然而，该类文本识别模型对不在同一行但靠得较近的文本框进行识别时，会出现连接错误的问题，并且，在通过该类文本识别模型对形近字进行识别时，亦会出现查句错误。由此最终导致手指查句准确率低的技术问题。

技术实现思路

1、本技术实施例提供一种手指查句方法、装置、电子设备及计算机存储介质，可以解决手指查句准确率低的技术问题。

2、本技术实施例提供一种手指查句方法，包括：

3、获取待检测图像，对所述待检测图像进行手指点检测，当检测到所述手指点时，在预设范围内对所述手指点进行截取，得到目标图像；

4、对所述目标图像中的手指点进行指尖定位，得到指尖坐标，获取预设的文本定位模型，根据所述文本定位模型对所述目标图像进行文本定位，得到初始文本框；

5、计算所述初始文本框的文本框特征，根据所述文本框特征和所述指尖坐标对所述初始文本框进行筛选，得到候选文本框，对所述候选文本框进行截取，得到文本图像；

6、获取预设的文本识别模型，基于所述文本识别模型对所述文本图像进行文本识别，得到目标查询语句。

7、进一步的，所述获取预设的文本定位模型，包括：

8、获取第一训练数据集，并构建基础文本定位网络，根据所述基础文本定位网络对所述第一训练数据集进行计算，得到预测概率图、预测二值图、预测阈值图和预测连接概率；

9、计算所述预测概率图、所述预测二值图、所述预测阈值图和所述预测连接概率的总损失值；

10、根据所述总损失值对所述基础文本定位网络进行参数调整，直至调整后的基础文本定位网络对所述第一训练数据集计算得到的总损失值达到预设的第一损失阈值，确定所述调整后的基础文本定位网络为所述文本定位模型。

11、进一步的，所述根据所述文本框特征和所述指尖坐标对所述初始文本框进行筛选，得到候选文本框，包括：

12、根据所述文本框特征确定同一行的初始文本框，得到文本框连线结果；

13、获取预设筛选条件，根据所述预设筛选条件和所述指尖坐标对所述初始文本框进行筛选，得到指尖文本框；

14、根据所述文本框连线结果确定所有所述指尖文本框的所在行，将所述指尖文本框所在行的所有初始文本框作为第一备选文本框，根据所述指尖文本框的位置对所述第一备选文本框进行筛选得到所述候选文本框。

15、进一步的，所述根据所述文本框特征确定同一行的初始文本框，包括：

16、将所有所述初始文本框作为节点添加至目标有向图中，并按照预设方向对所有所述初始文本框进行排序，遍历所有所述初始文本框，计算任意两个所述初始文本框之间的比值特征、差值特征和距离特征；

17、根据所述比值特征、所述差值特征和所述距离特征，确定相邻的初始文本框，基于所述目标有向图在所述相邻的初始文本框之间添加边；

18、根据所述比值特征、所述差值特征和所述距离特征，计算所述目标有向图中每条边的单位流量费用，通过最小的单位流量费用得到所述同一行的初始文本框。

19、进一步的，所述计算所述初始文本框的文本框特征，包括：

20、获取所述初始文本框的文本轮廓点，根据所述文本轮廓点构建所述初始文本框的外轮廓，并计算所述初始文本框的最小外接矩形；

21、根据所述外轮廓和所述最小外接矩形确定所述初始文本框的弯曲程度，在所述初始文本框的弯曲程度为小弯曲程度时，确定所述初始文本框的最小外接矩形的参数特征为所述初始文本框的文本框特征；

22、在所述初始文本框的弯曲程度为大弯曲程度时，计算所述初始文本框的第二外接矩形，将所述第二外接矩形的参数特征作为所述初始文本框的文本框特征。

23、进一步的，所述获取预设的文本识别模型，包括：

24、获取第二训练数据集，并构建基础文本识别网络，根据所述基础文本识别网络对所述第二训练数据集进行计算，得到预测识别语句；

25、计算所述预测识别语句对应的第一损失值和第二损失值；

26、根据所述第一损失值和所述第二损失值对所述基础文本识别网络进行参数调整，直至调整后的基础文本识别网络对所述第二训练数据集计算得到的损失值达到预设的第二损失阈值，确定所述调整后的基础文本识别网络为所述文本识别模型。

27、进一步的，所述文本识别模型包括卷积层、循环层和转录层，所述基于所述文本识别模型对所述文本图像进行文本识别，得到目标查询语句，包括：

28、输入所述文本图像至所述卷积层，根据所述卷积层对所述文本图像进行特征提取，得到所述文本图像对应的特征图；

29、通过所述循环层对所述特征图进行预测计算，得到预测标签分布；

30、根据所述转录层对所述预测标签分布进行标签转换，得到所述目标查询语句。

31、相应地，本技术实施例提供一种手指查句装置，包括：

32、检测模块，用于获取待检测图像，对所述待检测图像进行手指点检测，当检测到所述手指点时，在预设范围内对所述手指点进行截取，得到目标图像；

33、定位模块，用于对所述目标图像中的手指点进行指尖定位，得到指尖坐标，获取预设的文本定位模型，根据所述文本定位模型对所述目标图像进行文本定位，得到初始文本框；

34、筛选模块，用于计算所述初始文本框的文本框特征，根据所述文本框特征和所述指尖坐标对所述初始文本框进行筛选，得到候选文本框，对所述候选文本框进行截取，得到文本图像；

35、识别模块，用于获取预设的文本识别模型，基于所述文本识别模型对所述文本图像进行文本识别，得到目标查询语句。

36、此外，本技术实施例还提供一种电子设备，包括处理器和存储器，上述存储器存储有计算机程序，上述处理器用于运行上述存储器内的计算机程序实现本技术实施例提供的手指查句方法。

37、此外，本技术实施例还提供一种计算机可读存储介质，上述计算机可读存储介质存储有计算机程序，上述计算机程序适于处理器进行加载，以执行本技术实施例所提供的任一种手指查句方法。

38、此外，本技术实施例还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现本技术实施例所提供的任一种手指查句方法。

39、在本技术实施例中，通过获取待检测图像，对待检测图像进行手指点检测，当检测到手指点时，在预设范围内对手指点进行截取，得到目标图像，实现了对手指图像的高清截取；之后，对目标图像中的手指点进行指尖定位，得到指尖坐标，获取预设的文本定位模型，根据文本定位模型对目标图像进行文本定位，得到初始文本框，通过文本定位模型能够对弯曲文本进行精确定位，并对文本断开问题进行优化，具有较高的实时性；而后，计算初始文本框的文本框特征，根据文本框特征和指尖坐标对初始文本框进行筛选，得到候选文本框，对候选文本框进行截取，得到文本图像；最后，获取预设的文本识别模型，基于文本识别模型对文本图像进行文本识别，得到目标查询语句，实现了在不同光照环境、成像系统和复杂背景下，均能对图片进行稳定而精确的手指查句，极大地提高了手指查句速度和准确率。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：寇婷婷朱松武庆三潘鑫黄勇
技术所有人：深圳市玩瞳科技有限公司
我是此专利的发明人

上一篇：一种伺服控制方法及系统与流程
上一篇：一种矿样检测用混样设备及其使用方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。