一种图像识别方法以及相关设备与流程

文档序号：34227478发布日期：2023-05-24 10:13阅读：99来源：国知局

本技术涉及图像处理领域，尤其涉及一种图像识别方法以及相关设备。

背景技术：

1、在日常生活中，视障人士在近场环境下有许多文字信息识别的需求，例如快递单上的收件人信息，药品说明书上的名称及用法用量等。目前，利用光学字符识别(opticalcharacter recognition，ocr)技术和语音合成(text to speech，tts)技术可以使视障人士通过终端设备获取到近场的文字信息，但是视障人士在使用搭载了ocr技术和tts技术的信息识别软件时，由于缺少视觉反馈信息，还是会出现拍不到、拍不全、拍不清的问题。

2、因此，现有技术开始探索如何帮助视障人士使用图像捕获设备准确完整地读取到想要识别的区域中的文字信息。在一种现有的实现中，通过实时监测当前画面中文件的完整情况，从而计算出用户应该移动手机的方向与距离，并使用语音引导用户。

3、然而，用户需要在4自由度下移动(3个位移自由度，1个转动自由度)，如“向前移动1英尺”“向左移动1英尺”，“旋转到五点钟方向”在移动时容易偏移目标，出错率较高，对于盲人用户来说，无法精准量化自己移动的距离和旋转的角度，不能做出引导语中的精确动作，有时会造成目标偏离程度反而增大。

技术实现思路

1、第一方面，本技术提供了一种图像识别方法，所述方法包括：输出第一提醒；所述第一提醒指示用户将辅助部位与待识别对象建立位置关联、并控制终端拍摄所述辅助部位；在拍摄的第一图像中存在所述辅助部位，且所述第一图像中存在与所述辅助部位之间位置关系满足第一预设条件的目标对象的情况下，根据采集的第二图像，得到所述目标对象的识别结果；其中，所述第一图像和所述第二图像为在所述输出第一提醒之后所述用户控制所述终端拍摄的视频流中的图像，所述第二图像的采集时间在所述第一图像之后。

2、本技术通过提示用户将辅助部位和待识别对象之间建立位置关联，由于视障用户自身通过本体感觉是可以感知到辅助部位和待识别对象之间之间的位置关系，以及辅助部位和终端设备之间的位置关系，因此，可以保持终端和待识别对象之间在三个自由度上的空间对齐，仅需要调整在垂直方向上的终端位置，减少了用户动作成本的同时也提高了识别的效率。

3、此外，通过利用辅助部位为锚点，从而利用计算机视觉的方式识别出辅助部位，将与辅助部位具有空间关系的区域定义为感兴趣的区域；利用了视障用户在日常生活中识别文字的习惯交互动作，通过视障用户的自身本体感觉，可以让他们能快速使用手持设备定位到需要识别的区域，除此之外，本技术还在多目标场景与背景杂乱的场景下对识别效率有显著提升。

4、在一种可能的实现中，所述辅助部位为手部。

5、在一种可能的实现中，所述第一预设条件包括如下的至少一种：所述目标对象与所述辅助部位之间存在重叠；所述目标对象的在所述辅助部位所指示的方向上；所述目标对象为所述第一图像中包括的多个对象中距离所述辅助部位最近的对象。

6、在一种可能的实现中，所述视频流还包括采集时间在所述第一图像之前的第三图像；所述方法还包括：在所述第三图像中不存在满足所述第一预设条件的目标对象时，输出第二提醒，所述第二提醒指示用户解除所述辅助部位与待识别对象的位置关联、或者将所述辅助部位向待识别对象的边缘移动；所述第二图像的采集时间在所述输出第二提醒之后。

7、在一种可能的实现中，所述方法还包括：在所述第一图像中所述目标对象的画面不完整、或者不清晰时，输出第三提醒，所述第三提醒指示用户控制终端远离或者靠近待识别对象；所述第二图像的采集时间在所述输出第三提醒之后。

8、在一种可能的实现中，所述方法还包括：基于所述终端在所述远离或者靠近待识别对象时，相比所述远离或者靠近待识别对象之前的姿态差异大于阈值，根据位姿差异所述输出第四提醒，所述第四提醒指示用户控制终端进行姿态调整，且所述姿态调整的调整量与所述位姿差异有关。

9、在拍摄物品时，存在一个由相机和需拍摄文件的相对位置和角度构成的空间范围，在这个空间范围内由相机拍摄的照片上的信息可以被很好的识别。如上所述，引导用户移动拍摄设备以拍全物品时，由于每个人的操作习惯或者移动时没有稳定拍照设备，导致终端姿态与最初的终端姿态会有较大的偏差，拍摄设备通过上下移动已经无法达到目标位置，因此，就有必要引导用户进行恢复终端的姿态。

10、在纠偏过程中，如果检测到终端的姿态变化超过一定角度，则提示用户重新进行矫正。在调整过程中当用户作出错误动作时及时提醒用户，减少了用户出错的概率。并能在在错误较大时及时止损重新开始，避免永无止境的纠偏。

11、在一种可能的实现中，所述待识别对象为平面对象，所述第一提醒具体指示用户将辅助部位覆盖到所述待识别对象之上；或者，所述待识别对象为立体对象，所述第一提醒具体指示用户通过所述辅助部位拿起所述待识别对象或者将辅助部位覆盖到所述立体对象的一个面上。

12、在一种可能的实现中，所述方法还包括：在拍摄的第一图像中存在所述辅助部位，且所述第一图像中存在与所述辅助部位之间位置关系满足第一预设条件的目标对象的情况下，输出第五提醒，所述第五提醒指示用户解除所述辅助部位与待识别对象的位置关联；所述第二图像的采集时间在所述输出第五提醒之后。

13、在一种可能的实现中，所述目标对象为屏幕，所述终端上包括触摸组件；所述识别结果为所述屏幕上目标控件对应的文本内容；所述方法还包括：输出所述文本内容，并接收到用户针对于所述目标控件的选择；根据所述触摸组件和所述目标控件之间的相对位置，输出第六提醒，所述第六提醒指示用户控制终端进行位置调整直至所述触摸组件接触到所述目标控件，且所述位置调整的调整量与所述相对位置有关。

14、在一种可能的实现中，所述触摸组件为贴附在终端背面的支架或者所述终端上的一个角点。

15、第二方面，本技术提供了一种图像识别装置，所述装置包括：

16、输出模块，用于输出第一提醒；所述第一提醒指示用户将辅助部位与待识别对象建立位置关联、并控制终端拍摄所述辅助部位；

17、识别模块，用于在拍摄的第一图像中存在所述辅助部位，且所述第一图像中存在与所述辅助部位之间位置关系满足第一预设条件的目标对象的情况下，根据采集的第二图像，得到所述目标对象的识别结果；

18、其中，所述第一图像和所述第二图像为在所述输出第一提醒之后所述用户控制所述终端拍摄的视频流中的图像，所述第二图像的采集时间在所述第一图像之后。

19、在一种可能的实现中，所述辅助部位为手部。

20、在一种可能的实现中，所述第一预设条件包括如下的至少一种：

21、所述目标对象与所述辅助部位之间存在重叠；

22、所述目标对象的在所述辅助部位所指示的方向上；

23、所述目标对象为所述第一图像中包括的多个对象中距离所述辅助部位最近的对象。

24、在一种可能的实现中，所述视频流还包括采集时间在所述第一图像之前的第三图像；所述输出模块，还用于：

25、在所述第三图像中不存在满足所述第一预设条件的目标对象时，输出第二提醒，所述第二提醒指示用户解除所述辅助部位与待识别对象的位置关联、或者将所述辅助部位向待识别对象的边缘移动；

26、所述第二图像的采集时间在所述输出第二提醒之后。

27、在一种可能的实现中，所述输出模块，还用于：

28、在所述第一图像中所述目标对象的画面不完整、或者不清晰时，输出第三提醒，所述第三提醒指示用户控制终端远离或者靠近待识别对象；

29、所述第二图像的采集时间在所述输出第三提醒之后。

30、在一种可能的实现中，所述输出模块，还用于：

31、基于所述终端在所述远离或者靠近待识别对象时，相比所述远离或者靠近待识别对象之前的姿态差异大于阈值，根据位姿差异所述输出第四提醒，所述第四提醒指示用户控制终端进行姿态调整，且所述姿态调整的调整量与所述位姿差异有关。

32、在一种可能的实现中，

33、所述待识别对象为平面对象，所述第一提醒具体指示用户将辅助部位覆盖到所述待识别对象之上；或者，

34、所述待识别对象为立体对象，所述第一提醒具体指示用户通过所述辅助部位拿起所述待识别对象或者将辅助部位覆盖到所述立体对象的一个面上。

35、在一种可能的实现中，所述输出模块，还用于：

36、在拍摄的第一图像中存在所述辅助部位，且所述第一图像中存在与所述辅助部位之间位置关系满足第一预设条件的目标对象的情况下，输出第五提醒，所述第五提醒指示用户解除所述辅助部位与待识别对象的位置关联；

37、所述第二图像的采集时间在所述输出第五提醒之后。

38、在一种可能的实现中，所述目标对象为屏幕，所述终端上包括触摸组件；所述识别结果为所述屏幕上目标控件对应的文本内容；所述输出模块，还用于：

39、输出所述文本内容；

40、所述装置还包括：接收模块，用于接收到用户针对于所述目标控件的选择；

41、所述输出模块，还用于：

42、根据所述触摸组件和所述目标控件之间的相对位置，输出第六提醒，所述第六提醒指示用户控制终端进行位置调整直至所述触摸组件接触到所述目标控件，且所述位置调整的调整量与所述相对位置有关；或者，

43、根据所述目标控件在所述。

44、在一种可能的实现中，所述触摸组件为贴附在终端背面的支架或者所述终端上的一个角点。

45、第三方面，本技术提供了一种图像识别设备，包括：处理器、存储器、摄像头和总线，其中：所述处理器、所述存储器和所述摄像头通过所述总线连接；

46、所述摄像头，用于实时采集视频；

47、所述存储器，用于存放计算机程序或指令；

48、所述处理器，用于调用或执行所述存储器上所存放的程序或指令，还用于调用摄像头，以实现上述第一方面及第一方面中任一项可能实现方式所述的步骤。

49、第四方面，本技术提供了一种计算机存储介质，包括计算机指令，当计算机指令在电子设备或服务器上运行时，执行上述第一方面及第一方面中任一项可能实现方式所述的步骤。

50、第五方面，本技术提供了一种计算机程序产品，当计算机程序产品在电子设备或服务器上运行时，执行上述第一方面及第一方面中任一项可能实现方式所述的步骤。

51、第六方面，本技术提供了一种芯片系统，该芯片系统包括处理器，用于支持执行设备或训练设备实现上述方面中所涉及的功能，例如，发送或处理上述方法中所涉及的数据；或，信息。在一种可能的设计中，所述芯片系统还包括存储器，所述存储器，用于保存执行设备或训练设备必要的程序指令和数据。该芯片系统，可以由芯片构成，也可以包括芯片和其他分立器件。

52、本技术实施例通过提示用户将辅助部位和待识别对象之间建立位置关联，由于视障用户自身通过本体感觉是可以感知到辅助部位和待识别对象之间之间的位置关系，以及辅助部位和终端设备之间的位置关系，因此，可以保持终端和待识别对象之间在三个自由度上的空间对齐，仅需要调整在垂直方向上的终端位置，减少了用户动作成本的同时也提高了识别的效率。

53、此外，通过利用辅助部位为锚点，从而利用计算机视觉的方式识别出辅助部位，将与辅助部位具有空间关系的区域定义为感兴趣的区域；利用了视障用户在日常生活中识别文字的习惯交互动作，通过视障用户的自身本体感觉，可以让他们能快速使用手持设备定位到需要识别的区域，除此之外，本技术还在多目标场景与背景杂乱的场景下对识别效率有显著提升。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：肖澜李婷刘浏林玮悦
技术所有人：华为技术有限公司
我是此专利的发明人

上一篇：火电机组深度余热利用的长距离供热系统的制作方法
上一篇：探测参考信号发送方法及相关设备与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。