一种视觉与语音结合的助听方法及系统与流程

文档序号：21274087发布日期：2020-06-26 23:08阅读：291来源：国知局

本发明涉及一种助听技术领域，尤其涉及一种视觉与语音结合的助听方法及系统。

背景技术：

听力障碍严重影响患者的生活，还可能会引发重度失眠、认知衰退、抑郁等极为严重的心理问题。据统计，全球65岁以上的老年人，约有1/3的人存在耳聋或者听力障碍。

助听器对于听力损失者的听力改善可以起到一定的辅助作用，并且对听力损失的恢复也有极大的帮助。但是目前的助听器在嘈杂环境中，很难准确地判断与佩戴者对话的目标，与此同时助听器只能单方面的增大目标和其他语音信号，给佩戴者带来很强的不适感，如何帮助听力障碍患者更好的与其他人交流成为亟待解决问题。

技术实现要素：

针对现有技术中出现的上述问题，现提供一种视觉与语音结合的助听方法及系统，其具体技术方案如下：

本发明中涉及一种视觉与语音结合的助听方法，其中，所述助听方法包括以下步骤：

步骤s1，采用一第一采集模块收集一助听装置的佩戴者周围环境的语音信息，并将所述语音信息发送至一处理模块；

步骤s2，采用一第二采集模块获取所述佩戴者前方的图像信息，并将所述图像信息发送至所述处理模块；

步骤s3，所述处理模块根据接收到的所述语音信息和所述图像信息，判断所述佩戴者周围的说话人所在的方位信息；

步骤s4，所述处理模块对根据所述步骤s3中输出的所述方位信息所对应的所述语音信息进行增强处理，并对增强后的所述语音信息进行语音识别，以获取与所述语音信息对应的文字内容；

步骤s5，采用所述助听装置接收所述步骤s4中输出的增强后的所述语音信息，放大后播放给所述佩戴者；以及

采用一可视模块接收并显示所述步骤s4中输出的所述文字内容，用于辅助所述佩戴者理解所述语音信息。

优选的，所述第一采集模块采用多路麦克风实现。

优选的，所述步骤s3包括：

步骤s31，所述处理模块根据接收到的所述语音信息判断所述语音信息的声源的位置；

步骤s32，所述处理模块根据接收到的所述图像信息判断所述佩戴者的前方是否存在所述说话人，

若是，则转向步骤s33；

若否，则转向步骤s35；

步骤s33，所述处理模块根据所述图像信息判断所述佩戴者的前方是否存在多个所述说话人：

若是，则转向步骤s34；

若否，则根据所述图像信息确定并输出所述说话人的所述方位信息，随后转向所述步骤s4；

步骤s34，所述处理模块根据所述图像信息，确定并输出位于所述佩戴者的前方的中轴线上且距离所述佩戴者最近的所述说话人的所述方位信息，随后转向所述步骤s4；

步骤s35，所述处理模块根据所述语音信息和所述图像信息综合确定并输出所述说话人的方位信息，随后转向所述步骤s4。

优选的，当接收到的所述语音信息具有多个声源时，所述步骤s4中，对所述语音信息进行增强的方法包括：

增强对应于所述说话人的所述方位信息的所述语音信息，并对其余的所述语音信息进行噪声抑制处理。

优选的，在执行所述步骤s3后，还包括一唇语识别的过程，具体包括：

步骤a1，所述处理模块根据所述图像信息，处理得到所述说话人的嘴部动作；

步骤a2，所述处理模块根据一预先训练形成的唇语识别模型，对所述嘴部动作进行识别，并输出相应的唇语识别结果；

则所述步骤s4中，所述处理模块对所述语音信息进行语音识别时，采用所述唇语识别结果对所述语音信息的识别结果进行辅助纠正。

一种视觉与语音结合的助听系统，其中，采用如上述任一所述视觉与语音结合的助听方法，所述助听系统包括：

一第一采集模块，所述第一采集模块包括多路麦克风，用以获取所述佩戴者周围环境的语音信息；

一第二采集模块，所述第二采集模块用以获取所述佩戴者前方的图像信息；

一处理模块，所述处理模块分别与所述第一采集模块、所述第二采集模块信号连接，用以处理获取的所述语音信息和所述图像信息；

一助听装置，所述助听装置与所述处理模块信号连接，用以接收增强后的所述语音信息，放大后播放给所述佩戴者；

一可视模块，所述可视模块与所述处理模块信号连接，用以显示与所述语音信息对应的文字内容。

优选的，所述第二采集模块包括一摄像头，所述摄像头与所述处理模块信号连接，获取所述佩戴者前方的图像信息，并将所述图像信息发送至所述处理模块。

优选的，所述助听装置为一助听器，所述助听器放置于所述佩戴者耳部，与所述处理模块信号连接。

本发明的有益效果在于：本发明中通过语音识别、图像识别和文字显示三者结合的方式来帮助听力障碍患者正常交流，并通过唇语识别来纠正传统的语音识别的错误，提高了在复杂环境下的语音识别的识别率，更好地帮助听力障碍患者与其他人交流。

附图说明

图1为本发明一种视觉与语音结合的助听方法的步骤流程图；

图2为本发明一种视觉与语音结合的助听方法的步骤s3的步骤流程图；

图3为本发明一种视觉与语音结合的助听方法的步骤s3后的唇语识别的步骤流程图；

图4为本发明一种视觉与语音结合的助听系统的原理框图；

本发明说明书附图标记：

第一采集模块1；助听装置2；处理模块3；第二采集模块4；可视模块5。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

针对现有技术中出现的上述问题，现提供一种视觉与语音结合的助听方法及系统，其具体技术方案如下：

本发明中涉及一种视觉与语音结合的助听方法，其中，助听方法包括以下步骤：

步骤s1，采用一第一采集模块1收集一助听装置2的佩戴者周围环境的语音信息，并将语音信息发送至一处理模块3；

步骤s2，采用一第二采集模块4获取佩戴者前方的图像信息，并将图像信息发送至处理模块3；

步骤s3，处理模块3根据接收到的语音信息和图像信息，判断佩戴者周围的说话人所在的方位信息；

步骤s4，处理模块3对根据步骤s3中输出的方位信息所对应的语音信息进行增强处理，并对增强后的语音信息进行语音识别，以获取与语音信息对应的文字内容；

步骤s5，采用助听装置2接收步骤s4中输出的增强后的语音信息，放大后播放给佩戴者；以及

采用一可视模块5接收并显示步骤s4中输出的文字内容，用于辅助佩戴者理解语音信息。

在本发明中提供一种视觉与语音结合的助听方法，如图1所示，该助听方法包括：第一，使用第一采集模块1收集助听装置2的佩戴者周围环境的语音信息，并且将语音信息发送至处理模块3；第二，使用第二采集模块4获取佩戴者前方的图像信息，并将图像信息发送至处理模块3；第三，处理模块3根据接收到的语音信息和图像信息，来判断并输出佩戴者周围的说话人所在的方位信息；第四，处理模块3对根据输出的方位信息所对应的语音信息进行增强处理，并对增强后的语音信息进行语音识别，以获取与语音信息对应的文字内容；最后，利用助听装置2接收第四中输出的增强后的语音信息，放大后播放给佩戴者；与此同时，采用一可视模块5接收并显示输出的文字内容，用于辅助佩戴者理解语音信息，这样利用语音识别、图像识别和文字显示三者结合的方式来帮助听力障碍患者正常交流，提高了在复杂环境下的语音识别的识别率，更好地帮助听力障碍患者与其他人交流。

在一种较优的实施例中，第一采集模块1采用多路麦克风实现。

在该实施例中，第一采集模块1通过多路麦克风来采集助听装置2的佩戴者周围环境的语音信息，并将语音信息发送至处理模块3中进行处理。

在一种较优的实施例中，步骤s3包括：

步骤s31，处理模块3根据接收到的语音信息判断语音信息的声源的位置；

步骤s32，处理模块3根据接收到的图像信息判断佩戴者的前方是否存在说话人，

若是，则转向步骤s33；

若否，则转向步骤s35；

步骤s33，处理模块3根据图像信息判断佩戴者的前方是否存在多个说话人；

若是，则转向步骤s34；

若否，则根据图像信息确定并输出说话人的方位信息，随后转向步骤s4；

步骤s34，处理模块3根据图像信息，确定并输出位于佩戴者的前方的中轴线上且距离佩戴者最近的说话人的方位信息，随后转向步骤s4；

步骤s35，处理模块3根据语音信息和图像信息综合确定并输出说话人的方位信息，随后转向步骤s4。

在该实施例中，如图2所示，在处理模块3根据接收到的语音信息和图像信息，来判断并输出佩戴者周围的说话人所在的方位信息的过程还包括：首先，利用处理模块3根据接收到的语音信息判断语音信息的声源的位置；

其次，处理模块3根据接收到的图像信息判断佩戴者的前方是否存在说话人，

若佩戴者的前方存在说话人，则处理模块3再根据图像信息判断佩戴者的前方是否存在多个说话人，

若佩戴者的前方是多个说话人说话，则处理模块3根据图像信息，确定并输出位于佩戴者的前方的中轴线上且距离佩戴者最近的说话人的方位信息；

若佩戴者的前方不是多个说话人说话，则根据图像信息确定并输出说话人的方位信息；

若佩戴者的前方不存在说话人，处理模块3根据语音信息和图像信息综合确定并输出说话人的方位信息。

在一种较优的实施例中，当接收到的语音信息具有多个声源时，步骤s4中，当接收到的语音信息具有多个声源时：

增强对应于说话人的方位信息的语音信息，并对其余的语音信息进行噪声抑制处理。

在该实施例中，当接收到的语音信息具有多个声源时，判断识别说话人的方向，根据声源的方向，使用麦克风阵列语音信息处理方法选择性地增强该声源方向上的语音信息；并利用噪声抑制算法对其余的语音信息进行噪声抑制处理。

在一种较优的实施例中，在执行步骤s3后，还包括一唇语识别的过程，具体包括：

步骤a1，处理模块3根据图像信息，处理得到说话人的嘴部动作；

步骤a2，处理模块3根据一预先训练形成的唇语识别模型，对嘴部动作进行识别，并输出相应的唇语识别结果；

则步骤s4中，处理模块3对语音信息进行语音识别时，采用唇语识别结果对语音信息的识别结果进行辅助纠正。

在该实施例中，如图3所示，唇语识别的过程包括：首先，处理模块3根据图像信息，处理得到说话人的嘴部动作；其次，处理模块3根据一预先训练形成的唇语识别模型，对嘴部动作进行识别，并输出相应的唇语识别结果；最后，处理模块3对语音信息进行语音识别时，采用唇语识别结果对语音信息的识别结果进行辅助纠正；这样通过唇语识别来纠正传统的语音识别的错误，提高了在复杂环境下的语音识别的识别率，更好地帮助听力障碍患者与其他人交流。

一种视觉与语音结合的助听系统，其中，采用如上述任一视觉与语音结合的助听方法，助听系统包括：

一第一采集模块1，第一采集模包括多路麦克风，用以获取佩戴者周围环境的语音信息；

一第二采集模块4，第二采集模块4用以获取佩戴者前方的图像信息；

一处理模块3，处理模块3分别与第一采集模块1、第二采集模块4信号连接，用以处理获取的语音信息和图像信息；

一助听装置2，助听装置2与处理模块3信号连接，用以接收增强后的语音信息，放大后播放给佩戴者；

一可视模块5，可视模块5与处理模块3信号连接，用以显示与语音信息对应的文字内容。

在本发明中，提供一种视觉与语音结合的助听系统，如图4所示，该助听系统应用于上述的视觉与语音结合的助听方法，包括：第一采集模块1、第二采集模块4、助听装置2、处理模块3和可视模块5，其中，处理模块3分别与第一采集模块1、第二采集模块4信号连接，用以处理获取的语音信息和图像信息；第一采集模块1通过多路麦克风收集助听装置2的佩戴者周围环境的语音信息，这样简单方便，易于操作；可视模块5与处理模块3信号连接，用以显示与语音信息对应的文字内容；本发明通过语音识别、图像识别和文字显示三者结合的方式来帮助听力障碍患者正常交流。

在一种较优的实施例中，第二采集模块4包括一摄像头，摄像头与处理模块3信号连接，获取佩戴者前方的图像信息，并将图像信息发送至处理模块3。

在本实施中，第二采集模块4通过摄像头获取佩戴者前方的图像信息，并将图像信息发送至处理模块3，这样简单方便，易于操作。

在一种较优的实施例中，助听装置2为一助听器，助听器放置于所述佩戴者耳部，与处理模块3信号连接。

以上所述仅为本发明较佳的实施例，并非因此限制本发明的实施方式及保护范围，对于本领域技术人员而言，应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案，均应当包含在本发明的保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：林峰;黄明飞;姚宏贵
技术所有人：开放智能机器(上海)有限公司
我是此专利的发明人

上一篇：一种齿轮式编码器读数头的制作方法
上一篇：一种从硫酸新霉素中提取硫酸弗兰西丁的方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。