基于增强学习的室内声源移动方法、介质、设备和装置与流程

文档序号:17628698发布日期:2019-05-10 23:56阅读:193来源:国知局
本发明涉及机器学习与人工智能领域,特别涉及一种基于增强学习的室内声源移动方法、介质、设备和装置。
背景技术
::传统声源定位方法主要利用麦克风阵列对声波的传播方向进行测量,并由此估计声源位置,然后通过机器人导航控制机器人移动到声源定位所提供的声源位置。在室内环境下,由于墙壁和各种物品对声波传播的影响,这些方法很难估计各种情况下的声源位置,而且存在噪声干扰从而影响声源定位的准确性。还有其他声源定位方法通过给定室内的建筑布局来解决复杂环境下的声源定位问题,这些方法准确度不高,且不具有通用性。技术实现要素:本发明提供了一种基于增强学习的室内声源移动方法、介质、设备和装置,解决了以上所述的技术问题。本发明解决上述技术问题的技术方案如下:一种基于增强学习的室内声源移动方法,包括以下步骤:s01,采集环境信息;s02,根据所述环境信息,使用经增强学习算法训练后的目标移动模型生成控制指令,所述控制指令用于驱动声源运动至目标位置以避免被移动物体找寻到。本发明的有益效果是:本发明采用了增强学习算法获取控制指令,采用该控制指令可以让声源运动至难以被移动物体,比如工作机器人,找寻到的目标位置,当声源在该目标位置发送声音信号时,可以更加迅速有效地对移动物体的声源找寻模型进行训练,从而极大提高了移动物体一次性移动至目标声源位置的成功率,同时提高了目标声源找寻的效率,能够在智能机器人等领域广泛应用。在上述技术方案的基础上,本发明还可以做如下改进。进一步,还包括以下步骤:判断移动物体是否到达所述目标位置,若是,则执行s01和s02,以使声源移动至新的目标位置,若否,则保持当前目标位置不变。进一步,s02中采用增强学习算法训练生成目标移动模型具体为:s201,建立初始移动模型;s202,获取环境信息,并采用初始移动模型生成控制指令,根据所述控制指令驱动声源运动至训练声源位置;s203,获取移动物体移动到所述训练声源位置的移动数据,并采用预设评价算法对所述移动数据进行评价,根据评价结果对所述初始移动模型进行更新;s204,重复s202-203,直至达到预设训练结束条件,并生成目标移动模型。进一步,所述移动数据包括移动物体与所述训练声源位置的距离、移动物体移动到所述训练声源位置的移动步数、移动时间以及移动过程中移动物体与障碍物的碰撞次数中的至少一个,所述预设评价算法具体为:查询预设的对应关系表,根据所述移动数据所处的区间获取对应的奖惩值。本发明还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,实现以上项所述的方法。本发明还提供了一种基于增强学习的室内声源移动设备,包括以上所述的计算机可读存储介质和处理器,所述处理器执行所述计算机可读存储介质上的计算机程序时实现以上所述方法的步骤。本发明还提供了一种基于增强学习的室内声源移动装置,包括采集模块和指令生成模块,所述采集模块用于采集环境信息;所述指令生成模块用于根据所述环境信息,使用经增强学习算法训练后的目标移动模型生成控制指令,所述控制指令用于驱动声源运动至目标位置以避免被移动物体找寻到。进一步,还包括判断模块,所述判断模块用于判断移动物体是否到达所述目标位置,若是,则依次驱动采集模块和指令生成模块,以使声源移动至新的目标位置,若否,则保持当前目标位置不变。进一步,所述指令生成模块包括训练单元和存储单元,所述训练单元包括:模型建立单元,用于建立初始移动模型;移动控制单元,用于获取环境信息,并采用初始移动模型生成控制指令,根据所述控制指令驱动声源运动至训练声源位置;模型优化单元,用于获取移动物体移动到所述训练声源位置的移动数据,并采用预设评价算法对所述移动数据进行评价,根据评价结果对所述初始移动模型进行更新,直至达到预设训练结束条件,并生成目标移动模型;所述存储单元用于存储所述目标移动模型。进一步,所述移动数据包括移动物体与所述训练声源位置的距离、移动物体移动到所述训练声源位置的移动步数、移动时间以及移动过程中移动物体与障碍物的碰撞次数中的至少一个,所述预设评价算法具体为:查询预设的对应关系表,根据所述移动数据所处的区间获取对应的奖惩值。本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。附图说明图1为本发明一实施例的室内声源移动方法的流程示意图;图2为本发明另一实施例的室内声源移动方法的流程示意图;图3为本发明一实施例中采用增强学习算法训练生成目标移动模型的流程示意图;图4为本发明又一实施例的室内声源移动方法的流程示意图;图5为本发明一实施例中训练生成目标dqn模型的流程示意图;图6为本发明一实施例的室内声源移动装置的模块框图。具体实施方式以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。如图1所示,本发明的一实施例提供了一种基于增强学习的室内声源移动方法,包括以下步骤:s01,采集环境信息;s02,根据所述环境信息,使用经增强学习算法训练后的目标移动模型生成控制指令,所述控制指令用于驱动声源运动至目标位置以避免被移动物体找寻到。本实施例采用了增强学习算法获取控制指令,采用该控制指令可以让声源运动至难以被移动物体,比如工作机器人,找寻到的目标位置,当声源在该目标位置发送声音信号至移动物体时,可以更加迅速有效地对移动物体的声源找寻模型进行训练,从而极大提高了移动物体一次性移动至目标声源位置的成功率,同时提高了目标声源找寻的效率,能够在智能机器人等领域广泛应用。具体来说,上述难以被移动物体找寻到的目标位置,是指移动物体需要花费更多时间或者更多步数的目标位置。为了实现该效果,可以在使用增强学习算法训练生成目标移动模型时,以找寻时间或者找寻步数等数据作为评价指标,并设定合适的奖惩值,通过不断的训练可以收敛到最优策略即不断提高移动对象找到声源所在的目标位置的难度。具体方法通过以下实施例详细说明。本实施例基于增强学习的室内声源移动方法,可以应用在家庭机器人通过主人的呼叫找到主人以提供服务的场景,也可以用于公共场所的服务机器人通过顾客的呼叫找到顾客的场景。在上述场景下,先获取环境信息,比如可以采用红外传感器、超声波传感器等传感器或者摄像头采集障碍物位置信息、障碍物距离信息、墙壁信息等环境信息,然后使用经增强学习算法训练后的目标移动模型生成控制指令,包括角速度控制指令、线速度控制指令等等,以驱动声源,比如训练机器人运动至难以被移动物体找寻到的目标位置,并在该目标位置发送声音信号,移动物体可以通过对该位置的找寻对其声源找寻模型进行训练。训练完成后,当目标对象,包括主人或者顾客发出呼叫时,移动物体,比如工作机器人即可通过声源找寻模型快速、准确移动至目标对象处。如图2所示,为本发明又一实施例提供的一种基于增强学习的室内声源移动方法的流程示意图,包括:s01,采集环境信息;s02,根据所述环境信息,使用经增强学习算法训练后的目标移动模型生成控制指令,所述控制指令用于驱动声源运动至目标位置以避免被移动物体找寻到;s03,判断移动物体是否到达所述目标位置,若是,则执行s01和s02,以使声源移动至新的目标位置,若否,则保持当前目标位置不变。上述优选实施例中,可以采集当前时刻移动物体的位置信息,并计算移动物体和目标位置的距离,比如欧拉距离等,根据所述距离是否小于预设值判断所述移动物体是否到达所述目标位置。或者在目标位置和/或移动物体上设置摄像头,根据摄像头拍摄的照片判断移动物体是否到达所述目标位置,并在移动物体到达所述目标位置时执行s01和s02,以使声源移动至新的目标位置,从而更加迅速有效得对声源找寻模型进行训练,进一步提高移动物体一次性移动至目标声源位置的成功率。如图3所示,为本发明一实施例的s02中采用增强学习算法训练生成目标移动模型的流程示意图,具体包括以下步骤:s201,建立初始移动模型;s202,获取环境信息,并采用初始移动模型生成控制指令,根据所述控制指令驱动声源运动至训练声源位置;s203,获取移动物体移动到所述训练声源位置的移动数据,并采用预设评价算法对所述移动数据进行评价,根据评价结果对所述初始移动模型进行更新;s204,重复s202-203,直至达到预设训练结束条件,并生成目标移动模型。更加优选实施例的s203中,所述移动数据包括移动物体与所述训练声源位置的距离、移动物体移动到所述训练声源位置的移动步数、移动时间以及移动过程中移动物体与障碍物的碰撞次数中的至少一个,所述预设评价算法具体为:查询预设的对应关系表,根据所述移动数据所处的区间获取对应的奖惩值。比如预设的对应关系表中,移动物体与训练声源位置的距离越大,对应的正值奖励越大;移动物体找到训练声源位置的时间越短,对应的正值奖励越小;移动物体找到训练声源位置的步数越少,对应的正值奖励越小;移动过程中移动物体与障碍物发生了碰撞,则赋予负值奖励。上述实施例中,所述预设训练结束条件包括移动物体运动至所述训练声源位置,比如移动物体和训练声源的距离小于给定阈值;或者寻址动作中没有一种能使当前状态产生变化;或者执行动作的次数达到设定值等等。不同实施例可以根据不同的增强学习算法建立不同的初始移动模型,比如根据q-learning算法建立q表,并对q表进行更新,直至q表最终收敛到一个稳定的表。具体来说,在q-learning算法中,通过建立一个q表来存储状态-动作的q值,通过公式(1)更新状态的q值,q(s,a)=q(s,a)+α[r+γmaxa'q(s',a’)q(s,a)](1)其中,s为当前状态,q(s,a)为当前状态s下每一个动作a的q值,q(s′,a′)为执行动作a之后下一状态s′下每一个动作a′的q值,γ为学习效率,α折扣因子,r是执行动作a之后得到的价值。通过不断学习,q表最终收敛到一个稳定的表。针对状态比较多的情况,q表(q-table)会无限大,此时可以根据dqn算法来训练得到dqn模型,具体的方法通过以下实施例进行详细论述。该实施例的室内声源移动方法的移动模型为dqn模型,声源为训练机器人,移动物体为工作机器人,所述控制指令为训练机器人的角速度、线速度等,用于驱动训练机器人运动至难以被移动物体找寻到的目标位置。dqn是建立在q-learning的基础上,用神经网络取代q表计算q值。在dqn中有两个结构相同但是参数不同的神经网络—估计神经网络及现实神经网络,现实神经网络用于计算当前状态的s下每一个动作a的q值q(s,a),估计神经网络用于计算下一个状态s′下每一个动作a′的q值q(s′,a′),其中,在训练阶段用到现实神经网络及估计神经网络,在训练结束之后,只用现实神经网络选择动作。具体如图4所示,本实施例所述基于增强学习的室内声源移动方法应用于训练机器人,包括以下步骤:s1,采集环境信息,使用训练好的目标dqn模型中的现实神经网络计算所述环境信息下每一个动作的q值,并根据ε-greedy策略生成目标at,即生成控制指令;s2,根据所述控制指令驱动训练机器人运动至避免被工作机器人找寻到的目标位置;s3,判断工作机器人是否到达所述目标位置,若是,则执行s1和s2,以使训练机器人移动至新的目标位置,若否,则保持当前目标位置不变。如图5所示,为上述实施例中训练生成目标dqn模型的流程示意图,应用于训练机器人,包括以下步骤:s11,建立初始dqn模型,所述初始dqn模型包括两个结构相同但是参数不同的神经网络,即估计神经网络和现实神经网络,现实神经网络用于计算当前状态,即当前状态st下每一个动作a的q值q(st,a),一个动作a表示驱动训练机器人移动至难以被工作机器人找到的目标位置的控制指令;估计神经网络用于计算下一个状态st+1下每一个动作a的q值q(st+1,a);所述估计神经网络和现实神经网络的输入为环境信息,所述环境信息包括障碍物位置信息、障碍物距离信息、墙壁信息中的至少一个;s12,对所述初始dqn模型进行训练,具体包括以下步骤:s121,初始化所述估计神经网络的权重w1和所述现实神经网络的权重w2。s122,通过红外传感器采集当前环境信息,将所述当前环境信息作为当前状态st输入到现实神经网络,计算当前状态st下每一个动作a的q值q(st,a),即每一个控制指令的q值q(st,a)。s123,根据ε-greedy策略选择一个动作at,即选择一个控制指令,并执行所述动作at,得到下一个状态st+1和采用预设评价算法生成的奖惩值,比如移动物体找到训练声源位置的时间为10s,则奖惩值为10分,移动物体找到训练声源位置的时间为6s,则奖惩值为5分,碰到障碍物则奖惩值为-10分。s124,根据预设损失函数,并采用梯度下降法更新所述现实神经网络的权重w2;所述预设损失函数为:l=e[(r+γ·maxa′q(st+1,at+1)-q(st,at))2],其中q(st+1,at+1)由估计神经网络产生,q(st,at)由现实神经网络产生,γ为取值小于1为折损率。s125,每隔n步将现实神经网络参数的权重w2赋值给估计神经网络的权重w1。优选的实施例中,s124具体为:将所述当前状态、所述当前状态下执行的动作、所述当前状态下动作执行后获得的奖惩值以及下一个状态构成的元组存入记忆池,并在记忆池的存储容量达到预设值时随机抽取指定数量的存储数据,根据预设损失函数并采用梯度下降法更新所述现实神经网络的权重w2。上述实施例中,所述ε-greedy策略是指设置一个epsilon值ε,其中ε是一个介于0-1之间的数,在选择动作的过程中,产生一个随机数random,若random<ε,则选择最大q值对应的动作at,否则随机选择一个动作。本发明还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,实现以上项所述的方法。本发明还提供了一种基于增强学习的室内声源移动设备,包括以上所述的计算机可读存储介质和处理器,所述处理器执行所述计算机可读存储介质上的计算机程序时实现以上所述方法的步骤。如图6所示,本发明还提供了一种基于增强学习的室内声源移动装置,包括采集模块和指令生成模块,所述采集模块用于采集环境信息;所述指令生成模块用于根据所述环境信息,使用经增强学习算法训练后的目标移动模型生成控制指令,所述控制指令用于驱动声源运动至目标位置以避免被移动物体找寻到。优选实施例中,所述室内声源移动装置还包括判断模块,所述判断模块用于判断移动物体是否到达所述目标位置,若是,则依次驱动采集模块和指令生成模块,以使声源移动至新的目标位置,若否,则保持当前目标位置不变。另一优选实施例中,所述指令生成模块包括训练单元和存储单元,所述训练单元包括:模型建立单元,用于建立初始移动模型;移动控制单元,用于获取环境信息,并采用初始移动模型生成控制指令,根据所述控制指令驱动声源运动至训练声源位置;模型优化单元,用于获取移动物体移动到所述训练声源位置的移动数据,并采用预设评价算法对所述移动数据进行评价,根据评价结果对所述初始移动模型进行更新,直至达到预设训练结束条件,并生成目标移动模型;所述存储单元用于存储所述目标移动模型。具体的,所述移动数据包括移动物体与所述训练声源位置的距离、移动物体移动到所述训练声源位置的移动步数、移动时间以及移动过程中移动物体与障碍物的碰撞次数中的至少一个,所述预设评价算法具体为:查询预设的对应关系表,根据所述移动数据所处的区间获取对应的奖惩值。本发明又一实施例还提供了一种基于增强学习的室内声源移动装置,包括训练机器人和工作机器人,所述训练机器人包括采集模块、指令生成模块、控制模块、判断模块和声音生成模块,所述采集模块用于采集环境信息;所述指令生成模块用于使用训练好的目标dqn模型中的现实神经网络计算所述环境信息下每一个动作的q值,并根据ε-greedy策略生成目标at,即生成控制指令;所述控制模块用于驱动训练机器人根据所述控制指令运动至避免被工作机器人找寻到的目标位置;所述判断模块用于判断工作机器人是否到达所述目标位置,若是,则驱动采集模块和指令生成模块,以使训练机器人移动至新的目标位置,若否,则保持当前目标位置不变;所述声音生成模块用于当训练机器人根据所述控制指令运动至目标位置后,模拟人声发出目标语音信号。上述实施例中,所述指令生成模块还包括训练单元,所述训练单元包括:模型建立单元,具体用于建立初始dqn模型,所述初始dqn模型包括两个结构相同但是参数不同的神经网络,即估计神经网络和现实神经网络,现实神经网络用于计算当前状态,即当前状态st下每一个动作a的q值q(st,a),一个动作a表示驱动训练机器人移动至难以被工作机器人找到的目标位置的控制指令;估计神经网络用于计算下一个状态st+1下每一个动作a的q值q(st+1,a);所述估计神经网络和现实神经网络的输入为环境信息,所述环境信息包括障碍物位置信息、障碍物距离信息、墙壁信息中的至少一个;初始化单元,用于初始化所述估计神经网络的权重w1和所述现实神经网络的权重w2;移动控制单元,具体用于通过红外传感器采集当前环境信息,将所述当前环境信息作为当前状态st输入到现实神经网络,计算当前状态st下每一个动作a的q值q(st,a),即每一个控制指令的q值q(st,a),根据ε-greedy策略选择一个动作at,即选择一个控制指令,并执行所述动作at,得到下一个状态st+1;模型优化单元,具体用于采用预设评价算法生成奖惩值,根据预设损失函数,并采用梯度下降法更新所述现实神经网络的权重w2,每隔n步将现实神经网络参数的权重w2赋值给估计神经网络的权重w1,并生成目标移动模型;所述预设损失函数为:l=e[(r+γ·maxa′q(st+1,att+1)-q(st,at))2],其中q(st+1,at+1)由估计神经网络产生,q(st,at)由现实神经网络产生,γ为取值小于1为折损率。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本
技术领域
:的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1