本公开涉及语音处理技术领域,尤其涉及一种实时语音交互处理方法及装置、电子设备、存储介质。
背景技术:
随着语音交互技术的发展,聊天机器人的应用越来越广泛,例如搭载到电子设备中的各种聊天机器人,这样可以方便用户与聊天机器人交互,由机器人帮忙用户查找相应的信号。
实际应用中,聊天机器人可能面对不同的用户,各用户的素质参差不齐。例如,在聊天过程中,部分用户可能会询问一些敏感话题,例如政治事件、反动言论、黄色话题或者辱骂等话题,若聊天机器人反馈信息,则会违规或违法,若聊天机器人不反馈信号,则用户可能会认为机器人故障或者没有听清,继续询问,不利于提升用户体验。
技术实现要素:
本公开提供一种实时语音交互处理方法及装置、电子设备、存储介质,以解决相关技术的不足。
根据本公开实施例的第一方面,提供一种实时语音交互处理方法,包括:
接收语音会话信息,确定所接收的语音会话信息中是否存在预设的敏感内容;
在所述语音会话信息中未存在所述敏感内容时,返回与所述语音会话信息相匹配的语音回复数据;在所述语音会话信息存在所述敏感内容时,返回与所述敏感内容相匹配的语音提醒数据,所述语音提醒数据用于提醒所述语音会话信息中涉及敏感内容。
可选地,确定所获取的语音会话信息中是否存在预设的敏感内容包括:
将所述语音会话信息转换成文本会话数据;
确定所述文本会话数据是否存在预设的敏感内容。
可选地,确定所述文本会话数据是否存在预设的敏感内容包括:
获取数据库中的敏感内容,并构建成字典树结构;
基于所述字典树结构匹配所述文本会话数据,得到匹配结果,所述匹配结果表示所述文本会话数据中是否存在预设的敏感内容。
可选地,所述数据库中的敏感内容,通过以下步骤获取:
获取预先训练的文本分类器;
将待分类的文本会话数据输入到所述文本分类器,由所述文本分类器获取各文本会话数据的分类;所述分类为正常类型和异常类型,所述异常类型是指文本会话数据内包含敏感内容;
从所述分类为异常类型的文本会话数据中提取出敏感内容;
将提取出的敏感内容存储到所述数据库。
可选地,所述文本分类器通过以下步骤训练,包括:
获取包含不同类型敏感内容的文本会话数据,得到多个文本会话训练集合,其中包含相同类型的敏感内容的文本会话数据构成一个文本会话训练集合;
利用所述文本会话训练集合训练预设的文本分类器,直至所述文本分类器的损失函数的输出值小于设定误差阈值为止。
可选地,所述文本分类器获取各文本会话数据的分类之后,所述方法还包括:
将分类的预测值大于预测值阈值的文本会话数据进行显示;
获取用户触发操作所选定的文本会话数据;
利用所选定的文本会话数据更新文本会话训练集合,更新后的文本会话训练集合用于重新训练所述文本分类器。
可选地,所述数据库中的敏感内容,通过以下步骤获取:
检测管理者网页界面内所输入的关键词;
将所述关键词作为敏感内容存入所述数据库。
根据本公开实施例的第二方面,提供一种实时语音交互处理装置,包括:
敏感内容确定模块,用于接收语音会话信息,确定所接收的语音会话信息中是否存在预设的敏感内容;
语音数据回复模块,用于在所述语音会话信息中未存在所述敏感内容时,返回与所述语音会话信息相匹配的语音回复数据;在所述语音会话信息存在所述敏感内容时,返回与所述敏感内容相匹配的语音提醒数据,所述语音提醒数据用于提醒所述语音会话信息中涉及敏感内容。
可选地,所述敏感内容确定模块包括:
文本数据获取单元,用于将所述语音会话信息转换成文本会话数据;
敏感内容确定单元,用于确定所述文本会话数据是否存在预设的敏感内容。
可选地,所述敏感内容确定单元包括:
敏感内容获取子单元,用于获取数据库中的敏感内容,并构建成字典树结构;
匹配结果获取子单元,用于基于所述字典树结构匹配所述文本会话数据,得到匹配结果,所述匹配结果表示所述文本会话数据中是否存在预设的敏感内容。
可选地,所述装置还包括敏感内容提取模块,所述敏感内容提取模块包括:
分类器获取单元,用于获取预先训练的文本分类器;
文本数据分类单元,用于将待分类的文本会话数据输入到所述文本分类器,由所述文本分类器获取各文本会话数据的分类;所述分类为正常类型和异常类型,所述异常类型是指文本会话数据内包含敏感内容;
敏感内容提取单元,用于从所述分类为异常类型的文本会话数据中提取出敏感内容;
敏感内容存储单元,用于将提取出的敏感内容存储到所述数据库。
可选地,所述装置还包括分类器训练模块,所述分类器训练模块包括:
文本数据标记单元,用于获取包含不同类型敏感内容的文本会话数据,得到多个文本会话训练集合,其中包含相同类型的敏感内容的文本会话数据构成一个文本会话训练集合;
分类器训练单元,用于利用所述文本会话训练集合训练预设的文本分类器,直至所述文本分类器的损失函数的输出值小于设定误差阈值为止。
可选地,所述装置还包括:
文本数据显示模块,用于将分类的预测值大于预测值阈值的文本会话数据进行显示;
文本数据选定模块,用于获取用户触发操作所选定的文本会话数据;
训练集合更新模块,用于利用所选定的文本会话数据更新文本会话训练集合,更新后的文本会话训练集合用于重新训练所述文本分类器。
可选地,所述装置还包括敏感内容获取模块,所述敏感内容获取模块包括:
关键词检测单元,用于检测管理者网页界面内所输入的关键词;
关键词存储单元,用于在所述关键词为敏感内容时,将所述关键词存入所述数据库。
根据本公开实施例的第三方面,提供一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器被配置为执行所述存储器中的可执行指令以实现如上述任一项所述方法的步骤。
根据本公开实施例的第四方面,提供一种可读存储介质,其上存储有可执行指令,该可执行指令被处理器执行时实现如上述任一项所述方法的步骤。
本公开的实施例提供的技术方案可以包括以下有益效果:
由上述实施例可知,本公开实施例中通过接收语音会话信息,确定所接收的语音会话信息中是否存在预设的敏感内容;在所述语音会话信息中未存在所述敏感内容时,返回与所述语音会话信息相匹配的语音回复数据;在所述语音会话信息存在所述敏感内容时,返回与所述敏感内容相匹配的语音提醒数据,所述语音提醒数据用于提醒所述语音会话信息中涉及敏感内容。这样,本实施例中可以在语音会话信息存在敏感内容时回复语音提醒数据,可以及时提醒用户,从而使用户及时中止该敏感话题,避免出现用户多次重复的问题,有利于提升用户使语音交互的体验。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种实时语音交互处理方法的流程图。
图2是根据一示例性实施例示出的一种确定敏感内容的流程图。
图3是根据一示例性实施例示出的另一种确定敏感内容的流程图。
图4是根据一示例性实施例示出的训练文本分类器的流程图。
图5是根据一示例性实施例示出的匹配敏感内容的流程图。
图6~图12是根据一示例性实施例示出的一种实时语音交互处理装置的框图。
图13是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性所描述的实施例并不代表与本公开相一致的所有实施例。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置例子。
本公开实施例提供了一种实时语音交互处理方法,可以应用于设置有聊天机器人的电子设备(如智能音箱),图1是根据一示例性实施例示出的一种实时语音交互处理方法的流程图,参见图1,一种实时语音交互处理方法,包括步骤101~步骤102,其中:
在步骤101中,接收语音会话信息,确定所接收的语音会话信息中是否存在预设的敏感内容。
电子设备可以与用户进行语音交互,例如用户对着电子设备说话,形成语音会话信息。电子设备可以接收到该语音会话信息,理解该语音会议数据的意图,并向用户反馈相匹配的数据。
本实施例中,电子设备可以先确定语音会议数据中否存在预设的敏感内容。参见图2,电子设备获取语音会话信息,该语音会议数据可以由电子设备的音频采集器件采集得到。然后,电子设备可以将该语音会话信息转换成文本会话数据(对应步骤201)。之后,电子设备可以确定该文本会话数据内是否存储预设的敏感内容(对应步骤202)。
实际应用中,电子设备中可以预先设置数据库,该数据库内可以存储敏感内容,该敏感内容可以包括以下至少一项:敏感词,敏感规则,其中敏感规则是指确定至少一个敏感词的规则,例如a-b-c,a*b*c,abc构成一个敏感词,由于“-”或“*”的存在,只检索敏感词可能检索不出来,因此敏感规则可以设置为a()b()c,其中“()”可以表示a和b,以及b和c之间存在一个间隔字符,包括各类符号或者文字,去掉间隔字条后,abc构成一个敏感词。当然,技术人员可以根据具体场景进行设置,在此不作限定。
需要说明的是,数据库中的敏感内容可以通过以下方式获取:
方式一,电子设备中可以预先存储一个已训练好的文本分类器,在有文本会话数据进行分类的需求时,例如接收到文本会话数据,或者在一次会话交互过程完成后,参见图3,电子设备可以获取该文本分类器(对应步骤301),该文本分类器可以是神经网络模型,例如cnn或rnn,在此不作限定。将待分类的文本会话数据输入到文本分类器,由文本分类器获取各文本会话数据的分类;其中分类可以包括正常类型和异常类型,异常类型是指文本会话数据内包含敏感内容(对应步骤302)。实际应用中,异常类型会作进一步细分,例如政治、色情、暴力等,在此不作限定。这样,电子设备可以从分类为异常类型的文本会话数据中提取出敏感内容(对应步骤303),并将提取出的敏感内容存储到数据库(对应步骤304)。
在一示例中,在文本分类器对各文本会话数据分类后,可以将分类的预测值大于预测值阈值的文本会话数据即异常类型的文本会话数据显示给用户,这样,在某个文本会话数据包含敏感内容时,用户触发操作以选定文本会话数据,然后利于所选定的文本会话数据更新文本会话训练集合,之后可以利用更新后的文本会话训练集合重新训练文本分类器。这样,通过重复训练,有利于提升文本分类器的分类的准确度。
其中,文本分类器可以通过以下步骤训练,参见图4,可以获取包含不同类型敏感内容的文本会话数据,得到多个文本会话训练集合,其中包含相同类型的敏感内容的文本会话数据构成一个文本会话训练集合(对应步骤401)。然后,利用文本会话训练集合训练预设的文本分类器(如cnn或者rnn),直至文本分类器的损失函数的输出值小于设定误差阈值为止(对应步骤402),从而完成分类器的训练。需要说明的是,上述训练过程可以在电子设备内完成。当然,上述训练过程还可以在电子设备外完成(即离线训练),然后将文本分类器移植到电子设备内,从而不占用电子设备的计算资源。
本实施例中,电子设备通过自动获取文本会话数据内的敏感内容,可以自动更新并丰富数据库库中的敏感内容。这样,在后续的敏感内容匹配时,有利于提高匹配结果的准确度。
方式二,电子设备上可以设置有操作界面,例如管理者网页界面,用户可以通过管理者网页界面输入关键词,该关键词即是用户确定出的敏感内容。电子设备可以将关键词作为敏感内容存入数据库。本方式中,通过人工添加敏感内容,可以丰富数据库中敏感内容的数据量,有利于提高匹配结果的准确度。
本实施例中,参见图5,电子设备可以获取数据库中的敏感内容,并构建成字典树结构(对应步骤501)。例如,电子设备中可以预先一个敏感服务,通过调用该敏感服务,由该敏感服务使用java或者python语言从数据库中读出敏感词和敏感规则,构建成字典树结构,并存储到内存中。实际应用中,敏感服务可以按照设定周期更新一次字典树结构,例如数分钟,从而保证新产生的敏感内容能够及时添加到字典树结构中。
然后,电子设备基于该字典树结构匹配文本会话数据,可以得到匹配结果,该匹配结果表示文本会话数据中是否存在预设的敏感内容(对应步骤502)。
在步骤102中,在所述语音会话信息中未存在所述敏感内容时,返回与所述语音会话信息相匹配的语音回复数据;在所述语音会话信息存在所述敏感内容时,返回与所述敏感内容相匹配的语音提醒数据,所述语音提醒数据用于提醒所述语音会话信息中涉及敏感内容。
本实施例中,电子设备内可以预设一些语音回复数据或者语音提醒数据。
以语音回复数据为例,语音回复数据可以是一些经常被查询的话题,例如中国的首都是哪里,北京有哪些推荐的小吃等,这样在语音会议数据未存在敏感内容时,电子设备可以基于文本会话内容的语义理解,返回相匹配的语音回复数据。
实际应用中,电子设备还可能会面临一些小众话题,例如“外太空是什么样的?”,此时电子设备可以基于该话题在互联网上查询答案,在查询到答案后形成语音回复数据,并反馈给用户,这样,电子设备中无需存在使用频率较低的语音回复数据,从而降低对存储资源的占用,有利于提升存储资源的利用效率。
以语音提醒数据为例,电子设备内可以预设一些语音提醒数据,例如,针对某一类型的敏感内容设置不同的语音提醒数据。在语音会话信息存在敏感内容时,可以查询到该敏感内容对应的语音提醒数据,返回给用户。这样,电子设备通过及时反馈语音提醒数据,可以提醒用户及时中止敏感话题,避免发生反复提问的情况。
至此,本公开实施例中通过接收语音会话信息,确定所接收的语音会话信息中是否存在预设的敏感内容;在所述语音会话信息中未存在所述敏感内容时,返回与所述语音会话信息相匹配的语音回复数据;在所述语音会话信息存在所述敏感内容时,返回与所述敏感内容相匹配的语音提醒数据,所述语音提醒数据用于提醒所述语音会话信息中涉及敏感内容。这样,本实施例中可以在语音会话信息存在敏感内容时回复语音提醒数据,可以及时提醒用户,从而使用户及时中止该敏感话题,避免出现用户多次重复的问题,有利于提升用户使语音交互的体验。
图6是根据一示例性实施例示出的一种实时语音交互处理装置的框图。参见图6,一种实时语音交互处理装置,包括:
敏感内容确定模块601,用于接收语音会话信息,确定所接收的语音会话信息中是否存在预设的敏感内容;
语音数据回复模块602,用于在所述语音会话信息中未存在所述敏感内容时,返回与所述语音会话信息相匹配的语音回复数据;在所述语音会话信息存在所述敏感内容时,返回与所述敏感内容相匹配的语音提醒数据,所述语音提醒数据用于提醒所述语音会话信息中涉及敏感内容。
在一实施例中,参见图7,所述敏感内容确定模块601包括:
文本数据获取单元701,用于将所述语音会话信息转换成文本会话数据;
敏感内容确定单元702,用于确定所述文本会话数据是否存在预设的敏感内容。
在一实施例中,参见图8,所述敏感内容确定单元702包括:
敏感内容获取子单元801,用于获取数据库中的敏感内容,并构建成字典树结构;
匹配结果获取子单元802,用于基于所述字典树结构匹配所述文本会话数据,得到匹配结果,所述匹配结果表示所述文本会话数据中是否存在预设的敏感内容。
在一实施例中,参见图9,所述装置还包括敏感内容提取模块,所述敏感内容提取模块包括:
分类器获取单元901,用于获取预先训练的文本分类器;
文本数据分类单元902,用于将待分类的文本会话数据输入到所述文本分类器,由所述文本分类器获取各文本会话数据的分类;所述分类为正常类型和异常类型,所述异常类型是指文本会话数据内包含敏感内容;
敏感内容提取单元903,用于从所述分类为异常类型的文本会话数据中提取出敏感内容;
敏感内容存储单元904,用于将提取出的敏感内容存储到所述数据库。
在一实施例中,参见图10,所述装置还包括分类器训练模块,所述分类器训练模块包括:
文本数据标记单元1001,用于获取包含不同类型敏感内容的文本会话数据,得到多个文本会话训练集合,其中包含相同类型的敏感内容的文本会话数据构成一个文本会话训练集合;
分类器训练单元1002,用于利用所述文本会话训练集合训练预设的文本分类器,直至所述文本分类器的损失函数的输出值小于设定误差阈值为止。
在一实施例中,参见图11,所述装置还包括:
文本数据显示模块1101,用于将分类的预测值大于预测值阈值的文本会话数据进行显示;
文本数据选定模块1102,用于获取用户触发操作所选定的文本会话数据;
训练集合更新模块1103,用于利用所选定的文本会话数据更新文本会话训练集合,更新后的文本会话训练集合用于重新训练所述文本分类器。
在一实施例中,参见图12,所述装置还包括敏感内容获取模块,所述敏感内容获取模块包括:
关键词检测单元1201,用于检测管理者网页界面内所输入的关键词;
关键词存储单元1202,用于在所述关键词为敏感内容时,将所述关键词存入所述数据库。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
至此,本公开实施例中通过接收语音会话信息,确定所接收的语音会话信息中是否存在预设的敏感内容;在所述语音会话信息中未存在所述敏感内容时,返回与所述语音会话信息相匹配的语音回复数据;在所述语音会话信息存在所述敏感内容时,返回与所述敏感内容相匹配的语音提醒数据,所述语音提醒数据用于提醒所述语音会话信息中涉及敏感内容。这样,本实施例中可以在语音会话信息存在敏感内容时回复语音提醒数据,可以及时提醒用户,从而使用户及时中止该敏感话题,避免出现用户多次重复的问题,有利于提升用户使语音交互的体验。
图13是根据一示例性实施例示出的一种电子设备的框图。例如,电子设备1300可以是智能手机,计算机,数字广播终端,平板设备,医疗设备,健身设备,个人数字助理,智能音箱等。
参照图13,电子设备1300可以包括以下一个或多个组件:处理组件1302,存储器1304,电源组件1306,多媒体组件1308,音频组件1310,输入/输出(i/o)的接口1312,传感器组件1314,通信组件1316,以及图像采集组件1318。
处理组件1302通常电子设备1300的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件1302可以包括一个或多个处理器1320来执行指令。此外,处理组件1302可以包括一个或多个模块,便于处理组件1302和其他组件之间的交互。例如,处理组件1302可以包括多媒体模块,以方便多媒体组件1308和处理组件1302之间的交互。
存储器1304被配置为存储各种类型的数据以支持在电子设备1300的操作。这些数据的示例包括用于在电子设备1300上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器1304可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。
电源组件1306为电子设备1300的各种组件提供电力。电源组件1306可以包括电源管理系统,一个或多个电源,及其他与为电子设备1300生成、管理和分配电力相关联的组件。
多媒体组件1308包括在所述电子设备1300和目标对象之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示屏(lcd)和触摸面板(tp)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自目标对象的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
音频组件1310被配置为输出和/或输入音频信号。例如,音频组件1310包括一个麦克风(mic),当电子设备1300处于操作模式,如呼叫模式、记录模式和实时语音交互处理模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1304或经由通信组件1316发送。在一些实施例中,音频组件1310还包括一个扬声器,用于输出音频信号。
i/o接口1312为处理组件1302和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。
传感器组件1314包括一个或多个传感器,用于为电子设备1300提供各个方面的状态评估。例如,传感器组件1314可以检测到电子设备1300的打开/关闭状态,组件的相对定位,例如所述组件为电子设备1300的显示屏和小键盘,传感器组件1314还可以检测电子设备1300或一个组件的位置改变,目标对象与电子设备1300接触的存在或不存在,电子设备1300方位或加速/减速和电子设备1300的温度变化。
通信组件1316被配置为便于电子设备1300和其他设备之间有线或无线方式的通信。电子设备1300可以接入基于通信标准的无线网络,如wifi,2g,3g,4g,5g或它们的组合。在一个示例性实施例中,通信组件1316经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件1316还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。
在示例性实施例中,电子设备1300可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现。
在示例性实施例中,还提供了一种包括指令的非临时性可读存储介质,例如包括指令的存储器1304,上述指令可由电子设备1300的处理器1320执行。例如,所述非临时性可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本公开旨在涵盖任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。