双录数据质检中的客户确认检测方法及装置与流程

文档序号:25859540发布日期:2021-07-13 16:14阅读:279来源:国知局
双录数据质检中的客户确认检测方法及装置与流程

本发明涉及音视频处理技术领域,尤指一种双录数据质检中的客户确认检测方法及装置。



背景技术:

为了保护消费者的权益,监管机构要求商业银行业及金融机构在销售理财和代销保单等金融产品时,通过录音录像(双录)规范金融机构的销售行为。目前,商业银行通常采用本地缓存视频文件,等整个双录音视频录制完毕后异步上传云端保存,以备后续监管部门进行合规审查。

金融机构为保证双录视频的合规性,一般采用人工智能技术对离线音视频数据进行检查,但是存在无法对客户确认环节进行准确检测的问题,导致质检成功率不高。客户确认环节依赖于语音转文本后的规则匹配,但客户说话声音小或环境嘈杂时,客户确认环节很容易导致质检不通过。



技术实现要素:

针对现有技术中存在的问题,本发明实施例的主要目的在于提供一种双录数据质检中的客户确认检测方法及装置,实现对客户确认环节进行准确的检测。

为了实现上述目的,本发明实施例提供一种双录数据质检中的客户确认检测方法,所述方法包括:

获取双录数据,并将所述双录数据分解为视频数据与音频数据;

对所述视频数据进行确认动作检测,得到确认动作检测结果;

对所述音频数据进行语音识别,得到语音文本数据,并对所述语音文本数据进行文本规则匹配,得到文本匹配结果;

根据所述确认动作检测结果及所述文本匹配结果,生成客户确认检测结果。

可选的,在本发明一实施例中,所述对所述视频数据进行确认动作检测,得到确认动作检测结果包括:

对所述视频数据进行点头检测、手势检测及唇语检测,分别得到点头检测结果、手势检测结果及唇语检测结果;

根据所述点头检测结果、手势检测结果及唇语检测结果确定所述确认动作检测结果是否为检测通过,若所述点头检测结果、手势检测结果及唇语检测结果中任意一个检测结果为检测通过,则所述确认动作检测结果为检测通过。

可选的,在本发明一实施例中,所述对所述语音文本数据进行文本规则匹配,得到文本匹配结果包括:

根据预设的匹配规则确定所述语音文本数据是否符合所述匹配规则,若所述语音文本数据符合所述匹配规则,则所述文本匹配结果为匹配通过。

可选的,在本发明一实施例中,所述根据所述确认动作检测结果及所述文本匹配结果,生成客户确认检测结果包括:

确定所述确认动作检测结果是否为检测通过,或所述文本匹配结果是否为匹配通过,若所述确认动作检测结果为检测通过,或所述文本匹配结果为匹配通过,则生成的客户确认检测结果为通过。

本发明实施例还提供一种双录数据质检中的客户确认检测装置,所述装置包括:

数据获取模块,用于获取双录数据,并将所述双录数据分解为视频数据与音频数据;

动作检测模块,用于对所述视频数据进行确认动作检测,得到确认动作检测结果;

规则匹配模块,用于对所述音频数据进行语音识别,得到语音文本数据,并对所述语音文本数据进行文本规则匹配,得到文本匹配结果;

检测结果模块,用于根据所述确认动作检测结果及所述文本匹配结果,生成客户确认检测结果。

可选的,在本发明一实施例中,所述动作检测模块包括:

动作检测单元,用于对所述视频数据进行点头检测、手势检测及唇语检测,分别得到点头检测结果、手势检测结果及唇语检测结果;

检测结果单元,用于根据所述点头检测结果、手势检测结果及唇语检测结果确定所述确认动作检测结果是否为检测通过,若所述点头检测结果、手势检测结果及唇语检测结果中任意一个检测结果为检测通过,则所述确认动作检测结果为检测通过。

可选的,在本发明一实施例中,所述规则匹配模块还用于根据预设的匹配规则确定所述语音文本数据是否符合所述匹配规则,若所述语音文本数据符合所述匹配规则,则所述文本匹配结果为匹配通过。

可选的,在本发明一实施例中,所述检测结果模块还用于确定所述确认动作检测结果是否为检测通过,或所述文本匹配结果是否为匹配通过,若所述确认动作检测结果为检测通过,或所述文本匹配结果为匹配通过,则生成的客户确认检测结果为通过。

本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法。

本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述方法的计算机程序。

本发明通过对视频数据及音频数据进行识别及检测,提升了双录质检时客户确认环节的检测准确率,同时利用对客户的确认动作进行识别及检测,解决了单纯依靠语音转文本进行检测导致的检测准确率不高的问题,进而提升双录质检检测成功率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例一种双录数据质检中的客户确认检测方法的流程图;

图2为本发明实施例中得到确认动作检测结果的流程图;

图3为本发明实施例一种双录数据质检中的客户确认检测装置的结构示意图;

图4为本发明实施例中动作检测模块的结构示意图;

图5为本发明一实施例所提供的电子设备的结构示意图。

具体实施方式

本发明实施例提供一种双录数据质检中的客户确认检测方法及装置,可用于金融领域或其他领域,需要说明的是,本发明的双录数据质检中的客户确认检测方法及装置可用于金融领域,也可用于除金融领域之外的任意领域,本发明的双录数据质检中的客户确认检测方法及装置应用领域不做限定。

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示为本发明实施例一种双录数据质检中的客户确认检测方法的流程图,本发明实施例提供的双录数据质检中的客户确认检测方法的执行主体包括但不限于计算机。图中所示方法包括:

步骤s1,获取双录数据,并将所述双录数据分解为视频数据与音频数据。

其中,通过录像录音设备对双录(录像录音)数据进行采集,对获取到的双录数据进行分离。具体的,可以采用ffmpeg工具对双录数据进行分离,得到视频数据及音频数据。

步骤s2,对所述视频数据进行确认动作检测,得到确认动作检测结果。

其中,对视频数据进行确认动作检测为对视频数据进行识别及检测,判断视频数据中客户是否出现确认动作。

具体的,对视频数据进行点头检测,判断客户是否出现点头动作,可以采用hopenet等头部姿态估计算法实现。若检测到客户出现点头动作,则点头检测结果为检测通过,否则,点头检测结果为不通过。

进一步的,对视频数据进行手势检测,判断客户是否出现手势确认动作,例如ok等手势,可以采用现有手势识别技术进行手势识别,例如百度ai开放平台等。若检测到客户出现手势确认动作,则手势检测结果为检测通过,否则,手势检测结果为不通过。

进一步的,对视频数据进行唇语检测,判断客户是否说出了同意、了解、知道或明白等肯定馈语,可以采用耦合3d卷积神经网络进行唇语检测。其中,肯定馈语可以预先设置,若检测到客户说出肯定馈语,则唇语检测结果为检测通过,否则,唇语检测结果为不通过。

进一步的,当点头检测结果、手势检测结果及唇语检测结果中任意一个检测结果为检测通过,表明客户表达出肯定反馈,则生成确认动作检测结果,且确认动作检测结果为检测通过。若点头检测结果、手势检测结果及唇语检测结果均为不通过,则生成确认动作检测结果,且确认动作检测结果为不通过。

步骤s3,对所述音频数据进行语音识别,得到语音文本数据,并对所述语音文本数据进行文本规则匹配,得到文本匹配结果。

其中,可以采用现有语音识别技术对音频数据进行语音识别,得到语音文本数据。此外,通过预设匹配规则,对语音文本数据进行文本规则匹配。

具体的,预设的匹配规则包括肯定反馈信息,例如,肯定反馈信息为同意、明白等可能词汇。对语音文本数据进行文本规则匹配,若语音文本数据中包括匹配规则中的肯定反馈信息,则说明客户表达了明确的确认反馈,文本匹配结果为匹配通过。若语音文本数据中不包括匹配规则中的肯定反馈信息,则说明客户没有表达确认反馈,文本匹配结果为不通过。

进一步的,预设的匹配规则还包括肯定反馈信息对应的业务问题,例如,肯定反馈信息应该在对应的具体业务问题之后。对语音文本数据进行文本规则匹配时,可以结合肯定反馈信息对应的业务问题,确定肯定反馈信息是针对业务问题的回应。例如,业务问题为询问客户是否了解了业务办理的注意事项,客户在此业务问题后给出了肯定反馈信息“了解”,由此判定客户表达了明确的确认反馈,文本匹配结果为匹配通过。

步骤s4,根据所述确认动作检测结果及所述文本匹配结果,生成客户确认检测结果。

其中,若确认动作检测结果为检测通过,或者文本匹配结果为匹配通过,则说明客户表达了明确的确认反馈,生成客户确认检测结果,且客户确认检测结果为通过。若确认动作检测结果与文本匹配结果均为不通过,则说明客户没有表达确认反馈,生成客户确认检测结果,且客户确认检测结果为不通过。

作为本发明的一个实施例,如图2所示,对所述视频数据进行确认动作检测,得到确认动作检测结果包括:

步骤s21,对所述视频数据进行点头检测、手势检测及唇语检测,分别得到点头检测结果、手势检测结果及唇语检测结果。

步骤s22,根据所述点头检测结果、手势检测结果及唇语检测结果确定所述确认动作检测结果是否为检测通过,若所述点头检测结果、手势检测结果及唇语检测结果中任意一个检测结果为检测通过,则所述确认动作检测结果为检测通过。

其中,对视频数据进行点头检测,判断客户是否出现点头动作,可以采用hopenet等头部姿态估计算法实现。若检测到客户出现点头动作,则点头检测结果为检测通过,否则,点头检测结果为不通过。

进一步的,对视频数据进行手势检测,判断客户是否出现手势确认动作,例如ok等手势,可以采用现有手势识别技术进行手势识别,例如百度ai开放平台等。若检测到客户出现手势确认动作,则手势检测结果为检测通过,否则,手势检测结果为不通过。

进一步的,对视频数据进行唇语检测,判断客户是否说出了同意、了解、知道或明白等肯定馈语,可以采用耦合3d卷积神经网络进行唇语检测。其中,肯定馈语可以预先设置,若检测到客户说出肯定馈语,则唇语检测结果为检测通过,否则,唇语检测结果为不通过。

进一步的,当点头检测结果、手势检测结果及唇语检测结果中任意一个检测结果为检测通过,表明客户表达出肯定反馈,则生成确认动作检测结果,且确认动作检测结果为检测通过。若点头检测结果、手势检测结果及唇语检测结果均为不通过,则生成确认动作检测结果,且确认动作检测结果为不通过。

作为本发明的一个实施例,对所述语音文本数据进行文本规则匹配,得到文本匹配结果包括:根据预设的匹配规则确定所述语音文本数据是否符合所述匹配规则,若所述语音文本数据符合所述匹配规则,则所述文本匹配结果为匹配通过。

其中,预设的匹配规则包括肯定反馈信息,例如,肯定反馈信息为同意、明白等可能词汇。对语音文本数据进行文本规则匹配,若语音文本数据中包括匹配规则中的肯定反馈信息,则说明客户表达了明确的确认反馈,文本匹配结果为匹配通过。若语音文本数据中不包括匹配规则中的肯定反馈信息,则说明客户没有表达确认反馈,文本匹配结果为不通过。

进一步的,预设的匹配规则还包括肯定反馈信息对应的业务问题,例如,肯定反馈信息应该在对应的具体业务问题之后。对语音文本数据进行文本规则匹配时,可以结合肯定反馈信息对应的业务问题,确定肯定反馈信息是针对业务问题的回应。例如,业务问题为询问客户是否了解了业务办理的注意事项,客户在此业务问题后给出了肯定反馈信息“了解”,由此判定客户表达了明确的确认反馈,文本匹配结果为匹配通过。

作为本发明的一个实施例,根据所述确认动作检测结果及所述文本匹配结果,生成客户确认检测结果包括:确定所述确认动作检测结果是否为检测通过,或所述文本匹配结果是否为匹配通过,若所述确认动作检测结果为检测通过,或所述文本匹配结果为匹配通过,则生成的客户确认检测结果为通过。

其中,若确认动作检测结果为检测通过,或者文本匹配结果为匹配通过,则说明客户表达了明确的确认反馈,生成客户确认检测结果,且客户确认检测结果为通过。若确认动作检测结果与文本匹配结果均为不通过,则说明客户没有表达确认反馈,生成客户确认检测结果,且客户确认检测结果为不通过。

本发明通过对视频数据及音频数据进行识别及检测,提升了双录质检时客户确认环节的检测准确率,同时利用对客户的确认动作进行识别及检测,解决了单纯依靠语音转文本进行检测导致的检测准确率不高的问题,进而提升双录质检检测成功率。

如图3所示为本发明实施例一种双录数据质检中的客户确认检测装置的结构示意图,图中所示装置包括:

数据获取模块10,用于获取双录数据,并将所述双录数据分解为视频数据与音频数据。

其中,通过录像录音设备对双录(录像录音)数据进行采集,对获取到的双录数据进行分离。具体的,可以采用ffmpeg工具对双录数据进行分离,得到视频数据及音频数据。

动作检测模块20,用于对所述视频数据进行确认动作检测,得到确认动作检测结果。

其中,对视频数据进行确认动作检测为对视频数据进行识别及检测,判断视频数据中客户是否出现确认动作。

具体的,对视频数据进行点头检测,判断客户是否出现点头动作,可以采用hopenet等头部姿态估计算法实现。若检测到客户出现点头动作,则点头检测结果为检测通过,否则,点头检测结果为不通过。

进一步的,对视频数据进行手势检测,判断客户是否出现手势确认动作,例如ok等手势,可以采用现有手势识别技术进行手势识别,例如百度ai开放平台等。若检测到客户出现手势确认动作,则手势检测结果为检测通过,否则,手势检测结果为不通过。

进一步的,对视频数据进行唇语检测,判断客户是否说出了同意、了解、知道或明白等肯定馈语,可以采用耦合3d卷积神经网络进行唇语检测。其中,肯定馈语可以预先设置,若检测到客户说出肯定馈语,则唇语检测结果为检测通过,否则,唇语检测结果为不通过。

进一步的,当点头检测结果、手势检测结果及唇语检测结果中任意一个检测结果为检测通过,表明客户表达出肯定反馈,则生成确认动作检测结果,且确认动作检测结果为检测通过。若点头检测结果、手势检测结果及唇语检测结果均为不通过,则生成确认动作检测结果,且确认动作检测结果为不通过。

规则匹配模块30,用于对所述音频数据进行语音识别,得到语音文本数据,并对所述语音文本数据进行文本规则匹配,得到文本匹配结果。

其中,可以采用现有语音识别技术对音频数据进行语音识别,得到语音文本数据。此外,通过预设匹配规则,对语音文本数据进行文本规则匹配。

具体的,预设的匹配规则包括肯定反馈信息,例如,肯定反馈信息为同意、明白等可能词汇。对语音文本数据进行文本规则匹配,若语音文本数据中包括匹配规则中的肯定反馈信息,则说明客户表达了明确的确认反馈,文本匹配结果为匹配通过。若语音文本数据中不包括匹配规则中的肯定反馈信息,则说明客户没有表达确认反馈,文本匹配结果为不通过。

进一步的,预设的匹配规则还包括肯定反馈信息对应的业务问题,例如,肯定反馈信息应该在对应的具体业务问题之后。对语音文本数据进行文本规则匹配时,可以结合肯定反馈信息对应的业务问题,确定肯定反馈信息是针对业务问题的回应。例如,业务问题为询问客户是否了解了业务办理的注意事项,客户在此业务问题后给出了肯定反馈信息“了解”,由此判定客户表达了明确的确认反馈,文本匹配结果为匹配通过。

检测结果模块40,用于根据所述确认动作检测结果及所述文本匹配结果,生成客户确认检测结果。

其中,若确认动作检测结果为检测通过,或者文本匹配结果为匹配通过,则说明客户表达了明确的确认反馈,生成客户确认检测结果,且客户确认检测结果为通过。若确认动作检测结果与文本匹配结果均为不通过,则说明客户没有表达确认反馈,生成客户确认检测结果,且客户确认检测结果为不通过。

作为本发明的一个实施例,如图4所示,动作检测模块20包括:

动作检测单元21,用于对所述视频数据进行点头检测、手势检测及唇语检测,分别得到点头检测结果、手势检测结果及唇语检测结果;

检测结果单元22,用于根据所述点头检测结果、手势检测结果及唇语检测结果确定所述确认动作检测结果是否为检测通过,若所述点头检测结果、手势检测结果及唇语检测结果中任意一个检测结果为检测通过,则所述确认动作检测结果为检测通过。

作为本发明的一个实施例,规则匹配模块还用于根据预设的匹配规则确定所述语音文本数据是否符合所述匹配规则,若所述语音文本数据符合所述匹配规则,则所述文本匹配结果为匹配通过。

作为本发明的一个实施例,检测结果模块还用于确定所述确认动作检测结果是否为检测通过,或所述文本匹配结果是否为匹配通过,若所述确认动作检测结果为检测通过,或所述文本匹配结果为匹配通过,则生成的客户确认检测结果为通过。

基于与上述一种双录数据质检中的客户确认检测方法相同的申请构思,本发明还提供了上述一种双录数据质检中的客户确认检测装置。由于该一种双录数据质检中的客户确认检测装置解决问题的原理与一种双录数据质检中的客户确认检测方法相似,因此该一种双录数据质检中的客户确认检测装置的实施可以参见一种双录数据质检中的客户确认检测方法的实施,重复之处不再赘述。

本发明通过对视频数据及音频数据进行识别及检测,提升了双录质检时客户确认环节的检测准确率,同时利用对客户的确认动作进行识别及检测,解决了单纯依靠语音转文本进行检测导致的检测准确率不高的问题,进而提升双录质检检测成功率。

本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法。

本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述方法的计算机程序。

如图5所示,该电子设备600还可以包括:通信模块110、输入单元120、音频处理单元130、显示器160、电源170。值得注意的是,电子设备600也并不是必须要包括图5中所示的所有部件;此外,电子设备600还可以包括图5中没有示出的部件,可以参考现有技术。

如图5所示,中央处理器100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器100接收输入并控制电子设备600的各个部件的操作。

其中,存储器140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器100可执行该存储器140存储的该程序,以实现信息存储或处理等。

输入单元120向中央处理器100提供输入。该输入单元120例如为按键或触摸输入装置。电源170用于向电子设备600提供电力。显示器160用于进行图像和文字等显示对象的显示。该显示器例如可为lcd显示器,但并不限于此。

该存储器140可以是固态存储器,例如,只读存储器(rom)、随机存取存储器(ram)、sim卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为eprom等。存储器140还可以是某种其它类型的装置。存储器140包括缓冲存储器141(有时被称为缓冲器)。存储器140可以包括应用/功能存储部142,该应用/功能存储部142用于存储应用程序和功能程序或用于通过中央处理器100执行电子设备600的操作的流程。

存储器140还可以包括数据存储部143,该数据存储部143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器140的驱动程序存储部144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。

通信模块110即为经由天线111发送和接收信号的发送机/接收机110。通信模块(发送机/接收机)110耦合到中央处理器100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。

基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)110还经由音频处理器130耦合到扬声器131和麦克风132,以经由扬声器131提供音频输出,并接收来自麦克风132的音频输入,从而实现通常的电信功能。音频处理器130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器130还耦合到中央处理器100,从而使得可以通过麦克风132能够在本机上录音,且使得可以通过扬声器131来播放本机上存储的声音。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1