基于多元特征的AIGC语音欺诈风控方法、介质及设备与流程

文档序号：36081762发布日期：2023-11-18 01:40阅读：49来源：国知局

本申请属于语音控制，特别是涉及一种基于多元特征的aigc语音欺诈风控方法、介质及设备。

背景技术：

1、当下随着chatgpt的热潮，各种aigc(ai generated content，人工智能生成内容)也泛滥起来。aigc是一种人工智能语音技术，可以模拟人类语音，实现自动语音识别和语音合成。诈骗分子利用aigc技术，制作出伪造的语音信息，通过电话等方式，欺骗受害人的个人信息、银行卡密码等敏感信息，从而实施诈骗行为。

2、现有对语音识别中，多数基于mfcc(梅尔频率倒谱系数)进行语音特征提取，采集语音频率，对非线性梅尔的对数能量频谱，线性变换得到。提取到了频谱图(物理学语音是一种波)，然后频谱图的横向叠加组成语谱图，通过语谱图更直观地看出共振峰频率的变化。语谱图是语音信号的一种图像化的表示方式，它的横轴代表时间，纵轴代表频率，语音在各个频率点的幅值大小用颜色来区分。说话人的语音的基频及谐频在语谱图上表现为一条一条的亮线，因为不同的人发声器官–舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面不一样，语音也就不一样，语谱图也就不一样，再通过不同的处理手段就可以得到不同语谱图之间的相似度，最终达到声纹识别的目的。

3、现有常见的语音非法攻击模式如图1所示，一种是重放攻击，另一种是语音合成攻击。重放攻击是一种常见的语音识别攻击方式，攻击者会录制目标人员的语音并保存为语音文件，然后将文件播放到语音识别系统附近，让系统误认为是目标人员在进行语音认证。语音识别系统会将重放的语音录入系统，提取语音特征，并与语音库中的语音特征进行相似度计算。如果相似度高于阈值，语音识别系统就会通过语音认证，从而使攻击者获得非法权限。语音合成，是一种将文本信息转化为语音输出的技术，可以用于生成具有目标人物音色特征和语音特征的语音数据，从而实现语音识别系统的攻击。具体过程如下：首先，将目标人物的语音特征y注册到语音识别系统的语音库中。然后，通过大量的语音数据训练语音合成算法，生成语音合成模型model。接着，使用目标人物的语音数据集对模型进行fine-tuning，得到新的模型model’。使用模型model’生成语音识别系统需要验证的语音数据，并进行播放。语音识别系统将播放的语音录入系统，提取语音特征y’，并与语音库中的语音特征y进行相似度计算。如果相似度高于阈值，语音识别系统就会通过语音认证，从而使攻击者获得非法权限。

4、现有技术场景抵抗手段较单一，存在较多风险漏放过的情况，错误率较高例如：例如录制的语音进行重放时，当前语音检测系统无法识别出来，或者录制语音后，使用合成软件合成语音，概率性可以绕过检测。

技术实现思路

1、本申请提供一种基于多元特征的aigc语音欺诈风控方法、介质及设备，用于提高语音欺诈风控的性能。

2、第一方面，本申请实施例提供一种基于多元特征的aigc语音欺诈风控方法，包括：获取输入的待识别语音信息；对所述待识别语音信息进行语音识别，获取语音语义特征，并对所述待识别语音信息进行多元特征提取，获取语音情感特征；将所述语音语义特征和所述语音情感特征分别输入到预先训练好的情感模型，分别获得语义状态链和语音情感状态链；将所述语义状态链和所述语音情感状态链进行比对分析，获取所述待识别语音信息为用户预先注册的语音信息的概率。

3、在所述第一方面的一种实现方式中，还包括训练所述情感模型；训练所述情感模型包括：获取不同情感状态下的语音数据，作为训练集；对所述训练集中的语音数据进行语音特征提取，并为提取的所述语音特征标注对应的情感状态，形成标签训练数据；将所述标签训练数据输入到网络模型进行训练，获取能够识别语音不同情感状态的情感模型。

4、在所述第一方面的一种实现方式中，所述对所述待识别语音信息进行语音识别，获取语音语义特征包括：获取预设帧间隔的待识别语音信息；基于预设声学模型、预设语言模型、预设词汇模型、解码器中的多种对所述待识别语音信息进行分析处理，将待识别语音信息转换为对应的语义语句。

5、在所述第一方面的一种实现方式中，所述对所述待识别语音信息进行多元特征提取，获取语音情感特征包括：提取所述待识别语音信息的相位信息；将所述相位信息输入到预先训练的特征提取模型，提取与各所述相位信息对应的多元特征，所述多元特征包括时间、场景、位移中的任一种或多种组合。

6、在所述第一方面的一种实现方式中，所述提取所述待识别语音信息的相位信息包括：调用用于读取、处理音频文件的多个库工具；将多个所述库工具封装为一个处理函数；基于所述处理函数提取所述待识别语音信息的相位信息。

7、在所述第一方面的一种实现方式中，预先训练所述特征提取模型包括：提取音频相位特征；为所述音频相位特征配置标签，并将所述标签映射为对应的数字编码；将所述音频相位特征和所述数字编码转换为numpy的数组格式，形成数据集；基于所述数据集对神经网络模型进行训练，获取所述特征提取模型。

8、在所述第一方面的一种实现方式中，还包括：对语音信息进行多介质分级存储：用户预先注册的语音信息通过云空间进行存储，对所述待识别语音信息进行语音识别和多元特征提取的处理数据通过数据库进行存储，对符合数据活跃度阈值的数据通过内存进行存储；其中，通过定时任务，定期将部分活跃数据加载到内存中存储，同时定期将非活跃数据从内存中释放。

9、在所述第一方面的一种实现方式中，还包括：配置多级风险防控策略，所述多级风险防控策略中包括错误拒绝率，错误接受率以及准确率；基于所述待识别语音信息为用户预先注册的语音信息的概率确定对应等级的风险防控策略。

10、第二方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本申请第一方面中任一项所述的基于多元特征的aigc语音欺诈风控方法。

11、第三方面，本申请实施例提供一种电子设备，所述电子设备包括：存储器，存储有一计算机程序；处理器，与所述存储器通信相连，调用所述计算机程序时执行本申请第一方面中任一项所述的基于多元特征的aigc语音欺诈风控方法。

12、本申请实施例提供的基于多元特征的aigc语音欺诈风控方法，通过对语音信息进行语义分析和多远特征提取，可以更全面的评估语音信息，提高语音反欺诈的风控能力，对抗aigc语音欺诈。

技术特征：

1.一种基于多元特征的aigc语音欺诈风控方法，其特征在于，包括：

2.根据权利要求1所述的基于多元特征的aigc语音欺诈风控方法，其特征在于，还包括训练所述情感模型；训练所述情感模型包括：

3.根据权利要求1所述的基于多元特征的aigc语音欺诈风控方法，其特征在于，所述对所述待识别语音信息进行语音识别，获取语音语义特征包括：

4.根据权利要求2所述的基于多元特征的aigc语音欺诈风控方法，其特征在于，所述对所述待识别语音信息进行多元特征提取，获取语音情感特征包括：

5.根据权利要求4所述的基于多元特征的aigc语音欺诈风控方法，其特征在于，所述提取所述待识别语音信息的相位信息包括：

6.根据权利要求4所述的基于多元特征的aigc语音欺诈风控方法，其特征在于，预先训练所述特征提取模型包括：

7.根据权利要求1所述的基于多元特征的aigc语音欺诈风控方法，其特征在于，还包括：

8.根据权利要求1所述的基于多元特征的aigc语音欺诈风控方法，其特征在于，还包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至8中任一项所述的基于多元特征的aigc语音欺诈风控方法。

10.一种电子设备，其特征在于，所述电子设备包括：

技术总结
本申请提供一种基于多元特征的AIGC语音欺诈风控方法、介质及设备。所述方法包括：获取输入的待识别语音信息；对所述待识别语音信息进行语音识别，获取语音语义特征，并对所述待识别语音信息进行多元特征提取，获取语音情感特征；将所述语音语义特征和所述语音情感特征分别输入到预先训练好的情感模型，分别获得语义状态链和语音情感状态链；将所述语义状态链和所述语音情感状态链进行比对分析，获取所述待识别语音信息为用户预先注册的语音信息的概率。本申请实施例提供的基于多元特征的AIGC语音欺诈风控方法，通过对语音信息进行语义分析和多远特征提取，可以更全面的评估语音信息，提高语音反欺诈的风控能力，对抗AIGC语音欺诈。

技术研发人员：阳成文,孙勇军,周斌,王志伟
受保护的技术使用者：上海识装信息科技有限公司
技术研发日：
技术公布日：2024/1/16

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：阳成文孙勇军周斌王志伟
技术所有人：上海识装信息科技有限公司
我是此专利的发明人