本技术涉及终端,尤其涉及一种对象识别方法及装置。
背景技术:
1、随着终端设备技术的不断发展,终端设备的使用人群也越来越广泛,使用人群中可以包括各个年龄段的人群。
2、其中,在各个年龄段的使用人群中,未成年人群对终端设备的使用尤其值得关注,因此检测当前正在使用终端设备的用户是否为未成年用户,就显得尤为重要。目前相关技术中针对正在使用终端设备的用户进行是否为未成年用户的检测,尚没有有效的解决方案。
技术实现思路
1、本技术实施例提供一种对象识别方法及装置,应用于终端技术领域。
2、第一方面,本技术实施例提出一种对象识别方法。该方法包括:
3、获取音频数据,并确定所述音频数据对应的音频特征,所述音频特征用于指示所述音频数据在时域维度的特征以及频域维度的特征;
4、根据所述音频特征,确定所述音频数据的目标类型,所述目标类型为如下预设类型中的任一种:说话音、呼吸音、安静音;
5、在多个预设模型中确定所述目标类型对应的目标模型,并将所述音频特征输入至所述目标模型,以得到所述目标模型输出的判定结果,所述判定结果用于指示所述音频数据对应的被采集者信息;
6、根据所述判定结果,确定使用所述终端设备的用户是否为未成年用户。
7、通过根据音频数据的音频特征确定音频数据的目标类型,然后再根据目标类型确定对应的目标模型,从而可以实现针对呼吸音的音频和安静音的音频分别进行处理,以提升未成年识别的成功率。以及之后根据目标模型所输出的判定结果来确定使用终端设备的用户是否为未成年用户,从而可以有效的实现基于音频数据对未成年用户的识别。
8、在一些实现方式中,所述确定所述音频数据对应的音频特征,包括:
9、对所述音频数据进行短时傅里叶变换,得到所述音频数据对应的二维时频信号;
10、将所述二维时频信号确定为所述音频数据对应的音频特征。
11、这种实施方式中,直接将二维时频信号确定为音频特征,可以简单快速的实现对音频特征的获取。
12、在一些实现方式中,所述对所述音频数据进行短时傅里叶变换,得到所述音频数据对应的二维时频信号之后,所述方法还包括:
13、根据所述二维时频信号的幅值确定时频图;
14、根据所述时频图确定所述音频数据对应的梅尔倒谱;
15、对所述梅尔倒谱进行离散余弦变换,得到所述音频数据对应的梅尔倒谱系数;
16、将所述梅尔倒谱以及所述梅尔倒谱系数确定为所述音频数据对应的音频特征。
17、这种实施方式中,将梅尔倒谱以及梅尔倒谱系数确定为音频数据所对应的音频特征,可以更加精细的表达音频数据的低频信息,从而可以在后续处理过程中更有效的区分不同年龄段的音频数据。
18、在一些实现方式中,所述根据所述音频特征,确定所述音频数据的目标类型,包括:
19、根据预设长度以及预设步长将所述梅尔倒谱划分为多个片段;
20、针对任一个所述片段,确定所述片段对应于各所述预设类型的概率;
21、根据各所述片段各自对应于各所述预设类型的概率,在各所述预设类型中确定所述音频数据的目标类型。
22、这种实施方式中,每一个片段的时长相对较短,相应的具体音频内容的构成也比较简单,因此可以便于进行后续的分析,以及提升确定的片段对应于各个预设类型的概率的准确性。
23、在一些实现方式中,所述确定所述片段对应于各所述预设类型的概率,包括:
24、将所述片段输入至识别模型,得到所述识别模型输出的所述片段对应于各所述预设类型的概率。
25、在一些实现方式中,所述根据各所述片段各自对应于各所述预设类型的概率,在各所述预设类型中确定所述音频数据的目标类型,包括:
26、根据各所述片段各自对应于各所述预设类型的概率,确定各所述预设类型各自对应的概率均值;
27、根据各所述预设类型各自对应的概率均值,确定所述音频数据的目标类型。
28、在一些实现方式中,若所述目标类型为说话音,则目标模型为说话音识别模型,所述将所述音频特征输入至所述目标模型,以得到所述目标模型输出的判定结果,包括:
29、将所述梅尔倒谱系数输入至所述说话音识别模型,以得到所述说话音识别模型输出的判定结果,所述判定结果包括如下中的至少一种:第一预测年龄值、第一性别概率、第一未成年人概率以及第一特征向量。
30、在一些实现方式中,若所述目标类型为呼吸音,则目标模型为呼吸音识别模型,所述将所述音频特征输入至所述目标模型,以得到所述目标模型输出的判定结果,包括:
31、将所述梅尔倒谱系数输入至所述呼吸音识别模型,以得到所述呼吸音识别模型输出的判定结果,所述判定结果包括如下中的至少一种:第二预测年龄值、第二性别概率、第二未成年人概率以及第二特征向量。
32、这种实施方式中,呼吸音识别模型可以实现对呼吸音的针对性处理,以及说话音识别模型可以实现对说话音的针对性处理,通过对呼吸音的音频和安静音的音频分别处理,以提升未成年识别的成功率。
33、在一些实现方式中,所述根据所述判定结果,确定使用所述终端设备的用户是否为未成年用户,包括:
34、获取补充数据,所述补充数据包括如下中的至少一种:人脸识别过程中采集的图像数据、惯性传感器采集的惯性传感器数据、触摸屏采集的触控数据、应用使用记录、指纹核身过程中采集的指纹数据;
35、将所述判定结果以及所述补充数据输入至决策模型,以得到所述决策模型输出的识别结果,所述识别结果用于指示使用所述终端设备的用户是否为未成年用户。
36、这种实施方式中,决策模型的处理过程中还融合了补充数据,因此可以有效的提升最终确定的识别结果的准确率。
37、第二方面,本技术实施例提供一种终端设备,终端设备也可以称为终端(terminal)、用户设备(user equipment,ue)、移动台(mobile station,ms)、移动终端(mobile terminal,mt)等。终端设备可以是手机(mobile phone)、智能电视、穿戴式设备、平板电脑(pad)、带无线收发功能的电脑、虚拟现实(virtual reality,vr)终端设备、增强现实(augmented reality,ar)终端设备、工业控制(industrial control)中的无线终端、无人驾驶(self-driving)中的无线终端、远程手术(remote medical surgery)中的无线终端、智能电网(smart grid)中的无线终端、运输安全(transportation safety)中的无线终端、智慧城市(smart city)中的无线终端、智慧家庭(smart home)中的无线终端等等。
38、该终端设备包括:包括:处理器和存储器;存储器存储计算机执行指令;处理器执行存储器存储的计算机执行指令,使得终端设备执行如第一方面的方法。
39、第三方面,本技术实施例提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序。计算机程序被处理器执行时实现如第一方面的方法。
40、第四方面,本技术实施例提供一种计算机程序产品,计算机程序产品包括计算机程序,当计算机程序被运行时,使得计算机执行如第一方面的方法。
41、第五方面,本技术实施例提供了一种芯片,芯片包括处理器,处理器用于调用存储器中的计算机程序,以执行如第一方面所述的方法。
42、应当理解的是,本技术的第二方面至第五方面与本技术的第一方面的技术方案相对应,各方面及对应的可行实施方式所取得的有益效果相似,不再赘述。