一种婴儿哭声识别方法、系统及装置

文档序号：35646465发布日期：2023-10-06 09:40阅读：145来源：国知局

本发明涉及数字信号处理领域，具体而言，涉及一种婴儿哭声识别方法、系统及装置。

背景技术：

1、婴儿哭声识别是指利用相关技术对婴儿的啼哭声进行识别，判断婴儿啼哭的原因，如饥饿、不适、犯困等。在日常生活中，婴儿主要通过哭声向外界传达生理和心理需求，有效地识别婴儿哭声并将其“翻译”成易于理解的成人语言，对于婴儿看护者尤其是新手父母来说具有重大的实际意义和社会价值。婴儿哭声识别装置能够快速准确地识别婴儿哭声的类型，帮助看护者更好地了解婴儿的需求和情绪，并及时采取相应的措施。

2、目前大多数对婴儿哭声识别的研究主要集中在特征提取和模式识别两个技术方向：对于特征提取而言，由于时域特征不能充分反应声音的特性，而且在嘈杂环境下容易受环境噪声的干扰，容易导致误判，采用频域特征作为声音信号的提取特征，频域特征一般是通过在时域上把声音信号切分成一个个小片段(通常为20-30ms)，然后对每个小片段做傅里叶变换得到的，这种基于小片段的傅里叶变换也被称为短时傅里叶变换；但通过这种方式得到的特征有以下缺点：时域信号切分后的小片段长度，即窗口长度，是固定的，所以时间分辨率和频率分辨率是固定的，导致无法获得信号的全部有效特征；只能获取短时特征(20-30ms内)，无法获得长时特征(几秒内)，造成信息丢失；短时傅里叶变换不具备稳定性，即时域上的小变形将导致高频特征的严重变形，这将影响声音分类的效果。所以，短时傅里叶变换不是非常高效的声音特征提取方法，它将加大模式识别的难度，降低训练神经网络模型的效率。正是由于这个原因，在模式识别阶段，一般需要大量数据来训练神经网络模型，使得训练过程非常耗时。同时，为了达到更好的声音分类效果，神经网络模型的结构通常设计得非常复杂，模型参数量非常大，这将进一步加大模型训练和部署的难度，耗费硬件资源，增加产品功耗和开发成本；因此，急需开发一种新的婴儿哭声识别技术，以提升识别的稳定性和准确率。

技术实现思路

1、为了解决基于短时傅里叶变换方法的特征提取过程中信息丢失和特征变形等问题，本发明的目的是提出一种新的婴儿哭声识别技术，通过使用小波散射网络来更高效地提取声音信号的特征，以提高哭声识别的准确率，并且在保证效果的同时，使得用于识别的神经网络模型的参数量大大降低，进而节约硬件资源，节省开发成本，降低产品功耗。

2、为了实现上述技术目的，本申请提供了一种婴儿哭声识别方法，包括以下步骤：

3、基于婴儿哭声识别数据集，通过设置环境噪声数据，生成数据集，其中，婴儿哭声识别数据集用于表示已经被公开的用于表征婴儿哭声含义的数据集合；

4、通过对数据集进行特征提取，依据特征提取结果对具有3层深度可分离卷积层和3层全连层的神经网络，进行训练，构建用于识别婴儿哭声的神经网络模型；

5、基于神经网络模型，对采集的婴儿哭声进行识别，获取儿哭声对应的婴儿哭声识别数据集代表的婴儿哭声含义。

6、优选地，在生成数据集的过程中，使用esc-50数据集作为环境噪声数据，通过婴儿哭声识别数据集，生成数据集。

7、优选地，在对数据集进行特征提取的过程中，通过小波散射网络，对数据进行特征提取，生成特征提取结果。

8、优选地，在构建神经网络模型的过程中，依据交叉熵损失值对神经网络进行训练，构建神经网络模型。

9、本发明公开了一种婴儿哭声识别系统，包括：

10、声音收集模块，用于获取婴儿哭声；

11、声音预处理模块，用于对获取的婴儿哭声进行滤波、降噪处理，去除杂音部分；

12、特征提取模块，用于通过小波散射网络，对预处理后的婴儿哭声进行特征提取，获取哭声特征；

13、模式识别模块，用于基于构建的神经网络模型，对哭声特征进行识别，获取婴儿哭声代表的含义，其中，基于由已经被公开的用于表征婴儿哭声含义的数据集合形成的婴儿哭声识别数据集，通过设置环境噪声数据，生成数据集，通过小波散射网络对数据集进行特征提取，依据特征提取结果对具有3层深度可分离卷积层和3层全连层的神经网络，进行训练，构建用于识别婴儿哭声的神经网络模型。

14、优选地，模式识别模块，还用于使用esc-50数据集作为环境噪声数据，通过婴儿哭声识别数据集，生成数据集。

15、优选地，模式识别模块，还用于依据交叉熵损失值对神经网络进行训练，构建神经网络模型。

16、本发明还公开了一种婴儿哭声识别装置，包括：

17、训练端，用于通过上位机，依据婴儿哭声识别方法，构建用于识别婴儿哭声的神经网络模型；

18、识别端，用于通过婴儿哭声识别系统，依据训练端生成的神经网络模型，通过采集婴儿哭声，识别婴儿哭声代表的含义。

19、优选地，识别端以arm低功耗芯片为核心，将婴儿哭声识别系统以计算机程序的形式嵌入arm低功耗芯片的逻辑端，通过在识别端设置声音收集装置，采集婴儿哭声至arm低功耗芯片，通过设置在逻辑端的婴儿哭声识别系统，判断婴儿哭声代表的含义。

20、优选地，识别端还包括显示屏或者led灯，用于显示婴儿哭声代表的不同含义；

21、识别端还与智能移动终端产品进行远程数据交互，通过智能移动终端产品控制识别端的开启规律，并将识别端识别的不同含义传输到智能移动终端产品。

22、本发明公开了以下技术效果：

23、本发明使用小波散射网络提取声音信号特征具有优良特性，使得婴儿哭声识别准确率高；

24、本发明提出的神经网络模型结构简单，参数量少，使得训练过程耗时短，模型部署简单；

25、本发明提出的整套装置所需硬件资源少，系统功耗低，开发成本低。

技术特征：

1.一种婴儿哭声识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述一种婴儿哭声识别方法，其特征在于：

3.根据权利要求2所述一种婴儿哭声识别方法，其特征在于：

4.根据权利要求3所述一种婴儿哭声识别方法，其特征在于：

5.一种婴儿哭声识别系统，其特征在于，包括：

6.根据权利要求5所述一种婴儿哭声识别系统，其特征在于：

7.根据权利要求6所述一种婴儿哭声识别系统，其特征在于：

8.一种婴儿哭声识别装置，其特征在于，包括：

9.根据权利要求8所述一种婴儿哭声识别装置，其特征在于：

10.根据权利要求9所述一种婴儿哭声识别装置，其特征在于：

技术总结
本发明公开了一种婴儿哭声识别方法、系统及装置，属于数字信号处理领域，包括基于表示已经被公开的用于表征婴儿哭声含义的数据集合，通过设置环境噪声数据，生成数据集；通过对数据集进行特征提取，依据特征提取结果对具有3层深度可分离卷积层和3层全连层的神经网络，进行训练，构建用于识别婴儿哭声的神经网络模型；基于神经网络模型，对采集的婴儿哭声进行识别，获取儿哭声对应的婴儿哭声识别数据集代表的婴儿哭声含义；本发明通过使用小波散射网络来更高效地提取声音信号的特征，提高了哭声识别的准确率，并且在保证效果的同时，使得用于识别的神经网络模型的参数量大大降低，进而节约硬件资源，节省了软硬件开发成本，降低了产品功耗。

技术研发人员：刘诚,曹海涛,陈海山
受保护的技术使用者：广州番禺职业技术学院
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘诚曹海涛陈海山
技术所有人：广州番禺职业技术学院
我是此专利的发明人

上一篇：一种高柔软度海绵块生产用干燥设备的制作方法
上一篇：基于RIS辅助反射干扰窃听者的混合RF/FSO系统及安全传输方法