一种语音关键信息提取系统的制作方法

文档序号：37781664发布日期：2024-04-30 16:52阅读：53来源：国知局

本发明涉及语音提取，特别是指一种语音关键信息提取系统。

背景技术：

1、对于嘈杂的车站，语音助手接收用户的语音指令时，由于大量的人声、车辆噪音和环境噪音，使得语音助手的语音识别性能产生负面影响，导致语音助手无法准确识别用户的指令或请求，使得语音助手误解用户的意图或无法正确执行用户的请求，且在拥挤的车站环境中，可能有多个人同时说话，导致话语混叠，语音助手难以区分不同用户的语音指令，从而无法提供个性化的服务，嘈杂的背景环境使得语音助手难以理解用户的语义意图，增加了使用语音助手的困难。

2、中国专利申请公开号cn116524932a公开了一种基于人工智能的智能语音交互系统及方法，包括：登录模块(1)，用于提供用户信息注册与身份验证的节点，通过身份验证后，提供访问权限；语音识别模块(2)，用于接收用户输入语音，进行分词、分类、词性标注和词法分析处理；信息提取模块(3)，用于获取语音信息中的关键字句，并标记，输出为目标特征；训练模块(4)，用于作为初始用户的认证节点，通过语音识别模块(2)获取用户的声纹特征，并通过预设字句引导用户输出语音，分析用词和语法语言习惯，为该用户账户分配独立类型的数据库节点；关联匹配模块(5)，用于依据当前用户的语言习惯在数据库内进行索引，寻求适配的问题答案；数据判断模块(6)，用于分析当前用户输出语音是否存在具备有效性；引导模块(7)，用于在数据判断模块(6)判断语音无效时，依据当前语音转化字句中的关键字句进行联想，并编辑基于联想数据的引导语音指示；语音库模块(8)，用于作为初始语言模板数据库，接收输入的问题答案，其语言体系包括：语料、规则和知识；数据模仿模块(9)，用于基于训练模块(4)所获取的用词和语法语言习惯，对关联匹配模块(5)所关联的初始问题答案进行模仿转化，输出模仿数据；语音反馈模块(10)，用于将最终的模仿数据转化为对应的语音条播放。

3、当前的语音交互系统的语音处理速度慢以及语音匹配准确性低。

技术实现思路

1、为此，本发明的目的是提供一种语音关键信息提取系统，用于克服当前的语音交互系统的语音处理速度慢以及语音匹配准确性低的问题。

2、为实现上述目的，本发明提供一种语音关键信息提取系统，包括：

3、语音采集模块，其用以采集第一音频，并确定所述第一音频的实际音频质量评估值；

4、预处理模块，其用以对所述第一音频进行预处理以得到第二音频；并对所述第二音频进行分割以得到若干初始音频片段；

5、关键信息提取模块，其用以对所述第二音频进行识别，并根据识别结果提取关键信息；其包括：第二音频分段处理单元、特征提取单元和信息整合单元；所述第二音频分段处理单元用以根据所述实际分割时长对所述第二音频进行分割以得到若干实际音频片段；所述特征提取单元用以对各实际音频片段中的特征信息进行提取以得到若干关键信息片段；所述信息整合单元用以将各关键信息片段进行整合以得到所述最终关键信息；

6、关键信息匹配模块，其用以对所述最终关键信息进行匹配和修正以得到若干实际关键信息和待匹配关键信息；其包括：匹配判断单元和语义校准单元；所述匹配判断单元用以根据所述最终关键信息与标准信息库内若干标准关键信息进行匹配以确定符合标准匹配敏感度的若干实际关键信息，并确定所述最终关键信息的敏感度等级；所述语义校准单元用以根据所述敏感度等级的不同对所述最终关键信息进行语义校准以得到所述待匹配关键信息；

7、缓冲确定模块，其用以根据所述待匹配关键信息确定各实际关键信息中的目标关键信息。

8、进一步地，所述语音采集模块包括：麦克风阵列采集单元、第一音频过滤单元和音频质量评估单元；所述麦克风阵列采集单元用以采集外部环境内的初始音频；所述第一音频过滤单元用以识别所述初始音频中的语音活动部分，过滤掉非人声音频以得到所述第一音频；所述音频质量评估单元用以对所述第一音频进行标记以得到不同类型的标记音频以及根据标记结果确定所述实际音频质量评估值。

9、进一步地，所述预处理模块包括：第二音频过滤单元、第一音频分段处理单元和音频分段修正单元；所述第二音频过滤单元用以根据所述实际音频质量评估值确定是否需进行音频重新采集，以及根据标准人声频谱图和所述第一音频内的各标记音频得到所述第二音频；所述第一音频分段处理单元用以根据预设的固定分割时长对所述第二音频进行分割以得到若干初始音频片段；所述音频分段修正单元用以根据各初始音频片段内的执行动词个数对所述固定分割时长进行修正以得到实际分割时长。

10、进一步地，所述第一音频过滤单元用以识别所述语音活动部分以得到所述外部环境中不同音源的音频频率；

11、对于任一音源，若该音源对应的所述音频频率呈现复杂的波形特征，则所述第一音频过滤单元判定该音源为人声，对该音源进行保留；

12、若该音源对应的所述音频频率呈现单一的波形特征，则所述第一音频过滤单元判定该音源为非人声，对该音源进行删除。

13、进一步地，所述音频质量评估单元将所述第一音频内的重复音频片段、空白音频片段和空白音频片段依次标记为：ⅰ类标记、ⅱ类标记和ⅲ类标记；

14、所述音频质量评估单元根据ⅰ类标记个数、ⅱ类标记个数和ⅲ类标记个数确定所述实际音频质量评估值。

15、进一步地，所述第二音频过滤单元根据各标记类型对所述第一音频进行删除、跳过或修复以得到第一处理音频；

16、所述第二音频过滤单元对所述第一处理音频进行单角色人声确定；将所述第一处理音频内的各人声音频对应的声纹频谱图与所述标准人声频谱图进行比较；

17、对于任一声纹频谱图，若该声纹频谱图与所述标准人声频谱图一致，则所述第二音频过滤单元确定该声纹频谱图所对应的人声音频为所述第二音频。

18、进一步地，对于任一初始音频片段，所述音频分段修正单元根据该初始音频片段内的所述执行动词个数确定对所述固定分割时长的修正方式；

19、若所述执行动词个数大于音频分段评价值，则所述音频分段修正单元确定对所述固定分割时长的所述修正方式为正反馈修正；其中，所述正反馈修正为延长所述固定分割时长；

20、若所述执行动词个数小于等于所述音频分段评价值，则所述音频分段修正单元确定对所述固定分割时长的所述修正方式为负反馈修正；其中，所述负反馈修正为缩短所述固定分割时长；

21、其中，所述音频分段修正单元内设置有所述音频分段评价值。

22、进一步地，所述音频分段修正单元根据所述修正方式的类型对各初始音频片段进行分类整合，包括：若干正反馈点位和若干负反馈点位；并根据各正反馈点位和各负反馈点位对应的初始音频片段内的正执行动词个数和负执行动词个数对所述固定分割时长进行修正以得到所述实际分割时长。

23、进一步地，对于任一标准关键信息，所述匹配判断单元根据所述最终关键信息和该标准关键信息确定初始匹配敏感度；

24、所述匹配判断单元根据第一差值绝对值确定该标准关键信息是否为所述实际关键信息以及所述最终关键信息的所述敏感度等级；

25、若第一差值绝对值小于等于敏感度等级评价值，则所述匹配判断单元判定该标准关键信息为所述实际关键信息并确定所述最终关键信息的所述敏感度等级为一级；

26、若所述第一差值绝对值大于敏感度等级评价值且所述初始匹配敏感度大于所述标准匹配敏感度；则所述匹配判断单元判定该标准关键信息为所述实际关键信息并确定所述最终关键信息的所述敏感度等级为二级；

27、其中，所述匹配判断单元内设置有所述敏感度等级评价值；所述第一差值绝对值为所述初始匹配敏感度和所述标准匹配敏感度间的差值绝对值。

28、进一步地，若所述最终关键信息的所述敏感度等级为一级时，所述语义校准单元对所述最终关键信息进行语义校准以得到所述待匹配关键信息；

29、对于任一实际关键信息，所述缓冲确定模块根据所述待匹配关键信息和该实际关键信息确定该实际关键信息是否为所述目标关键信息；

30、若所述待匹配关键信息与该实际关键信息一致，则所述缓冲确定模块判定该实际关键信息为所述目标关键信息。

31、与现有技术相比，本发明的有益效果在于，本发明通过语音采集模块、预处理模块、关键信息提取模块、关键信息匹配模块的组合，实现了对语音信息的自动采集、处理、提取和匹配，提高了效率并降低了人力成本；各个模块之间相互协作，能够快速准确地对语音进行处理、信息提取和匹配，提高了处理速度和准确性；通过设有音频质量评估单元和相关处理模块，能够对采集的语音进行质量评估和校准，保证了后续信息提取和匹配的准确性；通过信息整合单元能够将各个关键信息片段进行整合，得到最终关键信息，使得信息更加完整和全面；通过匹配判断单元和语义校准单元能够根据实际情况对关键信息进行匹配和调整，提高了匹配的准确性和灵活性；通过缓冲确定模块能够根据待匹配关键信息确定目标关键信息，有助于准确定位关键信息，提高匹配的精度。

32、尤其，通过第一音频过滤单元对外部环境中若干音源进行识别确定，对于判定为人声的音源进行保留，以得到由多角色组成的第一音频；通过对音频频率的波形特征进行分析和判断，能够有效区分不同音源，如人声和非人声，从而实现精确的过滤和保留；并且利用波形特征进行判断，能够智能地对音源进行分类，不仅提高了筛选的准确性，也简化了处理流程；通过对音频频率呈现的波形特征进行判断，可以较为准确地判定音源的属性，进而进行相应的保留或删除操作，有效避免了误判；通过自动化的音频频率识别和处理，可以高效地对音源进行过滤，节省了人工处理的时间和劳动成本；针对不同音源的波形特征进行判断，可以适用于各种环境和语音样本，具有一定的通用性和灵活性；实现了在处理音频频率、识别不同音源和过滤处理方面具有较高的效率和准确性，为后续处理提供了有效的数据准备和筛选保障。

33、尤其，通过对不同类型音频片段(重复、空白、模糊)的标记和权重计算，可以全面评估音频的质量情况，对各种问题进行量化评估；引入不同类型标记的权重系数，可以根据实际情况调整各类问题在最终评估值中的权重，使评估更贴近实际情况；通过计算得到的实际音频质量评估值，可以量化表示音频质量的好坏程度，便于进一步处理和决策；并根据不同类型的标记个数，自动计算出实际音频质量评估值，无需人工干预，提高了评估效率和准确性；实现了有效地评估音频质量，为后续处理提供了重要的参考信息，帮助改善音频处理效率和质量。

34、尤其，通过第二音频过滤单元根据实际音频质量评估值的判断，决定是否需要进行音频重新采集，有助于自动化流程，并确保音质达到一定标准，在确定不需要重新采集音频时，第二音频过滤单元根据第一音频的标记结果对音频片段进行处理，通过删除、跳过或修复相应类型的音频片段，实现对音频数据的高效处理；第二音频过滤单元可以进行单角色人声确定，即通过声音频谱图与标准人声频谱图的比较，确定音频中的人声部分，有助于识别和分离出有效的人声音频；且第一音频分段处理单元设置了固定分割时长并根据执行动词个数进行修正，以优化音频分段的方式，使得能更好地适应不同音频内容的处理需求，针对不同修正方式(正反馈和负反馈)，第二音频过滤单元对所有初始音频片段进行整合并重新编号，以便统一管理和处理各类音频片段，提高处理效率和准确性；实现对音频数据的筛选、修正和优化，为最终获取高质量音频数据提供关键支持。

35、尤其，通过计算初始匹配敏感度和第一差值绝对值，实现根据实际情况对关键信息进行匹配判断和敏感度等级评价；使得能够适应不同的匹配要求和敏感度级别；并且有助于提高匹配的准确性和可靠性；根据第一差值绝对值的大小和初始匹配敏感度的相对大小，可以确定最终关键信息的敏感度等级从而提高匹配程度和可信度，且当最终关键信息的敏感度等级为一级时，对其进行语义校准，以进一步提高关键信息的准确性和语义一致性，有助于确保最终关键信息的质量和可用性。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杜永超,屠泉淳,何东东
技术所有人：浙江鑫淼通讯有限责任公司
我是此专利的发明人

上一篇：一种运用阻隔薄片的单槽双针底板的制作方法
上一篇：一种烟用薄膜自动裁样装置的制作方法