一种会议电话系统的制作方法

文档序号:26185878发布日期:2021-08-06 18:37阅读:89来源:国知局
一种会议电话系统的制作方法
本发明涉及通信
技术领域
,尤其涉及一种会议电话系统。
背景技术
:现有的技术中,例如cn110767235a,该方法中的语音输入单元仅仅通过判断最大电平的话筒输入,作为混音后的输出,方法较为简单,误识率较高,席位相邻话筒有可能有串扰,智能化程度低,此外该发明每个席位需配置话筒,大量的有线话筒使会议桌显得非常凌乱,走线也比较繁琐。cn112040119a方法由于声纹识别需要一定时长的语音作为输入,所以对于有些短语音无法进行识别,此外声纹识别技术用于角色分离成熟度较低,误识的概率较高。技术实现要素:本发明实施例提供一种会议电话系统,利用麦克风阵列实现声源定位,在会议语音转写中将发言人角色分离,实现在会议转写记录里自动添加说话人的标识信息。本公开实施例提出一种会议电话系统,包括:麦克风阵列,安装于会议桌,用于拾取会议桌周围若干个说话人发出的语音信号;一个或多个处理器,与所述麦克风阵列通信连接,用于根据所述声源信号对说话人进行识别,并在处理后的语音信号中添加说话人的标识信息;以及对处理后的所述语音信号进行转写,并按照说话人的标识信息分类记录转写文本。在一实施例中,所述处理器,还用于根据所述麦克风阵列的安装位置以及所述会议桌的规格参数确定所述会议桌的桌面布局,并根据所述桌面布局确定各个说话人的方位角度。在一实施例中,所述处理器确定各个说话人的方位角度的流程包括:根据所述桌面布局中相邻席位的规格确定席位布局;基于所述席位布局确定会议席位的角度范围;基于会议席位的角度范围为与会人员配置相应的人员标识。在一实施例中,根据所述声源信号对说话人进行识别的过程包括:识别所述声源信号的声源方向,根据所述声源方向与所述会议席位的角度范围进行匹配,确定说话人。在一实施例中,对于任一说话人发出的语音信号,所述处理器识别所述声源信号的声源方向的流程包括:将所述语音信号分为若干子帧,其中相邻的子帧之间存在信号重叠,对各子帧进行如下处理:对所述子帧加汉宁窗处理后进行离散傅里叶变换;在离散傅里叶变换的结果中选取预设数量的感兴趣频点;计算所述感兴趣频点对应通道的协方差矩阵;基于阵元位置、信号频率及每个扫描的方向确定导向矢量;对所述协方差矩阵进行奇异值分解,以求取噪声子空间;基于所述导向矢量和所述噪声子空间利用预设算法确定谱估计函数;基于所述谱估计函数识别所述声源信号的声源方向。在一实施例中,所述处理器在任一所述感兴趣频点的能量低于预设阈值的情况下,不计算相应的协方差矩阵。在一实施例中,基于阵元位置、信号频率及每个扫描的方向确定导向矢量包括:在空间范围内以较大的第一角度间隔进行粗扫描,在粗扫描的每个方位角度以及各处理的频点上,计算导向矢量。在一实施例中,基于所述谱估计函数识别所述声源信号的声源方向包括:利用谱峰搜素算法,计算所述谱估计函数的最大值所对应的方向角;在所述方向角所确定的角度范围内,以较小的第二角度间隔进行细扫描,实现识别所述声源信号的声源方向。在一实施例中,基于所述席位布局确定会议席位的角度范围包括:根据相邻会议席位的间距,通过多项式拟合确定各会议席位的角度偏差,以获得各会议席位的角度范围。在一实施例中,在对所述语音信号进行处理后的语音信号中添加说话人的标识信息包括:在处理后的语音信号的帧头添加所述标识信息。本发明实施例根据声源信号对说话人进行识别,并在处理后的语音信号中添加说话人的标识信息,进而对处理后的语音信号进行转写,从而实现按照说话人的标识信息分类记录转写文本。上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1为本公开实施例基本流程图。图2为本公开实施例基本框架示意图。图3为本公开实施例语音转写软件框架示意图。图4为本公开实施例子流程图。图5为本公开实施例桌面布局配置子流程图。图6为本公开实施例麦克风阵列话筒结构示意图。图7为本公开实施例麦克风阵列话筒安装示意图。图8为本公开实施例麦克风阵列角度示意图。图9为本公开实施例的参会人员布局示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。本公开实施例提出一种会议电话系统,如图1所示,麦克风阵列,安装于会议桌。麦克风阵列可以在步骤s101中拾取会议桌周围若干个说话人发出的语音信号。一个或多个处理器,与所述麦克风阵列通信连接,处理器可以在步骤s102中根据所述声源信号对说话人进行识别,然后在步骤s103中在处理后的语音信号中添加说话人的标识信息。最后处理器可以在步骤s104中对处理后的所述语音信号进行转写,并按照说话人的标识信息分类记录转写文本。本示例中处理器可以用于运行相应的语音转写软件,如图2所示基于声源定位的说话人角色分离的会议语音自动记录装置由会议人员配置软件模块1、麦克风阵列话筒1、会议语音转写引擎2、poe交换机3和会议语音转写配置前端4组成,会议语音转写配置前端4组成可以是计算机设备,例如笔记本电脑、pc。麦克风阵列话筒1可以采用桌面安装方式,通过标配的安装底座部件,将麦克风阵列话筒1固定安装于会议桌中央,底部输出的网线连接poe交换机3,由poe交换机3对麦克风阵列话筒进行供电,并通过网络传输音频数据,麦克风阵列话筒1采集并对多路音频信号进行处理,处理后在每帧语音包上加上声源方向角度id值传送给会议语音转写引擎2和会议语音转写配置前端4。如图3所示,会议配置还可以通过会议人员配置软件5完成。当然“对多路音频信号进行处理,处理后在每帧语音包上加上声源方向角度id值”也可以在会议语音转写引擎2和会议语音转写配置前端4中完成,在此不做具体限定。poe交换机3搭建局域网络,并为麦阵话筒直流供电。如图3所示,会议语音转写引擎2实现会议语音的转写,会议语音转写引擎2可以包括会议语音转写软件asr引擎21和会议语音转写软件中间件22,会议语音转写配置前端4可以并按不同说话人存储文字记录。会议语音转写配置前端4可以在接入网络后进行语音转写配置。会议语音转写引擎2中配置的语音转写软件可以采用b/s架构,pc的web前端软件实现交互和显示,物理上运行在接入局域网的pc的网络浏览器上,实现业务逻辑的中间件软件和语音识别引擎可以运行在服务器上。会议人员配置软件5还可以利用与会人员相对于麦阵话筒的方位角度进行说话人身份的配置,并提供给会议语音转写引擎以区分说话人的角色。本发明实施例根据声源信号对说话人进行识别,并在处理后的语音信号中添加说话人的标识信息,进而对处理后的语音信号进行转写,从而实现按照说话人的标识信息分类记录转写文本。在一实施例中,所述处理器,还用于根据所述麦克风阵列的安装位置以及所述会议桌的规格参数确定所述会议桌的桌面布局,并根据所述桌面布局确定各个说话人的方位角度。如图4所示,本发明的方法还可以在步骤s401中安装并通过网络连接各个会议设备。然后在步骤s402中处理器通过会议人员配置软件5设置每位参会人员的角度id。接着在步骤s403中通过麦克风阵列根据确定的说话人的声源方向进行波束增强之后向会议语音转写引擎2输出增强的语音信号以及声源方向的角度id。具体可以利用自适应波束形成对说话人方向的语音信号进行增强,消除其他方向的干扰声音,同时采用降噪算法,抑制噪声,获取说话人清晰的语音。在步骤s404中会议语音转写引擎2的会议语音转写软件接收语音信号以及声源方向的角度id实现带角色分离的会议语音转写,并按照说话人的标识信息分类记录转写文本。本实施例中的标识信息可以是声源方向角度id值也可以采用相应的说话人的人员标识。在一实施例中,所述处理器确定各个说话人的方位角度的流程包括:根据所述桌面布局中相邻席位的规格确定席位布局;基于所述席位布局确定会议席位的角度范围;基于会议席位的角度范围为与会人员配置相应的人员标识。在一实施例中,根据所述声源信号对说话人进行识别的过程包括:识别所述声源信号的声源方向,根据所述声源方向与所述会议席位的角度范围进行匹配,确定说话人。如图5所示,以麦克风阵列话筒1可以完成配置和语音信号处理为例。本示例中麦克风阵列话筒1的处理器还可以在步骤s501中获取用户通过pc上的会议人员配置软件5输入的会议桌的形状和尺寸参数。然后在步骤s502中配置自动软件生成会议桌椅布局图。然后在步骤s503中用户可以选择一种会议桌椅布局图进行参会人员配置。最后在步骤s504中可以通过会议人员配置软件5将参会人员的姓名、所处位置的角度id值等信息存储会议人员配置文件中。作为一种具体的示例,如图6、图7所示,麦克风阵列话筒1包括结构外壳13,指示设备状态及声源方向角的led灯带14,静音按键15,该按键可以为触摸按键,开机后麦克风阵列话筒1处于静音状态,灯带14显示红色表示静音状态,设备停止采音。触摸静音按键后,设备开始正常录音,灯带14显示绿色,同时在声源对应方位的灯显示蓝色指示声源方位。网络接口16位于麦克风阵列话筒1的底部,通过网线连接带poe功能的交换机3进行供电和数据传输,底部的线槽17可以走网线,并从安装配件18的管内从桌面下方穿出,图7为麦克风阵列话筒1的安装示意图,麦克风阵列话筒1可以通过安装配件18安装在会议桌7的几何中心位置,当然可以是其他指定的位置在此不做限定。麦克风阵列话筒1内部的麦克风阵列板19由均匀分布在圆周上的6颗硅麦克风和圆心处的1颗硅麦克风组成6+1环形麦克风阵列。如图8所示,可以通过麦克风阵列话筒1采集7路的音频信号,并通过线缆将信号传输给音频信号处理板,音频信号处理板获取麦克风阵列板19采集的7路音频信号,并利用改进的基于ism的music谱估计实时计算说话人的声源方向。在一实施例中,基于所述席位布局确定会议席位的角度范围包括:根据相邻会议席位的间距,通过多项式拟合确定各会议席位的角度偏差,以获得各会议席位的角度范围。作为一种具体的示例,以如图9所示的桌面布局进行进一步举例说明。可以通过界面提示用户输入会议桌的形状和尺寸参数,然后软件根据用户输入信息,自动生成匹配的多种桌椅布局图,生成桌椅布局图的方法是:根据相邻席位合适的间距一般为60cm-100cm,一定规格尺寸的会议桌会有多种椅子数量和布局,从而生成60,70,80,90,100的间隔数组,自动生成该会议桌下的多种桌椅布局图。图9展示了用户选定一种跟会议室实际情况一致的桌椅布局,在布局图上选定参会人员的席位,每个被占用的席位具有一个角度id值9,角度id值为椅子相对于会议桌中央麦克风阵列话筒2的方向角,参考方向如图9箭头指定,软件默认参会人员的标识为idn(n为自然数,最大值为会议人数),图9中选定了5位参会人员,得到id1~id5,用户也能对每个席位的参会人员姓名进行输入,以代替idn的输入形式。图9中的10为每个席位的拾音范围,只要是采集到的语音数据帧的帧头所带角度值在10所示范围内,则将说话人语音分离出来,实现带角色分离的语音转写。在一实施方式中,图9中10所示范围,并非相对于角度id值9加上或减去固定偏差,而是根据相邻席位的间距动态调整。如果相邻席位间距11大,则角度偏差12大,如果相邻席位间距11小,则角度偏差12小,角度偏差值12的计算可以采用多项式拟合的方法得到。例如事先建立席位间距和角度偏差的数据对,然后根据经验先设定8组数据拟合对,建立有未知系数的5次多项式,即如下公式(1)中,m的次数为5,然后将中8个已知的数据对带入如下公式(2),可以得到偏差的平方和。(1)(2)为求出的最小值,利用最小二乘平方的最优化算法,求出使得目标函数为最小的系数值wm:[w0w1w2w3w4w5],再根据公式(1)的多项式可以求出任意相邻席位间距11的角度偏差值。图9所示的会议桌面布局角度值及偏差范围计算结果如表1所示,逆时针的角度偏差为上偏差,顺时针为下偏差。表1在一实施例中,对于任一说话人发出的语音信号,所述处理器识别所述声源信号的声源方向的流程包括:将所述语音信号分为若干子帧,其中相邻的子帧之间存在信号重叠,对各子帧进行如下处理:对所述子帧加汉宁窗处理后进行离散傅里叶变换;在离散傅里叶变换的结果中选取预设数量的感兴趣频点;计算所述感兴趣频点对应通道的协方差矩阵;基于阵元位置、信号频率及每个扫描的方向确定导向矢量;对所述协方差矩阵进行奇异值分解,以求取噪声子空间;基于所述导向矢量和所述噪声子空间利用预设算法确定谱估计函数;基于所述谱估计函数识别所述声源信号的声源方向。在一实施例中,所述处理器在任一所述感兴趣频点的能量低于预设阈值的情况下,不计算相应的协方差矩阵。在一实施例中,基于阵元位置、信号频率及每个扫描的方向确定导向矢量包括:不是在任意扫描角度上计算导向矢量,而是在空间范围内以较大的第一角度间隔进行粗扫描,在粗扫描的每个方位角度以及各处理的频点上,计算导向矢量。在一实施例中,基于所述谱估计函数识别所述声源信号的声源方向包括:利用谱峰搜素算法,计算所述谱估计函数的最大值所对应的方向角;在所述方向角所确定的角度范围内,以较小的第二角度间隔进行细扫描,实现识别所述声源信号的声源方向。由于定位目标是宽带语音信号,传统的窄带空间谱估计不能用于语音信号的声源估计,对于宽带语音信号,需要在其每个子带上做常规窄带信号处理,再对各子带的空间谱估计结果取平均,得到最终的估计结果。考虑7阵元的环形阵列(6+1),单个声源s(t)入射阵列的情况,则阵列的输出信号如下:(3)由于信号s到达阵列各阵元会相对于坐标系原点产生延时,故不同阵元接收到的信号为,i=0,1,…6,为第i个阵元上的延时,为每个阵元上接收的与信源不相关的噪声,也可以看成是每个通道的电路噪声。第i个阵元的延时矢量为:(4)其中,a为入射声波的方向矢量,p为阵元的位置矢量,考虑平面阵情况:(5)为声源方向角。如果将观测时间分为k个间隔为td的快拍,最终在频域和空域上,宽带信号模型可表征如下:j=1,…,j;k=1,…,k(6)也即式(6)是把信号划分为j个子带,对于不同频率点的阵列频域输出。其中,和为7×1维矢量,其元素分别是第k个时间间隔,在第i个阵元上接收的声源信号和噪声在频率处的离散傅里叶系数,为阵列导向矢量,包含了阵列的所有频域、空域特征,其表征如下:(7)传统的ism算法将宽带信号在频域分解为j个窄带分量,对各子带的阵列输出的协方差矩阵进行特征分解,将与信号个数p相等的最大特征值对应的特征向量看作信号子空间,把剩下的m-p个特征值对应特征向量看作噪声子空间,得到正交的信号子空间和噪声子空间,然后利用music算法进行谱估计。然而传统的算法music谱估计函数除了要对每个子带进行窄带处理外,还需要在空间进行扫描,算法性能效率不高,如果在嵌入式硬件上实现占用资源较高。作为一种具体的示例,为了提升doa计算的效率,本公开方法提出了改进算法,一是对于探测频率范围内的子带,并不是在全频带进行窄带处理,只有当该子带的能量大于某一个预设阈值时,才对其进行窄带空间谱估计,反之则不处理。二是对于空间谱各个方向角的扫描,并不是传统的以均匀角度间隔进行扫描,而是分为粗扫和精扫两个步骤,先以较粗的角度分辨率进行扫描,完成谱峰搜索后,在空间谱谱峰的位置的局部角度范围再进行精细扫描,局部谱峰搜索后得到最终的doa估计;三是在c/c++嵌入式硬件实现过程中,对每帧语音信号求协方差矩阵,然后将每帧的结果进行平均,当处理帧数达到快拍时间间隔时,开始进行空间相扫和子带处理,并可以另开一个线程单独进行并行处理,大大提计算效率。具体的语音信号处理过程可以包括如下步骤:步骤1:分帧处理语音信号虽然是一种时变的非平稳信号,但是语音信号在很短的时间内又具有平稳性,所以在处理语音信号时,要将语音信号进行分帧处理,同时,为了保证帧与帧之间数据的平滑性,分帧时前一帧和后一帧之间需要有一定的重叠,偏移的部分称为帧移。这里,可以取帧长为32ms,帧移取16ms。由于语音信号数据的采样率为16khz。因此,每帧的采样点数为512点,帧移为256点。步骤2:傅里叶变换对每帧语音信号数据的7通道数据先进行加汉宁窗处理,每帧512点时域语音数据记为,其中,n=0,1,…6,表示第n通道数据,k=0,1,…511,表示第n通道数据的第k点,利用离散傅里叶变换,将数据变换至频域,q=0,1,…511,q表示频域的各个频率点,由于语音信号频率范围一般在50hz~3400hz,因此本实施例中感兴趣的频点范围为第2~109个点,其计算公式如下:(8)(9)因此只需要取出第2-109个频点进行子带处理,极大降低了所需处理的数据量。此外,还可以对每个频点的能量进行计算,如果该频点能量小于预设的阈值,则不进行子带窄带处理,这样可以将传统方法需要进行全频带的256个子带处理减小到大约50个子带处理,大大提高了算法的效率。步骤4:协方差矩阵计算在每个感兴趣的频点q(看成窄带),计算7个通道的协方差矩阵,本实施例同时考虑0.5s进行一个doa估计,这样只需要对32帧的数据进行平均,求取每个频点的32帧协方差矩阵平均:(10)其中q为步骤3得出的需要进行子带窄带处理的频点,k为处理的帧数32。步骤5:空间谱估计函数计算对空间进行相扫得到空间谱估计函数,即得到空间每个方向角的谱估计函数值,实现如下:首先以10°角度间隔进行粗扫,在扫描的每个方位角度上,每个处理的频点上,求出导向矢量,基于式(7),对每个频点的协方差矩阵进行奇异值分解,并根据其特征值求取噪声子空间,最后根据music算法求出谱估计函数:](11)为扫描的每个角度的空间谱估计函数值。如果为全向计算,则=0,10,…,360。步骤6:谱峰搜索利用谱峰搜素算法,求出最大值所对应的方向角。步骤7:精细扫描通过步骤6求出的方向角,在的角度范围,再以1°的角度间隔按步骤5进行精细扫描,得到最终的声源方位。会议语音转写引擎2可以获取麦克风阵列话筒1传输的语音数据和角度id值,读取会议人员配置软件设置的参会人员配置文件,并调用语音转写软件asr引擎21,实现语音识别,获取说话人的语音转文本的数据。最后将带说话人身份的文本记录数据传送给pc上的语音转写软件的web前端,在pc上的浏览器ui界面上显示出不同发言人的语音转写的文字信息。在一实施例中,在对所述语音信号进行处理后的语音信号中添加说话人的标识信息包括:在处理后的语音信号的帧头添加所述标识信息。具体的说处理完后的语音信号经过编码后,在每帧帧头加上计算后的声源方向角度id值,音频传输协议格式是在pcm音频数据流的基础上加上帧头信息,帧头信息包括了声源方向角度的id值,及音频通道数,协议格式如表2所示。表2麦克风阵列角度id声道数量声道1声道1数据声道2声道2数据2字节0×020×012.56k字节0×022.56k字节本实施例利用麦克风阵列技术,通过声源定位判断说话人相对于麦阵话筒的方向角度,根据用户设置的会议桌椅布局,自动生成每个席位的角度id值和偏差范围,同时解决了中小型会议室远场拾音的问题,输出所有发言人的经过降噪增强的语音信号,并在输出语音帧上加上发言人的方位角度id,从而在会议语音转写软件上实现了发言人自动角色分离的功能。本发明可以应用在无扩声系统的中小型会议室拾音,视频会议的远场拾音,自动分离说话人身份的会议转写。本公开的实施例还一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现前述的会议转写相关的方法步骤。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器或者网络设备等)执行本发明各个实施例所述的方法。上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1