一种通话时延评估方法及装置的制造方法

文档序号：10572540阅读：701来源：国知局

一种通话时延评估方法及装置的制造方法
【专利摘要】本申请公开了一种通话时延评估方法，第一客户端和第二客户端通过通信网络建立呼叫后，在第一客户端发送和接收语音的同时缓存发送或接收的语音数据，从而获得发送录音和接收录音；获取发送录音和接收录音中的完整语段；对于发送录音中每个完整语段i，标识完整语段i的持续语音片段的开始时刻TS_start(i)、持续语音片段的结束时刻TS_wait(i)和完整语段i的结束时刻TS_stop(i)；对于接收录音中每个完整语段j，标识完整语段j的语音开始时刻TR_start(j)。检查该完整语段i的TS_start(i)到TS_stop(i)之间是否存在接收录音中任一完整语段j的语音开始时刻TR_start(j)，若存在，则确定该完整语段i的响应时延Delay(i)＝TR_start(j)?TS_wait(i)；若不存在，则确定该完整语段i的响应时延Delay(i)＝0；根据所获得的响应时延，过滤无效响应时延数据并运用直方图统计方式估计通话时延的方法。本申请还公开了一种通话时延评估装置。
【专利说明】
一种通话时延评估方法及装置
技术领域
[0001 ]本申请涉及无线通信技术领域，尤其涉及一种通话时延评估方法及装置。
【背景技术】
[0002]对于海量用户的语音通话业务，语音质量监控是一项重要而复杂困难的任务，因为每次通话涉及不同的用户终端、不同的数据链路路径及网元，不同的网络供应商，不同的语音信号处理过程。常规的评价语音通话指标主要包括:平均通话时长(ACD)、接通率(ASR)、平均主观意见分(MOS)等。除此之外，通话时延也是影响通话双方通话效果的重要因素。通话时延指的是当客户端A和客户端B进行无线通话时，声音信号从客户端A传送到客户端B所需要的时间。
[0003]通话时延过大将直接影响通话效率，让说话人感觉交流不畅，时延严重情况下较难正常交流。当前，基于互联网的VoIP业务已经被广泛应用，而VoIP语音服务和2/3G网络的交换线路(CS)语音业务一直共存并且互融互通，互联网复杂的拓扑结构导致端到端的网络时延存在极大的不确定性。通话时延和网络时延的差别在于:网络时延是数据包经过网络传输所需要的时间，而通话时延包含网络时延，另外，通话时延是声音传递所需的时间，所以还包含了声学采集播放设备的传送时延。由于声学采集播放时延相对网络时延是一个比较稳定的参数，并且网络时延占通话时延的比例较大，因此评估VoIP业务的通话时延，实际上主要考虑网络通话中网络时延的影响。
[0004]对于网络时延测试，主要有两个计算指标:I)单向时延(0WD，0neWay Delay)和往返时延(RTT，RoundTrip Time) C3OWD需要在发送和接收方时钟同步情况下获取数据发送和接收时间，而在当前互联网环境下缺乏终端时钟的同步要求，难以完成大规模的OWD计算，而RTT表示从发送端发送数据开始，到发送端收到来自接收端的确认(接收端收到数据后便立即发送确认)，总共经历的时延。
[0005]我们需要解决的问题是如何对海量实时通话进行通话时延分析，而这些通话有可能涉及不同网络(例如VoIP to PSTN)，并且通话双方也可能位于不同地点，现有技术中没有合适的通话时延评估方案。

【发明内容】

[0006]本发明提供了一种通话时延评估方法及系统，可以对实时通话进行有效的时延分析。
[0007]本发明的一个实施例提供了一种通话时延评估方法，包括:
[0008]第一客户端和第二客户端通过通信网络建立呼叫后，在第一客户端发送和接收语音的同时启动双向录音以获得发送录音和接收录音，获取发送录音和接收录音中的完整语段;每一个所述完整语段包括一个持续语音片段及其之后的静默时间；
[0009]对于发送录音中的每个完整语段i，标识完整语段i的持续语音片段开始时刻TS_start(i)、持续语音片段结束时刻TS_wait(i)和完整语段i结束时刻TS_stop(i)，i为发送录音中完整语段的序号；标识接收录音中每个完整语段j的持续语音片段的开始时刻TR_start(j)，j为接收录音中完整语段的序号；
[0010]对于发送录音中每个完整语段i，检查该完整语段i的TS_start(i)到TS_stop(i)之间是否存在接收录音中任一完整语段j的TR_start(j)，若存在，则确定该完整语段i的响应时延Delay(i) = TR_start( j)_TS_wait(i);若不存在，则确定该完整语段i的响应时延Delay(i) =0;
[0011 ]根据所获得的响应时延估计通话时延。
[0012]本发明的另一个实施例提供了一种通话时延评估装置，包括:
[0013]录音模块，用于在本客户端与其他客户端通过通信网络建立呼叫后，在本客户端发送和接收语音的同时启动双向录音以获得发送录音和接收录音；
[0014]完整语段标识模块，用于获取发送录音和接收录音中的完整语段;每一个所述完整语段包括一个持续语音片段及其之后的静默时间；
[0015]时间标识模块，用于标识发送录音中每个完整语段i的持续语音片段的开始时刻TS_start(i)、持续语音片段的结束时刻TS_wait(i)和完整语段i结束时刻TS_stop(i)，i为发送录音中完整语段的序号；标识接收录音中完整语段j的持续语音片段的开始时刻TR_start(j)，j为接收录音中完整语段的序号；
[0016]响应时延计算模块，用于针对发送录音中每个完整语段i，检查该完整语段i的TS_start(i)到TS_stop(i)之间是否存在接收录音中任一完整语段j的TR_start( j)，若存在，则确定该完整语段i的响应时延Delay (i) =TR_start( j )-TS_wait(i)；若不存在，则确定该完整语段i的响应时延Delay(i) =0;
[0017]通话时延模块，用于根据所获得的响应时延估计通话时延。
[0018]从以上技术方案可以看出，在通话客户端中获取发送录音和接收录音的完整语段，将发送录音的结束时刻与接收录音的起始时刻之间的间隔作为响应时延，并进一步得到通话时延。从整体宏观数据而言，正常人的听说响应差异偏差值相对于通话时延要小，因此该方案得到的通话时延估计值具有较高可信度，可用于对网络时延进行评估。该方案仅用于单侧客户端，对于通话涉及的网络没有限定，对于通话双方的地点也没有要求，可以用于海量实时通话的的时延分析。
【附图说明】
[0019]为了更清楚的说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。其中，
[0020]图1为本发明实施例所涉及的实施环境示意图。
[0021 ]图2A为本发明实施例提供的一种通话时延评估方法流程图；
[0022]图2B为本发明实施例提供的一种通话时延评估方法流程示意图；
[0023]图3为图2所示流程中步骤202-203的实施过程中语音信号的处理示意图；
[0024]图4为本发明实施例中的有效的响应时延直方图；
[0025]图5为本发明实施例提供的通话时延评估装置示意图。
[0026]图6为本发明另一实施例提供的通话客户端示意图。
【具体实施方式】
[0027]下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0028]图1为本发明实施例所涉及的实施环境示意图。参见图1，该通话时延评估系统包括:第一客户端101、网络102和第二客户端103。第一客户端101和第二客户端103之间通过网络102建立通话链路，其中，该通话链路在网络102可以途经一种或多种类型的通信网络，包括但不限于交换线路、2G/3G/4G/5G移动网络、互联网等，本发明对此不作限定。较佳地，所述客户端为智能手机。
[0029]本发明是一种基于通话行为分析的通话往返时延估计方案，无需专业测量仪器、无需修改通讯协议，可以监控每路通话的时延情况。例如，第一客户端101和第二客户端103双方通话，当第一客户端101发起语音通话后，第二客户端103可能有三种状态:听后回应、静默无言、未等第一客户端101说完抢话。从正常通话行为分析，“听后回应”的概率是最大的，其响应时延可用如下公式计算:
[0030]听后回应的响应时延=通话时延+人的听说响应时间；
[0031 ]而“人的听说响应时间”可以使用一个经验值代替。
[0032]因此，如果统计出“听后回应”场景的响应时延，则可以得到:
[0033]通话时延估计值=响应时延-人的听说响应时间。
[0034]由于人的听说响应时间会根据每个个体存在差异，但是从整体宏观数据而言，正常人的听说响应差异偏差值相对于通话时延要小，所以本方案用于判别通话时延是否超大异常，用于定位网络问题应该是可行的。
[0035]本发明方案是基于通话双方其中一个终端的发送、接收方向的录音文件进行分析，从而得到响应时间；通过统计方法得到概率最大的响应时间，即B方“听后回应”的响应时间，进而可以估计通话时延值。
[0036]本发明实施例提供的一种通话时延评估方法流程如图2A所示，包括:
[0037]步骤201a:第一客户端和第二客户端通过通信网络建立呼叫后，在第一客户端发送和接收语音的同时启动双向录音以获得发送录音和接收录音，获取发送录音和接收录音中的完整语段;每一个所述完整语段包括一个持续语音片段及其之后的静默时间；
[0038]步骤202a:对于发送录音中的每个完整语段i，标识完整语段i的持续语音片段的开始时刻TS_start(i)、持续语音片段的结束时刻TS_wait(i)和完整语段i结束时刻TS_stop(i)，i为发送录音中完整语段的序号;标识接收录音中每个完整语段j的持续语音片段的开始时刻TR_start(j)，j为接收录音中完整语段的序号；
[0039]步骤203a:对于发送录音中每个完整语段i，检查该完整语段i的TS_start(i)到TS_stop(i)之间是否存在接收录音中任一完整语段j的TR_start(j)，若存在，则确定该完整语段i的响应时延Delay(i) = TR_start( j)-TS_wait(i);若不存在，则确定该完整语段i的响应时延Delay(i) =0;
[0040]步骤204a:根据所获得的响应时延估计通话时延。
[0041]在上述流程中，在通话客户端中获取发送录音和接收录音的完整语段，将发送录音中持续语音片段的结束时刻与接收录音中持续语音片段的起始时刻之间的间隔作为响应时延，并进一步得到通话时延。从整体宏观数据而言，正常人的听说响应差异偏差值相对于通话时延要小，因此该方案得到的通话时延估计值具有较高可信度，可用于对网络时延进行评估。该方案仅用于单侧客户端，对于通话涉及的网络没有限定，对于通话双方的地点也没有要求，可以用于海量实时通话的时延分析。
[0042]以下对该方案进行进一步详述。
[0043]本发明实施例提供的又一种通话时延评估方法流程如图2B所示，包括如下步骤:
[0044]步骤201b:第一客户端和第二客户端通过通信网络建立呼叫，在其中一个客户端(例如第一客户端)发送和接收语音的同时缓存发送或接收的语音数据，分别得到发送录音和接收录音。
[0045]步骤202b:分别对发送、接收录音进行语音活动检测(Vo i ce ActivityDetect1n，VAD)，标识得到大小不等的语音块。
[0046]步骤203b:对时间间隔小于第一阈值的语音块进行合并，分别得到发送、接收录音中的完整语段。每一个所述完整语段包括一个持续语音片段及其之后的静默时间；其中，持续语音片段即前述相互合并后的语音块。
[0047]在本实施例中，第一阈值取为50至100个语音帧。如每帧时长为20ms，第一阈值的时长为I秒至2秒。
[0048]图3给出了上述步骤202-203的实施过程中语音信号的处理示意图。原始语音信号如图3(a)所示，首先做语音活动检测，标识出每个语音小块，如图3(b)所示;然后将时间间隔小于第一阈值的语音块合并，得到完整语段的持续语音片段，如图3(c)所示，将持续语音片段加上下一语段前的静默部分就得到完整语段，如图3(d)所示。
[0049]所述完整语段指的是通话的一方一次连续说话的语音，其中可能包括一个或若干的自然语句。
[0050]通常，一次完整通话可以看作通话双方交替进行发言。其中，任一次发言可以包括一个或多个完整语段。一次发言包括一个完整语段就是说话的一方在此次发言中没有停顿，直到把话说完，然后等待另一方发言，这是比较普遍的情形;一次发言包括多个完整语段的情况则可能有:
[0051]第一用户发言完毕后停止说话，第二用户没有发言，第一用户等待一段时间后继续发g ;
[0052]第一用户发言本身存在停顿。
[0053]只有在双方交替发言时听后回应的响应时延才用于统计通话时延，单方说话过程中的停顿与通话时延无关，需要排除。
[0054]步骤204b:标识发送录音的每个完整语段的持续语音片段开始时刻TS_start(i)，持续语音片段结束时刻TS_wait(i)，完整语段结束时刻(也是下一个完整语段语音开始时刻)TS_stop(i)，i为发送录音完整语段序号。
[0055]本发明的一个实施例给出了一种识别完整语段的处理过程:一个完整语段检测即识别语段的持续语音片段的开始点TS_start和持续语音片段结束点TS_wait:如果本帧前N帧VAD检测的结果均为vad = 0(代表非语音)，且本帧vad=l(代表语音)，则本帧为完整语段的起点，本帧的起始时刻为该完整语段的起始时刻;如果本语音语句起始点已找到，且本帧vad = I而后N帧均vad = O，则本帧的下一帧为语音语句的结束点，本帧的下一帧的起始时刻作为本完整语段的结束时刻，此时一个完整语音语句判断结束，后续继续下一个语音语句判决，下一个语句的开始点即为上一语句的TS_stop。在发送录音的TS_start和TS_stop时间范围内，TS_wait和接收录音的TR_start之差为该段语音语句响应时延Delay。其中N大于或等于100。
[0056]步骤205b:标识接收录音的每个完整语段的持续语音片段开始时刻TR_start(j)，j为接收录音完整语句序号。
[0057]步骤206b:计算每段发言的响应时延，具体包括:
[0058]检查TS_start(i)到TS_stop(i)之间是否存在TR_start(j)，若有则Delay(i)=TR_start( j)_TS_wait(i);若无，贝ljDelay(i)=0。该步骤的目的就是仅计算双方交替发言时听后回应的响应时延，而不计入单方发言过程中的停顿。
[0059]步骤207b:统计获得的非零响应时延的分布，将其中的统计峰值作为响应时延估计，将响应时延估计值减去反应时延，所得结果作为通话时延。
[0060]较佳地，排除小于第二阈值，或者大于第三阈值的响应时延值，从而过滤无效响应时延值。
[0061 ] 例如[100ms，3000ms]范围内才是有效响应时延值，根据经验，通话时延值不会小于某个经验值，例如小于I OOms，而小于I OOms的De lay极可能是因为B方抢话的场景，所以可以过滤掉，而时延大于某个较大的正常经验值，极可能是B方没有及时响应，跟响应时间无关，所以可以过滤掉。而过滤后剩下的则为可以作为直方图统计的有效数据，基于直方图统计，峰值对应的时延值为响应时间值，本实施例中，第二阈值为10ms，第三阈值为3000ms。在其他实施例中，第二阈值和第三阈值也可以取为其他值。第二阈值和第三阈值的具体取值需要根据网络传输方式而定，可基于经验和先验测试数据而定。
[0062]该步骤中，可以用所述非零响应时延做出直方图，从而获得统计峰值。如图4所示，直方图峰值处的时延为130Ims，而人的响应时间经验值约为300ms，则通话时延估计值为1001ms，而通过专业仪器测量结果为960ms，由此可知本方案的通话时延估计值具有较高可信度，可用于判别网络时延的好与差。
[0063]本发明另一个实施例提出了一种通话时延评估装置，该装置位于通话客户端，如图5所示，包括:
[0064]录音模块501，用于在本客户端与其他客户端通过通信网络建立呼叫后，在本客户端发送和接收语音的同时启动双向录音；
[0065]完整语段标识模块502，用于获取发送、接收录音中的完整语段；
[0066]时间标识模块503，用于标识发送录音的每个完整语段的持续语音片段的开始时亥ljTS_start(i)，持续语音片段的结束时刻TS_wait(i)，完整语段结束时刻(也是下一个完整语段语音开始时刻)TS_stop(i)，i为发送录音完整语段序号;标识接收录音的每个完整语句语音开始时刻TR_start( j)，j为接收录音完整语句序号；
[0067]响应时延计算模块504，用于检查TS_start( i)到TS_stop(i )之间是否存在TR_start( j)，若有，则响应时延Delay(i) = TR_start(j)_TS_wait(i);若无，则响应时延Delay(i)=0；
[0068]响应时延估计模块505，用于统计获得的非零响应时延的分布，将其中的统计峰值作为响应时延估计值；
[0069]通话时延模块506，用于将响应时延估计值减去反应时延，所得结果作为通话时延输出。
[0070]在本发明的另一实施例中，所述完整语段标识模块502进一步包括:
[0071]检测单元，用于分别对发送、接收录音进行语音活动检测，标识得到的语音块；
[0072]合并单元，用于对时间间隔小于第一阈值的语音块进行合并，分别得到发送、接收录音中的完整语段。
[0073]较佳地，所述第一阈值的取值范围为:1秒至2秒。
[0074]较佳地，所述时间标识模块503标识发送录音的每个完整语段语音开始时刻TS_start(i)，语音结束时刻TS_wait(i)包括:如果本帧前N帧语音活动检测的结果均为非语音，且本帧为语音，则本帧的起始时刻为该完整语段的语音起始时刻；以及，
[0075]如果本完整语段的语音起始时刻已找到，且本帧为语音而后N帧均为非语音，则本帧的下一帧的语音起始时刻作为本完整语段的结束时刻。
[0076]在本发明的另一实施例中，所述响应时延估计模块505进一步包括:排除单元，用于排除小于第二阈值，或者大于第三阈值的响应时延值。
[0077]较佳地，所述第二阈值为100毫秒，所述第三阈值为3000毫秒。
[0078]在本发明的另一实施例中，所述响应时延估计模块505统计获得非零响应时延的分布包括:用所述非零响应时延做出直方图。
[0079]另外，在本发明各个实施例中的各模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
[0080]在一实施例中，通话客户端可包括:处理器610、存储器620、端口630、总线640语音接收器650和语音播放器660。。处理器610和存储器620通过总线640互联。处理器610可通过端口630接收和发送数据以实现网络通信。以VoIP通话为例，语音接收器650接收通话客户端外部的声音信号，通过总线640到处理器610处转换为音频编码(该音频编码的副本保存在存储620即为发送语音)并封装为语音报文，通过端口 630发送到对端的通话客户端。端口630还接收来自对端通话客户端的语音报文，该语音报文在处理器610处解封装还原为音频编码(该音频编码保存在存储器620即为接收语音)，通过总线640发送到语音播放器660还原为声音信号播放。
[0081 ] 上述各模块501?506可以是存储器620中存储的机器可执行指令模块。处理器610通过执行存储器620中各个模块501?506中包含的机器可执行指令，进而能够实现上述各模块501?506的功能。
[0082]另外，本发明的每个实施例可以通过由数据处理设备如计算机执行的数据处理程序来实现。例如，在智能手机中安装微信app，通过使用其中的视频通话或者语音通话功能即可实现不同智能手机之间的语音通话，在这一应用场景下，本实施例中的通话时延评估装置可以由微信app中的功能模块来实现。
[0083]显然，数据处理程序构成了本发明。此外，通常存储在一个存储介质中的数据处理程序通过直接将程序读取出存储介质或者通过将程序安装或复制到数据处理设备的存储设备(如硬盘和/或内存)中执行。因此，这样的存储介质也构成了本发明。存储介质可以使用任何类型的记录方式，例如纸张存储介质(如纸带等)、磁存储介质(如软盘、硬盘、闪存等)、光存储介质(如CD-ROM等)、磁光存储介质(如MO等)等。
[0084]因此，本发明还公开了一种存储介质，其中存储有数据处理程序，该数据处理程序用于执行本发明上述方法的任何一种实施例。
[0085]应当理解，虽然本说明书是按照各个实施方式描述的，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施方式中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。
[0086]以上所述仅为本申请的较佳实施例而已，并不用以限制本申请的保护范围，凡在本申请技术方案的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。
【主权项】
1.一种通话时延评估方法，其特征在于，包括: 第一客户端和第二客户端通过通信网络建立呼叫后，在第一客户端发送和接收语音的同时缓存发送或接收的语音数据，从而得到发送录音和接收录音;获取发送录音和接收录音中的完整语段;每一个所述完整语段包括一个持续语音片段及其之后的静默时间；对于发送录音中的每个完整语段i，标识完整语段i的持续语音片段的开始时刻TS_start(i)、持续语音片段的结束时刻TS_wait(i)和完整语段i结束时刻TS_stop(i)，i为发送录音中完整语段的序号;标识接收录音中每个完整语段j的开始时刻TR_start(j)，j为接收录音中完整语段的序号；对于发送录音中每个完整语段i，检查该完整语段i的TS_start(i)到TS_stop(i)之间是否存在接收录音中任一完整语段j的TR_start(j)，若存在，则确定该完整语段i的响应时延Delay(i) =TR_start( j)_TS_wait(i);若不存在，则确定该完整语段i的响应时延Delay(i)=0；根据所获得的响应时延估计通话时延。2.根据权利要求1所述的方法，其特征在于，所述根据所获得的响应时延估计通话时延，包括: 统计得到所确定的各完整语段i的响应时延Delay(i)中取值非零的各响应时延Delay(i)的分布，将其中的统计峰值作为响应时延估计值；将响应时延估计值减去反应时延，所得结果作为通话时延。3.根据权利要求1所述的方法，其特征在于，所述获取发送录音和接收录音中的完整语段包括: 分别对所述发送录音和所述接收录音进行语音活动检测，标识得到各个语音块；对于所述发送录音和所述接收录音分别做如下处理: 对相邻语音块之间时间间隔小于第一阈值的至少两个连续语音块进行合并以得到完整语段;所述完整语段为一个语音块，且该语音块与相邻的其他语音块之间时间间隔大等于第一阈值。4.根据权利要求3所述的方法，其特征在于，所述第一阈值的取值范围为:I秒至2秒。5.根据权利要求1所述的方法，其特征在于，所述标识发送录音中每个完整语段i的开始时刻TS_start(i)，结束时刻TS_wait(i)，包括: 对于每个完整语段i，执行如下处理: 如果本帧前N帧语音活动检测的结果均为非语音，且本帧为语音，则本帧的起始时刻为该完整语段的起始时刻;其中，N为预设的大于零的整数;以及，如果本完整语段的起始时刻已找到，且本帧为语音而后N帧均为非语音，则将本帧的下一帧的起始时刻作为本完整语段的结束时刻。6.根据权利要求5所述的方法，其特征在于，所述N大于或等于100。7.根据权利要求2所述的方法，其特征在于，在所述统计得到所确定的各完整语段i的响应时延Delay (i)中取值非零的各响应时延Delay (i)的分布之前，进一步包括: 从所确定的各完整语段i的响应时延Delay(i)中，排除取值小于第二阈值或者大于第三阈值的响应时延。8.根据权利要求7所述的方法，其特征在于，所述第二阈值为100毫秒，所述第三阈值为3000毫秒。9.根据权利要求1所述的方法，其特征在于，所述所述统计得到所确定的各完整语段i的响应时延Delay (i)中取值非零的各响应时延Delay (i)的分布，包括: 用所述取值非零的各响应时延Delay(i)做出直方图；其中，将所述直方图中的统计峰值作为所述响应时延估计值。10.一种通话时延评估装置，其特征在于，包括: 录音模块，用于在本客户端与其他客户端通过通信网络建立呼叫后，在本客户端发送和接收语音的同时启动双向录音以获得发送录音和接收录音；完整语段标识模块，用于获取发送录音和接收录音中的完整语段;每一个所述完整语段包括一个持续语音片段及其之后的静默时间；时间标识模块，用于标识发送录音中每个完整语段i的持续语音片段的开始时刻TS_start(i)、持续语音片段的结束时刻TS_wait(i)和完整语段i的结束时刻TS_stop(i)，i为发送录音中完整语段的序号；标识接收录音中完整语段j的持续语音片段的开始时刻TR_start(j)，j为接收录音中完整语段的序号；响应时延计算模块，用于针对发送录音中每个完整语段i，检查该完整语段i的TS_start(i)到TS_stop(i)之间是否存在接收录音中任一完整语段j的TR_start( j)，若存在，则确定该完整语段i的响应时延Delay (i) =TR_start( j )-TS_wait(i)；若不存在，则确定该完整语段i的响应时延Delay(i) =0; 通话时延模块，用于根据所获得的响应时延估计通话时延。11.根据权利要求10所述的装置，其特征在于，所述通话时延模块包括: 响应时延估计单元，用于统计得到所确定的各完整语段i的响应时延Delay(i)中取值非零的各响应时延Delay (i)的分布，将其中的统计峰值作为响应时延估计值；计算单元，用于将响应时延估计值减去反应时延，所得结果作为通话时延输出。12.根据权利要求10所述的装置，其特征在于，所述完整语段标识模块包括: 检测单元，用于分别对发送录音和接收录音进行语音活动检测，标识得到的各个语音块；合并单元，用于对相邻语音块之间时间间隔小于第一阈值的至少两个连续语音块进行合并以得到完整语段;所述完整语段为一个语音块，且该语音块与相邻的其他语音块之间时间间隔大等于第一阈值。13.根据权利要求10所述的装置，其特征在于，所述响应时延估计模块进一步包括:排除单元，用于排除小于第二阈值，或者大于第三阈值的响应时延值。
【文档编号】H04L12/26GK105933181SQ201610281304
【公开日】2016年9月7日
【申请日】2016年4月29日
【发明人】梁俊斌
【申请人】腾讯科技（深圳）有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：梁俊斌;
技术所有人：腾讯科技（深圳）有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。