专利名称:一种对时延、丢包进行综合测量及关联分析的系统和方法
技术领域:
本发明涉及一种对时延、丢包进行综合测量及关联分析的系统和方法,属于固定分组网络、计算机网络、移动无线数据网络中的测量分析技术领域。
背景技术:
在互联网的运维中,客户网络的多种多样接入方式(例如拨号、ADSL、以太网接入、光接入等)和千差万别的故障原因(包括线路质量问题、客户使用网络不当导致拥塞、网络流量过大导致的拥塞等),使得网络运行情况的总体评估和故障判断,已经不再能够单靠某个网络测量指标所能解决的问题。因此,如何对通信网络中端到端的时延和丢包两个指标进行综合测量和关联分析,实现通信网络性能的总体评估和故障的快速区分,就成为业内人员关注的焦点。
目前,在彼此独立的时延和丢包测量方面都有一些现有技术可供借鉴,现分别简述如下双向时延的测量是在一端发送携带时间标记的分组,另一端接收到该分组后,立即返回给发送端,发送端利用该分组的接收时间和分组携带的时间标记计算端到端路径的双向时延值。这里,从发送端到接收端所经过的网络链路和节点(路由器、交换机等)的序列集合,称为被测网络路径。单向时延只计算双向路径中单个方向的时延值。由于两端间的时间不完全同步,大多数测量装置使用第三方工具进行时钟同步,如网络时间协议NTP方法、全球定位系统GPS。NTP方法实现过程简单,但是它的最大误差接近于双向时延,因此精度难于达到实用化要求。GPS系统可以使得各个GPS信号接收点之间实现us级的时钟同步,测量精度高;但是,GPS设备价格昂贵,而且使用前还需要部署天线,这就使得该技术不可能广泛地被广大互联网和移动数据网用户接受使用。
丢包的测量是通过在端到端之间收发分组序列,并在接收端对打了序号标记的分组进行统计计数,以确定在某时间段内的丢包数,从而获得丢包比例。
上述两种测量方法是从时延和丢包两个不同角度分别衡量网络的服务质量,其弱点是两种测量结果数据各自独立,无法对当时的网络状况进行关联的综合分析。然而,在分组网络中,许多网络故障和性能恶化现象的原因,单凭时延或丢包的独立测量结果是无法准确判断的。例如分组网丢包,可能是链路误码导致分组误码丢包,也可能是路由器缓冲区溢出导致拥塞丢包,还可能是路由抖动使得IP分组TTL生存时间为0而导致丢包。如果能够通过一次测量,在同一时间段内同时考察网络路径上的某个测试流的时延和丢包性能,将会发现许多重要现象,作为网络故障诊断的重要数据基础。
基于通信网络中时延和丢包的内在关联性能,同时测量多种性能参数和进行关联分析,能够更准确地展示网络性能状况。因此,如何研究和开发一种对网络传输状况进行时延和丢包的综合测量及关联分析的系统和方法,已经开始引起业内人士的关注。
本发明借鉴了现有的LOSS PAIR技术和消除单向时延测量中的时钟偏斜和重置的技术,并在其基础上进行了改进和发展。现对这两种技术简介如下LOSS PAIR技术在文献《Using Loss Pairs to Discover Network Properties》(刊于ACM SIGCOMM Internet Measurement Workshop,2001)中用于推测网络内部路由器的缓冲配置、路径瓶颈位置的队列管理模式,其基本原理是发送一串PAIR,该PAIR由背靠背(发送间隔时间为0)的两个分组构成。由于两个分组是背靠背发送的,且分组长度很小,因此该两个分组在网络中经历的网络特性近似相等。
文献《A Fuzzy-based Approach to Remove Clock Skew and Reset fromOne-Way Delay Measurement》(刊于IEEE Transactions on NeuralNetworks.2005.9.Vol.16,No.5)提出了单向时延测量中的时钟偏斜和重置的消除方法基于模糊聚类分析的算法,检测并消除测量端之间的相对时钟频差和时钟重置给单向时延测量引入的误差。本发明在消除测量两端的时钟不同步所带来的单向时延测量的误差时采用该文献介绍的方法。
发明内容
有鉴于此,本发明的目的是提供一种对时延、丢包进行综合测量及关联分析的方法和系统,本发明摈弃了现有测量技术的单一测量观点及独立分析方法,并基于现有测量技术,在通信网络的端到端之间同时实现时延和丢包的综合测量,在同时获取同一路径上的时延和丢包两个测量指标后,再对其进行关联分析,以获取网络内在特性,提高网络运维效率。
为了达到上述目的,本发明提供了一种对时延、丢包进行综合测量及关联分析的系统,由分别位于被测网络路径两端的测量装置和反馈装置所组成;其特征在于所述测量装置的组成部件包括收发单元、分析单元和通信控制单元,反馈装置的组成部件至少包括反馈单元和通信控制单元;其中收发单元和反馈单元用于实现被测网络路径两端之间测试流的交互,并在测试过程中对每个分组填写相应的测试数据;两端的通信控制单元相互连接,用于控制、实现测试数据的交互;分析单元藉由其分析策略软件对同时获取的时延、丢包两种测量参数进行关联分析,并向用户呈现最终测量结果。
所述收发单元和反馈单元在测试过程中对每个测试分组添加的测试参数至少包括分组序号、发送时间戳、反馈时间戳、接收时间戳。
为了达到上述目的,本发明还提供了一种根据上述对时延、丢包进行综合测量及关联分析的系统进行综合测量和关联分析的方法,其特征在于发送一串由测试包对PAIR构成的测试流,其中每个测试包对是背靠背—发送间隔时间为0—的两个分组,且每个分组长度很小,该两个分组在网络中的传输性能被视为相等;测试流中的包对丢失其中一个分组后,采用另一个分组来代表被丢弃分组的时延,藉此同时测量该测试流的时延和丢包状况,并进行关联分析,评估网络运行的总体情况,准确判断和区分造成丢包和拥塞故障的不同原因,提高运维效率。
所述测试流中的分组格式包括包头、分组序号PID、发送标记STAG和可选的反馈标记DTAG,其中PID是在测量过程中唯一标识该分组的序列号,STAG是测量装置发送测试分组时嵌入时间戳和其它标记的字段,DTAG是反馈装置在回应测试分组时嵌入时间戳和其它标记的字段,该三者字长均不大于4字节。
所述测试流的测试包对PAIR采用IP协议或UDP协议进行封装。
所述方法包括下列步骤(1)测量测试流测量装置生成测试流,再将其发送给对端;反馈装置在接收到的测试流分组中标记接收时间戳后,将该测试流反馈给测量装置;(2)分析测试流测量装置根据其测试流的发送和接收信息,以及反馈装置发送来的反馈数据,进行计算处理和综合分析后,输出测量结果数据。
所述两个步骤之间的时序是并行或重叠的测量装置在接收到反馈装置于每个测量周期或测量结束后发送的反馈数据时,就触发、启动分析测试流的操作;同时,继续执行测量测试流的操作。
所述步骤(1)进一步包括下列操作内容(11)用户设置测试流的参数测试流的参数至少包括每个包对的分组结构,各分组间的时间间隔-测试流的发送流量模型,测试流的长度-测试包对PAIR的数量;(12)收发单元根据测试流参数构造测试流构造测试包对中的分组时,各分组的PID字段序列号保证唯一,以便在测量时间内对接收的分组与发送的分组进行PID匹配;在分组的STAG字段填充发送时间戳时,可用系统相对时钟,但时间精度不低于10ms,以保持测量结果在时延大范围变动下的一致性;(13)收发单元发送测试流将生成的测试流按照设定的流量模型发送到被测网络路径上,同时至少记录发送测试流的下述信息每个分组的发送时间戳和每个测试流的长度;必要时,记录所有分组的序列号PID范围;(14)反馈单元接收测试流反馈单元使用无限循环的、与其他任务并发运行的后台任务方式实时监听网络测试流,并接收所有分组和进行及时处理记录所接收到的分组PID字段和STAG字段数据,并排序保存之;
(15)反馈单元标记测试流反馈单元在接收到的分组的DTAG字段嵌入反馈时间戳时,可用系统相对时钟,但时间精度不低于10ms,以保持测量结果在时延大范围变动下的一致性;(16)反馈单元反馈测试流反馈单元把嵌入相关标记的测试流及时送到被测网络返回路径上,回送给测量装置;(17)收发单元接收测试流。收发单元监听并接收从反馈装置回送的测试流,记录在接收时流中每个分组的信息数据。
所述步骤(2)进一步包括下列操作内容(21)反馈单元收集测试流的反馈数据,并将该反馈数据发送给测量装置反馈单元周期性地收集反馈数据,即测试流在反馈装置的接收信息和反馈信息,再由通信控制单元以可靠的通信方式将反馈数据发送给测量装置;(22)分析单元收集测试流的各种信息分析单元收集测量装置的测试流收发数据,即其收发单元在发送和接收分组序列时所记录的分组信息,并通过通信控制单元接收反馈装置发送来的反馈数据;(23)分析单元调用分析策略软件对测试流的收发数据和反馈数据进行关联分析;(24)分析单元将最后测量结果直接以数据表和/或曲线形式呈现给用户。
所述步骤(23)进一步包括下列操作内容(231)分析单元收到收发数据和反馈数据后,以测试流中的分组序号PID为关键字,建立测试流数据表,其中每条记录对应一个测试分组;(232)计算测试流数据表中的每个分组的时延、丢包率、连续丢包数时延的计算方法是先计算分组的双向时延值RTT=Tr-Ts,式中,Ts为测量装置发送该分组的时间,Tr为测量装置接收到反馈分组的时间;接着,计算测量装置到反馈装置的原始单向时延值OWLo=Te-Ts,式中,Te为反馈装置接收到该分组的时间;再对OWLo进行时钟同步校正,获得修正后的单向时延值OWL;最后计算反馈装置到测量装置的单向时延值OWLr=RTT-OWL;
丢包率计算方法是双向丢包率Ls=1-Cr/Cs,]]>测量装置到反馈装置的单向丢包率Le=1-Ce/Cs,]]>反馈装置到测量装置的单向丢包率Lr=1-Cr/Ce=1-(1-Ls)/(1-Le),]]>式中,Cs为给定测试流中,测量装置记录发送的分组总数-测试流长度,Cr为测量装置记录接收到的反馈分组数,Ce为反馈装置记录接收到的分组数;连续丢包数计算方法是对给定的测试流,记录测量装置发送的分组PID范围,并在每次接收到反馈装置的返回分组后,都将其PID与上一次所接收到的返回分组的PID进行比较,其中两次收到的PID的最大差值为连续丢包数;(233)评估网络总体性能将整个测量时间均分为n个时间段,分别计算每个时间段内的平均双向时延和双向丢包率,记为集合{RTTi,LOSSi},式中,时间段的序列号i的取值范围是0<i<n,n为自然数,时间段长度酌情选取;再分别以时延T和丢包率L为横轴和纵轴构建两维坐标系,并以各轴上的两个低、高门限T1、T2和L1、L2将该两维坐标平面划分为若干区域,根据集合{RTTi,LOSSi}在该坐标系中的区域位置,以统计方式展示测试流的时延、丢包特性,实现网络的总体性能评估;其中,时延T1数值的选择取决于被测网络路径情况位于接入网或同一局域网内,为2-10ms;位于城域网范围内,则为20~50ms;位于广域网范围,则为100~500ms;构成跨洋路径时,则为600~1200ms;T2选为2~8倍的T1;丢包率L1选为1%~5%,L2选为10%~30%;当统计点集中在同时满足时延<T1和丢包率<L1的区域时,说明此时网络处于性能良好的轻载状态,适合承载对时延和丢包率要求均较高的业务;当统计点集中于同时满足T1<时延<T2和丢包率<L1的区域时,网络丢包率较低、但是时延偏高,说明此时路径中路由器的缓冲区长度配置较高,适合部署对丢包率要求高但是对时延要求不甚敏感的业务;当统计点集中于同时满足T1<时延<T2和L1<丢包率<L2的区域时,说明网络路径已经拥塞严重,需要进行网络路径扩容;当测量点落在同时满足时延>T2和丢包率>L2的区域时,即时延和丢包率都较大,其原因通常是路由抖动;此时,由于路由器的路由不一致,出现分组“路由打圈”现象,大部分分组因IP协议分组头的生存时间TTL变为0而被路由器丢弃,少部分分组即使最终到达目的地,时延也超常;当统计点集中在同时满足时延<T1和L1<丢包率<L2的区域时,时延较低、但丢包率偏高,此时可怀疑是线路误码丢包或该网络路径上路由器的缓冲区配置过小;为准确区分两种原因,继续进行后续的丢包原因的关联分析;(234)对于时延较低、但丢包率偏高的情况,分析区分线路误码丢包或拥塞丢包将整个测量期间发生的所有丢包记为LOSSPACKETAD,先计算LOSSPACKETAD中每个丢包的时延,如果是单个丢包,则以包对中另一个成功到达的分组时延作为其时延值;如果是连续丢包,则以最接近连续丢包的序列号之前、后的两个分组的时延的平均值作为该连续丢包分组的时延值;分别以时延T和丢包数为横轴和纵轴构建两维坐标系,并以横轴上的门限T1和纵轴上的丢包个数将该两维坐标平面划分为若干区域,并利用LOSSPAIRAD的样点来绘制连续丢包数、时延的联合概率分布图,最后,依据样点分布概率所在区域来判断线路误码丢包或拥塞丢包当样点集中分布在同时满足时延<T1和连续丢包数=1的区域时,说明时延小且为单个丢包,则是线路误码原因引起丢包;当样点集中分布在同时满足时延<T1和连续丢包数>1的区域时,说明时延小和连续丢包,则是该路径上的路由器缓冲区长度配置太小,当网络流量有突发时,将导致严重的连续丢包;当样点集中分布在同时满足时延>T1和连续丢包数>1的区域时,说明时延大和丢包连续数大,则是线路拥塞引起的丢包;(235)对于拥塞引起的丢包,继续关联分析区别用户网络的上下行拥塞情况先分别以上行时延和下行时延为横轴和纵轴构建两维坐标系,并以两轴上的时延门限T将该两维坐标平面划分为四个区域上下行空闲的A区,上行空闲、下行繁忙的B区,上下行都繁忙的C区,上行繁忙、下行空闲的D区;再将每个测量时间段的上下行平均时延值的集合记为{UDi,DDi},式中,时间段的序列号i的取值范围是0<i<n,n为自然数;如果大部分统计点集中在A区,表示上下行时延均较小,网络较为空闲;如果大部分统计点集中在B区,表示上行空闲,下行繁忙,则通常为普通互联网用户访问网络的情况,原因是大部分数据都将从互联网数据中心IDC(Internet Data Center)下载到客户端;如果大部分统计点集中在C区,表示上下行均繁忙,则通常是点对点应用运行的时延特性;如果大部分统计点集中在D区,表示上行繁忙而下行空闲,通常为客户网络中设有对外提供服务的服务器,由该服务器对外提供内容传递服务而导致上行带宽拥塞。
所述方法适用于固定分组网络、无线数据网络和计算机网络的性能测试,也适用于包括但不限于VOIP、IPTV的实时业务的网络性能评估。
本发明是一种对时延、丢包进行综合测量及关联分析的系统和方法,相对现有技术,具有如下优点(1)本发明能够一次同时完成两个方向的单向时延、路径双向时延、丢包率和连续丢包数的测量,同时获得基于丢包率和时延的综合、关联分析结果,从而能够评估网络运行的总体情况;对于丢包严重的情况,可以区分是线路误码丢包、拥塞丢包还是路由抖动丢包;再区分造成网络拥塞的各种不同原因(路由刷新、路由器配置不合理等);并通过上下行时延分析,区分是BT等P2P业务导致的拥塞,还是提供上传服务导致的拥塞,或者是传统互联网下载应用导致的拥塞(主要指WEB、Email、FTP等以单个TCP连接为基础的数据传送业务)等多种故障现象。最终,帮助网络运维人员迅速判断故障原因,提高运维效率,并切实帮助网络客户解决相关技术问题。
(2)适应性广本发明的应用不局限于特定的网络架构、技术、协议等,适用于现有和未来的许多通信网络,包括光纤、同轴、无线网络;以太、令牌环网络;IP网、移动网络、NGN等等。
(3)成本低、部署方便由于本发明使用的各项测量装置和技术都是成熟技术,可以有效控制设备成本。而且,只用一套系统装置就可以对整个网络的任何两点进行测量,无需在其它测量点部署设备,更无需添置昂贵的诸如GPS之类的设备。无需被测网络作特定配置,无空间和位置要求。
(4)测试代价小系统进行测试时几乎不影响原有通信,对网络测量路径上的负载增加微乎其微,尤其是一次测量同时完成多项功能,更减少了对网络负载的影响。
图1是测试过程中包对PAIR中丢失一个分组的传输情况示意图。
图2是本发明对时延、丢包进行综合测量及关联分析的系统结构示意图。
图3是本发明测量方法中的测量操作步骤的流程方框图。
图4是本发明测量方法中的分析操作步骤的流程方框图。
图5是本发明的测试流中的分组结构示意图。
图6是本发明由包对PAIR组成的测试流的结构示意图。
图7是图4中的分析单元操作流程方框图。
图8是对时延、丢包进行综合统计分析、评估网络总体性能的坐标示意图。
图9是对时延、连续丢包进行关联分析、评估丢包原因的坐标示意图。
图10是对上下行时延进行分析、评估的坐标示意图。
图11是本发明一试验实施例的系统结构组成示意图。
具体实施例方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
参见图1,介绍本发明的测试机理或方法发送一串由测试包对PAIR构成的测试流,并对其同时进行时延和丢包的综合测量和关联分析,其中每个测试包对PAIR是背靠背(即发送间隔时间为0)的两个分组(图中以1、2表示之),且每个分组长度很小,因此,这两个分组在网络中的传输性能被视为相等。当发送端发出的测试流中的包对1、2在经过某个中间节点(图示为“丢包点”)时丢弃其中一个分组2(称为LOSS PAIR)后,采用另一个未丢失的分组1到达发送端的时延值来代表被丢弃分组2的时延值,藉此同时测量该测试流的时延和丢包状况,再进行两者的关联分析,进而区分拥塞和丢包的不同原因。
参见图2,介绍本发明对时延、丢包进行综合测量及关联分析的系统,它是由分别位于被测网络路径两端的测量装置和反馈装置所组成;其中测量装置的组成部件包括收发单元、分析单元和通信控制单元,反馈装置的组成部件至少包括反馈单元和通信控制单元;收发单元和反馈单元用于实现被测网络路径两端之间测试流的交互,并要在测试过程中对每个分组相应填写分组序号、发送时间戳、反馈时间戳、接收时间戳等测试数据;两端的通信控制装置相互连接,用于控制和实现测量数据的交互;分析单元藉由其策略分析软件对同时获取的时延、丢包两种测量参数进行关联分析,并向用户呈现最终测量结果。
参见图3和图4,详细介绍本发明测量方法。其中图3是测量装置的测量操作和反馈装置在一个测量周期或全部测量过程结束后,发送数据给测量装置,触发启动分析流程操作的方框图。图4是分析单元的操作流程方框图。
本发明通过对时延、丢包进行综合测量及关联分析,能够评估网络运行的总体情况,准确判断和区分造成丢包和拥塞故障的不同原因。该方法主要包括并行或重叠的两个操作步骤(即在条件允许情形下,测量装置的收发单元发送测试流和接收测试流两个任务并发运行,且在接收到反馈装置于每个测量周期或测量结束后发送的反馈数据时,就触发、启动分析测试流的操作;同时,继续执行测量测试流的操作,这样能够充分发挥本发明系统的高准确度优势)(1)测量测试流测量装置生成测试流,再将其发送给对端;反馈装置在接收到的测试流分组中标记接收时间戳后,将该测试流反馈给测量装置。
(2)分析测试流测量装置根据其测试流的发送和接收信息,以及反馈装置发送来的反馈数据,进行计算处理和综合分析后,输出测量结果数据。
下面参见图3,具体介绍本发明测量方法中的步骤(1)的测量操作内容(11)用户设置测试流的参数测试流是在测量过程中收发单元和反馈单元在被测网络路径上交互的一系列测试分组。其中测试分组格式(参见图5)包括IP/UDP包头、分组序号PID、发送标记STAG和可选的反馈标记DTAG。其中PID是在测量过程中唯一标识该分组的序列号,STAG是测量装置发送测试分组时嵌入时间戳和其它标记的字段,DTAG是反馈装置在回应测试分组时嵌入时间戳和其它标记的字段,该三者字长均不大于4字节。测试流的测试包对PAIR封装在IP协议或UDP协议上传输。在反馈装置放置部分分析功能模块后,可以省掉DTAG。
测试流的参数用于定义测试流中所有分组的结构形式,测试流的参数至少包括每个包对的分组结构(如单个分组、包对、或多个分组的组合),各分组间的时间间隔-测试流的发送流量模型(采用泊松Poisson或定长分布流量模型等),测试流的长度-测试包对PAIR的数量;分组格式一般采用紧凑型的短小分组(如<100字节),流的长度也采用较小值。测试流的参数设置合理,可以使被测网络路径的内部特性得到充分展示。另外,测试分组采用定长字段,以利于提高系统处理效率,分组短小也使附加的网络负载降到最小,同时可以保证其作为一个完整单元通过整个路径。图5所示的分组格式只是本发明使用的一种分组格式示例。具体实现中,可不局限于该形式。
参见图6所示的一种测试流格式,该测试流由一系列包对组成,每个包对是连续发送的两个背靠背(发送时间间隔为0)的分组。如果发送了N(N>2)个分组,称为长度为N的测试流。
(12)收发单元根据测试流参数构造测试流收发单元根据用户定义的测试流参数构造测试包对中的分组和测试流时,可分别参照图5测试分组格式和图6的测试流组织形式,包对中各分组的PID字段序列号必须保证测量期间的唯一性,以便在有效测量时间内对接收的分组与发送的分组进行PID匹配;在分组的STAG字段填充发送时间戳时,可用系统相对时钟,但时间精度不低于10ms,以保持测量结果在时延大范围变动下的一致性。
(13)收发单元发送测试流将生成的测试流按照设定的流量模型发送到被测网络路径上,同时至少记录发送测试流的下述信息每个分组的发送时间戳和每个测试流的长度;必要时,记录所有分组的序列号PID范围。
(14)反馈单元接收测试流反馈单元实时监听网络测试流,并接收所有分组,该过程使用无限循环,以后台任务方式与其他任务并发运行,使得所有分组的数据得到及时处理同时记录所接收到的分组PID字段和STAG字段数据和排序保存之。
(15)反馈单元标记测试流反馈单元在接收到的分组的DTAG字段嵌入反馈时间戳时,可用系统相对时钟,但时间精度不低于10ms,以保持测量结果在时延大范围变动下的一致性。
(16)反馈单元反馈测试流反馈单元把嵌入相关标记的测试流及时送到被测网络返回路径上,回送给测量装置。
(17)收发单元接收测试流。收发单元监听并接收从反馈装置回送的测试流,记录在接收时流中每个分组的信息数据。
需要强调的是,在测量过程中无需测量装置和反馈装置两者的时钟同步,本发明可以应用背景技术中的文献所介绍的在单向时延测量中如何消除测量两端的时钟不同步所带来的时钟频差和时钟重置的方法。
参见图4,具体介绍本发明测量方法中的步骤(2)的分析操作内容(21)反馈单元收集测试流的反馈数据,并将该反馈数据发送给测量装置反馈单元周期性地定时收集反馈数据,即测试流在反馈装置的接收信息和反馈信息,必要时可以对其进行压缩和加密处理;再由通信控制单元以可靠的通信方式确保将反馈数据安全发送给测量装置。
(22)分析单元收集测试流的各种信息分析单元收集测量装置的测试流收发数据,即其收发单元在发送和接收分组序列时所记录的分组信息,并通过其通信控制单元接收反馈装置送来的反馈数据,必要时进行解密和解压缩处理。
(23)分析单元调用分析策略软件对测试流的收发数据和反馈数据进行关联分析;由于关联分析的过程是本发明的一个重要内容,后面对其详细说明之。
(24)分析单元将最后测量结果直接以数据表和/或曲线形式呈现给用户。
参见图7,上述步骤(23)中分析单元进行的关联分析是本发明的重要创新,现在具体介绍其操作内容(231)分析单元收到收发数据和反馈数据后,对照测试流中的每个分组以分组序号PID为关键字,建立测试流数据表,其中每条记录对应一个测试分组。
(232)计算测试流数据表中的每个分组的时延、丢包率、连续丢包率时延的计算方法是先计算分组的双向时延值RTT=Tr-Ts,式中,Ts为测量装置发送该分组的时间,Tr为测量装置接收到反馈分组的时间;接着,计算测量装置到反馈装置的原始单向时延值OWLo=Te-Ts,式中,Te为反馈装置接收到该分组的时间;再利用前述文献对OWLo进行时钟同步校正,获得修正后的单向时延值OWL;最后计算反馈装置到测量装置的单向时延值OWLr=RTT-OWL,因为本发明关联分析是基于修正后的单向时延或RTT进行的;丢包率计算方法是双向丢包率Ls=1-Cr/Cs,]]>测量装置到反馈装置的单向丢包率Le=1-Ce/Cs,]]>反馈装置到测量装置的单向丢包率Lr=1-Cr/Ce=1-(1-Ls)/(1-Le),]]>式中,Cs为给定测试流中,测量装置记录发送的分组总数(即测试流长度),Cr为测量装置记录接收到的反馈分组数,Ce为反馈装置记录接收到的分组数;连续丢包计算方法是对给定的测试流,记录测量装置发送的分组PID范围,并在每次接收到反馈装置的返回分组后,都将其PID与上一次所接收到的返回分组的PID进行比较,其中两次收到的PID的最大差值为连续丢包数。
(233)评估网络总体性能将整个测量时间平均分为n个时间段,分别计算每个时间段内的平均双向时延和双向丢包率,记为集合{RTTi,LOSSi},式中,时间段的序列号i取值范围是0<i<n,n为自然数,时间段长度酌情选取;再分别以时延T和丢包率L为横轴和纵轴构建两维坐标系,并以各轴上的两个低、高门限T1、T2和L1、L2将该两维坐标平面划分为若干区域(参见图8),根据集合{RTTi,LOSSi}在该坐标系中的区域位置,以统计方式展示测试流的时延、丢包特性,实现网络的总体性能评估;其中,时延T1的选择取决于被测网络路径情况位于接入网或同一局域网内,为2-10ms;位于城域网范围内,则为20~50ms;位于广域网范围,则为100~500ms;构成跨洋路径时,则为600~1200ms;T2选为2~8倍的T1;丢包率L1选为1%~5%,L2选为10%~30%;当统计点集中在同时满足时延<T1和丢包率<L1的A1区域时,说明此时网络处于性能良好的轻载状态,适合承载对时延和丢包率要求均较高的业务,比如高质量话音。
当统计点集中于同时满足T1<时延<T2和丢包率<L1的B1区域时,网络丢包率较低、但是时延偏高,说明此时路径中路由器的缓冲区长度配置较高,适合部署对丢包率要求高但是对时延要求不甚敏感的业务,比如视频业务。
当统计点集中于同时满足T1<时延<T2和L1<丢包率<L2的C1区域时,说明网络路径已经拥塞严重,需要进行网络路径扩容;当测量点落在同时满足时延>T2和丢包率>L2的E1区域时,即时延和丢包率都较大,其原因通常是路由抖动;此时,由于路由器的路由不一致,出现分组“路由打圈”现象,大部分分组因IP协议分组头的生存时间TTL变为0而被路由器丢弃,少部分分组即使最终到达目的地,时延也超常了。
当统计点集中在同时满足时延<T1和L1<丢包率<L2的D1区域时,此时的时延较低、但丢包率偏高,可怀疑是线路误码丢包或该网络路径上路由器的缓冲区配置过小;为准确区分两种原因,继续进行后续的丢包原因的关联分析。
(234)对于图8中出现的大量统计点集中在时延较低、但丢包率偏高的D1区域时,要考察其丢包的原因区分线路误码丢包或拥塞丢包。将整个测量期间发生的所有丢包记为LOSSPACKETAD,先计算LOSSPACKETAD中每个丢包的时延,具体方法如下如果是单个丢包,则以包对LOSS PAIR中另一个成功到达的分组时延作为被丢弃分组的时延值;如果是连续多个丢包,则以最接近连续丢包的序列号之前、后的两个分组的时延的平均值作为该连续丢包分组的时延值;例如PID为i,...,j的分组被丢失,则以PID为i-1和j+1两个分组的时延的平均值作为该连续丢包分组的时延;分别以近似的丢包的时延T和连续丢包数为横轴和纵轴构建两维坐标系,并以横轴上的门限T1和纵轴上的丢包个数将该两维坐标平面划分为若干区域,并利用LOSSPAIRAD的样点来绘制连续丢包数、时延的联合概率分布图(参见图9),最后,依据样点分布概率所在区域来判断线路误码丢包或拥塞丢包A2区对应着时延小且为单个丢包的情况。若在该区出现的高概率丢包指示线路误码原因引起丢包。
当样点集中分布在同时时延小和单个丢包的A2区域时,说明是线路误码原因引起丢包,因为网络负载很小(表现为时延低)时,仍然存在着丢包现象,说明不是由于网络拥塞形成的缓冲区溢出丢包而是线路丢包。这种情况一般出现在线路误码率较高导致误码丢包的网络中,比如ADSL接入但线路老化、PSTN拨号接入、WLAN/GPRS/CDMA等无线接入方式。
当样点集中分布在小时延和连续丢包的B2区域时,说明该路径上的路由器缓冲区长度配置太小,当网络流量有突发时,将导致严重的连续丢包。
当样点集中分布在同时满足时延大和连续丢包数大的C2区域时,说明是线路拥塞引起的丢包。
(235)对于拥塞引起的丢包,继续关联分析区别用户网络的上下行拥塞情况参见图10,先分别以上行时延和下行时延为横轴和纵轴构建两维坐标系,并以两轴上的时延门限T将该两维坐标平面划分为四个区域上下行空闲的A区,上行空闲、下行繁忙的B区,上下行都繁忙的C区,上行繁忙、下行空闲的D区;再将每个测量时间段的上下行平均时延值的集合记为{UDi,DDi},式中,时间段的序列号i取值范围是0<i<n,n为自然数;如果大部分统计A2集中在A区,表示上下行时延均较小,网络较为空闲;如果大部分统计点集中在B区,表示上行空闲,下行繁忙,则通常为普通互联网用户访问网络的情况,原因是大部分数据都将从互联网数据中心IDC(Internet Data Center)下载到客户端;如果大部分统计点集中在C区,表示上下行均繁忙,则通常是点对点P2P应用运行的时延特性,因为许多P2P应用在下载时也为其他客户端提供上传服务,这将导致网络在两个方向上均呈现拥塞的情况;D区表示上行繁忙而下行空闲,这多为客户网络中对外提供了服务的服务器,这些服务器大量对外提供内容传递服务将导致上行带宽拥塞。
如果大部分统计点集中在D区,表示上行繁忙而下行空闲,通常为客户网络中设有WEB、FTP等对外提供服务的服务器,由于这些服务器对外提供内容传递服务而导致上行带宽拥塞。
通过上述对上下行时延的关联分析,可以很好地区分客户网络拥塞的原因,为网络运维人员提供快速简捷的拥塞问题分析手段。
该方法可广泛适用于各种无线网络(包括蜂窝状数字式分组数据交换网络CDPD、通用无线分组业务GPRS、码分多址CDMA、3G等),固定分组网络(包括拨号、非对称数字用户线路ADSL、Ethernet接入、光接入等)和计算机网络的性能测试,也适用于网络电话VOIP、网络电视IPTV等实时业务的网络性能评估。
参见图11,介绍本发明在IP网进行服务质量测试的试验实施例使用一对测量装置和反馈装置协作完成对用户终端与媒体服务器之间的网络路径性能的测量。在图示架构的部署下,终端用户对网络性能的质疑能够通过本发明的综合测量及关联分析的系统和方法,发现网络中存在的性能瓶颈及潜在的性能下降的因素。再通过网络内部的重新配置或更换路由,使该终端用户的合理服务质量要求得到满足。本发明能够同时对多条路径进行的综合测量将对整个网络服务的性能有全局的认识,便于网络的规划和重新部署以及扩容问题等。因此,试验是成功的,实现了发明目的。
权利要求
1.一种对时延、丢包进行综合测量及关联分析的系统,由分别位于被测网络路径两端的测量装置和反馈装置所组成;其特征在于所述测量装置的组成部件包括收发单元、分析单元和通信控制单元,反馈装置的组成部件至少包括反馈单元和通信控制单元;其中收发单元和反馈单元用于实现被测网络路径两端之间测试流的交互,并在测试过程中对每个分组填写相应的测试数据;两端的通信控制单元相互连接,用于控制、实现测试数据的交互;分析单元藉由其分析策略软件对同时获取的时延、丢包两种测量参数进行关联分析,并向用户呈现最终分析结果。
2.根据权利要求1所述的综合测量及关联分析的系统,其特征在于所述收发单元和反馈单元在测试过程中对每个测试分组添加的测试数据至少包括分组序号、发送时间戳、反馈时间戳、接收时间戳。
3.一种根据权利要求1所述的对时延、丢包进行综合测量及关联分析的系统进行综合测量和关联分析的方法,其特征在于发送一串由测试包对PAIR构成的测试流,其中每个测试包对是背靠背一发送间隔时间为0-的两个分组,且每个分组长度很小,该两个分组在网络中的传输性能被视为相等;测试流中的包对丢失其中一个分组后,采用另一个分组来代表被丢弃分组的时延,藉此同时测量该测试流的时延和丢包状况,并进行关联分析,评估网络运行的总体情况,准确判断和区分造成丢包和拥塞故障的不同原因,提高运维效率。
4.根据权利要求3所述的进行综合测量及关联分析的方法,其特征在于所述测试流中的分组格式包括包头、分组序号PID、发送标记STAG和可选的反馈标记DTAG,其中PID是在测量过程中唯一标识该分组的序列号,STAG是测量装置发送测试分组时嵌入时间戳和其它标记的字段,DTAG是反馈装置在回应测试分组时嵌入时间戳和其它标记的字段,该三者字长均不大于4字节。
5.根据权利要求4所述的进行综合测量及关联分析的方法,其特征在于所述测试流的测试包对PAIR采用IP协议或UDP协议进行封装。
6.根据权利要求3所述的进行综合测量及关联分析的方法,其特征在于所述方法包括下列步骤(1)测量测试流测量装置生成测试流,再将其发送给对端;反馈装置在接收到的测试流分组中标记接收时间戳后,将该测试流反馈给测量装置;(2)分析测试流测量装置根据其测试流的发送和接收信息,以及反馈装置发送来的反馈数据,进行计算处理和综合分析后,输出测量结果数据。
7.根据权利要求3所述的进行综合测量及关联分析的方法,其特征在于所述两个步骤之间的时序是并行或重叠的测量装置在接收到反馈装置于每个测量周期或测量结束后发送的反馈数据时,就触发、启动分析测试流的操作;同时,继续执行测量测试流的操作。
8.根据权利要求3所述的进行综合测量及关联分析的方法,其特征在于所述步骤(1)进一步包括下列操作内容(11)用户设置测试流的参数测试流的参数至少包括每个包对的分组结构,各分组间的时间间隔-测试流的发送流量模型,测试流的长度-测试包对PAIR的数量;(12)收发单元根据测试流参数构造测试流构造测试包对中的分组时,各分组的PID字段序列号保证唯一,以便在测量时间内对接收的分组与发送的分组进行PID匹配;在分组的STAG字段填充发送时间戳时,可用系统相对时钟,但时间精度不低于10ms,以保持测量结果在时延大范围变动下的一致性;(13)收发单元发送测试流将生成的测试流按照设定的流量模型发送到被测网络路径上,同时至少记录发送测试流的下述信息每个分组的发送时间戳和每个测试流的长度;必要时,记录所有分组的序列号PID范围;(14)反馈单元接收测试流反馈单元使用无限循环的、与其他任务并发运行的后台任务方式实时监听网络测试流,并接收所有分组和进行及时处理记录所接收到的分组PID字段和STAG字段数据,并排序保存之;(15)反馈单元标记测试流反馈单元在接收到的分组的DTAG字段嵌入反馈时间戳时,可用系统相对时钟,但时间精度不低于10ms,以保持测量结果在时延大范围变动下的一致性;(16)反馈单元反馈测试流反馈单元把嵌入相关标记的测试流及时送到被测网络返回路径上,回送给测量装置;(17)收发单元接收测试流。收发单元监听并接收从反馈装置回送的测试流,记录在接收时流中每个分组的信息数据。
9.根据权利要求3所述的进行综合测量及关联分析的方法,其特征在于所述步骤(2)进一步包括下列操作内容(21)反馈单元收集测试流的反馈数据,并将该反馈数据发送给测量装置反馈单元周期性地收集反馈数据,即测试流在反馈装置的接收信息和反馈信息,再由通信控制单元以可靠的通信方式将反馈数据发送给测量装置;(22)分析单元收集测试流的各种信息分析单元收集测量装置的测试流收发数据,即其收发单元在发送和接收分组序列时所记录的分组信息,并通过通信控制单元接收反馈装置发送来的反馈数据;(23)分析单元调用分析策略软件对测试流的收发数据和反馈数据进行关联分析;(24)分析单元将最后测量结果直接以数据表和/或曲线形式呈现给用户。
10.根据权利要求9所述的进行综合测量及关联分析的方法,其特征在于所述步骤(23)进一步包括下列操作内容(231)分析单元收到收发数据和反馈数据后,以测试流中的分组序号PID为关键字,建立测试流数据表,其中每条记录对应一个测试分组;(232)计算测试流数据表中的每个分组的时延、丢包率、连续丢包数时延的计算方法是先计算分组的双向时延值RTT=Tr-Ts,式中,Ts为测量装置发送该分组的时间,Tr为测量装置接收到反馈分组的时间;接着,计算测量装置到反馈装置的原始单向时延值OWLo=Te-Ts,式中,Te为反馈装置接收到该分组的时间;再对OWLo进行时钟同步校正,获得修正后的单向时延值OWL;最后计算反馈装置到测量装置的单向时延值OWLr=RTT-OWL;丢包率计算方法是双向丢包率Ls=1-Cr/Cs,]]>测量装置到反馈装置的单向丢包率Le=1-Ce/Cs,]]>反馈装置到测量装置的单向丢包率Lr=1-Cr/Ce=1-(1-Ls)/(1-Le),]]>式中,Cs为给定测试流中,测量装置记录发送的分组总数-测试流长度,Cr为测量装置记录接收到的反馈分组数,Ce为反馈装置记录接收到的分组数;连续丢包数计算方法是对给定的测试流,记录测量装置发送的分组PID范围,并在每次接收到反馈装置的返回分组后,都将其PID与上一次所接收到的返回分组的PID进行比较,其中两次收到的PID的最大差值为连续丢包数;(233)评估网络总体性能将整个测量时间均分为n个时间段,分别计算每个时间段内的平均双向时延和双向丢包率,记为集合{RTTi,LOSSi},式中,时间段的序列号i的取值范围是0<i<n,n为自然数,时间段长度酌情选取;再分别以时延T和丢包率L为横轴和纵轴构建两维坐标系,并以各轴上的两个低、高门限T1、T2和L1、L2将该两维坐标平面划分为若干区域,根据集合{RTTi,LOSSi}在该坐标系中的区域位置,以统计方式展示测试流的时延、丢包特性,实现网络的总体性能评估;其中,时延T1数值的选择取决于被测网络路径位于接入网或同一局域网内,为2-10ms;位于城域网范围内,则为20~50ms;位于广域网范围,则为100~500ms;构成跨洋路径时,则为600~1200ms;T2选为2~8倍的T1;丢包率L1选为1%~5%,L2选为10%~30%;当统计点集中分布在同时满足时延<T1和丢包率<L1的区域时,说明此时网络处于性能良好的轻载状态,适合承载对时延和丢包率要求均较高的业务;当统计点集中分布于同时满足T1<时延<T2和丢包率<L1的区域时,网络丢包率较低、但是时延偏高,说明此时路径中路由器的缓冲区长度配置较高,适合部署对丢包率要求高但是对时延要求不甚敏感的业务,比如视频业务。当统计点集中分布于同时满足T1<时延<T2和L1<丢包率<L2的区域时,说明网络路径已经拥塞严重,需要进行网络路径扩容;当统计点落在同时满足时延>T2和丢包率>L2的区域时,即时延和丢包率都较大,其原因通常是路由抖动;此时,由于路由器的路由不一致,出现分组“路由打圈”现象,大部分分组因IP协议分组头的生存时间TTL变为0而被路由器丢弃,少部分分组即使最终到达目的地,时延也超常;当统计点集中分布在同时满足时延<T1和L1<丢包率<L2的区域时,时延较低、但丢包率偏高,此时可怀疑是线路误码丢包或该网络路径上路由器的缓冲区配置过小;为准确区分两种原因,继续进行后续的丢包原因的关联分析;(234)对于时延较低、但丢包率偏高的情况,分析区分线路误码丢包或拥塞丢包将整个测量期间发生的所有丢包记为LOSSPACKETAD,先计算LOSSPACKETAD中每个丢包的时延,如果是单个丢包,则以包对中另一个成功到达的分组时延作为其时延值;如果是连续丢包,则以最接近连续丢包的序列号之前、后的两个分组的时延的平均值作为该连续丢包分组的时延值;分别以时延T和丢包数为横轴和纵轴构建两维坐标系,并以横轴上的门限T1和纵轴上的丢包个数将该两维坐标平面划分为若干区域,并利用LOSSPAIRAD的样点来绘制连续丢包数、时延的联合概率分布图,最后,依据样点分布概率所在区域来判断线路误码丢包或拥塞丢包当样点集中分布在同时满足时延<T1和连续丢包数=1的区域时,说明时延小且为单个丢包,则是线路误码原因引起丢包;当样点集中分布在同时满足时延<T1和连续丢包数>1的区域时,说明时延小和连续丢包,则是该路径上的路由器缓冲区长度配置太小,当网络流量有突发时,将导致严重的连续丢包;当样点集中分布在同时满足时延>T1和连续丢包数>1的区域时,说明时延大和丢包连续数大,则是线路拥塞引起的丢包;(235)对于拥塞引起的丢包,继续关联分析区别用户网络的上下行拥塞情况先分别以上行时延和下行时延为横轴和纵轴构建两维坐标系,并以两轴上的时延门限T将该两维坐标平面划分为四个区域上下行空闲的A区,上行空闲、下行繁忙的B区,上下行都繁忙的C区,上行繁忙、下行空闲的D区;再将每个测量时间段的上下行平均时延值的集合记为{UDi,DDi},式中,时间段的序列号i的取值范围是0<i<n,n为自然数;如果大部分统计点集中在A区,表示上下行时延均较小,网络较为空闲;如果大部分统计点集中在B区,表示上行空闲,下行繁忙,则通常为普通互联网用户访问网络的情况;如果大部分统计点集中在C区,表示上下行均繁忙,则通常是点对点应用运行的时延特性;如果大部分统计点集中在D区,表示上行繁忙而下行空闲,通常为客户网络中设有对外提供服务的服务器,由该服务器对外提供内容传递服务而导致上行带宽拥塞。
11.根据权利要求3所述的进行综合测量及关联分析的方法,其特征在于所述方法适用于固定分组网络、无线数据网络和计算机网络的性能测试,也适用于包括但不限于网络电话VOIP、网络电视IPTV实时业务的网络性能评估。
全文摘要
一种对时延、丢包进行综合测量及关联分析的系统和方法,系统由位于被测网络路径两端的测量装置(包括收发单元、分析单元和通信控制单元)和反馈装置(包括反馈单元和通信控制单元)组成,收发单元和反馈单元实现被测网络路径两端间测试流的交互,并在测试过程中对每个分组填写测试数据;两端通信控制单元相互连接,控制、实现测试数据的交互。测试流为一串测试包对,每个包对是背靠背、长度很小的两个分组,在丢失一个分组后,用另一分组来代表被丢弃分组的时延,藉此同时测量测试流的时延和丢包,由分析单元对同时获取的这两种测量数据进行关联分析,评估网络运行的总体情况,准确判断和区分造成丢包和拥塞故障的不同原因,并呈现最终分析结果。
文档编号H04L12/26GK1777126SQ20051013014
公开日2006年5月24日 申请日期2005年12月12日 优先权日2005年12月12日
发明者林宇 申请人:史文勇