分布式数据中心数据冗余消除方法

文档序号:7841108阅读:428来源:国知局
专利名称:分布式数据中心数据冗余消除方法
技术领域
本发明属于网络体系结构技术领域,特别涉及一种分布式数据中心数据冗余消除方法。
背景技术
近年来,随着信息技术和网络技术的发展,云存储、云计算以及搜索引擎等新技术迅速发展,作为“云”基础的数据中心网络迅速发展,数据中心网络的规模越来越大,这就给数据中心网络的组织带来了极大的挑战,由于数据中心网络要求高可靠性,因此在数据中心网络中,采用冗余备份的方法来保证数据中心的高可靠性是非常见的,这些冗余备份对于可靠性而言是必要的,但也造成很多传输的数据的冗余(相同的数据在网络中多次传输),这些冗余是不必要的;另一方面,随着“云”提供的服务越来越多样化,一些服务比其他服务在特定的时间内更受欢迎,这就造成这些应用的数据在这段时间内传输比其他服务更加多,这种受欢迎程度的不同造成了相同(或者相似)的数据在数据中心网络中重复传输,即数据中心传输数据冗余,同时冗余程度也随着这些应用的受欢迎程度的不同而有所差别。目前,针对网络中冗余数据的消除机制研究已经广泛开展,在较早的研究中,消除网络冗余数据通过网络缓存、代理服务器的方式,将在网络中已经传输的数据(这个文件) 在离目的节点较近的设备上缓存下来,在相同的数据请求达到的时候,代理服务器将缓存的数据发送到请求服务器,从而达到降低网络流量的目的;spring等人在2000年提出了协议无关冗余消除机制(protocol-ind印endent RE),通过这种方法,在网络中传输的数据间的冗余在更小的粒度(数据包层面或者数据块层面)被发现和消除,从而达到更好的冗余消除的效果;此后,更多的冗余消除机制被提出来,A. Muthitacharoen和S. Annapureddy 等人研究了给予内容的命名机制;Anand等人提出了将冗余消除作为IP层的一种服务的冗余消除机制和协调缓存的冗余消除机制SmartRE ;B. Aggarwall等人提出了端系统 (End-system)冗余消除机制。现有的冗余消除机制应用到数据中心网络中至少存在以下不足1)现有的冗余消除机制都是集中式的冗余消除机制。由于数据中心的规模非常大,在数据中心网络中,服务器数量常常是几千甚至几万数量级。尽管集中式的冗余消除机制一定程度上也可以部署到数据中心网络中,部署集中式的冗余消除机制必然导致较高的延迟,这对于那些对延迟要求高的数据中心(比如搜索引擎等)来说是不可接受的。2)现有的冗余消除机制忽略了数据间冗余程度的差别。现有的冗余消除机制要么没有从全网的角度对数据缓存进行调度,使得不同的冗余度的数据缓存到不同的网络“最佳”中间节点中,要么只是将数据随机缓存到中间节点,这些缓存位置选择的机制都没有充分利用数据冗余程度的差别的特点来达到更佳的缓存效果。幻现有的冗余消除机制没有充分利用数据中心网络的特点。数据中心网络的一个最突出的特点是在数据中心网络中,所有的设备(服务器和中间节点)都部署在一个相对比较小的空间中,这个特点使得数据中心网络可以充分无线广播技术来实现信息的快速扩散。

发明内容
为了克服上述现有技术的不足,本发明的目的在于提供一种分布式数据中心数据冗余消除方法,充分利用数据中心网络特点,使得数据中心网络可以充分无线广播技术来实现信息的快速扩散。为了实现上述目的,本发明采用的技术方案是分布式数据中心数据冗余消除方法,源服务器将数据通过中间节点发送至目标服务器,在所述中间节点增加缓存,传输数据时中间节点缓存已经传输的数据并将自身的缓存信息通知源服务器,从而在源服务器发送数据时,通过判断,如果在传输路径中该数据已经缓存,则通过发送压缩形式的数据到缓存该数据的中间节点,该中间节点将压缩形式的数据进行解码还原成原始数据并转发到目标服务器,完成传输。在所述中间节点、源服务器以及目标服务器上都设置有无线网卡,以实现缓存信息共享,中间节点通过无线网卡广播其缓存信息,每个服务器维护一个缓存,当服务器接收到来自中间节点广播的缓存信息时,服务器将这些信息记录在缓存中。所述广播采用轮训的方式,中间节点按照一定的顺序进行编号,当其中一个中间节点结束广播时,下一个中间节点紧接着进行广播它的缓存信息,广播时,每个中间节点广播时间相同,都为一个单位时间T。当源服务器发送数据时,如果该数据需要在某个中间节点中进行缓存,那么服务器首先计算该数据缓存到不同中间节点的预期缓存效用,并选择其中预期缓存效用最大的中间节点作为待缓存该数据的中间节点,将数据Cli缓存到中间节点在、到t2时间内的
预期缓存效
权利要求
1.分布式数据中心数据冗余消除方法,源服务器将数据通过中间节点发送至目标服务器,其特征在于,在所述中间节点增加缓存,传输数据时中间节点缓存已经传输的数据并将自身的缓存信息通知源服务器,从而在源服务器发送数据时,通过判断,如果在传输路径中该数据已经缓存,则通过发送压缩形式的数据到缓存该数据的中间节点,该中间节点将压缩形式的数据进行解码还原成原始数据并转发到目标服务器,完成传输。
2.根据权利要求1所述分布式数据中心数据冗余消除方法,其特征在于,在所述中间节点、源服务器以及目标服务器上都设置有无线网卡,以实现缓存信息共享,中间节点通过无线网卡广播其缓存信息,每个服务器维护一个缓存,当服务器接收到来自中间节点广播的缓存信息时,服务器将这些信息记录在缓存中。
3.根据权利要求2所述分布式数据中心数据冗余消除方法,其特征在于,所述广播采用轮训的方式,中间节点按照一定的顺序进行编号,当其中一个中间节点结束广播时,下一个中间节点紧接着进行广播它的缓存信息,广播时,每个中间节点广播时间相同,都为一个单位时间T。
4.根据权利要求1至3任一权利要求所述分布式数据中心数据冗余消除方法,其特征在于,当源服务器发送数据时,如果该数据需要在某个中间节点中进行缓存,那么服务器首先计算该数据缓存到不同中间节点的预期缓存效用,并选择其中预期缓存效用最大的中间节点作为待缓存该数据的中间节点,将数据Cli缓存到中间节点1^在、到t2时间内的预期缓存效用豸^^人)=Σ,其中u(i,j,k,ti; t2)为冗余消除的效j=VrkePj用,其算法如下在数据中心网络中,需要发送的数据的集合为W1, d2,......,dM},中间节点集合为R=Ir1, r2......,r|K|),路径集合为{Pl,p2,......,p|P|),为数据(Ii在路径的传输次数的期望,如果在中间节点中缓存了数据屯,并且中间节点对Cli的压缩编码d' i进行解码,则在、到t2时间内冗余消除的效用= ΟιΛ) * (Μ - \d'\) * hP] k,其中tpic是路径h的源节点到中间节点的跳数。
5.根据权利要求4所述分布式数据中心数据冗余消除方法,其特征在于,每个中间节点进行广播时,预期缓存效用最大的数据的缓存信息首先广播出去。
6.根据权利要求1所述分布式数据中心数据冗余消除方法,其特征在于,所述中间节点为路由器或交换机。
全文摘要
一种分布式数据中心数据冗余消除方法,在服务器和中间节点中增加缓存和无线网卡;中间节点缓存源服务器间发送的数据;源服务器记录哪些中间节点缓存了哪些数据的信息;中间节点和服务器之间通过无线广播方式共享缓存信息;源服务器发送数据时,对数据缓存到不同中间节点带来的缓存效用进行比较,挑选使得缓存效用最大的中间节点使用;中间节点在接受缓存某个数据任务时,通过比较执行缓存任务带来的效用与替换出去的缓存数据的效用,决定是否执行;中间节点将其中的缓存数据的缓存信息广播给所有服务器;服务器在发送相同的数据时,根据中间节点中的缓存情况对数据进行压缩编码;中间节点对压缩编码的数据进行解码转发,完成数据传输。
文档编号H04L1/00GK102571974SQ201210023268
公开日2012年7月11日 申请日期2012年2月2日 优先权日2012年2月2日
发明者崔勇, 廖春鹏, 王弘毅 申请人:清华大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1