一种在云存储系统中进行数据推送的方法及系统与流程

文档序号:18899278发布日期:2019-10-18 21:42阅读:177来源:国知局
一种在云存储系统中进行数据推送的方法及系统与流程

本发明涉及云存储和云计算领域,并且更具体地,涉及一种在云存储系统中进行数据推送的方法及系统。



背景技术:

目前,随着人工智能技术在各个领域的应用越来越广泛,互联网应用越来越依赖于人工智能的辅助作用。例如,利用人工智能技术为终端用户提供定制信息已经变得越来越流行。在云存储或云计算领域,将各种类型的数据项(例如,文本文件、视频文件、音频文件等)发送给希望获取相关内容的用户成为主流方式。然而,在现有技术中,并没有为所推送的内容进行推送分级的技术方案,因而无法保证最初的推送内容能够满足不同用户的需求。



技术实现要素:

本发明提供一种在云存储系统中进行数据推送的方法,所述方法包括:

对云存储系统内多个存储节点中每个存储节点的运行状态进行实时监测以获得每个存储节点的实时更新的运行状态信息,当基于运行状态信息确定多个存储节点中的目标存储节点进入访问热点状态时,将目标存储节点中存储的并且在统计时间段内的被访问次数大于次数阈值的数据项确定为目标存储节点的基础数据项,并将目标存储节点的多个基础数据项构成基础数据项集合;

基于目标存储节点的数据项集合中每个基础数据项的简档信息确定所述基础数据项集合的摘要信息,确定云存储系统的目录服务器中未被存储在目标存储节点内的所有数据项中每个数据项的简档信息与目标存储节点的数据项集合的摘要信息的关联度,将未被存储在目标存储节点内的所有数据项中关联度大于第一关联度阈值的数据项确定为推送数据项以获得多个推送数据项;

确定多个推送数据项中每个推送数据项所在的存储节点,并且将云存储系统内除目标存储节点之外的所有存储节点中具有至少一个推送数据项的存储节点确定为推送节点;

每个推送节点确定自身所存储的推送数据项的数量,将所存储的推送数据项的数量大于数量阈值的推送节点确定为第一优先等级的推送节点,并且将所存储的推送数据项的数量小于或等于数量阈值的推送节点确定为第二优先等级的推送节点;

每个第一优先等级的推送节点将自身所存储的所有数据项中的每个热点数据项和每个推送数据项均标记为第一推送级别;

每个第一优先等级的推送节点将自身所存储的第一推送级别的每个热点数据项和每个推送数据项发送给目标存储节点,并且在将第一推送级别的每个热点数据项和每个推送数据项发送给目标存储节点的同时,每个第一优先等级的推送节点确定自身所存储的每个数据项的简档信息与所述数据项集合的摘要信息的关联度,并且每个第一优先等级的推送节点将自身所存储的与所述数据项集合的摘要信息的关联度小于或等于第一关联度阈值并且大于第二关联度阈值的至少一个数据项标记为第二推送级别;

在每个第一优先等级的推送节点将自身所存储的所有数据项中的每个热点数据项和每个推送数据项均标记为第一推送级别的同时,每个第二优先等级的推送节点将自身所存储的所有数据项中的每个热点数据项和每个推送数据项标记为第三推送级别;

每个第一优先等级的推送节点将自身所存储的标记为第二推送级别的至少一个数据项发送给目标存储节点,并且同时每个第二优先等级的推送节点将自身所存储的标记为第三推送级别的每个推送数据项发送给目标存储节点。

由云存储系统内的监测服务器对云存储系统内多个存储节点中每个存储节点的运行状态进行实时监测以获得每个存储节点的实时更新的运行状态信息。

获取多个存储节点中每个存储节点在统计时间段内的总被访问次数,将在统计时间段内的总被访问次数最多的存储节点确定为进入访问热点状态的目标存储节点。

每个数据项均具有简档信息,简档信息用于记载数据项的标识符、数据项的主题信息、数据项的类别信息以及数据项的内容信息;

确定云存储系统的目录服务器中未被存储在目标存储节点内的所有数据项中每个数据项的简档信息与目标存储节点的数据项集合的摘要信息的关联度包括:

将云存储系统的目录服务器中未被存储在目标存储节点内的所有数据项中每个数据项的简档信息与目标存储节点的数据项集合的摘要信息进行语义匹配、关键词匹配或文本匹配以确定云存储系统的目录服务器中未被存储在目标存储节点内的所有数据项中每个数据项的简档信息与目标存储节点的数据项集合的摘要信息的关联度;

本发明还提供一种在云存储系统中进行数据推送的系统,所述系统包括:

监测设备,对云存储系统内多个存储节点中每个存储节点的运行状态进行实时监测以获得每个存储节点的实时更新的运行状态信息,当基于运行状态信息确定多个存储节点中的目标存储节点进入访问热点状态时,将目标存储节点中存储的并且在统计时间段内的被访问次数大于次数阈值的数据项确定为目标存储节点的基础数据项,并将目标存储节点的多个基础数据项构成基础数据项集合;

数据项确定设备,基于目标存储节点的数据项集合中每个基础数据项的简档信息确定所述基础数据项集合的摘要信息,确定云存储系统的目录服务器中未被存储在目标存储节点内的所有数据项中每个数据项的简档信息与目标存储节点的数据项集合的摘要信息的关联度,将未被存储在目标存储节点内的所有数据项中关联度大于第一关联度阈值的数据项确定为推送数据项以获得多个推送数据项;

节点确定设备,确定多个推送数据项中每个推送数据项所在的存储节点,并且将云存储系统内除目标存储节点之外的所有存储节点中具有至少一个推送数据项的存储节点确定为推送节点;

处理设备,促使每个推送节点确定自身所存储的推送数据项的数量,将所存储的推送数据项的数量大于数量阈值的推送节点确定为第一优先等级的推送节点,并且将所存储的推送数据项的数量小于或等于数量阈值的推送节点确定为第二优先等级的推送节点;促使每个第一优先等级的推送节点将自身所存储的所有数据项中的每个热点数据项和每个推送数据项均标记为第一推送级别;每个第一优先等级的推送节点将自身所存储的第一推送级别的每个热点数据项和每个推送数据项发送给目标存储节点,并且在将第一推送级别的每个热点数据项和每个推送数据项发送给目标存储节点的同时,每个第一优先等级的推送节点确定自身所存储的每个数据项的简档信息与所述数据项集合的摘要信息的关联度,并且每个第一优先等级的推送节点将自身所存储的与所述数据项集合的摘要信息的关联度小于或等于第一关联度阈值并且大于第二关联度阈值的至少一个数据项标记为第二推送级别;促使在每个第一优先等级的推送节点将自身所存储的所有数据项中的每个热点数据项和每个推送数据项均标记为第一推送级别的同时,每个第二优先等级的推送节点将自身所存储的所有数据项中的每个热点数据项和每个推送数据项标记为第三推送级别;促使每个第一优先等级的推送节点将自身所存储的标记为第二推送级别的至少一个数据项发送给目标存储节点,并且同时每个第二优先等级的推送节点将自身所存储的标记为第三推送级别的每个推送数据项发送给目标存储节点。

由云存储系统内的监测服务器对云存储系统内多个存储节点中每个存储节点的运行状态进行实时监测以获得每个存储节点的实时更新的运行状态信息。

获取多个存储节点中每个存储节点在统计时间段内的总被访问次数,将在统计时间段内的总被访问次数最多的存储节点确定为进入访问热点状态的目标存储节点。

每个数据项均具有简档信息,简档信息用于记载数据项的标识符、数据项的主题信息、数据项的类别信息以及数据项的内容信息;

其中确定云存储系统的目录服务器中未被存储在目标存储节点内的所有数据项中每个数据项的简档信息与目标存储节点的数据项集合的摘要信息的关联度包括:

将云存储系统的目录服务器中未被存储在目标存储节点内的所有数据项中每个数据项的简档信息与目标存储节点的数据项集合的摘要信息进行语义匹配、关键词匹配或文本匹配以确定云存储系统的目录服务器中未被存储在目标存储节点内的所有数据项中每个数据项的简档信息与目标存储节点的数据项集合的摘要信息的关联度;

附图说明

图1为根据本发明的在云存储系统中进行数据推送的方法的流程图;

图2为根据本发明的云存储系统的结构示意图;以及

图3为根据本发明的在云存储系统中进行数据推送的系统的结构示意图。

具体实施方式

图1为根据本发明的在云存储系统中进行数据推送的方法100的流程图。如图1所示,方法100从步骤101处开始。在步骤101,对云存储系统内多个存储节点中每个存储节点的运行状态进行实时监测以获得每个存储节点的实时更新的运行状态信息,当基于运行状态信息确定多个存储节点中的目标存储节点进入访问热点状态时,将目标存储节点中存储的并且在统计时间段内的被访问次数大于次数阈值的数据项确定为目标存储节点的基础数据项,并将目标存储节点的多个基础数据项构成基础数据项集合。

由云存储系统内的监测服务器对云存储系统内多个存储节点中每个存储节点的运行状态进行实时监测以获得每个存储节点的实时更新的运行状态信息。所述实时监测是监测服务器实时地获取并统计与多个存储节点中每个存储节点的运行状态相关的信息。

还包括创建在时间上连续的多个时间单元,每个时间单元的时间长度相同。其中每个时间单元的时间长度为1分钟、2分钟、5分钟、8分钟、10分钟、15分钟或20分钟。由在时间上连续的多个时间单元来构成所述统计时间段。为(存储节点的)每个时间单元分配一条运行记录以获取多条运行记录,其中每条运行记录包括:存储节点的总被访问次数、被访问的数据项的数量和数据项的总数量。每当时间经过了一个时间单元的时间长度时,为所经过的一个时间单元生成运行记录。

将存储节点在所述统计时间段内每个时间单元的运行记录构成存储节点的实时更新的运行状态信息。其中存储节点的总被访问次数是指存储节点(的所有数据项)在单个(当前)时间单元内的总被访问次数,即存储节点内的所有数据项在时间单元内的总被访问次数。被访问的数据项的数量是指存储节点内所有数据项中在(单个或当前)时间单元内被访问过的数据项的数量;被访问的数据项的数量是在(单个或当前)时间单元内指针对于存储节点的所有数据项中的访问所涉及的数据项的数量;其中用户设备、移动终端或外部设备能够访问存储节点中的数据项。

数据项的总数量是指存储节点在(单个或当前)时间单元内所涉及的所有数据项的总数量。由于存储节点中的数据项存在被删除或被移动到其它存储节点的情况,以及新的数据项被存储到存储节点中的情况,因此每个时间单元内,存储节点中的数据项的总数量可以是相同的或不同的。将在(单个或当前)时间单元内在被删除或被移动到其它存储节点的数据项,和在时间单元内被存储到存储节点中的数据项均统计到数据项的总数量中。即确定数据项的总数量时,数据项包括(单个或当前)时间单元结束时存储节点中的数据项的数量,以及(单个或当前)时间单元内在被删除或被移动到其它存储节点的数据项的数量。

即数据项的总数量包括在(单个或当前)时间单元内,存储节点中存储过的所有数据项的总数量。不但包括,(单个或当前)时间单元内在被删除或被移动到其它存储节点的数据项的数量,并且还包括在时间单元内被存储到存储节点中的数据项的数量。

针对于多个存储节点中的每个存储节点,基于每个时间单元内的存储节点的总被访问次数、被访问的数据项的数量和数据项的总数量计算存储节点的访问热度值h:

当满足ak>ak-1>ak-2>ak-3>......>ak-m时,计算

当不满足ak>ak-1>ak-2>ak-3>......>ak-m时,

h=0

其中,ai为第i个时间单元内存储节点的总被访问次数(存储节点在第i个时间单元内的总被访问次数),其中k-1≥i≥1,k为时间单元的数量;k和i均为自然数。

时间单元的序号为1、2、3、4、5、……、k-1、k,其中第1个时间单元与当前时间在时间上距离最远,第k个时间单元与当前时间在时间上距离最近。

统计时间段包括k个连续的时间单元,k个连续的时间单元中,距离当前时间越近的时间单元的序号越大,即,第1个时间单元与当前时间在时间上距离最远,第k个时间单元与当前时间在时间上距离最近。

a1、a2、a3、a4、a5、……、ak-1、ak为时间上连续的k个时间单元中每个时间单元内存储节点的总被访问次数,其中a1为距离当前时间最远的时间单元内存储节点的总被访问次数;ak为距离当前时间最远的时间单元内存储节点的总被访问次数。

p为所有的相邻两个时间单元内的存储节点的总被访问次数之差的平均值,

nj为第i个时间单元内被访问的数据项的数量,nj为第i个时间单元内数据项的总数量;

其中

或者,

确定多个存储节点中每个存储节点的访问热度值h,将访问热度值h最大的存储节点确定为进入访问热点状态的目标存储节点。其中k大于10、20、30、50、100、120、150或200。

获取多个存储节点中每个存储节点(的所有数据项)在统计时间段内的总被访问次数,将多个(所有)存储节点中在统计时间段内的总被访问次数最多的存储节点确定为进入访问热点状态的目标存储节点。统计时间段为30分钟、60分钟、90分钟、120分钟、200分钟、500分钟、900分钟或1200分钟等。次数阈值为20次、50次、80次、100次、120次、150次、200次、300次、500次或1000次等。

在步骤102,基于目标存储节点的数据项集合中每个基础数据项的简档信息确定所述基础数据项集合的摘要信息,确定云存储系统的目录服务器中未被存储在目标存储节点内的所有数据项中每个数据项的简档信息与目标存储节点的数据项集合的摘要信息的关联度,将未被存储在目标存储节点内的所有数据项中关联度大于第一关联度阈值的数据项确定为推送数据项以获得多个推送数据项。

每个数据项均具有简档信息,简档信息用于记载数据项的标识符、数据项的主题信息、数据项的类别信息以及数据项的内容信息。数据项的标识符是用于唯一地标识数据项的字符串;数据项的主题信息是数据项的题目或标题;数据项的类别信息包括:视频、音频、文本或程序;数据项的内容信息用于描述数据项所涉及的数据内容。

所述基于目标存储节点的数据项集合中每个基础数据项的简档信息确定所述基础数据项集合的摘要信息包括:对目标存储节点的数据项集合中每个基础数据项的简档信息中数据项的类别信息进行统计,以确定每种类别的数据项的数量,将数据项的数量最多的类别确定为基础类别,将属于基础类别的多个基础数据项中每个基础数据项的主题信息构成主题信息集合,对所述主题信息集合中的主题信息进行去重,将经过去重的主题信息集合作为基础数据项集合的摘要信息。或者,所述基于目标存储节点的数据项集合中每个基础数据项的简档信息确定所述基础数据项集合的摘要信息包括:将目标存储节点的数据项集合中每个基础数据项的简档信息中的数据项的主题信息进行字符连接以生成所述基础数据项集合的摘要信息。

确定云存储系统的目录服务器中未被存储在目标存储节点内的所有数据项中每个数据项的简档信息与目标存储节点的数据项集合的摘要信息的关联度包括:

将云存储系统的目录服务器中未被存储在目标存储节点内的所有数据项中每个数据项的简档信息与目标存储节点的数据项集合的摘要信息进行语义匹配、关键词匹配或文本匹配以确定云存储系统的目录服务器中未被存储在目标存储节点内的所有数据项中每个数据项的简档信息与目标存储节点的数据项集合的摘要信息的关联度。第一关联度阈值为60%、70%、80%或90%,第二关联度阈值为30%、40%、50%或60%。

在步骤103,确定多个推送数据项中每个推送数据项所在的存储节点,并且将云存储系统内除目标存储节点之外的所有存储节点中具有至少一个推送数据项的存储节点确定为推送节点。当特定的推送数据项所在的存储节点为目标存储节点时,不对所述特定的推送数据项进行推送或处理。

在步骤104,每个推送节点确定自身所存储的推送数据项的数量,将(多个推送节点中)所存储的推送数据项的数量大于数量阈值的推送节点确定为第一优先等级的推送节点,并且将(多个推送节点中)所存储的推送数据项的数量小于或等于数量阈值的推送节点确定为第二优先等级的推送节点。数量阈值为10、20、50、80、100、150、200、300或500。

在步骤105,每个第一优先等级的推送节点将自身所存储的所有数据项中的每个热点数据项和每个推送数据项均标记为第一推送级别。

在步骤106,每个第一优先等级的推送节点将自身所存储的第一推送级别的每个热点数据项和每个推送数据项发送给目标存储节点,并且在将第一推送级别的每个热点数据项和每个推送数据项发送给目标存储节点的同时,每个第一优先等级的推送节点确定自身所存储的每个数据项的简档信息与所述数据项集合的摘要信息的关联度,并且每个第一优先等级的推送节点将自身所存储的与所述数据项集合的摘要信息的关联度小于或等于第一关联度阈值并且大于第二关联度阈值的至少一个数据项标记为第二推送级别;

在步骤107,在每个第一优先等级的推送节点将自身所存储的所有数据项中的每个热点数据项和每个推送数据项均标记为第一推送级别的同时,每个第二优先等级的推送节点将自身所存储的所有数据项中的每个热点数据项和每个推送数据项标记为第三推送级别;

在云存储系统内多个存储节点中每个存储节点所存储的多个数据项中选择或设置至少一个热点数据项。每个存储节点均具有至少一个热点数据项,并且每个存储节点所存储的多个数据项中的至少一个热点数据项是每个存储节点所存储的多个数据项中总被访问次数最多的5个、10个、15个、20个、50个或100个数据项。其中数据项的总被访问次数是指数据项在被存储到存储节点时开始,到当前时间为止的时间区间内的被访问次数的总数。其中当特定数据项既是推送节点的热点数据项,又是推送节点的推送数据项时,将所述特定数据项作为推送数据项。

在步骤108,每个第一优先等级的推送节点将自身所存储的标记为第二推送级别的至少一个数据项发送给目标存储节点,并且同时每个第二优先等级的推送节点将自身所存储的标记为第三推送级别的每个推送数据项发送给目标存储节点。

还包括确定所述目标存储节点的当前的运行状态,当所述目标存储节点的当前的运行状态仍处于访问热点状态并且连续处于访问热点状态的时间达到时间阈值时,每个第二优先等级的推送节点将自身所存储的标记为第三推送级别的每个热点数据项发送给目标存储节点。

其中时间阈值为10分钟、20分钟、30分钟、60分钟、100分钟、150分钟或200分钟。ai为第i个时间单元内目标存储节点的总被访问次数(目标存储节点在第i个时间单元内的总被访问次数),其中k-1≥y≥i≥1,k为时间单元的数量;k和i均为自然数。在确定目标存储节点进入访问热点状态之后,在确定ay<ay-1时,确定所述目标存储节点退出访问热点状态。

所述每个第一优先等级的推送节点确定自身所存储的每个数据项的简档信息与所述数据项集合的摘要信息的关联度包括:每个第一优先等级的推送节点将自身所存储的每个数据项的简档信息与所述数据项集合的摘要信息进行语义匹配、关键词匹配或文本匹配以确定每个第一优先等级的推送节点自身所存储的每个数据项的简档信息与所述数据项集合的摘要信息的关联度。

图2为根据本发明的云存储系统200的结构示意图。云存储系统200内包括多个存储节点,例如存储节点201-1、存储节点201-2、......、存储节点201-n。由云存储系统内的监测服务器202对云存储系统内多个存储节点中每个存储节点的运行状态进行实时监测以获得每个存储节点的实时更新的运行状态信息。监测服务器实时地获取并统计与多个存储节点中每个存储节点的运行状态相关的信息。

图3为根据本发明的在云存储系统中进行数据推送的系统300的结构示意图。系统300包括:监测设备301、数据项确定设备302、节点确定设备303以及处理设备304。监测设备301,对云存储系统内多个存储节点中每个存储节点的运行状态进行实时监测以获得每个存储节点的实时更新的运行状态信息,当基于运行状态信息确定多个存储节点中的目标存储节点进入访问热点状态时,将目标存储节点中存储的并且在统计时间段内的被访问次数大于次数阈值的数据项确定为目标存储节点的基础数据项,并将目标存储节点的多个基础数据项构成基础数据项集合。

还包括确定所述目标存储节点的当前的运行状态,当所述目标存储节点的当前的运行状态仍处于访问热点状态并且连续处于访问热点状态的时间达到时间阈值时,每个第二优先等级的推送节点将自身所存储的标记为第三推送级别的每个热点数据项发送给目标存储节点。由云存储系统内的监测服务器对云存储系统内多个存储节点中每个存储节点的运行状态进行实时监测以获得每个存储节点的实时更新的运行状态信息。所述实时监测是监测服务器实时地获取并统计与多个存储节点中每个存储节点的运行状态相关的信息。

还包括创建在时间上连续的多个时间单元,每个时间单元的时间长度相同。其中每个时间单元的时间长度为1分钟、2分钟、5分钟、8分钟、10分钟、15分钟或20分钟。由在时间上连续的多个时间单元来构成所述统计时间段。

为(存储节点的)每个时间单元分配一条运行记录以获取多条运行记录,其中每条运行记录包括:存储节点的总被访问次数、被访问的数据项的数量和数据项的总数量,每当时间经过了一个时间单元的时间长度时,为所经过的一个时间单元生成运行记录;将存储节点在所述统计时间段内每个时间单元的运行记录构成存储节点的实时更新的运行状态信息;其中存储节点的总被访问次数是指存储节点(的所有数据项)在单个(当前)时间单元内的总被访问次数,即存储节点内的所有数据项在时间单元内的总被访问次数;被访问的数据项的数量是指存储节点内所有数据项中在(单个或当前)时间单元内被访问过的数据项的数量;被访问的数据项的数量是在(单个或当前)时间单元内指针对于存储节点的所有数据项中的访问所涉及的数据项的数量;其中用户设备、移动终端或外部设备能够访问存储节点中的数据项。

数据项的总数量是指存储节点在(单个或当前)时间单元内所涉及的所有数据项的总数量;由于存储节点中的数据项存在被删除或被移动到其它存储节点的情况,以及新的数据项被存储到存储节点中的情况,因此每个时间单元内,存储节点中的数据项的总数量可以是相同的或不同的;将在(单个或当前)时间单元内在被删除或被移动到其它存储节点的数据项,和在时间单元内被存储到存储节点中的数据项均统计到数据项的总数量中;即确定数据项的总数量时,数据项包括(单个或当前)时间单元结束时存储节点中的数据项的数量,以及(单个或当前)时间单元内在被删除或被移动到其它存储节点的数据项的数量。

即数据项的总数量包括在(单个或当前)时间单元内,存储节点中存储过的所有数据项的总数量。不但包括,(单个或当前)时间单元内在被删除或被移动到其它存储节点的数据项的数量,并且还包括在时间单元内被存储到存储节点中的数据项的数量。

针对于多个存储节点中的每个存储节点,基于每个时间单元内的存储节点的总被访问次数、被访问的数据项的数量和数据项的总数量计算存储节点的访问热度值h:

当满足ak>ak-1>ak-2>ak-3>......>ak-m时,计算

当不满足ak>ak-1>ak-2>ak-3>......>ak-m时,

h=0

其中,ai为第i个时间单元内存储节点的总被访问次数(存储节点在第i个时间单元内的总被访问次数),其中k-1≥i≥1,k为时间单元的数量;k和i均为自然数。时间单元的序号为1、2、3、4、5、……、k-1、k,其中第1个时间单元与当前时间在时间上距离最远,第k个时间单元与当前时间在时间上距离最近。统计时间段包括k个连续的时间单元,k个连续的时间单元中,距离当前时间越近的时间单元的序号越大,即,第1个时间单元与当前时间在时间上距离最远,第k个时间单元与当前时间在时间上距离最近。a1、a2、a3、a4、a5、……、ak-1、ak为时间上连续的k个时间单元中每个时间单元内存储节点的总被访问次数,其中a1为距离当前时间最远的时间单元内存储节点的总被访问次数;ak为距离当前时间最远的时间单元内存储节点的总被访问次数。

p为所有的相邻两个时间单元内的存储节点的总被访问次数之差的平均值。nj为第i个时间单元内被访问的数据项的数量,nj为第i个时间单元内数据项的总数量。

其中

或者,

确定多个存储节点中每个存储节点的访问热度值h,将访问热度值h最大的存储节点确定为进入访问热点状态的目标存储节点。其中k大于10、20、30、50、100、120、150或200。

获取多个存储节点中每个存储节点(的所有数据项)在统计时间段内的总被访问次数,将在统计时间段内的总被访问次数最多的存储节点确定为进入访问热点状态的目标存储节点。所述统计时间段为30分钟、60分钟、90分钟、120分钟、200分钟、500分钟、900分钟或1200分钟。次数阈值为20次、50次、80次、100次、120次、150次、200次、300次、500次或1000次。

数据项确定设备302,基于目标存储节点的数据项集合中每个基础数据项的简档信息确定所述基础数据项集合的摘要信息,确定云存储系统的目录服务器中未被存储在目标存储节点内的所有数据项中每个数据项的简档信息与目标存储节点的数据项集合的摘要信息的关联度,将未被存储在目标存储节点内的所有数据项中关联度大于第一关联度阈值的数据项确定为推送数据项以获得多个推送数据项。

每个数据项均具有简档信息,简档信息用于记载数据项的标识符、数据项的主题信息、数据项的类别信息以及数据项的内容信息。数据项的标识符是用于唯一地标识数据项的字符串;数据项的主题信息是数据项的题目或标题;数据项的类别信息包括:视频、音频、文本或程序;数据项的内容信息用于描述数据项所涉及的数据内容。

所述基于目标存储节点的数据项集合中每个基础数据项的简档信息确定所述基础数据项集合的摘要信息包括:对目标存储节点的数据项集合中每个基础数据项的简档信息中数据项的类别信息进行统计,以确定每种类别的数据项的数量,将数据项的数量最多的类别确定为基础类别,将属于基础类别的多个基础数据项中每个基础数据项的主题信息构成主题信息集合,对所述主题信息集合中的主题信息进行去重,将经过去重的主题信息集合作为基础数据项集合的摘要信息;或者,

所述基于目标存储节点的数据项集合中每个基础数据项的简档信息确定所述基础数据项集合的摘要信息包括:将目标存储节点的数据项集合中每个基础数据项的简档信息中的数据项的主题信息进行字符连接以生成所述基础数据项集合的摘要信息。

节点确定设备303,确定多个推送数据项中每个推送数据项所在的存储节点,并且将云存储系统内除目标存储节点之外的所有存储节点中具有至少一个推送数据项的存储节点确定为推送节点。

确定云存储系统的目录服务器中未被存储在目标存储节点内的所有数据项中每个数据项的简档信息与目标存储节点的数据项集合的摘要信息的关联度包括:将云存储系统的目录服务器中未被存储在目标存储节点内的所有数据项中每个数据项的简档信息与目标存储节点的数据项集合的摘要信息进行语义匹配、关键词匹配或文本匹配以确定云存储系统的目录服务器中未被存储在目标存储节点内的所有数据项中每个数据项的简档信息与目标存储节点的数据项集合的摘要信息的关联度。第一关联度阈值为60%、70%、80%或90%,第二关联度阈值为30%、40%、50%或60%。

处理设备304,促使每个推送节点确定自身所存储的推送数据项的数量,将(多个推送节点中)所存储的推送数据项的数量大于数量阈值的推送节点确定为第一优先等级的推送节点,并且将(多个推送节点中)所存储的推送数据项的数量小于或等于数量阈值的推送节点确定为第二优先等级的推送节点;促使每个第一优先等级的推送节点将自身所存储的所有数据项中的每个热点数据项和每个推送数据项均标记为第一推送级别;每个第一优先等级的推送节点将自身所存储的第一推送级别的每个热点数据项和每个推送数据项发送给目标存储节点,并且在将第一推送级别的每个热点数据项和每个推送数据项发送给目标存储节点的同时,每个第一优先等级的推送节点确定自身所存储的每个数据项的简档信息与所述数据项集合的摘要信息的关联度,并且每个第一优先等级的推送节点将自身所存储的与所述数据项集合的摘要信息的关联度小于或等于第一关联度阈值并且大于第二关联度阈值的至少一个数据项标记为第二推送级别;促使在每个第一优先等级的推送节点将自身所存储的所有数据项中的每个热点数据项和每个推送数据项均标记为第一推送级别的同时,每个第二优先等级的推送节点将自身所存储的所有数据项中的每个热点数据项和每个推送数据项标记为第三推送级别;促使每个第一优先等级的推送节点将自身所存储的标记为第二推送级别的至少一个数据项发送给目标存储节点,并且同时每个第二优先等级的推送节点将自身所存储的标记为第三推送级别的每个推送数据项发送给目标存储节点。

当特定的推送数据项所在的存储节点为目标存储节点时,不对所述特定的推送数据项进行推送或处理。数量阈值为10、20、50、80、100、150、200、300或500。还包括,在云存储系统内多个存储节点中每个存储节点所存储的多个数据项中选择或设置至少一个热点数据项,

每个存储节点均具有至少一个热点数据项,并且每个存储节点所存储的多个数据项中的至少一个热点数据项是每个存储节点所存储的多个数据项中总被访问次数最多的5个、10个、15个、20个、50个或100个数据项;其中数据项的总被访问次数是指数据项在被存储到存储节点时开始,到当前时间为止的时间区间内的被访问次数的总数;其中当特定数据项既是推送节点的热点数据项,又是推送节点的推送数据项时,将所述特定数据项作为推送数据项。其中时间阈值为10分钟、20分钟、30分钟、60分钟、100分钟、150分钟或200分钟。

ai为第i个时间单元内目标存储节点的总被访问次数(目标存储节点在第i个时间单元内的总被访问次数),其中k-1≥y≥i≥1,k为时间单元的数量;k和i均为自然数;

在确定目标存储节点进入访问热点状态之后,

在确定ay<ay-1时,确定所述目标存储节点退出访问热点状态。

所述每个第一优先等级的推送节点确定自身所存储的每个数据项的简档信息与所述数据项集合的摘要信息的关联度包括:

每个第一优先等级的推送节点将自身所存储的每个数据项的简档信息与所述数据项集合的摘要信息进行语义匹配、关键词匹配或文本匹配以确定每个第一优先等级的推送节点自身所存储的每个数据项的简档信息与所述数据项集合的摘要信息的关联度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1