一种面向流式数据的实时摘要生成方法与流程

文档序号:11134130阅读:来源:国知局

技术特征:

1.一种面向流式数据的实时摘要生成方法,包括:

1)更新流式输入的每个数据块左邻的计算上下文,如果数据块没有左邻,则将其作为初始化的计算上下文,将更新后的计算上下文保存到区间索引;

2)在区间索引中查找已输入数据的计算上下文,对相邻的计算上下文进行合并;

3)遍历区间索引,将其中的摘要值进行拼接并输出。

2.如权利要求1所述的面向流式数据的实时摘要生成方法,其特征在于,步骤1)中所述区间索引是指可以对数据区间进行查找的数据结构。

3.如权利要求1所述的面向流式数据的实时摘要生成方法,其特征在于,步骤1)中所述区间索引包括区间树,链表,数组,堆或红黑树。

4.如权利要求1所述的面向流式数据的实时摘要生成方法,其特征在于,步骤1)中更新流式输入的每个数据块左邻的计算上下文的步骤包括:

1-1)保留数据块的前w-1个字节到计算上下文的缓冲区中,其中w为弱哈希函数的滑动窗口值,所述数据块的起始位置记为s;

1-2)计算数据块每一个字节的弱哈希值和强哈希值;

1-3)当步骤1-2)计算得到的弱哈希值满足分片条件,则找到重置点,

i.如果是上下文中的第一个重置点,则s至重置点之间的部分称为左截断数据,计算它的强哈希值,记为部分强哈希值pshv;

ii.如果不是第一个,则新划分出一个分片,记为该分片的强哈希值;

iii.更新s为分片结束后的下一字节,回到步骤1-2);

1-4)当当次输入数据中所有数据块计算结束,将最后一个重置点到数据块结束位置之间的数据称为右截断数据,该部分的强哈希值称为强哈希状态,记为shs。

5.如权利要求4所述的面向流式数据的实时摘要生成方法,其特征在于,步骤1-2)中,使用矩阵乘法运算作为强哈希函数计算强哈希值。

6.如权利要求5所述的面向流式数据的实时摘要生成方法,其特征在于,所述流式数据为二进制流数据时,其强哈希值表示为以每位或特定位数为单位,映射成n阶矩阵,并将映射后的矩阵按照在数据流中出现的顺序相乘。

7.如权利要求4所述的面向流式数据的实时摘要生成方法,其特征在于,步骤2)中,对两个相邻的计算上下文进行合并的方法包括以下步骤:

a)对计算上下文p和其右邻n保存在缓冲区中的w-1个字节,执行更新操作;

b)计算p的强哈希状态值shs和n的部分强哈希值pshv的矩阵乘积;

c)如果p中不包含重置点,则用该矩阵乘积更新p的强哈希状态值shs,否则,用该乘积更新n的部分强哈希状态值pshv;

e)使用矩阵乘法拼接经步骤c)更新后的p和n的强哈希值。

8.如权利要求5-7任一所述的面向流式数据的实时摘要生成方法,其特征在于,所述矩阵乘法为伽罗华域的矩阵乘法。

9.如权利要求1所述的面向流式数据的实时摘要生成方法,其特征在于,步骤2)中如果计算上下文的数据区间的左右值连续则判断两个计算上下文相邻。

10.如权利要求1所述的面向流式数据的实时摘要生成方法,其特征在于,步骤3)中,将摘要值进行拼接的步骤包括:每个分片的强哈希值是一个n阶矩阵,矩阵中的每个元素是一个m bit数值,将这个矩阵的n*n个元素进行拼接,形成一个n*n*m bit的值,再通过截取或映射成为一个或多个字节的字符。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1