GC中各分词及分词词频数确定最终的指纹签名,其指纹签名能够很好的标识UGC的身份。
[0147]可选的,上述排版信息可以包括:html标签类符号、标点符号和特殊字符等。
[0148]可选的,上述Hash计算单元可以包括:
[ΟΙ49] 第一 Hash计算子单元,用于利用md5算法对各词进行计算,得到16进制的32位数字信息;
[0150]第二Hash计算子单元,用于将所述16进制的32位数字信息转换为2进制的128位数字信息,作为词的hash值。
[0151]可选的,上述加权处理单元可以包括:
[0152]第一加权处理子单元,用于确定词的hash值中各序位数字为O还是I;
[0153]第二加权处理子单元,用于对于序位数字为I的序位,将该序位数字替换为词频数,词频数与词对应;
[0154]第三加权处理子单元,用于对于序位数字为O的序位,将该序位数字替换为负的词频数,词频数与词对应。
[0155]可选的,上述累加单元可以包括:
[0156]第一累加子单元,用于将各词的加权后hash值中,相同序位的数字进行相加,得到128位的序列串信息。
[0157]可选的,上述二进制转换单元可以包括:
[0158]第一二进制转换子单元,用于判断128位的序列串信息中各序位的数字是否大于O;
[0159]第二二进制转换子单元,用于对于大于O的序位,将该序位数字替换为I;
[0160]第三二进制转换子单元,用于对于不大于O的序位,将该序位数字替换为O。
[0161]进一步,对本申请实施例提供的UGC去重装置进行描述,下文描述的UGC去重装置与上文描述的UGC去重方法可相互对应参照。
[0162]参见图6,图6为本申请实施例公开的一种UGC去重装置结构示意图。
[0163]如图6所示,该装置包括:
[0164]待处理UGC获取单元61,用于获取待处理UGC,并按照上述所述的UGC指纹签名确定方法确定所述UGC的指纹签名;
[0165]UGC指纹签名库调取单元62,用于调取预置的UGC指纹签名库,所述UGC指纹签名库中存储有若干UGC的指纹签名,且存储的各指纹签名均是按照上述所述的UGC指纹签名确定方法所得到的;
[0166]相似度对比单元63,用于对比所述UGC的指纹签名与所述UGC指纹签名库中各指纹签名的相似度;
[0167]UGC处理单元64,用于在确定UGC指纹签名库中存在相似度满足相似度设定条件的指纹签名时,拒绝处理所述UGC。
[0168]本申请实施例提供的UGC去重装置,通过对获取的待处理UGC进行指纹签名的对比,在确定与已有的指纹签名相似度满足条件时认定该待处理UGC已经上线,则拒绝处理该待处理UGC。
[0169]可选的,上述相似度对比单元具体可以采用汉明距离计算方法,计算所述UGC的指纹签名与所述UGC指纹签名库中各指纹签名的距离;若UGC指纹签名库中某个指纹签名与所述UGC的指纹签名的距离超过设定距离阈值,则确定二者相似度满足相似度设定条件。
[0170]最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0171]本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
[0172]对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
【主权项】
1.一种UGC指纹签名确定方法,其特征在于,包括: 获取用户原创内容UGC; 过滤所述UGC中的排版信息,得到文字信息; 对所述文字信息进行分词以及词频统计,得到若干词以及各词的词频数; 计算各个词的hash值; 利用各词的词频数对相应词的hash值进行加权,得到加权后hash值; 将各词的加权后hash值进行累加,得到序列串信息; 将所述序列串信息转换为二进制格式,得到所述UGC的指纹签名。2.根据权利要求1所述的方法,其特征在于,所述过滤所述UGC中的排版信息,包括: 过滤所述UGC中的html标签类符号、标点符号和特殊字符。3.根据权利要求1所述的方法,其特征在于,所述计算各个词的hash值,包括: 利用md5算法对各词进行计算,得到16进制的32位数字信息; 将所述16进制的32位数字信息转换为2进制的128位数字信息,作为词的hash值。4.根据权利要求3所述的方法,其特征在于,所述利用各词的词频数对相应词的hash值进行加权,包括: 确定词的hash值中各序位数字为O还是I ; 对于序位数字为I的序位,将该序位数字替换为词频数,词频数与词对应; 对于序位数字为O的序位,将该序位数字替换为负的词频数,词频数与词对应。5.根据权利要求4所述的方法,其特征在于,所述将各词的加权后hash值进行累加,包括: 将各词的加权后hash值中,相同序位的数字进行相加,得到128位的序列串信息。6.根据权利要求5所述的方法,其特征在于,所述将所述序列串信息转换为二进制格式,包括: 判断128位的序列串信息中各序位的数字是否大于O; 对于大于O的序位,将该序位数字替换为I; 对于不大于O的序位,将该序位数字替换为O。7.一种UGC去重方法,其特征在于,包括: 获取待处理的用户原创内容UGC,按照上述权利要求1所述的UGC指纹签名确定方法确定所述UGC的指纹签名; 调取预置的UGC指纹签名库,所述UGC指纹签名库中存储有若干UGC的指纹签名,且存储的各指纹签名均是按照上述权利要求1所述的UGC指纹签名确定方法所得到的; 对比所述UGC的指纹签名与所述UGC指纹签名库中各指纹签名的相似度; 若UGC指纹签名库中存在相似度满足相似度设定条件的指纹签名,则拒绝处理所述UGC08.根据权利要求7所述的方法,其特征在于,所述对比所述UGC的指纹签名与所述UGC指纹签名库中各指纹签名的相似度,包括: 采用汉明距离计算方法,计算所述UGC的指纹签名与所述UGC指纹签名库中各指纹签名的距离; 若UGC指纹签名库中某个指纹签名与所述UGC的指纹签名的距离超过设定距离阈值,则确定二者相似度满足相似度设定条件。9.一种UGC指纹签名确定装置,其特征在于,包括: UGC获取单元,用于获取UGC; 排版信息过滤单元,用于过滤所述UGC中的排版信息,得到文字信息; 分词及词频统计单元,用于对所述文字信息进行分词以及词频统计,得到若干词以及各词的词频数; hash计算单元,用于计算各个词的hash值; 加权处理单元,用于利用各词的词频数对相应词的hash值进行加权,得到加权后hash值; 累加单元,用于将各词的加权后hash值进行累加,得到序列串信息; 二进制转换单元,用于将所述序列串信息转换为二进制格式,得到UGC的指纹签名。10.一种UGC去重装置,其特征在于,包括: 待处理UGC获取单元,用于获取待处理UGC,并按照上述权利要求1所述的UGC指纹签名确定方法确定所述UGC的指纹签名; UGC指纹签名库调取单元,用于调取预置的UGC指纹签名库,所述UGC指纹签名库中存储有若干UGC的指纹签名,且存储的各指纹签名均是按照上述权利要求1所述的UGC指纹签名确定方法所得到的; 相似度对比单元,用于对比所述UGC的指纹签名与所述UGC指纹签名库中各指纹签名的相似度; UGC处理单元,用于在确定UGC指纹签名库中存在相似度满足相似度设定条件的指纹签名时,拒绝处理所述UGC。
【专利摘要】本申请公开了一种UGC指纹签名确定方法、装置及UGC去重方法、装置,UGC指纹签名确定方法包括:本申请实施例提供的UGC指纹签名确定方法,获取UGC;过滤所述UGC中的排版信息,得到文字信息;对所述文字信息进行分词以及词频统计,得到若干词以及各词的词频数;计算各个词的hash值;利用各词的词频数对相应词的hash值进行加权,得到加权后hash值;将各词的加权后hash值进行累加,得到序列串信息;将所述序列串信息转换为二进制格式,得到UGC的指纹签名。本申请参考了UGC中各分词及分词词频数确定最终的指纹签名,其指纹签名能够很好的标识UGC的身份。
【IPC分类】G06F17/30, H04L9/32, H04L29/06
【公开号】CN105681046
【申请号】CN201610111706
【发明人】王路, 李国强, 周坤朋, 乔景亮, 张丽辉, 朱雨莹, 张扬蕾, 骆超锋, 陈拓
【申请人】郑州悉知信息科技股份有限公司
【公开日】2016年6月15日
【申请日】2016年2月29日