Ugc指纹签名确定方法、装置及ugc去重方法、装置的制造方法
【技术领域】
[0001]本申请涉及网页处理技术领域,更具体地说,涉及一种UGC(User GeneratedContent,用户原创内容)指纹签名确定方法、装置及UGC去重方法、装置。
【背景技术】
[0002]随着计算机科学技术与网络技术的飞速发展,网络已经成为人们获取重要信息的重要途径。许多平台都提供了网上购物功能,产品供应商可以制作产品对应的UGC,将该UGC提交给平台,由平台将UGC制作成网页,并放在购物平台上进行推广。
[0003]产品供应商为了更好的宣传自己的产品,有可能会提交重复或稍作改动的UGC到购物平台,而这些重复的UGC占用了平台大量的有效资源,同时也给用户带来额外困扰。如何确定UGC身份,进而能够利用UGC身份实现UGC去重成为亟待解决的问题。
【发明内容】
[0004]有鉴于此,本申请提供了一种UGC指纹签名确定方法、装置及UGC去重方法、装置,以确定UGC的身份,并基于此实现UGC去重。
[0005]为了实现上述目的,现提出的方案如下:
[0006]一种UGC指纹签名确定方法,包括:
[0007]获取用户原创内容UGC;
[0008]过滤所述UGC中的排版信息,得到文字信息;
[0009]对所述文字信息进行分词以及词频统计,得到若干词以及各词的词频数;
[0010]计算各个词的hash值;
[0011 ]利用各词的词频数对相应词的hash值进行加权,得到加权后hash值;
[0012]将各词的加权后hash值进行累加,得到序列串信息;
[0013]将所述序列串信息转换为二进制格式,得到所述UGC的指纹签名。
[0014]优选地,所述过滤所述UGC中的排版信息,包括:
[0015]过滤所述UGC中的html标签类符号、标点符号和特殊字符。
[0016]优选地,所述计算各个词的hash值,包括:
[0017]利用md5算法对各词进行计算,得到16进制的32位数字信息;
[0018]将所述16进制的32位数字信息转换为2进制的128位数字信息,作为词的hash值。
[0019]优选地,所述利用各词的词频数对相应词的hash值进行加权,包括:
[0020]确定词的hash值中各序位数字为O还是I;
[0021 ]对于序位数字为I的序位,将该序位数字替换为词频数,词频数与词对应;
[0022]对于序位数字为O的序位,将该序位数字替换为负的词频数,词频数与词对应。[0023 ]优选地,所述将各词的加权后hash值进行累加,包括:
[0024]将各词的加权后hash值中,相同序位的数字进行相加,得到128位的序列串信息。
[0025]优选地,所述将所述序列串信息转换为二进制格式,包括:
[0026]判断128位的序列串信息中各序位的数字是否大于O;
[0027]对于大于O的序位,将该序位数字替换为I;
[0028]对于不大于O的序位,将该序位数字替换为O。
[0029]一种UGC去重方法,包括:
[0030]获取待处理的用户原创内容UGC,按照上述所述的UGC指纹签名确定方法确定所述UGC的指纹签名;
[0031]调取预置的UGC指纹签名库,所述UGC指纹签名库中存储有若干UGC的指纹签名,且存储的各指纹签名均是按照上述所述的UGC指纹签名确定方法所得到的;
[0032]对比所述UGC的指纹签名与所述UGC指纹签名库中各指纹签名的相似度;
[0033]若UGC指纹签名库中存在相似度满足相似度设定条件的指纹签名,则拒绝处理所述 UGC 0
[0034]优选地,所述对比所述UGC的指纹签名与所述UGC指纹签名库中各指纹签名的相似度,包括:
[0035]采用汉明距离计算方法,计算所述UGC的指纹签名与所述UGC指纹签名库中各指纹签名的距离;
[0036]若UGC指纹签名库中某个指纹签名与所述UGC的指纹签名的距离超过设定距离阈值,则确定二者相似度满足相似度设定条件。
[0037]一种UGC指纹签名确定装置,包括:
[0038]UGC获取单元,用于获取UGC;
[0039]排版信息过滤单元,用于过滤所述UGC中的排版信息,得到文字信息;
[0040]分词及词频统计单元,用于对所述文字信息进行分词以及词频统计,得到若干词以及各词的词频数;
[0041 ] hash计算单元,用于计算各个词的hash值;
[0042]加权处理单元,用于利用各词的词频数对相应词的hash值进行加权,得到加权后hash 值;
[0043]累加单元,用于将各词的加权后hash值进行累加,得到序列串信息;
[0044]二进制转换单元,用于将所述序列串信息转换为二进制格式,得到UGC的指纹签名。
[0045]一种UGC去重装置,包括:
[0046]待处理UGC获取单元,用于获取待处理UGC,并按照上述所述的UGC指纹签名确定方法确定所述UGC的指纹签名;
[0047]UGC指纹签名库调取单元,用于调取预置的UGC指纹签名库,所述UGC指纹签名库中存储有若干UGC的指纹签名,且存储的各指纹签名均是按照上述权利要求1所述的UGC指纹签名确定方法所得到的;
[0048]相似度对比单元,用于对比所述UGC的指纹签名与所述UGC指纹签名库中各指纹签名的相似度;
[0049]UGC处理单元,用于在确定UGC指纹签名库中存在相似度满足相似度设定条件的指纹签名时,拒绝处理所述UGC。
[0050]从上述的技术方案可以看出,本申请实施例提供的UGC指纹签名确定方法,获取UGC;过滤所述UGC中的排版信息,得到文字信息;对所述文字信息进行分词以及词频统计,得到若干词以及各词的词频数;计算各个词的hash值;利用各词的词频数对相应词的hash值进行加权,得到加权后hash值;将各词的加权后hash值进行累加,得到序列串信息;将所述序列串信息转换为二进制格式,得到UGC的指纹签名。本申请参考了UGC中各分词及分词词频数确定最终的指纹签名,其指纹签名能够很好的标识UGC的身份。
【附图说明】
[0051]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0052]图1为本申请实施例公开的一种UGC指纹签名确定方法流程图;
[0053]图2为本申请实施例公开的另一种UGC指纹签名确定方法流程图;
[0054]图3为本申请实施例公开的又一种UGC指纹签名确定方法流程图;
[0055]图4为本申请实施例公开的一种UGC去重方法流程图;
[0056]图5为本申请实施例公开的一种UGC指纹签名确定装置结构示意图;
[0057]图6为本申请实施例公开的一种UGC去重装置结构示意图。
【具体实施方式】
[0058]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0059]参见图1,图1为本申请实施例公开的一种UGC指纹签名确定方法流程图。
[0060]如图1所示,该方法包括:
[0061 ]步骤 S100、获取 UGC;
[0062]步骤S110、过滤所述UGC中的排版信息,得到文字信息;
[0063]其中,排版信息可以包括UGC中的html标签类符号、标点符号和特殊字符等信息。过滤掉UGC中的这些排版信息之后,只剩下文字信息。
[0064]步骤S120、对所述文字信息进行分词以及词频统计,得到若干词以及各词的词频数;
[0065]具体地,可以采用现有的分词工具对文字信息进行分词。分词后统计各词的词频数。
[ΟΟ??] 步骤S130、计算各个词的hash值;
[0067 ]步骤SI 40、利用各词的词频数对相应词的hash值进行加权,得到加权后hash值;
[0068]具体地,对于每个词的hash值,利用该词的词频数对hash值进行加权,得到加权后hash 值。
[0069]步骤S150、将各词的加权后hash值进行累加,得到序列串信息;
[0070]具体地,每个词都对应一个加权后hash值。在进行hash值累加时,对多个hash值中相同序位的数值进行累加,累加后得到序列串信息。
[0071]步骤S160、将所述序列串信息转换为二进制格式,得到UGC的指纹签名。
[0072]具体地,上述序列串信息并不是标准的二进制格式,本步骤中将序列串信息转换为二进制格式,得到UGC的指纹签名。
[0073]本申请实施例提供的UGC指纹签名确定方法,获取UGC;过滤所述UGC中的排版信息,得到文字信息;对所述文字信息进行分词以及词频统计,得