文本的标识方法及装置的制造方法
【技术领域】
[0001]本发明涉及网络信息技术领域,特别是涉及文本的标识方法及文本的标识装置。
【背景技术】
[0002]随着网络技术的发展,人们借助网络传播平台可以获取到大量资讯。很多资讯以文本的形式提供给人们。
[0003]为了存储和标识海量文本,已开发出许多文本的标识手段。例如,人们熟知的通过TFIDF算法获取文本的特征向量,然后再通过最小哈希(hash)算法对向量信息进行压缩,获得文本的特征指纹,由此大可以大大节约文本的空间。
[0004]但是,如果两个文本相似,特征向量中需要取样足够多的元素,才能确保两个文本的特征指纹不同,但这样就会造成标识文本的空间较大。
【发明内容】
[0005]鉴于上述问题,提出了一种文本的标识方法和标识装置,能够通过多个特征指纹来标识文本。
[0006]根据本发明的一个方面,提供了一种文本的标识方法,包括:
[0007]选取待标识的第一文本;
[0008]根据多个标杆文本,分别确定第一文本的多个特征指纹;
[0009]根据所述多个特征指纹,标识所述第一文本。
[0010]可选地,通过以下方式获得特征指纹:
[0011]获取所述第一文本的第一特征向量;
[0012]根据所述标杆文本,确定所述第一文本的第一特征向量中各元素的权重;
[0013]根据所述权重,获得所述第一文本的特征指纹。
[0014]可选地,所述根据权重获得第一文本的特征指纹,包括:
[0015]根据所述权重,在所述第一特征向量的基础上,建立所述第一文本的第二特征向量;
[0016]根据所述第二特征向量,生成所述第一文本的特征指纹。
[0017]可选地,所述根据第二特征向量生成第一文本的特征指纹,包括:
[0018]根据所述第二特征向量,基于所述第一文本与所述标杆文本之间的距离,生成所述第一文本的特征指纹。
[0019]可选地,通过最小哈希运算,确定所述第一文本与所述标杆文本之间的距离。
[0020]可选地,所述第二特征向量中的各元素的数量满足各元素的权重之间的倍数关系O
[0021 ]可选地,所述获取第一文本的第一特征向量,包括:
[0022]根据字词序列中字词出现频率由高到低的顺序排列字词,并由前至后取出预设数量的字词作为所述第一文本的第一特征向量。
[0023]可选地,将所述第一文本进行分词处理,再进行去无用信息处理后形成排序前的字词序列。
[0024]可选地,所述特征向量从以下的一个或多个中提取:文本标题,文本摘要,文本正文。
[0025]根据本发明的另一个方面,提供了一种文本的标识装置,包括:
[0026]选取模块,用于选取待标识的第一文本;
[0027]确定模块,用于根据多个标杆文本,分别确定第一文本的多个特征指纹;
[0028]标识模块,用于根据所述多个特征指纹,标识所述第一文本。
[0029]可选地,所述确定模块通过以下方式获得特征指纹:
[0030]获取所述第一文本的第一特征向量;
[0031]根据所述标杆文本,确定所述第一文本的第一特征向量中各元素的权重;
[0032]根据所述权重,获得所述第一文本的特征指纹。
[0033]进一步,所述确定模块通过以下方式获得第一文本的特征指纹:
[0034]根据所述权重,在所述第一特征向量的基础上,建立所述第一文本的第二特征向量;
[0035]根据所述第二特征向量,生成所述第一文本的特征指纹。
[0036]可选地,所述确定模块通过以下方式生成第一文本的特征指纹:
[0037]根据所述第二特征向量,基于所述第一文本与所述标杆文本之间的距离,生成所述第一文本的特征指纹。
[0038]可选地,通过最小哈希运算,确定所述第一文本与所述标杆文本之间的距离。
[0039]可选地,所述第二特征向量中的各元素的数量满足各元素的权重之间的倍数关系O
[0040]可选地,所述获取模块用于根据字词序列中字词出现频率由高到低的顺序排列字词,并由前至后取出预设数量的字词作为所述第一文本的第一特征向量。
[0041]可选地,所述获取模块用于将所述第一文本进行分词处理,再进行去无用信息处理后形成排序前的字词序列。
[0042]综上所述,根据本发明实施例的文本的标识方法及标识装置通过依据多个标杆文本为待标识的文本生产多个特征指纹来标识,从而增加了该文本的可识别性,大大压缩了文本的空间大小。
[0043]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的【具体实施方式】。
【附图说明】
[0044]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0045]图1是根据本发明实施例的文本的标识方法的步骤流程图;
[0046]图2是根据本发明实施例的获得特征指纹的步骤流程图;
[0047]图3是根据本发明实施例的文本的标识装置的结构示意图;
【具体实施方式】
[0048]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0049]参照图1,示出了根据本发明一个实施方式的文本的标识方法的流程图。如图所示,该方法包括如下步骤:
[0050]11,选取待标识的第一文本。
[0051]在确定了待标识的第一文本之后,就可以获取其第一特征向量。
[0052]一般而言,对第一文本首先进行分词处理,获得多个字词。经过分词处理后的字词,还可能包括了无用信息。通常,根据这些字词在文本中出现的频率以由高到低的顺序进行排列,再将排在前面的预设数量的字词作为该第一文本的第一特征向量。
[0053]进一步地,可以将文本中出现的无用信息去除,比如“的”、“地”、“得”等。无用信息可以将之分为标点符号,与结构助词虚词等在汉语中无意义的词汇。这次字词在文本中出现的频率高,但却往往没有实际意义,因此生产特征向量时需要忽略这些字词。即,将所述第一文本进行分词处理,再进行去无用信息处理后形成排序前的字词序列。
[0054]可选的,可以将去无用信息处理后得到的字词作为新闻的特征向量。或者提取去无用信息处理后得到的字词中具有代表性的字词构成新闻的特征向量。
[0055]例如,对于一篇新闻报道网页,经过分词以及去无用信息处理后,获得一个字词序列S= (SI, S2, S3......,SN),其中S1、s2、s3等表示经过分词以及去无用信息处理后的字词。
[0056]字词序列S中可能会出现相同的字词,因此可对字词序列中的字词进行相关词频统计,再进一步按照字词出现次数由高到低的顺序进行排列,由前至后取出预设数量的字符作为该新闻文本的特征向量。
[0057]可以理解,特征向量中元素的来源可以从以下的一个或多个中提取:文本标题,文本摘要,文本正文。
[0058]12,根据多个标杆文本,分别确定第一文本的多个特征指纹。
[0059]将第一文本分别针对每个标杆文本获得一个特征指纹,共有几个标杆文件,就能获得几个特征指纹。
[0060]其中,第一文本根据标杆文件获得特征指纹的步骤如下:
[0061]S121,获取所述第一文本的第一特征向量;
[0062]S122,根据所述标杆文本,确定所述第一文本的第一特征向量中各元素的权重;
[0063]在本发明的实施例中,权重的可以采用以下方法确定:
[0064]字词频率TF表示某一字词Ti在某一文档Dj中出现的频率,Ti出现的频率越高,TFi越高,说明这个字词对于整个文档越重要,例如,对于一篇谈论小升初的文档Dj,文档里“小升初”出现的频率TFi比较高。
[0065]也就是说,根据特征向量中的每个字词的字词频率,确定特征向量中每一个元素的权重。
[0066]在本发明的又一实施例中,权重的可以采用以下方法确定:
[0067]文档频率DF表示包含了某一字词Ti的文档的个数,对于某一字词Ti,包含该字词Ti的文档越多,S卩DFi越大,Ti用于区分不同的文档的作用越小,属于非焦点词。
[0068]逆文档频率IDF,与文档频率DF呈反比关系。例如但不限于,对某一字词而言,可以设定IDFi = log(N/DFi),其中N为文档总数。若某一字词仅仅出现在一篇文献中,S卩DFi为1,则IDFi为1gN,此时该字词对于文档之间的区分作用最大。
[0069]也就是说,根据特征向量中的每个字词的逆文档频率,确定特征向量中每一个元素的权重。
[0070]在本发明的另一实施例中,权重的可以采用以下方法确定:
[0071]根据特征向量中的每个字词的字词频率以及逆文档频率,确定特征向量中每一个元素的权重值。例如但不限于,可以将IF与IDF的乘积作为参数,确定特征向量中每一个元素的权重。
[0072]在本发明的一【具体实施方式】中,权重的可以采用以下方法确定:
[0073]字词出现在标题,文本摘要,文本正文等不同的位置,其重要程度不同,对文本的代表作用也是不同的。因此,可以根据特征向量中每一个元素在文本中所处的位置确定元素的权重,所述位置可以包括但不限于文本标题,文本摘要,文本正文。
[0074]在本发明的实施例中,权重的可以采用以下方法确定:
[0075]根据字词在文本中的位置,以及字词频率和/或逆文档频率确定特征向量中每一个元素的权重。
[