本发明涉及文本处理技术,特别涉及一种为文本添加超级链接的方法和装置。
背景技术:超级链接,是指互联网中指向某个特定目标的连接,点击超级链接后,将自动跳转到指定目标。通过在文本中添加超级链接,可将不同的文本联系在一起。如图1所示,图1为现有添加了超级链接的文本示意图。其中的“太和殿”、“中和殿”、“保和殿”等词即添加了超级链接。在实际应用中,通常将添加了超级链接的词称为超链词,用带下划线的蓝色字体表示。现有技术中,通常采用以下方式来为文本添加超级链接:1)针对待添加超级链接的文本,人工确定对其中的哪些词添加超级链接;2)预先生成一个超链词列表,针对待添加超级链接的文本,通过与超链词列表进行匹配,为在超链词列表中出现的词添加超级链接。但是,上述两种方式在实际应用中均会存在一定的问题:对于方式1),由于需要人工进行操作,因此实现起来很不方便,尤其是当需要对大规模文本添加超级链接时;对于方式2),虽然实现起来比较方便,但只是简单地为匹配上的词添加超级链接,可能导致所添加的超级链接与文本的相关性较低。
技术实现要素:有鉴于此,本发明提供了一种为文本添加超级链接的方法以及一种为文本添加超级链接的装置,能够提高所添加的超级链接与文本的相关性,且实现起来简单方便。为达到上述目的,本发明的技术方案是这样实现的:一种为文本添加超级链接的方法,包括:预先生成一个超链词列表,并收集各种文本,通过对各文本进行切词处理,生成一个特征词列表,针对每个特征词,分别确定其与每个超链词的共现频率;针对每个待添加超级链接的文本X,分别进行如下处理:对文本X进行切词处理;从切词结果中提取出在超链词列表中出现的超链词以及在特征词列表中出现的特征词,并确定每个提取出的超链词和每个提取出的特征词的权值;根据每个提取出的特征词与每个提取出的超链词的共现频率以及每个确定出的权值,分别得到每个提取出的超链词的最终权值;按照最终权值由大到小的顺序对提取出的各超链词进行排序,为排序后处于前K位的超链词添加超级链接,K为正整数。一种为文本添加超级链接的装置,包括:预处理模块,用于预先生成一个超链词列表,并收集各种文本,通过对各文本进行切词处理,生成一个特征词列表,针对每个特征词,分别确定其与每个超链词的共现频率;添加模块,用于针对每个待添加超级链接的文本X,分别进行如下处理:对文本X进行切词处理;从切词结果中提取出在超链词列表中出现的超链词以及在特征词列表中出现的特征词,并确定每个提取出的超链词和每个提取出的特征词的权值;根据每个提取出的特征词与每个提取出的超链词的共现频率以及每个确定出的权值,分别得到每个提取出的超链词的最终权值;按照最终权值由大到小的顺序对提取出的各超链词进行排序,为排序后处于前K位的超链词添加超级链接,K为正整数。可见,采用本发明所述方案,通过统计收集到的文本中的词与词之间的共现关系,得到词与词之间的相关性,进而根据从待添加超级链接的文本中提取出的各超链词与提取出的各特征词的共性频率等得到提取出的各超链词的最终权重,并为最终权值较大的超链词添加超级链接,从而提高了所添加的超级链接与文本的相关性;而且,采用本发明所述方案后,可自动确定出为哪些词添加超级链接,无需人工操作,实现起来简单方便。附图说明图1为现有添加了超级链接的文本示意图。图2为本发明为文本添加超级链接的方法实施例的流程图。图3为本发明为文本添加超级链接的装置实施例的组成结构示意图。具体实施方式针对现有技术中存在的问题,本发明中提出一种为文本添加超级链接的方案,能够提高所添加的超级链接与文本的相关性,且实现起来简单方便。为使本发明的技术方案更加清楚、明白,以下参照附图并举实施例,对本发明所述方案作进一步地详细说明。图2为本发明为文本添加超级链接的方法实施例的流程图。如图2所示,包括:步骤21:预先生成一个超链词列表,并收集各种文本,通过对各文本进行切词处理,生成一个特征词列表,针对每个特征词,分别确定其与每个超链词的共现频率。本步骤中,首先生成一个超链词列表,其中具体包括哪些超链词可根据实际需要而定,该列表可由人工编辑生成,也可由机器通过某种方式自动生成,如何生成不作限制。之后,可从互联网中收集各种文本,用来生成特征词列表以及统计词与词之间的共现关系。如何收集文本为现有技术,理论上来说,收集的文本数越多越好,具体数目可根据实际需要而定。上述生成特征词列表以及统计词与词之间的共现关系的具体过程可包括:1)针对收集到的每个文本,分别对其进行切词处理;2)将切词得到的所有不重复词均作为特征词,组成一个特征词列表,或者,为减少后续的处理工作量,也可先从切词得到的所有不重复词中去除高频词、停用词和低频词等,将剩余词作为特征词,组成一个特征词列表;如何进行切词以及如何区分哪些词为高频词、停用词和低频词均为现有技术;另外,在得到特征词列表之后,还需要针对每个特征词,分别确定其逆文本频率(IDF,InverseDocumentFrequency)值,IDF值通过用收集到的所有文本的个数除以出现了该特征词的文本个数,再将得到的商取对数得到;3)针对每个特征词,分别确定其与每个超链词的共现频率:针对每个特征词y和每个超链词x,分别计算两者的共现频率P(x|y):P(x|y)=xy共现次数/y出现次数:(1)其中,xy共现次数表示在收集到的所有文本中,同时出现了特征词y和超链词x的文本的个数,y出现次数表示在收集到的所有文本中,出现了特征词y的文本的个数;或者,针对每个特征词y和每个超链词x,分别计算两者的共现频率P(x|y):P(x/y)=H(x,y)/I(x,y)=H(x,y)/(H(x)+H(y)-H(x,y));(2)其中,H表示信息熵,I表示互信息,H和I的具体计算方式均为本领域公知;在实际应用中,可根据实际需要选择使用以上两种方式中的一种。步骤22:针对每个待添加超级链接的文本X,分别按照步骤23~26所示过程进行处理。为便于表述,用文本X来代表任意一个需要添加超级链接的文本。步骤23:对文本X进行切词处理。步骤24:从切词结果中提取出在超链词列表中出现的超链词以及在特征词列表中出现的特征词,并确定每个提取出的超链词和每个提取出的特征词的权值。将切词结果与步骤21中生成的超链词列表以及特征词列表进行匹配,从切词结果中提取出在超链词列表中出现的超链词以及在特征词列表中出现的特征词。并且,针对每个提取出的超链词H,分别计算其权值WH:WH=TFH*IDFH;(3)其中,TFH表示超链词H的词频(TF,TermFrequency)值,即超链词H在文本X中的出现次数,IDFH表示超链词H的IDF值;针对每个提取出的特征词F,分别计算其权值WF:WF=TFF*IDFF;(4)其中,TFF表示特征词F的TF值,IDFF表示特征词F的IDF值。各IDF值已在步骤21中计算得到。步骤25:根据每个提取出的特征词与每个提取出的超链词的共现频率以及每个确定出的权值,分别得到每个提取出的超链词的最终权值。本步骤中,针对每个提取出的超链词H,分别计算其最终权值WH’:其中,n表示提取出的特征词的个数。P(H/Fi)值已在步骤21中计算得到。步骤26:按照最终权值由大到小的顺序对提取出的各超链词进行排序,为排序后处于前K位的超链词添加超级链接,K为正整数。K的具体取值可根据实际需要而定。另外,如何为超链词添加超级链接为现有技术。至此,即完成了关于本发明方法实施例的介绍。基于上述介绍,图3为本发明为文本添加超级链接的装置实施例的组成结构示意图。如图3所示,包括:预处理模块,用于预先生成一个超链词列表,并收集各种文本,通过对各文本进行切词处理,生成一个特征词列表,针对每个特征词,分别确定其与每个超链词的共现频率;添加模块,用于针对每个待添加超级链接的文本X,分别进行如下处理:对文本X进行切词处理;从切词结果中提取出在超链词列表中出现的超链词以及在特征词列表中出现的特征词,并确定每个提取出的超链词和每个提取出的特征词的权值;根据每个提取出的特征词与每个提取出的超链词的共现频率以及每个确定出的权值,分别得到每个提取出的超链词的最终权值;按照最终权值由大到小的顺序对提取出的各超链词进行排序,为排序后处于前K位的超链词添加超级链接,K为正整数。其中,预处理模块中可具体包括:第一处理单元,用于生成一个超链词列表;第二处理单元,用于收集各种文本,通过对各文本进行切词处理,生成一个特征词列表,针对每个特征词,分别确定其与每个超链词的共现频率。第二处理单元中又可具体包括(为简化附图,未图示):第一处理子单元,用于收集各种文本;第二处理子单元,用于对各文本进行切词处理,将切词得到的所有不重复词均作为特征词,组成一个特征词列表,或者,从切词得到的所有不重复词中去除高频词、停用词和低频词,将剩余词作为特征词,组成一个特征词列表;并且,针对每个特征词y和每个超链词x,分别计算两者的共现频率P(x|y):P(x|y)=xy共现次数/y出现次数;(1)其中,xy共现次数表示在收集到的所有文本中,同时出现了特征词y和超链词x的文本的个数,y出现次数表示在收集到的所有文本中,出现了特征词y的文本的个数;或者,针对每个特征词y和每个超链词x,分别计算两者的共现频率P(x|y):P(x/y)=H(x,y)/I(x,y);(2)其中,H表示信息熵,I表示互信息。添加模块中可具体包括:第三处理单元,用于对文本X进行切词处理;第四处理单元,用于从切词结果中提取出在超链词列表中出现的超链词以及在特征词列表中出现的特征词,并确定每个提取出的超链词和每个提取出的特征词的权值;根据每个提取出的特征词与每个提取出的超链词的共现频率以及每个确定出的权值,分别得到每个提取出的超链词的最终权值;第五处理单元,用于按照最终权值由大到小的顺序对提取出的各超链词进行排序,为排序后处于前K位的超链词添加超级链接,K为正整数。另外,第二处理子单元还可进一步用于,针对每个特征词,分别确定其IDF值,IDF值通过用收集到的所有文本的个数除以出现了该特征词的文本个数,再将得到的商取对数得到;第四处理单元中又可进一步包括(为简化附图,未图示):第三处理子单元,用于从切词结果中提取出在超链词列表中出现的超链词以及在特征词列表中出现的特征词;并针对每个提取出的超链词H,分别计算其权值WH:WH=TFH*IDFH;(3)其中,TFH表示超链词H的TF值,即超链词H在文本X中的出现次数,IDFH表示超链词H的IDF值;针对每个提取出的特征词F,分别计算其权值WF:WF=TFF*IDFF;(4)其中,TFF表示特征词F的TF值,IDFF表示特征词F的IDF值;第四处理子单元,用于针对每个提取出的超链词H,分别计算其最终权值WH’:其中,n表示提取出的特征词的个数。图3所示装置实施例的具体工作流程请参照图2所示方法实施例中的相应说明,此处不再赘述。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。