一种基于层次的中文文本并行数据挖掘方法

文档序号:6365660阅读:278来源:国知局
专利名称:一种基于层次的中文文本并行数据挖掘方法
技术领域
本发明属于信息处理技术领域,具体涉及计算机数据挖掘与机器学习技术领域,可用于在搜索引擎搜索结果的改进,个性化内容推荐系统,问答系统中聚合相似提问以及新闻网站按类别聚合新闻等信息处理技术领域发挥作用。
背景技术
随着互联网的发展,网页上的文本信息增长快速,如何索引、检索、管理、挖掘网页上的海量文本信息已成为计算机科学领域所面临的一个巨大挑战。中文文本聚类技术也在 不断发展和成熟,分布式技术已经得到了越来越广泛的应用,而分布式聚类技术是分布式数据挖掘领域的一项重要研究内容。对大量信息的文字挖掘工作,首先就需要对文本信息进行分词,在英语中单词与单词之间有显式的分割符,因此分词容易,而在中文里,只有段与段之间、句子与句子间有明显分割,而单词之间不存在这种分界符,因此中文词汇的分割要复杂困难得多。中文文本数据挖掘面临的问题其一是海量的文本文档需要存储空间和挖掘耗时,其二就是文本的预处理问题。文本文档数据大部分情况是非结构数据类型,不能直接作为数据挖掘机的输入,需要对文本文档进行预处理使之变成数据挖掘机能理解的数据形式。因此中文文本需要其独特的预处理过程。正因为中文文本分词的困难,现有中文文本数据挖掘过程存在有以下问题①分词效果差,分词速度慢;②文本特征项向量模型稀疏,无效信息加重聚类计算量聚类过程不能很好解决孤立点与非球形类;④大量数据聚类慢没有聚类结果评价。

发明内容
本发明的目的针对目前中文文本数据挖掘过程中原始数据太多,挖掘效率过低,聚类过程只能处理圆形的族的不足,提出了一种基于层次的中文文本并行数据挖掘方法。本发明的技术方案是,一种基于层次的中文文本并行数据挖掘方法,包括如下步骤步骤I :中文文本向量空间模型的建立通过对整个中文文本集合进行分词得到每一个文本的分词形式以及包含文本集所有去重词条的特征词条集,然后利用特征词条集统计每个文本的词频逆向文档频率,并根据词频逆向文档频率(TFIDF)来建立文本向量空间模型;步骤2 :对文本向量空间模型的特征项向量进行降维处理;步骤3 :利用基于层次的D⑶RE算法对文本进行聚类。本发明的有益效果是针对中文文本分词效率高,分词准确率高;聚类过程不需要输入邻域半径等参数,可挖掘不规则聚类,对噪声不敏感;利用分布式计算,针对海量文本挖掘效率高,同时提高特征权重计算速度。


图I是本发明的文本分词与特征项向量建立过程示意图。图2为本发明的聚类算法流程图。
具体实施例方式下面结合附图和具体的实施方式对本发明作进一步的阐述。一种基于层次的中文文本并行数据挖掘方法,其特征是,它包括以下步骤步骤I :中文文本向量空间模型的建立通过对整个中文文本集合进行分词得到每一个文本的分词形式以及包含文本集所有去重词条的特征词条集,然后利用特征词条集 统计每个文本的词频逆向文档频率(term frequency inverse document frequery,简称TFIDF),并根据词频逆向文档频率(TFIDF)来建立文本向量空间模型。词频逆向文档频率(TFIDF)的定义它是指某个词条代表包含该词条文本信息量的一个指标。其计算公式为JFIDFij = TFijWDFiTFij指词汇频率,表示词语Ti在文本Dj中出现的频率,称为词频。\表示第i个特征词条在文本中出现的次数,dj表示第j个文本包含的特征词条总数。定义为TFv =J;IDFi指逆向文档频率,表示词语Ti在整个文档合集中出现的频率,定义为
NIDFi=Iog-
nt 在这个公式中,N表示文档集合中所有的文档数目,Iii表示整个文档合集中出现过词语Ti的文档的总数,称为特征的文档频率。本领域的技术人员发现字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在所有文本中出现的频率成反比下降。举个例子,对于“高频无意义词汇”,因为它们大部分会出现在所有的文本中,所以它们的权重会大打折扣,明白这一自然规律并利用该自然规律可以使得文本模型在描述文本特征上更加精确。本步骤中,中文文本向量空间模型的建立如图I所示,包括以下具体步骤步骤I. I :对文本进行分词,利用相对完备的词典为基础,按照改进的正向最大匹配退一字算法进行切分;假设字典中最大词条长度为M,算法具体过程如下步骤I. I. I :在待切文本字符串中从左边开始截取长度为M的子串S,先判断子串长度是否小于2,若小于2则表示分词已经结束,若大于2则进入下一步骤。步骤I. I. 2 :将步骤I. I. I的子串在字典中进行匹配,若匹配成功,则将此子串S退一字,退出的字符与子串S后面一个字拼接成双字,这样就形成了 M-I个字数的子串A与2个字数的子串B。步骤I. I. 3 :将子串A与子串B在字典中进行匹配,若字典中都存在2个子串则划分为AIB这种形式的2个词条,其他情况都按照步骤I. I. 2未退字的子串S划分;然后进入步骤I. I. I开始新一轮分词循环。步骤I. I. 4 :若步骤I. I. 2中子串S不匹配,则循环的将子串S字数减一在字典中匹配直到发现匹配,若直到子串字符数小于2都未发现匹配则将当前循环子串进行划分,然后进入步骤I. I. I开始新一轮分词循环。
为了进一步的减少计算量,同时在分词过程中也必须考虑同义词、停用词问题。针对同义词替换,采用的策略是构建一个同义词表,文本经过分词以后,如果出现在同义词表中,就用同一个词语替换。针对停用词,采用的策略是构建一个停用词表,一般包含一些语气助词象声词之类,如果出现在停用词中,就去掉该词。经过分词以后各个文档的内容表现为特征词与特征词之间通过切分标志分隔。步骤I结束后,文档内容只包含特征词,非特征词已被删去。步骤1.2 :对分词结果建立文档特征项向量模型。在向量模型中,每个特征项向量代表一个文本的特征,其中每个特征项向量的每一项是在所有文本中出现的词汇在该文本的特征项权重。假设通过分词以后计算的整个文本集的特征词条规模为n,每一个文本Dj都映射到一个维数为n的向量空间中,即V(Dj) = T1, fflj>,…<Ti,Wij>,…,〈Tn,ffnj>),其中,Ti(i G [l,n])表示特征词集中的所有词语,Wij表示词语Ti在文中Dj中的权重,也就是上述词频逆向文档频率(TFIDF)。下面介绍的是本步骤中文档特征项向量模型的具体过程步骤I. 2. I :利用分词后得到的所有特征词条对每个文本进行扫描,记录单个文本所包含不同特征词条在该文本中的个数和对应的特征词条。同时统计该文本的特征词条总数。这样就可以得到TFijt5文本中不包含的特征词条其对应的TFijSO,这样每一个文本就对应了有n个元素的词频向量。步骤I. 2. 2 :统计出现指定词条\的文本个数。具体是将步骤I. 2. I中每个文本的词频向量作为输入,循环检查第i个元素是否为0,不为0则该词条在文本集合中出现的次数加一。结果为一个对应有n个元素的向量,将该向量每一个元素带入IDFi计算公式中结算得到IDFi向量,即特征的文档频率。步骤I. 2. 3 :获得TFIDF的最终计算结果。将每一个词频向量的每一个元素除以特征的文档频率中对应的元素就得到每一个文本的TFIDF向量(即特征项向量)。步骤2 :对特征项向量进行降维处理。在步骤I构建文本的特征项向量中可以看出,该特征项向量的维数是整个文档集经过分词以后的特征词条数总数。即使是少量的样本文本,每个文本也包括几百个文字的文档集分词以后特征词条数也达到上万,那么对应的文本特征项向量维数也是上万维,如果直接利用这些向量参与后续聚类计算量非常大。同时对于某个文档,它只包含整个特征词条中的部分词条,这样会导致该向量中许多元素为0,也就是说该向量是稀疏的,这样也带来了存储的浪费。由以上两点可以看出必须对特征项向量进行降维处理。本发明以考虑速度为出发点,采取了基于文档频率的降维方法。该方法的理论假设是稀有词条不含有用信息,或含有的信息太少不足以对分类产生影响,而应当除去。从步骤I建立特征项向量的过程中可以看出文档频率就是出现某个特征词条的文档数。本发明降维方法就是在设定一个阈值,该阈值设定为最大文档频率的一半,在统计文档频率的时候只有高于阈值的特征词条才得以保留。本步骤中,利用互信息来选择特征词汇,使用如下公式表示某个文本特征T和类别C之间的相关性。具体公式如下
权利要求
1.一种基于层次的中文文本并行数据挖掘方法,其特征是,它包括以下步骤 步骤I:中文文本向量空间模型的建立通过对整个中文文本集合进行分词得到每一个文本的分词形式以及包含文本集所有去重词条的特征词条集,然后利用特征词条集统计每个文本的词频逆向文档频率,并根据词频逆向文档频率(TFIDF)来建立文本向量空间模型; 步骤2 :对文本向量空间模型的特征项向量进行降维处理; 步骤3 :利用基于层次的DCURE算法对文本进行聚类。
2.根据权利要求I所述的一种基于层次的中文文本并行数据挖掘方法,其特征在于,所述步骤I中,中文文本向量空间模型的建立包括以下具体步骤 步骤I. I :对文本进行分词,利用相对完备的词典为基础,按照改进的正向最大匹配退一字算法进行切分;假设字典中最大词条长度为M,算法具体过程如下 步骤I. I. I :在待切文本字符串中从左边开始截取长度为M的子串S,先判断子串长度是否小于2,若小于2则表示分词已经结束,若大于2则进入下一步骤; 步骤I. I. 2 :将步骤I. I. I的子串在字典中进行匹配,若匹配成功,则将此子串S退一字,退出的字符与子串S后面一个字拼接成双字,这样就形成了 M-I个字数的子串A与2个字数的子串B ; 步骤I. I. 3 :将子串A与子串B在字典中进行匹配,若字典中都存在2个子串则划分为A|B这种形式的2个词条,其他情况都按照步骤I. I. 2未退字的子串S划分;然后进入步骤I.I. I开始新一轮分词循环; 步骤I. I. 4 :若步骤I. I. 2中子串S不匹配,则循环的将子串S字数减一在字典中匹配直到发现匹配,若直到子串字符数小于2都未发现匹配则将当前循环子串进行划分,然后进入步骤I. I. I开始新一轮分词循环。
3.根据权利要求I所述的一种基于层次的中文文本并行数据挖掘方法,其特征在于,所述步骤I中,对分词结果建立文档特征项向量模型的具体过程为步骤I. 2 :在向量模型中,每个特征项向量代表一个文本的特征,其中每个特征项向量的每一项是在所有文本中出现的词汇在该文本的特征项权重;假设通过分词以后计算的整个文本集的特征词条规模为n,每一个文本Dj都映射到一个维数为n的向量空间中,即V(Dj) = Tl,fflj>,…〈Ti,Wij>,…,<Tn,Wnj>),其中,Ti(i G [1,n])表示特征词集中的所有词语,Wij表示词语Ti在文中Dj中的权重,也就是上述词频逆向文档频率(TFIDF);具体包含如下过程 步骤I. 2. I :利用分词后得到的所有特征词条对每个文本进行扫描,记录单个文本所包含不同特征词条在该文本中的个数和对应的特征词条;同时统计该文本的特征词条总数;这样就可以得到TFij ;文本中不包含的特征词条其对应的TFij为O,这样每一个文本就对应了有n个元素的词频向量; 步骤I. 2. 2 :统计出现指定词条t的文本个数;具体是将步骤I. 2. I中每个文本的词频向量作为输入,循环检查第i个元素是否为O,不为O则该词条在文本集合中出现的次数加一;结果为一个对应有n个元素的向量,将该向量每一个元素带入IDFi计算公式中结算得到IDFi向量,即特征的文档频率; 步骤I. 2. 3 :获得TFIDF的最终计算结果;将每一个词频向量的每一个元素除以特征的文档频率中对应的元素就得到每一个文本的TFIDF向量。
4.根据权利要求3所述的一种基于层次的中文文本并行数据挖掘方法,其特征在于,所述步骤I中词频逆向文档频率(TFIDF)的具体计算过程为TFIDFij = TFi^IDFi 式中,TFij指词汇频率,表示词语Ti在文本Dj中出现的频率,称为词频山表示第i个特征词条在文本中出现的次数,dj表示第j个文本包含的特征词条总数;TFU定义为念 IDFi指逆向文档频率,表示词语Ti在整个文档合集中出现的频率,IDFi定义为N 在这个公式中,N表示文档集合中所有的文档数目,Iii表示整个文档合集中出现过词语Ti的文档的总数,称为特征的文档频率。
全文摘要
本发明涉及一种基于层次的中文文本并行数据挖掘方法,包括步骤步骤1中文文本向量空间模型的建立通过对整个中文文本集合进行分词得到每一个文本的分词形式以及包含文本集所有去重词条的特征词条集,然后利用特征词条集统计每个文本的词频逆向文档频率,并根据词频逆向文档频率(TFIDF)来建立文本向量空间模型;步骤2对文本向量空间模型的特征项向量进行降维处理;步骤3利用基于层次的DCURE算法对文本进行聚类。本发明的有益效果是针对中文文本分词效率高,分词准确率高;聚类过程不需要输入邻域半径等参数,可挖掘不规则聚类,对噪声不敏感;利用分布式计算,针对海量文本挖掘效率高,同时提高特征权重计算速度。
文档编号G06F17/30GK102662952SQ20121005212
公开日2012年9月12日 申请日期2012年3月2日 优先权日2012年3月2日
发明者唐先萍, 唐雪飞, 罗石 申请人:成都康赛电子科大信息技术有限责任公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1