一种基于卡方算法进行角色特征提取的方法
【专利摘要】本发明公开了一种基于卡方算法进行角色特征提取的方法,该方法包括:A、选定多个角色,将与所述角色对应的文档提取出来,并对所述的文档进行分词;B、根据卡方算法对所述分词进行特征提取,获取所述角色下特征词需要的数据;C、根据卡方特征评估函数计算各个特征的评分值,并对词条进行分析,然后按所述评分值对所述特征进行排序,并选取若干个评分值最高的特征词条作为特征词。采用该方法,能够在进行角色搜索时,较好的提高返回结果的相关性;根据某个系统中的样本,提取该系统下的角色对应的特征词,使得在进行角色搜索时,加入特征词,设置权重,能够提高搜索结果跟用户的相关性。
【专利说明】一种基于卡方算法进行角色特征提取的方法【技术领域】
[0001]本发明涉及计算机应用技术,尤其涉及一种基于卡方(CHI)算法进行角色特征提取的方法。
【背景技术】
[0002] 目前有关文本表示的研究,主要集中于文本表示模型的选择和特征词选择算法的选取上。用于表示文本的基本单位通常称为文本的特征或特征项。
[0003]图1为特征项必备的特性示意图。如图1所示,在中文文本中可以采用字、词或短语作为表示文本的特征项。相比较而言,词比字具有更强的表达能力,而词和短语相比,词的切分难度比短语的切分难度小得多。因此,目前大多数中文文本分类系统都采用词作为特征项,称作特征词。这些特征词作为文档的中间表示形式,用来实现文档与文档、文档与用户目标之间的相似度计算。
[0004]由于信息增益的定义过于复杂,因此应用较多的是交叉熵和互信息。其中互信息的效果要好于交叉熵,这是因为互信息是对不同的主题类分别抽取特征词,而交叉熵与特征在全部主题类内的分布有关,是对全部主题类来抽取特征词。这些方法,在英文特征提取方面都有各自的优势,但用于中文文本并没有很高的效率。主要有2个方面的原因:I)特征提取的计算量太大,特征提取效率太低,而特征提取的效率直接影响到整个文本分类系统的效率;2)经过特征提取后生成的特征向量维数太高,而且不能直接计算出特征向量中各个特征词的权重。
[0005]若把所有的词都作为特征项,那么特征向量的维数将过于巨大,从而导致计算量太大,在这样的情况下,要完成文本分类几乎是不可能的。
【发明内容】
[0006]有鉴于此,本发明的主要目的在于提供一种基于卡方算法(CHI)进行角色特征提取的方法,将卡方算法的统计量用于度量特征w和主题类C之间的独立性,在进行角色搜索时,能较好的提高返回结果的相关性;根据某个系统中的样本(分词之后的),提取该系统下的角色对应的特征词,使得在进行角色搜索时,加入特征词,设置权重,以提高搜索结果跟用户的相关性。
[0007]为达到上述目的,本发明的技术方案是这样实现的:
一种基于卡方算法进行角色特征提取的方法,该方法包括:
A、选定多个角色,将与所述角色对应的文档提取出来,并对所述的文档进行分词;
B、根据卡方算法对所述分词进行特征提取,获取所述角色下特征词需要的数据;
C、根据卡方特征评估函数计算各个特征的评分值,并对词条进行分析,然后按所述评分值对所述特征进行排序,并选取若干个评分值最高的特征词条作为特征词。
[0008]其中,所述卡方算法依据卡方特征评估函数进行,所述卡方特征评估函数为:
【权利要求】
1.一种基于卡方算法进行角色特征提取的方法,其特征在于,该方法包括: A、选定多个角色,将与所述角色对应的文档提取出来,并对所述的文档进行分词; B、根据卡方算法对所述分词进行特征提取,获取所述角色下特征词需要的数据; C、根据卡方特征评估函数计算各个特征的评分值,并对词条进行分析,然后按所述评分值对所述特征进行排序,并选取若干个评分值最高的特征词条作为特征词。
2.根据权利要求1所述基于卡方算法进行角色特征提取的方法,其特征在于,所述卡方算法依据卡方特征评估函数进行,所述卡方特征评估函数为:
3.根据权利要求2所述基于卡方算法进行角色特征提取的方法,其特征在于,所述文档个数针对角色所在的系统而言。
4.根据权利要求1所述基于卡方算法进行角色特征提取的方法,其特征在于,步骤B所述获取所述角色下特征词需要的数据,具体为: 在进行角色搜索时,在查询语句中加入特征词,然后从所述数据库中查询,先看缓存中是否存在所述特征词,若有,则从所述缓存中查询;否则,就从数据中查询。
【文档编号】G06F17/27GK103473323SQ201310417242
【公开日】2013年12月25日 申请日期:2013年9月13日 优先权日:2013年9月13日
【发明者】程芸芸, 王清霞, 李振钊, 赵威, 刘铁军, 刘秀磊 申请人:北京鹏宇成软件技术有限公司