一种基于卡方算法进行角色特征提取的方法

文档序号：6511453阅读：275来源：国知局

一种基于卡方算法进行角色特征提取的方法
【专利摘要】本发明公开了一种基于卡方算法进行角色特征提取的方法，该方法包括：A、选定多个角色，将与所述角色对应的文档提取出来，并对所述的文档进行分词；B、根据卡方算法对所述分词进行特征提取，获取所述角色下特征词需要的数据；C、根据卡方特征评估函数计算各个特征的评分值，并对词条进行分析，然后按所述评分值对所述特征进行排序，并选取若干个评分值最高的特征词条作为特征词。采用该方法，能够在进行角色搜索时，较好的提高返回结果的相关性；根据某个系统中的样本，提取该系统下的角色对应的特征词，使得在进行角色搜索时，加入特征词，设置权重，能够提高搜索结果跟用户的相关性。
【专利说明】一种基于卡方算法进行角色特征提取的方法【技术领域】
[0001]本发明涉及计算机应用技术，尤其涉及一种基于卡方(CHI)算法进行角色特征提取的方法。
【背景技术】
[0002] 目前有关文本表示的研究，主要集中于文本表示模型的选择和特征词选择算法的选取上。用于表示文本的基本单位通常称为文本的特征或特征项。
[0003]图1为特征项必备的特性示意图。如图1所示，在中文文本中可以采用字、词或短语作为表示文本的特征项。相比较而言，词比字具有更强的表达能力，而词和短语相比，词的切分难度比短语的切分难度小得多。因此，目前大多数中文文本分类系统都采用词作为特征项，称作特征词。这些特征词作为文档的中间表示形式，用来实现文档与文档、文档与用户目标之间的相似度计算。
[0004]由于信息增益的定义过于复杂，因此应用较多的是交叉熵和互信息。其中互信息的效果要好于交叉熵，这是因为互信息是对不同的主题类分别抽取特征词，而交叉熵与特征在全部主题类内的分布有关，是对全部主题类来抽取特征词。这些方法，在英文特征提取方面都有各自的优势，但用于中文文本并没有很高的效率。主要有2个方面的原因:I)特征提取的计算量太大，特征提取效率太低，而特征提取的效率直接影响到整个文本分类系统的效率；2)经过特征提取后生成的特征向量维数太高，而且不能直接计算出特征向量中各个特征词的权重。
[0005]若把所有的词都作为特征项，那么特征向量的维数将过于巨大，从而导致计算量太大，在这样的情况下，要完成文本分类几乎是不可能的。

【发明内容】

[0006]有鉴于此，本发明的主要目的在于提供一种基于卡方算法(CHI)进行角色特征提取的方法，将卡方算法的统计量用于度量特征w和主题类C之间的独立性，在进行角色搜索时，能较好的提高返回结果的相关性；根据某个系统中的样本(分词之后的)，提取该系统下的角色对应的特征词，使得在进行角色搜索时，加入特征词，设置权重，以提高搜索结果跟用户的相关性。
[0007]为达到上述目的，本发明的技术方案是这样实现的:
一种基于卡方算法进行角色特征提取的方法，该方法包括:
A、选定多个角色，将与所述角色对应的文档提取出来，并对所述的文档进行分词；
B、根据卡方算法对所述分词进行特征提取，获取所述角色下特征词需要的数据；
C、根据卡方特征评估函数计算各个特征的评分值，并对词条进行分析，然后按所述评分值对所述特征进行排序，并选取若干个评分值最高的特征词条作为特征词。
[0008]其中，所述卡方算法依据卡方特征评估函数进行，所述卡方特征评估函数为:
【权利要求】
1.一种基于卡方算法进行角色特征提取的方法，其特征在于，该方法包括: A、选定多个角色，将与所述角色对应的文档提取出来，并对所述的文档进行分词； B、根据卡方算法对所述分词进行特征提取，获取所述角色下特征词需要的数据； C、根据卡方特征评估函数计算各个特征的评分值，并对词条进行分析，然后按所述评分值对所述特征进行排序，并选取若干个评分值最高的特征词条作为特征词。
2.根据权利要求1所述基于卡方算法进行角色特征提取的方法，其特征在于，所述卡方算法依据卡方特征评估函数进行，所述卡方特征评估函数为:
3.根据权利要求2所述基于卡方算法进行角色特征提取的方法，其特征在于，所述文档个数针对角色所在的系统而言。
4.根据权利要求1所述基于卡方算法进行角色特征提取的方法，其特征在于，步骤B所述获取所述角色下特征词需要的数据，具体为: 在进行角色搜索时，在查询语句中加入特征词，然后从所述数据库中查询，先看缓存中是否存在所述特征词，若有，则从所述缓存中查询；否则，就从数据中查询。
【文档编号】G06F17/27GK103473323SQ201310417242
【公开日】2013年12月25日申请日期:2013年9月13日优先权日:2013年9月13日
【发明者】程芸芸, 王清霞, 李振钊, 赵威, 刘铁军, 刘秀磊申请人:北京鹏宇成软件技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：程芸芸;王清霞;李振钊;赵威;刘铁军;刘秀磊
技术所有人：北京鹏宇成软件技术有限公司
我是此专利的发明人

上一篇：多媒体数据库扫描方法和装置制造方法
上一篇：一种基于二维码通过手机实现信用卡防盗刷的方法及系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。