专利名称:一种基于语义块的情感特征生成算法的制作方法
技术领域:
本发明是一种基于语义块的情感特征生成算法,属于中文文本情感分析领域。
背景技术:
随着网络相关技术的高速发展,互联网已经逐步成为人们获取信息的重要来源和表达自己观点的平台,迅速增长的网上评论产生大量数据,于是针对特定需求,组织相关数据和获取有用信息,成为当前信息科学与技术领域面临的一个重大的挑战。文本情感分类是指通过挖掘和分析文本中的观点、意见和看法等主观信息,对文本的情感倾向做出类别判断。它可广泛用于社会舆情分析、产品质量评价、影视评论等方面。一篇文本表现为一个由文字和标点组成的字符串。字或字符组成词,词组成短语, 然后再形成句子、段落和篇章。因此对文本情感分析,研究者们一般都从判断词语的情感倾向性开始。CN101609459A号发明专利公告公布了一种情感特征词提取系统,该系统利用 tf (词语在文章中出现的次数)和df(词语出现在所评论集合的不同评论内容中的次数) 等参数的比值来选取一定数目得分较高的词作为广义情感特征词。然后根据语义关系图中词的同位词来建立狭义情感特征词表。由于该技术依赖于中文分词技术,这必然存在分词中的名词性主体识别、分词规范不统一等问题,直接影响情感特征的质量。本发明提出一种基于语义块的情感特征生成算法。语义块不一定是字、词、短语、 句子等自然语言单位,它既可以看作语法单位也可是语义单位。通过使用语义块替代传统词典,能够更加准确的体现文本中的情感特征。
发明内容
本发明的目的是提供一种新的情感特征生成算法,情感特征用语义块表示,语义块是根据文本上下文的统计结果,按策略选出最佳拆分结果。本发明的技术方案如下通过后缀树Suffix-tree (PAT tree)结构查找独立的语义单位或语法单位,根据全部文本集合中上下文的统计结果,按策略选出最佳拆分结果。以两段中文字符串Si、S2 为例,查找语义块操作即为查找Sl和S2的最长公共字串。Sl “第一次去电影院看电影,3D效果不明显,胜在搞笑。”Sl “相当幽默的影片,最搞笑的要属那两只狐狸。”如果使用分词技术Sl 第一 /m次/qv去/Vf电影院/n看/V电影/n,/wd 3D/x效果/n不/d明显/ a, /wd 胜 /ν 在 /p 搞 /V 笑 /V。/wjS2 相当/d幽默/a的/udel影片/n,/wd最/d搞/V笑/V的/udel要/V属/V 那/rzv两/m只/q狐狸/n。/wj很明显,将独立的语义单位拆分开了。如果使用后缀树来处理这两段字串。算法简要描述如下
3
将Sl和S2拼接作为字符串压入后缀树,找到最深的非叶节点。这个深是指从树根节点所经历过的字符个数,最深非叶节点所经历的字符串起来就是最长重复子串。需要找到非叶节点,是因为既然是要找到Sl与S2重复的公共部分,当然叶节点个数要>=2。 原理是如果T在S中重复了两次,则S应有两个后缀以T为前缀,重复次数就自然统计出来了。此外,采用I^atricia Tree (PAT tree)存储结构来降低存储空间的复杂度。PAT tree是后缀树结构的一种特殊形式,采用半无限长字串(semi-infinite string)作为字符串的查找结构。简单来说就是一种压缩存储的二叉树结构,PAT tree在字符串的子串匹配上有着非常优异的表现。字符串Si、S2使用语义块概念来切分独立的语义单位,如下表示Sl 第一次去电影院看电影,3D效果不明显,胜在搞笑。S2 相当幽默的影片,最搞笑的要属那两只狐狸。本发明具有如下优点1.本发明提出情感特征基于语义块的思想,克服了传统算法采用中文分词的缺点,避免了分词规范不统一、切分歧义消解和未登录词的识别问题,算法得到的语义块是含有独立的语义或独立的语法单位。2.本发明提出的算法简单易于实现。3.本发明提出算法获得的情感特征结果,优于传统的分词工具。
图1是本发明中采用语义块作为情感特征和中文分词的取得的特征数量对比图2是本发明中采用语义块作为情感特征和中文分词的频率对比图3是本发明采用语义块作为情感特征和中文分词的曲线图对比下面结合附图和实施例对本发明专利进一步说明。我们通过以下实验来验证本算法的效果。实验的数据集是通过豆瓣网搜集的 11000篇关于“ice Age3”的简短影评。语料总规模为206751个字符,仅包括汉字、标点、英文单词、数字,已去除网页标记、空格等信息。我们选择两种方式进行实验对比1.基于语义块进行初步选择;2.基于中文分词进行初步选择。在实验语料中,我们采用中国科学院计算技术研究所开发的(ICTCLAS30) 中文分词器进行对比。针对相同的语料(11000条简短评论),如图1所示,语义块共计获得 11611条,而分词器获得词条目为13436条。通过初步特征选择,语义块共计获得4106条, 分词器获得词条目为6134条。通过图2和图3中可以对比看出,不同选择情感特征的方法直接影响特征的初始集合规模。其中基于语义块的方法比基于中文分词的方法选择出的特征明显要少接近三分之一。通过实验分析原因,语义块是根据文本的上下文从独立的语法单位或者语义单位出发来划分,而分词器是根据词典固定划分。例如语义块特征中包括“搞笑”出现942次, “笑”269次;使用分词器得到的特征中包括“搞” 1056次,“笑” 1883次。再例如,语义块特征中包括“值得一看”40次,“值得”93次;而使用分词器得到“值得” 133次,“值得一看”0次。这是因为分词器不认为“值得一看”属于一个词。从这里我们很明显发现使用语义块作为情感特征是一种全新的思路,要优于传统的把分词当作情感特征的做法。
权利要求
1.一种基于语义块的情感特征生成算法,其特征在于,包括情感特征是由语义块来表示,语义块是指具有独立语义单位或语法单位。
2.如权利要求1所述的一种基于语义块的情感特征生成算法,其特征在于,还包括通过后缀树Suffix-tree (PAT tree)结构查找独立的语义单位或语法单位。
全文摘要
本发明涉及一种基于语义块的情感特征生成算法,属于中文文本情感分析领域。该发明的目的是提供一种新的情感特征生成算法。情感特征用语义块表示,语义块是独立的语义单位或语法单位,通过后缀树Suffix-tree(PAT tree)结构查找,根据全部文本集合中上下文的统计结果,按策略选出最佳拆分结果。
文档编号G06F17/27GK102411562SQ20101028885
公开日2012年4月11日 申请日期2010年9月21日 优先权日2010年9月21日
发明者朱俭 申请人:北京千松科技发展有限公司, 北京市通州区科学技术协会, 朱俭