专利名称:一种面向交互文本的话题识别方法
技术领域:
本发明属于信息技术领域,涉及一种信息检索、抽取与管理以及自然语言处理技术,尤其是一种面向交互文本的话题识别方法。
背景技术:
随着互联网技术应用的日趋广泛,基于交互式文本的网络应用不断发展,已经成为人们获取和发布信息的主要手段之一,例如网络聊天室、微博等典型的交互文本应用。这些文本中蕴含着大量丰富的信息资源,如何实现对这些交互文本应用中发生的事件按话题内容查找、组织和利用,成为当务之急。比如自动识别网络学习者的情感变化事件,从而调节其学习效率;识别各种社会敏感的突发事件或者新事件等。申请人经过查新,未检索本发明相关的专利。但是找相似的几篇文章,分别是:I)基于频繁模式的消息文本聚类研究。胡吉祥,中国科学院研究生院(计算技术研究所)。2)用于聊天词汇的权重计算方法CDTF_IDF。高鹏,曹先彬,计算机仿真,2007.12。
文章I)作者发现了频繁模式(称之为关键频繁模式)包含了词序和邻近上下文等更多的语义信息对交互文本特征抽取的关键性,提出了一种无指导的基于频繁模式的特征选择算法,应用于文本分类和聚类。文章2)主要针对聊天室的内容监控应用,通过分别离线计算词汇在不同数据源中的权值并汇总、并对重点词汇提高权重等方式来计算聊天数据的词汇权重,从而达到识别聊天室主题的目的。根据上述查新可知:首先现有技术的研究对象为以整个新闻或者段落;现有技术识别的结果仅为整个新闻(事件)或段落是否属于哪一类主题,以及相关的新闻(事件)发生,即主题级的识别;在交互文本的特征表示方面,现有技术离线收集仅为当前新闻(事件)的词频特征进行计算。现有方法以无监督的概率潜在语义分析方法为主。
发明内容
本发明的目的在于克服上述现有技术的缺点,提供一种面向交互文本的话题识别方法,该方法针对话轮级别,提出了基于多特征融合的句子相关度算法,并将其应用于话题识别过程中,采用发现词语语义特性和句子结构特性,引入词语语义特征和依存句法特征来实现话题识别。本发明的目的是通过以下技术方案来解决的:这种面向交互文本的话题识别方法,包括以下步骤:第一步:词语相关度计算:(I)基于知网,计算词语在知识词典层面的相关度基于知网的语义相关度计算依据知识词典中的记录信息,每一个记录包含的4项信息中,利用三项信息:词语概念W_X、词语词性G_X和概念定义DEF ;
对于词语W1和w2,如果与W1对应的有m个概念,分别为C11, C12, Clm, W2有η个概念,分别为C21, C22,..., C2n, Sw^Pw2的相关度为各个概念的相关度之最大值,也就是说:
权利要求
1.一种面向交互文本的话题识别方法,其特征在于,包括以下步骤: 第一步:词语相关度计算: (1)基于知网,计算词语在知识词典层面的相关度 基于知网的语义相关度计算依据知识词典中的记录信息,每一个记录包含的4项信息中,利用三项信息:词语概念W_X、词语词性G_X和概念定义DEF ; 对于词语W1和w2,如果与W1对应的有m个概念,分别为C11, C12,Clm,w2有η个概念,分别为C21, C22,..., C2n,设W1和w2的相关度为各个概念的相关度之最大值,也就是说:
2.根据权利要求1所述的面向交互文本的话题识别方法,其特征在于,第一步中步骤(O的概念的相关度计算过程为: 概念是由一个语义表达式来描述的,要计算实词概念之间的相关度就是要计算两个语义表达式的相关度;具体地,采用以下方式: (1)将任何义原或具体词与空值的相似度定义为一个小的常数δ; (2)对于实词概念的语义表达式,将其分成三个部分,然后计算两个表达式中对应每个部分的相关度; a)普通义原,将这一部分的相关度记为Rel1(C1, C2),按照如下步骤对其进行分组; `1.先把两个表达式的所有普通义原任意配对,计算出所有配对的义原相关度; .取相关度最大的一对,并将它们归为一组; ii1.在剩下的普通义原的配对相关度中,取最大的一对,并归为一组,如此反复,直到所有普通义原都完成分组为止; b)关系义原,将这一部分的相关度记为Rel2(C1, C2),把关系义原相同的描述式分为一组,并计算其相关度; c)符号义原,将这一部分的相关度记为Rel3(C1,C2),把关系符号相同的描述式分为一组,并计算其相关度; (3)将概念表达式相关度计算归结到计算两个义原间的语义相关度,在这里用两个义原的语义距离表示:
3.根据权利要求1所述的面向交互文本的话题识别方法,其特征在于,第二步中步骤(I)、(2)抽取关键词的过程具体为: Stepl、依存树剪枝,剪枝规则如下: Stepl.1、提取到依存树的第二级; Stepl.2、如果第二级为“的”等助词,则需要提取该助词下的第三级或更高级; Stepl.3、如果第二级为动词,则需要提取该动词下的第三级; Step2、在剪枝后的依存树中抽取关键词;关键词抽取规则是,只提取关键词,除去关键词以外的所有词,并将提取出来的关键词以依存树的形式保存。
4.根据权利要求1所述的面向交互文本的话题识别方法,其特征在于, 话题识别的计算过程为: Stepl、语料中第一个话轮为一个新的话题; Step2、测试后续话轮与所有主题句的相关度: Step2.1、如果相关度大于阈值,则将其归入相关度最闻的话题; Step2.2、如果相关度小于阈值,且为完整句,则将其作为新的话题; Step2.3、如果相关度小于阈值,且为非完整句,则将其归入最近的话题; Step3、重复 Step2、 Step3,直到所有话轮处理完成。
全文摘要
本发明公开了一种面向交互文本的话题识别方法,按照三个大步骤实施I、词语语义相关度计算阶段,采用了一种基于知识词典和主题模型相结合的词语相关度计算方法;II、句子相关度计算阶段,分别计算句子在关键词特征、词语语义特征、依存句法特征三个层面的相关度,将三个特征融合后计算句子间相关度;III、交互文本话题识别阶段,采用一种基于句子相关度计算的话题识别方法,识别出交互文本中不同话轮是否属于同一话题。
文档编号G06F17/30GK103226580SQ201310114098
公开日2013年7月31日 申请日期2013年4月2日 优先权日2013年4月2日
发明者陈妍, 杨扬, 朱海萍, 郑庆华, 田锋, 刘文强 申请人:西安交通大学