一种基于百度百科的文本语义主题抽取方法

文档序号:6361728阅读:203来源:国知局
专利名称:一种基于百度百科的文本语义主题抽取方法
技术领域
本发明涉及一种基于百度百科的文本语义主题抽取方法。
背景技术
网络已经进入了 Web2.0的时代,即以用户为主导、由用户提供和分享资源的网络应用迅速发展,每天都会出现海量的新信息,如何获取其中真正所需的内容却是一大难题。网络上的文本资源组合灵活、不规范、数据量大、容易创作与发布,话题涉及社会的方方面面。对这些数据进行主题跟踪发现、分类、情感判断将有着广泛的应用和前景,如社会舆情监控、情感分析、商业调查等。 处理这些数据需要应用文本挖掘技术,涉及文本相似度计算、聚类、分类等方面。这些传统方法大多是针对文本信息表述规则,包含了大量的信息内容的文本。然而,网络文本包含许多不规则的简写方式,例如‘发改委’和‘发展改革委员会’,若用传统的数据挖掘相似度算法,计算结果为0,因为二者没有词汇交集,但实际上二者在语义上相同。另外,词汇的语义与其所处环境有关,比如‘苹果4代’与‘4袋苹果’,两个短语中都有的‘苹果’ 一词,传统算法计算结果相似度为0. 67,但二者风马牛不相及。面对这些问题,传统的文本挖掘方法显然不能令人满意。特别在中文领域,情况更为复杂,不仅要解决文本挖掘的基本问题,还需先对文本做准确的分词。现有的中文分词工具对长文本的分词取得不错的效果。但在短文本分词方面还有待改进,例如‘有木有银请我7饭’(有没有人请我吃饭),通过ICTCLAS分词结果处理的分词结果是‘有木有银请我7饭’,与实际意思相差很大,对进一步所要做的语义挖掘很不利。要解决这些困局,需要一个能涵盖社会各领域的知识库,不仅能提供全面、准确、复杂的知识关系,还要能及时跟进社会热点与网络流行动态。在中文知识信息领域,相比于传统的各种知识库,百度百科是一部内容开放、自由的网络百科全书,其旨在创造一个涵盖各领域知识的中文信息收集平台,并与百度搜索、百度知道结合,从不同的层次上满足用户对信息的需求。如图I所示,百度百科所含内容的基础单位是词条,一个词条由6部分组成,包括百科名片、词条正文、参考资料、开放分类、相关词条、扩展阅读,不同的组成部分从不同的角度对一个知识进行阐述。

发明内容
本发明的目的在于提供一种可以解决传统的文本挖掘方法不足的一种基于百度百科的文本语义主题抽取方法。本发明一种基于百度百科的文本语义主题抽取方法,主要包括以下几个步骤(I)将所有的百度百科词条转化成为一个百科词库前缀关系;(2)计算出所有百度百科词条之间的语义关系,形成一个主题关系矩阵;(3)对于一段未知文本,利用百度百科词库前缀关系,进行快速词条发现,找出所有可能涉及的词条,形成候选词条集合;
(4)把所有候选词条对应的百度百科的开放分类作为文本T的候选语义主题;(5)通过主题关系矩阵,将上述候选语义主题转化成为一张有向语义主题图;(6)、根据主题关系矩阵对有向语义主题图的权值进行调整;(7)、将有向语义主题图转化为无向语义主题图后,划分成若干连通区域;(8)、计算语义离散度,并根据语义离散度值来决定文本最终的语义主题。所述的步骤I具体为
设文本T = tl t2…tn由n个汉字组成,其中n > I, Ri = T[1…i]表示文本T的从第I到第i个字符串,该i > 1,这样长度为n的文本T有n-1个非空前缀,分别为R2,R3,…Rn-I,文本T的前缀数组是由R1,R2,…Rn-I组成的n_l个字符串数组,记为PRE (T)={R2,R3,…Rn},令三元组a K =〈R,B,TS>表示字符串前缀R与百度百科词库中词条的关系,B表示该前缀是否为一个完整词条,TS表示一个词条集合,且对于任意的T e TS,都有R G PRE⑴八(T^R);令词库C= {C1,C2…Cn},由n个词条Cn组成,对百度百科词库中所有词条的如缀都生成相应的如缀关系a,这些如缀关系组成的集合为词库如缀关系。所述的步骤2具体为定义百科词条w的一个开放分类e为百科词条w的一个语义主题;若百科词条w的开放分类中包含语义主题e,则称百科词条w和语义主题e语义相关,反之称百科词条w与语义主题e语义不相关,若文本T中存在一个词条w与语义主题e语义相关,则称文本T和语义主题e也语义相关,反之称文本T与语义主题e语义不相关;令E = {el,e2…en}为网络文本T的语义主题空间,其中,ei表示第i个语义主题,n为语义主题空间E中的语义主题个数;定义主题布尔关系矩阵R :矩阵R = (ai,j)nXn是一张二维布尔关系,若ai,j =1,表示第i个开放分类作为一个百科词条的开放分类中包含了第j个开放分类,即二者相关;定义m步主题布尔关系矩阵’设R为主题布尔关系矩阵,则
m个
R(m)为R的m步主题布尔关系矩阵,若a011',j = O^awijj = 1,表示第i个开
所个
放分类到第j个开放分类之间存在一条步长为m的关联通路;定义主题布尔关系矩阵R的稳定矩阵设R(k)为k步主题布尔关系矩阵,若R(H) ^ R(k)且Vp > A都有R(k) = R(P),则称k步主题布尔关系矩阵R(k)为主题布尔关系矩阵R的稳定矩阵;设R为主题布尔关系矩阵,n为语义主题空间中语义主题的个数,则必存在一个正整数k < n,使得R(k)为R的稳定矩阵;定义主题关系设R = (ai, j)nXn为主题布尔关系矩阵,R(k)为稳定主题布尔关系矩阵,主题关系矩阵定义为
,、 * \pm,= IAin <kQ*= ( , Pnxn^ y =|0,a(k),; = 0其中m、k均为正整数,P是一个取值在区间(0,I)的常系数;该稳定主题关系布尔矩阵R(k)表示的是语义主题之间是否有关,而语义主题关系表示的是语义主题之间量化的相关关系,若语义主题i与j之间步长越长,在主题关系中qy值越小,相关度越低;
利用百度百科所有词条的开放分类作为候选语义主题,m步主题关系的求法步骤如下(I)初始化主题关系集合为空,令n为词条集合TS中的主题关系个数,P为主题相关度值,循环取出词条集合TS中的每一个词条t,对应每一个词条t中的开放分类O,把主题关系二元组<t,O,P >加入到主题关系集合中;(2)主题关系生成令n为主题关系集合中的主题关系个数,对主题关系集合中的所有主题关系循环扫描,若在第k层上发现有主题关系未存在于主题关系集合中,则将其并入主题关系集合中,并设相关度值为P k,直到主题关系集合不再发生变化为止。所述的步骤3具体为
设文本T包括长度为n的字符串,T[i,j]表示文本T的从第i个字符到第j个字符串,记为Ci,j,若Ci,j是一个百科词条,则其为文本T的候选词条;令文本T字符串长度为n,从文本T的第一个字符开始循环扫描到最后一个字符,取出连续字符串S,如果字符串s在步骤I的词库前缀关系中未能找到,则进入下一重循环,否则将字符串s作为一个候选词条,加入到候选词条集合中,取文本T的下一个字符与该连续字符串s合并,继续上述候选词条的判断步骤,直至文本T的最后一个字符。所述的步骤4具体为对于一段网络文本T,按步骤3找出该文本T所有的候选词条ts,把所有候选词条的全部开放分类作为这段文本T的候选语义主题,对每一个候选语义主题都统记为
;=1其中,S^e)取值为I或0,取I时表示第j个词条和语义主题e相关,反之取值0,ts表示文本T的所有候选词条总数。所述的步骤5具体为把所有的候选语义主题e看作是一张有向图的顶点,对于顶点e来说Te是它的权重,顶点之间是否有通路以及顶点之间的距离,由主题关系决定,如果两顶点在主题关系矩阵中对应的相关度值q > 0,则两个顶点之间有通路。所述的步骤6具体为设网络文本T的K个语义主题分别为el,e2…ek,K个语义主题的统计值形成的一个向量记为A= (Tel,Te2,…Tek),令在m步主题关系Qw中这K个语义主题形成的子
集为一个矩阵设为,那么可以对上述的统计值进行重新调整,记为A',A' = AxQm
e\,el...ek调整后的任意一个顶点的统计值就是以该点为中心的m步范围之内的语义总和。所述的步骤7具体为将步骤6中调整后的有向语义主题图转化为无向语义主题图,可以将其切分成若干连通区域Regl Reg2…Regn,同一个区域的两个顶点有通路,不同区域的顶点之间则无通路;对于无向语义主题图中的任意一个连通区域Regi,把其当作一个整体统计它在整个图中的权重p,
权利要求
1.一种基于百度百科的文本语义主题抽取方法,其特征在于包括以下几个步骤 (1)将所有的百度百科词条转化成为一个百科词库前缀关系; (2)计算出所有百度百科词条之间的语义关系,形成一个主题关系矩阵; (3)对于一段未知文本,利用百度百科词库前缀关系,进行快速词条发现,找出所有可能涉及的词条,形成候选词条集合; (4)把所有候选词条对应的百度百科的开放分类作为文本T的候选语义主题; (5)通过主题关系矩阵,将上述候选语义主题转化成为一张有向语义主题图; (6)、根据主题关系矩阵对有向语义主题图的权值进行调整; (7)、将有向语义主题图转化为无向语义主题图后,划分成若干连通区域; (8)、计算语义离散度,并根据语义离散度值来决定文本最终的语义主题。
2.根据权利要求I所述的一种基于百度百科的文本语义主题抽取方法,其特征在于所述的步骤I具体为 设文本T = tl t2…tn由η个汉字组成,其中η > I, Ri = T[1…i]表示文本T的从第I到第i个字符串,该i > I,这样长度为η的文本T有η — I个非空前缀,分别为R2,R3,…Rn-I,文本T的前缀数组是由R1,R2,…Rn-I组成的η-1个字符串数组,记为PRE(T)={R2,R3,…Rn},令三元组ακ =〈R,B,TS>表示字符串前缀R与百度百科词库中词条的关系,B表示该前缀是否为一个完整词条,TS表示一个词条集合,且对于任意的T e TS,都有Re PRE⑴Λ (T^R);令词库C= {C1,C2…Cn},由η个词条Cn组成,对百度百科词库中所有词条的如缀都生成相应的如缀关系α,这些如缀关系组成的集合为词库如缀关系。
3.根据权利要求I所述的一种基于百度百科的文本语义主题抽取方法,其特征在于所述的步骤2具体为 定义百科词条w的一个开放分类e为百科词条w的一个语义主题;若百科词条w的开放分类中包含语义主题e,则称百科词条w和语义主题e语义相关,反之称百科词条w与语义主题e语义不相关,若文本T中存在一个词条w与语义主题e语义相关,则称文本T和语义主题e也语义相关,反之称文本T与语义主题e语义不相关; 令E= {el,e2-en}为网络文本T的语义主题空间,其中,ei表示第i个语义主题,η为语义主题空间E中的语义主题个数; 定义主题布尔关系矩阵R :矩阵R = (ai, j)nXn是一张二维布尔关系,若ai, j = I,表示第i个开放分类作为一个百科词条的开放分类中包含了第j个开放分类,即二者相关; 定义m步主题布尔关系矩阵
4.根据权利要求I所述的一种基于百度百科的文本语义主题抽取方法,其特征在于所述的步骤3具体为 设文本T包括长度为η的字符串,T [i,j]表示文本T的从第i个字符到第j个字符串,记为Ci,j,若Ci,j是一个百科词条,则其为文本T的候选词条; 令文本T字符串长度为n,从文本T的第一个字符开始循环扫描到最后一个字符,取出连续字符串S,如果字符串s在步骤I的词库前缀关系中未能找到,则进入下一重循环,否则将字符串s作为一个候选词条,加入到候选词条集合中,取文本T的下一个字符与该连续字符串s合并,继续上述候选词条的判断步骤,直至文本T的最后一个字符。
5.根据权利要求I所述的一种基于百度百科的文本语义主题抽取方法,其特征在于所述的步骤4具体为 对于一段网络文本T,按步骤3找出该文本T所有的候选词条ts,把所有候选词条的全部开放分类作为这段文本T的候选语义主题,对每一个候选语义主题都统记为
6.根据权利要求I所述的一种基于百度百科的文本语义主题抽取方法,其特征在于所述的步骤5具体为 把所有的候选语义主题e看作是一张有向图的顶点,对于顶点e来说Te是它的权重,顶点之间是否有通路以及顶点之间的距离,由主题关系决定,如果两顶点在主题关系矩阵中对应的相关度值q > 0,则两个顶点之间有通路。
7.根据权利要求I所述的一种基于百度百科的文本语义主题抽取方法,其特征在于所述的步骤6具体为 设网络文本T的K个语义主题分别为el,e2…ek,K个语义主题的统计值形成的一个向量记为A= (Tel,Te2,…Tek),令在m步主题关系Qw中这K个语义主题形成的子集为一个矩阵设为,那么可以对上述的统计值进行重新调整,记为A',
8.根据权利要求I所述的一种基于百度百科的文本语义主题抽取方法,其特征在于所述的步骤7具体为 将步骤6中调整后的有向语义主题图转化为无向语义主题图,可以将其切分成若干连通区域
9.根据权利要求I所述的一种基于百度百科的文本语义主题抽取方法,其特征在于所述的步骤8具体为 设文本T的语义离散度f为
全文摘要
本发明一种基于百度百科的文本语义主题抽取方法,利用百度百科首先建立百科词条前缀关系库,并计算出整个词条空间的语义关系,再利用前缀关系库来对未知文本进行词条发现与候选语义主题统计,并建立语义主题图,依据主题关系矩阵对语义主题图中各顶点进行权值调整,再根据语义主题图的语义离散度来抽取最终语义主题,避开传统通过单纯的词条统计方式,能在很大程度上解决基于词条统计的文本主题方法准确率不高的问题。
文档编号G06F17/27GK102662998SQ20121006810
公开日2012年9月12日 申请日期2012年3月14日 优先权日2012年3月14日
发明者陈叶旺 申请人:华侨大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1