文本可理解性的度量方法

文档序号:6341674阅读:378来源:国知局
专利名称:文本可理解性的度量方法
技术领域
本发明涉及一种文本的可理解性的度量方法,更具体地说,涉及一种计算文本中句子之间的关联关系来度量文本的可理解性的方法。

背景技术
文本的理解过程离不开对文本句子之间关联关系的提取和计算,句子之间的关联关系越多,文本越容易被理解。本发明涉及一种文本的可理解性的度量方法,其核心是依据句子之间逻辑结构来计算文本中句子之间的关联关系权重,从而度量文本的可理解性。
传统的文本分析仅仅停留在语法分析和简单的语义分析的基础之上,很少有基于文本句子之间的逻辑结构来计算句子之间的关联关系,从而度量文本的可理解性。本发明从认知科学的关联原理出发对文本的可理解性进行度量,从而为基于机器的文本理解提供技术支持。
本发明可以为网络上的搜索引擎、广告推送、电子商务和知识问答系统提供技术解决方案。


发明内容
本发明的目的在于针对目前机器分析文本的局限性,提供了一种文本可理解性的度量方法。为实现上述目的,本发明的构思是把一篇文本中的关键词,即具有重要意义的名词和动词,提取出来;统计每一个句子中出现和不出现的关键词,计算每两个句子之间的关联关系权重;在判断了多个相连句子之间的逻辑结构之后,计算多个相连句子之间的关联关系权重;最后,累加不同数目的相连句子之间的所有关联关系权重作为该文本的可理解性度量。根据上述的发明构思,本发明采用下述技术方案 一种文本可理解性的度量方法,其特征在于如下操作步骤 统计一篇文本中的关键词和句子,所述关键词就是该文本中具有重要含义的名词和动词;根据所述关键词是否在相应的句子上出现计算每两个句子之间的关联关系权重,即用两个句子共同出现的关键词数目除以这两个句子所有关键词的数目,这两个句子可能不相连。
根据多个相连句子之间的逻辑结构,定义了相连句子之间的三种逻辑结构先总后分、先分后总、和一个连一个,来计算多个相连句子之间的关联关系权重,从而度量该文本的可理解性,其特征在于操作如下步骤 1.分别计算三种逻辑结构上的关联关系权重。此时,用最小的两个句子(可能不相连)的关联关系权重作为该结构上多个相连句子之间的关联关系权重; 2.取有最大权值的逻辑结构作为最可能的逻辑结构,它的权重就是该多个相连句子之间的关联关系权重; 3.依据原有的句子排列,把从最小的2个相连句子到所有数目的相连句子之间的所有关联关系权重相加得到该文本的可理解性度量。

具体实施例方式 本发明的一个优选实施例如下。本文本可理解性的度量方法的具体步骤如下 (1)统计一篇文本中的关键词和句子,所述关键词就是该文本中具有重要含义的名词和动词; (2)根据所述关键词是否在相应的句子上出现来计算每两个句子之间的关联关系权重; (3)根据多个相连句子之间的逻辑结构来计算多个相连句子之间的关联关系权重,从而度量该文本的可理解性。
一个实例,一篇文本包括两个关键词Tom(用C1表示)和cup(用C2表示),以及如下三句话,分别用S1、S2和S3表示,则三种逻辑结构的举例如下 1.先总后分 (S1)Tom breaks a cup.(S2)The cup is new.(S3)Tom is careless. 2.先分后总 (S1)Tom is careless.(S2)The cup is new.(S3)Tom breaks a cup. 3.一个连一个 (S1)The cup is new.(S2)Tom breaks a cup.(S3)Tom is careless. 现在一篇文本有如下的三个链接的句子(S1)Tombreaks a cup.(S2)The cup is new.(S3)Tom is careless.我们将通过本发明的计算步骤先判断它的逻辑结构,再计算它的关联关系权重,从而度量该文本的可理解性。
1.提取关键词Tom(用C1表示)和cup(用C2表示)。
2.计算每两个句子(可能不相连)之间的关联关系权重,即s1→s2=0.5,s2→s3=0,s1→s3=0.5。
3.计算三个句子之间的关联关系权重,并计算该文本的可理解性,具体三个如下步骤 分别计算三种逻辑结构上的三个相连句子之间的关联关系权重, 即, a)若取逻辑结构为先分后总,则三个句子之间的关联关系权重为 b)若取逻辑结构为先总后分,则三个句子之间的关联关系权重为 此时,为了计算多个相连句子之间的关联关系 权重需要用到两个不相连句子之间的关联关系s1→s3; c)若取逻辑结构为一个连一个,则三个句子之间的关联关系权重为此时,为了计算多个相连句子之间的关联关系权重需要用到两个不相连句子之间的关联关系s1→s3; 取最大权重的逻辑结构作为三个相连句子之间的逻辑结构,其权重就是该三个相连句子之间的关联关系权重,即取先总后分的关联关系s1→s2s3=0.5,这与实际的情况相符合。
累加所有相连句子数目上的关联关系权重,作为该文本的可理解性度量,记为(s1→s2)+(s2→s3)+(s1→s2s3)=0.5+0+0.5=1。此时关联关系s1→s3不在累加和之中,是由于句子1和句子3之间并不直接相连。三个句子之间的不同顺序会影响逻辑结构的判断,以至于影响最后的文本可理解性的度量,这与实际的情况吻合。
权利要求
1.一种文本可理解性的度量方法,其特征在于操作步骤如下
(1)统计一篇文本中的关键词和句子,所述关键词就是该文本中具有重要含义的名词和动词;
(2)根据所述关键词是否在相应的句子上出现来计算每两个句子之间的关联关系权重;
(3)根据多个相连句子之间的逻辑结构来计算多个相连句子之间的关联关系权重,从而度量该文本的可理解性。
2.根据权利要求1所述的文本可理解性的度量方法,其特征在于所述步骤(2)中的两个句子之间的关联关系权重是用两个句子共同出现的所述关键词数目除以这两个句子所有关键词的数目。
3.根据权利要求1所述的文本可理解性的度量方法,其特征在于所述步骤(3)中的多个相连句子之间的逻辑结构定义为多个相连句子之间的三种逻辑结构先总后分、先分后总、和一个连一个。
4.根据权利要求3所述的文本可理解性的度量方法,其特征在于所述步骤(3)中的计算多个相连句子之间的关联关系权重的步骤为
(1)计算多个相连句子中的每两个句子之间的关联关系权重,这两个句子可能不相连;
(2)分别计算所述三种逻辑结构上的关联关系权重,此时用最小的两个句子的关联关系权重作为该结构上多个相连句子之间的关联关系权重;
(3)取有最大权值的逻辑结构作为最可能的逻辑结构,它的权重就是该多个相连句子之间的关联关系权重。
5.根据权利要求4所述的文本可理解性的度量方法,其特征在于由所述步骤(3)中所得的多个相连句子之间的关联关系权重,把不同数目的相连句子之间的所有关联关系权重相加就得到该文本的可理解性度量。
6.根据权利要求5所述的文本可理解性的度量方法,其特征在于所述不同数目的相连句子依据原有的句子排列,不同数目的句子是指前后连接的句子。
7.根据权利要求5所述的文本可理解性的度量方法,其特征在于依据原有的句子排列,所述不同数目的句子是指相前后连接的句子。
全文摘要
本发明涉及一种文本可理解性的度量方法,它是通过定义单篇文本为一个若干关键词和句子组成的矩阵;再对矩阵中句子之间的关联关系进行计算来度量该文本的可理解性。本发明其核心是把文本的理解过程看作是对该文本中句子之间关联关系的提取和计算过程,从而来度量文本的可理解性。该方法可以计算文本中句子之间的逻辑关系,从而便于计算机进行处理。本发明可以为实现基于机器的文本理解提供技术解决方案。
文档编号G06F17/27GK101520774SQ200910048310
公开日2009年9月2日 申请日期2009年3月26日 优先权日2009年3月26日
发明者骆祥峰, 宁 方, 徐炜民, 刘方方 申请人:上海大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1