一种知识点关系强度的度量方法及其系统的制作方法
【专利摘要】本发明提供一种知识点关系强度的度量方法及其系统,首先计算所有知识点显性关系强度,并生成知识点关系强度矩阵;其次根据所有知识点所述关系强度矩阵构造带权有向图;然后根据所述带权有向图计算知识点隐性关系强度,并生成知识点隐性关系强度矩阵;再遍历所述隐性关系强度矩阵,更新所述知识点关系强度矩阵。上述技术方案有效避免了现有技术中知识点关系强度的判断缺乏一个绝对的可衡量值、关系强度的度量不够准确以及部分更强的关系强度不能被发现的问题。
【专利说明】一种知识点关系强度的度量方法及其系统
【技术领域】
[0001] 本发明涉及一种知识点关系强度的度量方法及其系统,属于电数字数据处理技术 领域。
【背景技术】
[0002] 随着知识经济时代的到来,数字出版已成为出版业发展的必然趋势,人们已从纸 质阅读大量地转向电子阅读。电子图书、期刊、数字报刊等多样化的出版资源蕴含大量权威 知识,具有很高的应用价值。这些数字出版资源大量地采用书籍或期刊等文档篇章的形式 组织和传播知识和信息,人们希望获取的并非文档本身,而是直接获得文档里的相关知识 点,即将所有本领域的相关知识点能够精确搜索、采集,以便研究学习。
[0003] 同领域的知识点之间存在着关联,通过同一文本中知识点及其解释可以直接发现 的关系,我们称之为"显性关系",也可以通过不同文本中知识点及其解释间接发现的关系, 我们称之为"隐性关系"。百科全书作为一种数字出版资源,是对领域知识点概要信息的简 单总结。百科全书中的知识点(也称为词条)描述了知识点名称和知识点解释,解释文本 中通常会提及部分其他相关知识点。例如,在《中国大百科全书--中国历史》中,对于知 识点"秦始皇"的解释为"中国统一秦王朝的开国皇帝...免除吕不韦的相职,令其徙处蜀 郡...始皇三十四年,又采纳丞相李斯的建议"(省略了部分内容,已经使用...注明)。 从解释中可以看到,知识点"秦始皇"与知识点"吕不韦"有关联关系。同理,知识点"秦始 皇"与知识点"李斯"也有关联关系,这些关系是存在于知识点及其解释之间的显性关系。 但是,在两个知识点之间,除了显性关系,还可能存在多个间接地隐性关系,并且隐性关系 可能比显性关系更具代表性。因此基于知识点的显性关系,需要进一步挖掘知识点间的隐 性关系,综合考虑知识点的显性关系和隐性关系,才能对知识点关系强度做出更好的度量。
[0004] 现有技术采用的知识点关系强度的度量方法为:计算知识点与知识点之间的显性 关系强度;计算知识点与知识点之间的关系强度比例;根据知识点与知识点之间的显性关 系强度和关系强度比例计算知识点与知识点之间的隐性关系强度;再计算知识点关系强 度。上述方法所述的知识点关系强度是通过知识点在各自相关的文本中出现的次数来衡量 知识点强度的大小,这种衡量方式不能确定关系强度最大可以取到的值,导致关系强度的 判断缺乏一个绝对的可衡量值;同时,隐性关系是根据间接知识点之间的关系强度及关系 强度的比例获得的关系强度,关系强度的比例指该知识点显性关系强度与所有相关知识点 强度总和的比值,这种获取隐性关系强度的方法只是相对性获取了知识点的隐性关系,并 未从全局考虑整个知识体系,将整个知识体系中的所有隐性关系进行分析处理,关系强度 的度量不够准确;另外,如果两知识点的关系是通过另一个间接知识点产生了更强的关系, 如果仅通过考虑两知识点在各自相关文本中的出现次数的方式来衡量,则会导致这种更强 的关系不能被发现。因此,需要从全局空间衡量知识点的关系强度。
【发明内容】
[0005] 本发明所要解决的技术问题是现有技术中知识点关系强度的判断缺乏一个绝对 的可衡量值、关系强度的度量不够准确以及部分更强的关系强度不能被发现的问题,从全 局空间衡量知识点的关系强度,采用对知识点关系强度绝对可衡量值,提供一种知识点关 系强度的度量方法及其系统。
[0006] 为解决上述技术问题,本发明是通过以下技术方案实现的:
[0007] -种知识点关系强度的度量方法,包括如下步骤:
[0008] 计算所有知识点显性关系强度,并生成知识点关系强度矩阵Μ ;
[0009] 根据所有知识点所述关系强度矩阵构造带权有向图G ;
[0010] 根据所述带权有向图计算知识点隐性关系强度,并生成知识点隐性关系强度矩阵 I;
[0011] 遍历所述隐性关系强度矩阵I,更新所述知识点关系强度矩阵Μ。
[0012] 所述计算所有知识点显性关系强度,并生成知识点关系强度矩阵Μ的处理包括如 下步骤:
[0013] 计算知识点正向显性关系强度;
[0014] 计算知识点反向显性关系强度;
[0015] 根据知识点所述正向显性关系强度和所述反向显性关系强度计算知识点显性关 系强度;
[0016] 根据所有知识点的显性关系强度,生成所述知识点关系强度矩阵Μ。
[0017] 所述知识点正向显性关系强度的计算方法为:
[0018]
【权利要求】
1. 一种知识点关系强度的度量方法,其特征在于,包括如下步骤: 计算所有知识点显性关系强度,并生成知识点关系强度矩阵Μ ; 根据所有知识点所述关系强度矩阵构造带权有向图G ; 根据所述带权有向图计算知识点隐性关系强度,并生成知识点隐性关系强度矩阵I ; 遍历所述隐性关系强度矩阵I,更新所述知识点关系强度矩阵Μ。
2. 根据权利要求1所述的知识点关系强度的度量方法,其特征在于,所述计算所有知 识点显性关系强度,并生成知识点关系强度矩阵Μ的处理包括如下步骤: 计算知识点正向显性关系强度; 计算知识点反向显性关系强度; 根据知识点所述正向显性关系强度和所述反向显性关系强度计算知识点显性关系强 度; 根据所有知识点的显性关系强度,生成所述知识点关系强度矩阵Μ。
3. 根据权利要求2所述的知识点关系强度的度量方法,其特征在于,所述知识点正向 显性关系强度的计算方法为:
其中,fP(i,j)为从知识点〇i到知识点%的正向显性关系强度,μ为知识点%在知识 点化的相关文本中出现的次数,β为控制因子,0.5彡β彡2,i、j为非负整数,i,j=l,2,··· η,η为知识点的个数。
4. 根据权利要求2或3所述的知识点关系强度的度量方法,其特征在于,所述知识点反 向显性关系强度的计算方法为:
其中,fN(i,j)为从知识点〇i到知识点%的反向显性关系强度,α为关联因子, 1彡α彡5, α为正整数,fp(j,i)是从知识点0j到知识点〇i的正向显性关系强度。
5. 根据权利要求1-4任一所述的知识点关系强度的度量方法,其特征在于,所述知识 点显性关系强度的计算方法为:
其中,fE(i,j)为从知识点〇i到知识点%的显性关系强度,fP(i,j)为从知识点〇i到知 识点〇j的正向显性关系强度,fN(i,j)为从知识点〇i到知识点 〇j的反向显性关系强度,α 为关联因子,1彡c[彡5, α为正整数。
6. 根据权利要求1-5任一所述的知识点关系强度的度量方法, 其特征在于,所述带权有向图G包括边、权重和顶点, 其中,边和权重的设置方法为: 当ΜΑ0时,G中从知识点〇i到知识点〇」的边的权重设置为-In%」);当MfO时,G中 不存在从知识点〇i到知识点%的边,其中,表示知识点〇i到知识点%的显性关系强度; 所述带权有向图G的顶点与Μ的顶点相同。
7. 根据权利要求1-6任一所述的知识点关系强度的度量方法,其特征在于:所述带权 有向图G用矩阵表示。
8. 根据权利要求1-7任一所述的知识点关系强度的度量方法,其特征在于,所述知识 点隐性关系强度的计算方法为: ^(i, j)=exp (-Cij) 其中,fji,j)表示知识点〇i到知识点%的隐性关系强度,Cu表示在所述带权有向图 G中知识点〇i到知识点%的最短简单路径长度; 如果知识点〇i到知识点%不存在简单路径,则Aa,j)等于零;知识点到自身的隐性 关系强度设置为零; 将隐性关系强度Aa,j)保存为矩阵形式,则生成了知识点隐性关系强度矩阵I。
9. 根据权利要求1-8任一所述的知识点关系强度的度量方法, 其特征在于,所述遍历所述隐性关系强度矩阵I,更新所述知识点关系强度矩阵Μ的过 程包括如下步骤: 遍历所述隐性关系强度矩阵I中的每一项; 判断L与^的大小; 如果Iu>Mm对重新赋值,Mu=、,更新所述知识点关系强度矩阵Μ后,处理所述隐 性关系强度矩阵I中的下一项;如果L < My则直接处理所述隐性关系强度矩阵I中的下 一项,直到遍历完所述隐性关系强度矩阵I。
10. 根据权利要求8或9所述的知识点关系强度的度量方法,其特征在于:所述 最短简单路径长度Cij计算方法为Di jkstra算法、SPFA算法、Floyd-Warshall算法或 Bellman-Ford 算法。
11. 根据权利要求3-10任一所述的知识点关系强度的度量方法,其特征在于:所述控 制因子β=1。
12. 根据权利要求4-10任一所述的知识点关系强度的度量方法,其特征在于:关联因 子 α =2。
13. -种知识点关系强度的度量系统,其特征在于,包括: 知识点关系强度矩阵生成模块,用于计算所有知识点显性关系强度,并生成知识点关 系强度矩阵Μ ; 带权有向图构造模块,用于根据所有知识点所述关系强度矩阵构造带权有向图G ; 知识点隐性关系强度矩阵生成模块,用于根据所述带权有向图计算知识点隐性关系强 度,并生成知识点隐性关系强度矩阵I ; 更新模块,用于遍历所述隐性关系强度矩阵I,更新所述知识点关系强度矩阵Μ。
14. 根据权利要求13所述的知识点关系强度的度量系统,其特征在于,所述知识点关 系强度矩阵生成模块包括: 正向显性关系强度计算单元,用于计算知识点正向显性关系强度; 反向显性关系强度计算单元,用于计算知识点反向显性关系强度; 显性关系强度计算单元,用于根据知识点所述正向显性关系强度和所述反向显性关系 强度计算知识点显性关系强度; 关系强度矩阵生成单元,用于根据所有知识点的显性关系强度,生成所述知识点关系 强度矩阵Μ。
15. 根据权利要求13或14所述的知识点关系强度的度量系统,其特征在于,所述知识 点正向显性关系强度的计算方法为:
其中,fP(i,j)为从知识点〇i到知识点〇」的正向显性关系强度,μ为知识点〇j在知识 点〇i的相关文本中出现的次数,β为控制因子,〇. 5彡β彡2,i、j为非负整数,i,j=l,2,··· η,η为知识点的个数。
16. 根据权利要求14或15所述的知识点关系强度的度量系统,其特征在于,所述知识 点反向显性关系强度的计算方法为:
其中,fN(i,j)为从知识点〇i到知识点%的反向显性关系强度,α为关联因子, 1彡α彡5, α为正整数,fp(j,i)是从知识点0j到知识点〇i的正向显性关系强度。
17. 根据权利要求13-16任一所述的知识点关系强度的度量系统,其特征在于,所述知 识点显性关系强度的计算方法为:
其中,fE(i,j)为从知识点〇i到知识点%的显性关系强度,fP(i,j)为从知识点〇i到知 识点〇j的正向显性关系强度,fN(i,j)为从知识点〇i到知识点 〇j的反向显性关系强度,α 为关联因子,1彡c[彡5, α为正整数。
18. 根据权利要求13-17任一所述的知识点关系强度的度量系统,其特征在于,所述带 权有向图G包括边、权重和顶点, 其中,边和权重的设置方法为: 当ΜΑ0时,G中从知识点〇i到知识点〇」的边的权重设置为-In%」);当MfO时,G中 不存在从知识点〇i到知识点%的边,其中,表示知识点〇i到知识点%的显性关系强度; 所述带权有向图G的顶点与Μ的顶点相同。
19. 根据权利要求13-18任一所述的知识点关系强度的度量系统,其特征在于:所述带 权有向图G用矩阵表示。
20. 根据权利要求14-19任一所述的知识点关系强度的度量系统,其特征在于,所述知 识点隐性关系强度的计算方法为: ^(i, j)=exp (-Cij) 其中,fji,j)表示知识点〇i到知识点%的隐性关系强度,Cu表示在所述带权有向图 G中知识点〇i到知识点%的最短简单路径长度,; 如果知识点〇i到知识点%不存在简单路径,则Aa,j)等于零;知识点到自身的隐性 关系强度设置为零; 将隐性关系强度Aa,j)保存为矩阵形式,则生成了知识点隐性关系强度矩阵I。
21. 根据权利要求13-20任一所述的知识点关系强度的度量系统,其特征在于,所述更 新模块包括: 查找单元,用于遍历所述隐性关系强度矩阵I中的每一项; 判断单元,用于判断L与的大小; 更新单元,用于如果IiPMy对重新赋值,Mu=Im更新所述知识点关系强度矩阵Μ 后,处理所述隐性关系强度矩阵I中的下一项;如果L < My,则直接处理所述隐性关系强 度矩阵I中的下一项,直到遍历完所述隐性关系强度矩阵I。
22. 根据权利要求13-21任一所述的知识点关系强度的度量系统,其特征在于:所 述最短简单路径长度Cij计算方法为Di jkstra算法、SPFA算法、Floyd-Warshall算法或 Bellman-Ford 算法。
23. 根据权利要求15-22任一所述的知识点关系强度的度量系统,其特征在于:所述控 制因子β=1。
24. 根据权利要求16-22任一所述的知识点关系强度的度量系统,其特征在于:所述关 联因子α =2。
【文档编号】G06F17/30GK104216932SQ201310456247
【公开日】2014年12月17日 申请日期:2013年9月29日 优先权日:2013年9月29日
【发明者】叶茂, 汤帜, 徐剑波 申请人:北大方正集团有限公司, 北京方正阿帕比技术有限公司, 北京大学