专利名称:一种构建关系网络的方法和装置的制作方法
技术领域:
本申请涉及信息检索技术领域,特别涉及一种构建关系网络的方法和装置。
背景技术:
国际关系网络是随着当今网络时代兴起,用以研究分析国际关系以及国家实体之间行为互动的一种新方法。国际关系网络通过网络的形式来表现国家及国家之间的关系,将国际关系以一个清晰、直观的网络图形式展现给用户。在国际关系网络中,复杂的国际关系被抽象成由点和边构成的网络,其中,点代表国家,边代表国家之间的关系,例如贸易关系、夕卜交关系等。传统的国际关系网络主要采用诸如JUNG (Java Universal Network/Graph),prefuse等网络可视化软件,将得到的国家及国家关系高度抽象,抛弃实际的国家地理位置信息,构造出类似于图1所示的国际关系网络,在图1所示的国际关系网络中,点代表国家,点之间的连线表示连线连接的两个国家之间的贸易关系,不关注国家所处的实际地理位置以及国家之间的远近关系,点的绝对位置以及远近相对位置与国家的实际地理位置并无联系O然而,国家地理位置以及国家之间的远近关系在国际关系中有着不可忽视的作用,以贸易网络为例,起到交通枢纽作用的一般都是地理位置居于东西方之间十字路口的国家。因此,在构建国际关系网络,特别是在将国际关系网络可视化时,应当考虑地理位置信息,将国际关系网络与地图地理信息结合起来,以便更加全面充分的展示网络信息,利用地图良好的空间认知和信息辅助能力,简化认知过程,提高用户对于国际关系的认知效率。法新社已于2012年推出的e-diplomacy系统,该系统在一定程度上实现了基于地理位置的国际关系网络可视化。在该系统中,选择MAP界面,再选定单个或两个国家,就可以在世界地图底板上显示出与选定国家有关系的国家和国际组织,并通过深浅不同的连接线表示关系的强弱。该系统的缺点是不能显示出完整的国际关系网络。另外,无论是传统的国际关系网络,还是法新社推出的e-diplomacy系统,均没有对国际关系进行分类,只是以紧密程度来进行区分。然而,紧密程度并不能确切的表示国家之间的关系,例如,有些国家因为相互敌对而具有较高的紧密程度,有些国家则因为相互友好而具有较高的紧密程度,如果不对这些敌对性质和友好性质进行区分,将难以通过国际关系网络准确的表不国家之间的关系。
发明内容
有鉴于此,本发明的目的在于提供一种构建关系网络的方法,该方法能够提高国际关系计算的准确性。为实现上述目的,本发明提供的技术方案为:一种构建关系网络的方法,该方法包括:对所有样本文本进行分析,统计任意两个区域名称共同出现的样本文本数、该两个区域名称均未出现的样本文本数、该两个区域名称各自出现的样本文本数、以及该两个区域名称中仅一个区域名称出现的样本文本数,根据统计结果确定该两个区域之间的紧密程度和主从程度;从所有样本文本中提取包含所述任意两个区域名称的完整语句,对提取的每个完整语句进行句法分析,根据句法分析结果以及预设情感词典统计该两个区域之间的友好程度;根据所述任意两个区域之间的紧密程度、友好程度和主从程度确定该两个区域之间的关系。一种构建关系网络的装置,该装置包括:存储单元,统计单元、语句分析单元、关系确定单元;所述存储单元,用于存储样本文本;用于存储预先设置的情感词典;所述统计单元,用于对所有样本文本进行分析,统计任意两个区域名称共同出现的样本文本数、该两个区域名称均未出现的样本文本数、该两个区域名称各自出现的样本文本数、以及该两个区域名称中仅一个区域名称出现的样本文本数,根据统计结果确定该两个区域之间的紧密程度和主从程度;所述语句分析单元,用于从所有样本文本中提取包含所述任意两个区域名称的完整语句,对提取的每个完整语句进行句法分析,根据句法分析结果以及预设情感词典统计该两个区域之间的友好程度;所述关系确定单元,用于根据所述任意两个区域之间的紧密程度、友好程度和主从程度确定该两个区域之间的关系。综上所述,本发明中通过对样本文本进行分析,统计各区域名称在样本文本中的出现情况确定各区域与其它区域之间的紧密程度、主从关系,并根据预设情感词典对样本文本进行基于完整语句的句法分析,确定各区域与其它区域之间的友好程度,根据所述紧密程度、主从程度和友好程度确定各区域与其它区域之间的关系。当所述区域以国家为单位划分时,应用本发明,可以提高国际关系计算的准确性。
图1是现有技术实现的国际关系网络示意;图2是本发明实施例构建关系网络的方法流程图;图3是本发明实施例句法分析结果示意图;图4是本发明实施例实现关系网络可视化的系统架构图;图5是本发明实施例构建关系网络的装置的结构示意图。
具体实施例方式为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本发明所述方案作进一步地详细说明。本发明实施例中,以国家为单位进行区域划分,区域之间的关系也即是国际关系。将区域之间的关系分为五种:对立关系、中立关系、冲突关系、合作关系、主从关系。其中,
对立关系:表明两个区域之间联系不紧密,具有对立关系的两个区域的名称很少出现在同一网页或其它类型的文本中,例如美国和古巴这两个国家的名称就很少出现在同一文本中。中立关系:表明两个区域之间联系不紧密也不冷淡,紧密程度稍大于具有对立关系的区域之间的紧密程度。冲突关系:表明两个区域之间联系较为紧密,但是这种紧密关系却是因为争端存在而形成的,例如,美国攻打伊拉克,这两个国家的名称因为战争而经常出现在同一网页或其它类型的文本中。合作关系:表明两个区域之间联系较为紧密,其紧密关系是因为在相互交往过程中的友好合作而经常出现在同一网页或其它类型的文本中,而且,这两个区域在相互交往中彼此地位平等。主从关系:表明两个区域之间联系较为紧密,其紧密关系是因为在相互交往过程中的合作而经常出现在同一网页或其它类型的文本中,但是,这两个区域在相互交往中彼此地位不平等。本发明实施例中,为 了区分区域之间的友好和冲突关系,预先设置情感词典,基于上述各种区域关系的特点,通过对大量样本文本内容进行分析确定两个区域之间的紧密程度、主从程度、以及友好程度,根据分析结果确定两个区域之间的关系。参见图2,图2是本发明实施例构建关系网络的方法流程图,主要包括以下步骤:步骤201、对所有样本文本进行分析,统计任意两个区域名称共同出现的样本文本数、该两个区域名称均未出现的样本文本数、该两个区域名称各自出现的样本文本数、以及该两个区域名称中仅一个区域名称出现的样本文本数,根据统计结果确定该两个区域之间的紧密程度和主从程度。为了分析两个区域之间的关系,需要预先获取大量用于分析两个区域之间的关系的样本文本,这些样本文本可以从互联网中获取,例如,以国家为单位划分区域,下载国际新闻相关的网页,将网页内容作为待分析样本文本。本发明实施例中,根据两个区域名称共同出现的样本文本数、均未出现的样本文本数、该两个区域名称各自出现的样本文本数、以及仅其中一个区域名称出现的样本文本数确定该两个区域之间的紧密程度和主从程度,其中,采用公式一计算两个区域之间的紧密程度:
权利要求
1.一种构建关系网络的方法,其特征在于,该方法包括: 对所有样本文本进行分析,统计任意两个区域名称共同出现的样本文本数、该两个区域名称均未出现的样本文本数、该两个区域名称各自出现的样本文本数、以及该两个区域名称中仅一个区域名称出现的样本文本数,根据统计结果确定该两个区域之间的紧密程度和主从程度; 从所有样本文本中提取包含所述任意两个区域名称的完整语句,对提取的每个完整语句进行句法分析,根据句法分析结果以及预设情感词典统计该两个区域之间的友好程度; 根据所述任意两个区域之间的紧密程度、友好程度和主从程度确定该两个区域之间的关系。
2.根据权利要求1所述的构建关系网络的方法,其特征在于, 所述根据统计结果确定该两个区域之间的紧密程度和主从程度的方法为:
3.根据权利要求2所述的构建关系网络的方法,其特征在于, 所述情感词典中包括多个情感词,每个情感词具有情感加权值; 根据句法分析结果以及预设情感词典统计该两个区域之间的友好程度的方法为:根据句法分析结果确定该两个区域名称之间的连接词,根据预设情感词典确定该连接词的情感加权值,使用该连接词的情感加权值对该两个区域之间的友好程度进行加权计算。
4.根据权利要求1、2或3所述的构建关系网络的方法,其特征在于, 所述关系包括:对立关系、中立关系、冲突关系、合作关系、主从关系; 根据所述任意两个区域之间的紧密程度、友好程度和主从程度确定该两个区域之间关系的方法为: 如果该两个区域之间的紧密程度小于第一预设紧密程度阈值,则确定该两个区域之间是对A关系; 如果该两个区域之间的紧密程度大于或等于第一预设紧密程度阈值且小于第二预设紧密程度阈值,则确定该两个区域之间是中立关系; 如果该两个区域之间的紧密程度大于或等于第二预设紧密程度,则若该两个区域之间的友好程度小于预设友好阈值,则确定该两个区域之间是冲突关系;若该两个区域之间的友好程度大于或等于预设友好阈值,则当该两个区域之间的主从程度小于预设主从程度阈值时,确定该两个区域之间是合作关系,当该两个区域之间的主从程度大于或等于预设主从程度阈值时,确定该两个区域之间是主从关系。
5.根据权利要求4所述的构建关系网络的方法,其特征在于, 预先配置地图底板信息; 接收到关系查询请求时,判断关系查询请求的查询类型,当查询类型是区域查询时,在预先配置的地图底板上标注查询请求中的每个区域与其它区域间的关系;当查询类型是关系查询时,针对查询请求中的任一关系,确定具有该关系的所有区域对,根据确定的区域对在预先配置地图底板上标注该关系。
6.根据权利要求5所述的构建关系网络的方法,其特征在于, 该方法进一步包括:对所有样本文本进行分析,统计每个区域名称出现的样本文本数,根据该区域名称出现的样本文本数确定该区域的被关注程度; 所述在预先配置的地图底板上标注关系查询请求中的每个区域与其它区域间的关系时,进一步标注该区域的被关注程度。
7.—种构建关系网络的装置,其特征在于,该装置包括:存储单元,统计单元、语句分析单兀、关系确定单兀; 所述存储单元,用于存储样本文本;用于存储预先设置的情感词典; 所述统计单元,用于对所有样本文本进行分析,统计任意两个区域名称共同出现的样本文本数、该两个区域名称均未出现的样本文本数、该两个区域名称各自出现的样本文本数、以及该两个区域名称中仅一个区域名称出现的样本文本数,根据统计结果确定该两个区域之间的紧密程度和主从程度; 所述语句分析单元,用于从所有样本文本中提取包含所述任意两个区域名称的完整语句,对提取的每个完整语句进行句法分析,根据句法分析结果以及预设情感词典统计该两个区域之间的友好程度; 所述关系确定单元,用于根据所述任意两个区域之间的紧密程度、友好程度和主从程度确定该两个区域之间的关系。
8.根据权利要求7所述的构建关系网络的装置,其特征在于, 所述统计单元在根据统计结果确定该两个区域之间的紧密程度和主从程度时,用于: 采用以下公式计算该两个区域之间的紧密程度:
9.根据权利要求8所述的构建关系网络的装置,其特征在于, 所述情感词典中包括多个情感词,每个情感词具有情感加权值; 所述语句分析单元在根据句法分析结果以及预设情感词典统计该两个区域之间的友好程度时,用于:根据句法分析结果确定该两个区域之间的连接词,根据预设情感词典确定该连接词的情感加权值,使用该连接词的情感加权值对该两个区域之间的友好程度进行加权计算。
10.根据权利要求7、8或9所述的构建关系网络的装置,其特征在于, 所述关系包括:对立关系、中立关系、冲突关系、合作关系、主从关系; 所述关系确定单元在根据所述任意两个区域之间的紧密程度、友好程度和主从程度确定该两个区域之间的关系时,用于: 如果该两个区域之间的紧密程 度小于第一预设紧密程度阈值,则确定该两个区域之间是对A关系; 如果该两个区域之间的紧密程度大于或等于第一预设紧密程度阈值且小于第二预设紧密程度阈值,则确定该两个区域之间是中立关系; 如果该两个区域之间的紧密程度大于或等于第二预设紧密程度,则若该两个区域之间的友好程度小于预设友好阈值,则确定该两个区域之间是冲突关系;若该两个区域之间的友好程度大于或等于预设友好阈值,则当该两个区域之间的主从程度小于预设主从程度阈值时,确定该两个区域之间是合作关系,当该两个区域之间的主从程度大于或等于预设主从程度阈值时,确定该两个区域之间是主从关系。
11.根据权利要求10所述的构建关系网络的装置,其特征在于,该装置还包括配置单元、结果展示单元; 所述配置单元,用于预先配置地图底板信息; 所述结果展示单元,用于接收到关系查询请求,判断关系查询请求的查询类型,当查询类型是区域查询时,在预先配置的地图底板上标注查询请求中的每个区域与其它区域之间的关系;当查询类型是关系查询时,针对查询请求中的任一关系,确定具有该关系的所有区域对,根据确定的区域对在预先配置地图底板上标注该关系。
12.根据权利要求11所述的构建关系网络的装置,其特征在于, 所述统计单元,进一步用于对所有样本文本进行分析,统计每个区域名称出现的样本文本数,根据该区域名称出现的样本文本数确定该区域的被关注程度; 所述结果展示单元在预先配置的地图底板上标注关系查询请求中的每个区域与其它区域之间的关系时,进一步标注该区域的被关注程度。
全文摘要
本发明提供了一种构建关系网络的方法和装置,技术方案为对所有样本文本进行分析,统计任意两个区域名称共同出现的样本文本数、该两个区域均未出现的样本文本数、以及该两个区域名称中仅一个区域名称出现的样本文本数,根据统计结果确定该两个区域之间的紧密程度和主从程度;从所有样本文本中提取包含所述任意两个区域名称的完整语句,对提取的每个完整语句进行句法分析,根据句法分析结果以及预设情感词典统计该两个区域之间的友好程度;根据所述任意两个区域之间的紧密程度、友好程度和主从程度确定该两个区域之间的关系。本发明能够提高国际关系计算的准确性。
文档编号G06F17/27GK103150350SQ20131005220
公开日2013年6月12日 申请日期2013年2月18日 优先权日2013年2月18日
发明者李蕾, 王骏, 王明印, 赵开明, 吴晨生 申请人:北京邮电大学, 北京市科学技术情报研究所