多数据源的信息处理装置、服务器及方法_2

文档序号:9579266阅读:来源:国知局
行合并与区分,利用聚类方法划分出各个不同的候选实体组;
[0048]步骤303:利用基于规则的方法,将该候选实体组的信息中的含有互斥属性的实体进行分离。
[0049]在本实施例中,比较各个实体之间的相似程度,将相似度大于预先设定的阈值的实体聚在一起,例如,在进行人名判定时,可比较各个人名之间的相似程度。
[0050]在本实施例中,根据与该实体相关的其他列的信息,对候选池中的信息进行合并与区分,利用聚类方法划分出各个不同的候选实体组。例如,在进行人名判定时,可利用地址,单位等信息,找出统计知识、强区分属性等。然后,可使用现有的任一种聚类方法划分出不同的候选实体组,例如,使用凝聚层次聚类法(Hierarchical Agglomerative Cluster)、k均值(k-means)聚类法等。本发明实施例不对聚类的具体方法进行限定。
[0051]在本实施例中,在第一判定单元101对至少两个数据源中的信息进行同一实体的判定后,基于判定的结果,链接单元102将至少两个数据源中的实体链接到预先设定的外部资源中。其中,该预先设定的外部资源可以是现有的任一个或多个外部资源,例如,维基百科(Wikipedia)、Freebase 等。
[0052]在本实施例中,可使用现有的任一种方法链接到预先设定的外部资源中。以下对本发明实施例的将至少两个数据源中的实体链接到预先设定的外部资源中的方法进行示例性的说明。
[0053]图4是本实施例的链接单元的结构示意图。如图4所示,该链接单元102包括:第三判定单元401、第一查找单元402以及第二查找单元403,其中,
[0054]第三判定单元401用于判定该实体是否存在歧义;
[0055]第一查找单元402用于当该实体不存在歧义时,利用完全匹配和/或扩展属性的方法在该外部资源中查找信息;
[0056]第二查找单元403用于当该实体存在歧义时,利用与该实体相关的其他属性以及该外部资源中的信息区分,在该外部资源中查找信息。
[0057]图5是本实施例的将至少两个数据源中的实体链接到预先设定的外部资源中的方法流程图。如图5所示,该方法包括:
[0058]步骤501:判定该实体是否存在歧义;其中,当判断结果为“否”时,进入步骤502,当判定结果为“是”时,进入步骤503 ;
[0059]步骤502:利用完全匹配和/或扩展属性的方法在该外部资源中查找信息;
[0060]步骤503:利用与该实体相关的其他属性以及该外部资源中的信息区分,在该外部资源中查找信息。
[0061]在本实施例中,将所述至少两个数据源中的实体链接到预先设定的外部资源中之后,第一扩展单元103根据外部资源中的信息对该实体的属性进行扩展。其中,可使用现有的任一种方法根据外部资源中的信息对该实体的属性进行扩展,以下对本发明实施例的根据外部资源中的信息对该实体的属性进行扩展的方法进行示例性的说明。
[0062]图6是本实施例的第一扩展单元的结构示意图。如图6所示,该第一扩展单元103包括:第一扩展模块601以及第二扩展模块602,其中,
[0063]第一扩展模块601用于根据外部资源中的结构化信息对该实体的属性进行扩展;
[0064]第二扩展模块602用于从外部资源中的非结构化信息中提取结构化信息,从而对该实体的属性进行扩展。
[0065]在本实施例中,第一扩展单元103可以同时包括第一扩展模块601以及第二扩展模块602,也可以包括其中的任一个模块。
[0066]图7是本实施例的根据外部资源中的信息对该实体的属性进行扩展的方法流程图。如图7所示,该方法包括:
[0067]步骤701:根据外部资源中的结构化信息对该实体的属性进行扩展;
[0068]步骤702:从外部资源中的非结构化信息中提取结构化信息,从而对该实体的属性进行扩展。
[0069]在本实施例中,该方法可以同时包括步骤701以及步骤702,也可以具有其中的任一个步骤。
[0070]在本实施例中,例如,可利用维基百科(Wikipedia)中的已格式化的Infobox信息,或页面中的其他信息,对该实体的属性进行扩展。
[0071]在本实施例中,在根据外部资源中的信息对所述实体的属性进行扩展之后,第二判定单元104判断属性扩展后的信息是否满足预先设定的条件,当属性扩展后的信息不满足预先设定的条件时,将属性扩展后的信息用于进行上述同一实体的判定,当所述属性扩展后的信息满足预先设定的条件时,将属性扩展后的信息输出。
[0072]在本实施例中,可根据实际需要确定该预先设定的条件。例如,该预先设定的条件是:迭代次数达到设定的次数,或者属性扩展后的信息的改变量小于设定的阈值。
[0073]在本实施例中,当属性扩展后的信息不满足预先设定的条件时,将属性扩展后的信息用于进行上述同一实体的判定,即以属性扩展后的信息为基础,重复上述步骤,直到满足该预先设定的条件为止。通过该迭代过程,能够不断提高信息的准确性和全面性。
[0074]在本实施例中,该装置还可以包括:第一补全单元105,其中,第一补全单元105用于根据上述同一实体的判定后的信息,进行同一实体的属性补全,并将属性补全后的信息用于进行上述链接,其中,在进行该属性补全时,标明该属性的出处和/或可信度。
[0075]在本实施例中,可使用现有的任一种方法进行同一实体的属性补全。例如,可利用其他列的信息进行缺失信息的补全,其中,可采用增加候选的方式进行补全。
[0076]例如,对于指向同一个人的两行信息,如有一行信息中含有地址信息,而另一行中没有,则可将地址信息加入到没有该信息的行中,并在加入该地址信息时标明该属性的出处和/或可信度。其中,该可信度可利用现有的任一种方法获得,例如,该可信度可利用规则或统计信息而获取。
[0077]在本实施例中,第一补全单元105是可选部件,在图1中用虚线框表示。
[0078]通过根据上述同一实体的判定后的信息进行同一实体的属性补全,能够进一步提高信息的准确性和全面性。
[0079]在本实施例中,该装置还可以包括:翻译单元106,其中,翻译单元106用于对多种语言的实体进行翻译,并将翻译后的结果用于进行所述链接。其中,可使用现有的任一种方法对多种语言的实体进行翻译,以下对本发明实施例的对多种语言的实体进行翻译的方法进行示例性的说明。
[0080]图8是本实施例的翻译单元的结构示意图。如图8所示,该翻译单元106包括:候选获取单元801、检索单元802以及确定单元803,其中,
[0081]候选获取单元801用于利用机器翻译获得该实体的翻译候选项;
[0082]检索单元802用于利用搜索引擎检索获得该实体以及翻译候选项的共现统计信息,从而获得可能的候选对;
[0083]确定单元803用于利用检索结果中的其他信息与该实体的相应属性的相似程度,确定该可能的候选对中的每个候选对为正确翻译结果的可信度。
[0084]图9是本实施例的对多种语言的实体进行翻译的方法流程图。如图9所示,该方法包括:
[0085]步骤901:利用机器翻译获得该实体的翻译候选项;
[0086]步骤902:利用搜索引擎检索获得该实体以及翻译候选项的共现统计信息,从而获得可能的候选对;
[0087]步骤903:利用检索结果中的其他信息与该实体的相应属性的相似程度,确定该可能的候选对中的每个候选对为正确翻译结果的可信度。
[0088]本实施例的利用机器翻译获得候选项、利用搜索引擎进行检索以及确定可信度可使用现有的任一种方法。例如,对于文献数据库,关于论文的信息可能用中文和英文两种语言进行描述,同一作者也可以发表中文文献和相应的英文文献,可以利用现有的面向人名的翻译系统,查找相应的该人名的翻译候选项,并利用搜索引用检索该人名的中文和英文的共现共计信息,利用检索结果中的其他信息与该人名的相应属性的相似程度,采用现有的基于规则的方法确定该可能的候选对中的每个候选对为正确翻译结果的可信度。
[0089]在本实施例中,翻译单元106是可选部件,在图1中用虚线框表示。
[0090]通过对多种语言的实体进行翻译,并将翻译后的结果用于进行所述链接,能够进一步提高信息的准确性和全面性,以利于信息的分析统计。
[0091]在本实施例中,该装置还可以包括:第二补全单元107,其用于根据对多种语言的实体进行翻译后的结果,进行同一实体的属性补全,并将属性补全后的信息用于进行上述链接。
[0092]在本实施例中,该第二补全单元107进行同一实体的属性补全可使用现有的任一种方法。例如,可使用与第一补全单兀105进行同一实体的属性补全时相同的方法,此处不再赘述。
[0093]在本实施例中,第二补全单元107是可选部件,在图1中用虚线框表示。
[0094]通过根据对多种语言的实体进行翻译后的结果,进行同一实体的属性补全,并将属
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1