词库更新装置、数据整合装置和方法以及电子设备的制作方法

文档序号:6488843阅读:149来源:国知局
词库更新装置、数据整合装置和方法以及电子设备的制作方法
【专利摘要】本公开提供一种词库更新装置和方法、数据整合装置和方法以及电子设备。该词库更新装置包括:语句表达单元,用于收集来自不同数据源的语句并对收集到的每个语句进行处理,以利用多元组来表达每个语句;候选词集合形成单元,用于基于多元组中的分量并且根据预定词库,形成用于更新该预定词库的候选词集合;候选词判定单元,用于针对候选词集合中的每个候选词,根据包含该候选词的至少一个多元组中除该候选词之外的一个或多个其它分量,判定该候选词是否与预定词库中的词是同一类型;词库更新单元,用于在候选词被判定为与该预定词库中的词是同一类型时,使用该候选词更新词库。本公开能够提高对预定词库更新的准确度率,从而提高数据处理的效率。
【专利说明】词库更新装置、数据整合装置和方法以及电子设备
【技术领域】
[0001]本公开涉及数据处理领域,尤其涉及词库更新装置、数据整合装置和方法以及电子设备。
【背景技术】
[0002]如今,人们在进行语言表达(尤其是某些复杂含义的表达)时,越来越多地使用新兴词汇,例如随着互联网的普及而涌现出的很多网络词汇。针对这些新兴词汇,如何更新现有的词库(尤其是具有预定属性的词库、例如形容词词库)是本领域目前面临的问题。当前的词库更新方法通常是人为地直接将这些词汇加入具有预定属性的词库中。这种方式显然是费时费力的。现有技术中存在一种基于分词技术和句法依存技术来更新词库的方法,但是由于通过句法依存技术仅能够获取语句中各个词汇间的关系(如动宾关系、主谓关系、定中关系),其并不能准确地确定词汇的属性,因此不能够实现对预定词库的准确的更新。此夕卜,由于不能准确地对预定词库进行更新,在对来自不同数据源的数据进行处理时会导致包含有在预定词库中没有的词汇的数据可能会被丢弃,从而导致数据处理的效率不高。
[0003]因此,当前亟需一种能够针对该新兴词汇,对词库、尤其是与该词汇具有相同特性的预定词库进行更新的装置和方法。

【发明内容】

[0004]在下文中给出了关于本公开的简要概述,以便提供关于本公开的某些方面的基本理解。应当理解,这个概述并不是关于本公开的穷举性概述。它并不意图确定本公开的关键或重要部分,也不意图限定本公开的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
[0005]鉴于现有技术的上述缺陷,本公开的目的之一是提供一种词库更新装置和方法、包含该词库更新装置的数据整合装置和方法以及电子设备,以至少克服现有技术中不能针对新兴词汇、对预定词库进行自动更新的问题。
[0006]根据本公开的一个方面,提供了一种用于自动更新预定词库的词库更新装置,包括:语句表达单元,用于收集来自不同数据源的语句并对收集到的每个语句进行处理,以利用多元组来表达每个语句;候选词集合形成单元,用于基于多元组中的分量并且根据预定词库,形成用于更新该预定词库的候选词集合;候选词判定单元,用于针对候选词集合中的每个候选词,根据包含该候选词的至少一个多元组中除该候选词之外的一个或多个其它分量,判定该候选词是否与预定词库中的词是同一类型;以及词库更新单元,用于在候选词被判定为与该预定词库中的词是同一类型时,使用该候选词更新该预定词库。
[0007]根据本公开的又一个方面,还提供一种用于自动更新预定词库的词库更新方法,包括:收集来自不同数据源的语句并对收集到的每个语句进行处理,以利用多元组来表达每个语句;基于多元组中的分量并且根据该预定词库,形成用于更新该预定词库的候选词集合;针对候选词集合中的每个候选词,根据包含该候选词的至少一个多元组中除该预定词之外的一个或多个其它分量,判定该候选词是否与预定词库中的词是同一类型;在候选词被判定为与预定词库中的词是同一类型时,使用该候选词更新该预定词库。
[0008]根据本公开的另一个方面,提供一种针对特定对象对来自不同数据源的语句进行整合的数据整合装置,包括:语句表达单元,用于收集来自不同数据源的语句并对收集到的每个语句进行处理,以利用多元组表达每个语句;预定候选词判定单元,用于将每个多元组中的与该预定词库中的词相似的分量作为与该预定词库中的词为同一类型的预定候选词并且判定每个预定候选词是否在该预定词库中;词库更新单元,用于当预定候选词不在该预定词库中时,根据包含该预定候选词的至少一个多元组中的除该预定候选词之外的一个或多个其它分量,判断该预定候选词是否与该预定词库中的词是同一类型,并且使用被判断为与该预定词库中的词为同一类型的预定候选词更新该预定词库;以及数据整合单元,用于当预定候选词在该预定词库中或者在经所述词库更新单元更新后的预定词库中的情况下,针对与所述特定对象相关的每个对象词,根据包含该对象词和相同预定候选词的多个多元组中除所述预定候选词和对象词之外的一个或多个其他分量,对所述多元组进行数据整合,得到针对所述特定对象的每个对象词的综合信息。
[0009]根据本公开的又一个方面,还提供一种针对特定对象对来自不同数据源的语句进行整合的数据整合方法,包括:收集来自不同数据源的语句并对收集到的每个语句进行处理,以利用包括对象词的多元组表达每个语句;将每个多元组中的与该预定词库中的词相似的分量作为与该预定词库中的词为同一类型的预定候选词并且判定每个预定候选词是否在该预定词库中;当预定候选词不在该预定词库中时,根据包含该预定候选词的至少一个多元组中的除该预定候选词之外的一个或多个其它分量,判断该预定候选词是否与该预定词库中的词是同一类型,并且使用被判断为与该预定词库中的词为同一类型的预定候选词更新该预定词库;以及当预定候选词在该预定词库中或者在述词库更新单元更新后的预定词库中的情况下,针对与特定对象相关的每个对象词,根据包含该对象词和相同预定候选词的多个多元组中除预定候选词和对象词之外的一个或多个其他分量,对多元组进行数据整合,得到针对所述特定对象的每个对象词的综合信息。
[0010]根据本公开的另一个方面,还提供了一种电子设备,该电子设备包括如上所述的词库更新装置或者如上所述的数据整合装置,所述电子设备尤其是手机、计算机、平板电脑、或者个人数字助理。
[0011]依据本公开的其它方面,还提供了一种使得计算机用作如上所述的词库更新装置或者数据整合装置的程序。
[0012]依据本公开的又一方面,还提供了相应的计算机可读存储介质,该计算机可读存储介质上存储有能够由计算设备执行的计算机程序,所述程序在执行时能够使所述计算设备执行上述词库更新方法或数据整合方法。
[0013]上述根据本公开实施例的词库更新装置和方法、数据整合装置和方法以及电子设备,至少能够获得以下益处之一:能够提高对预定词库更新的准确度率,并且能够充分地利用来自各种数据源的语句信息获取针对特定对象的信息,从而能够提高数据处理的效率。
[0014]通过以下结合附图对本公开的最佳实施例的详细说明,本公开的这些以及其他优点将更加明显。【专利附图】

【附图说明】
[0015]本公开可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中:
[0016]图1是示意性地示出根据本公开实施例的词库更新装置的一种示例结构的框图。
[0017]图2是示意性地示出如图1所示的候选词集合形成单元的一种可能的示例结构的框图。
[0018]图3是示意性地示出根据本公开实施例的词库更新方法的一种示例性处理的流程图。
[0019]图4是示意性地示出根据本公开实施例的数据整合装置的一种示例结构的框图。
[0020]图5是示意性地示出根据本公开另一实施例的数据整合装置的一种示例的框图。
[0021]图6是示出根据本公开实施例的数据整合方法的一种示例性处理的流程图。
[0022]图7示出了可用来实现根据本公开实施例的词库更新装置和数据整合装置的一种可能的信息处理设备的硬件配置的结构简图。
[0023]本领域技术人员应当理解,附图中的元件仅仅是为了简单和清楚起见而示出的,而且不一定是按比例绘制的。例如,附图中某些元件的尺寸可能相对于其他元件放大了,以便有助于提高对本公开实施例的理解。
【具体实施方式】
[0024]在下文中将结合附图对本公开的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
[0025]在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本公开,在附图中仅仅示出了与根据本公开的方案密切相关的装置结构和/或处理步骤,而省略了与本公开关系不大的其他细节。
[0026]如图1所示,根据本公开实施例的词库更新装置I包括:语句表达单元11 ;用于收集来自不同数据源的语句并对收集到的每个语句进行处理,以利用多元组来表达每个语句;候选词集合形成单元12,用于基于多元组中的分量并且根据预定词库,形成用于更新该预定词库的候选词集合;候选词判定单元13,用于针对候选词集合形成单元12所形成的候选词集合中的每个候选词,根据包含该候选词的至少一个多元组中除该候选词之外的一个或多个其它分量,判定该候选词是否与预定词库中的词是同一类型;以及词库更新单元14,用于在候选词判定单元13将候选词判定为与预定词库中的词是同一类型的情况下,使用该候选词更新预定词库。
[0027]如图1所示,语句表达单元11可以从各种数据源收集例如语句。数据源可以是各种专用数据库、通用数据库、网站等等,也可以是它们的组合。例如,针对特定对象(例如,建筑物“Μ总部大楼”),当前许多网站都提供与其相关的语句信息(在本公开的上下文中,有时也称为意见语句)。本领域技术人员可以通过各种技术手段从各个数据源获取这些语句信息,例如可以通过数据源所提供的AP1、RSS/ATOM协议或者网络爬虫等等,这些技术手段是本领域技术人员公知的,在此不再赘述。在从各种数据源收集到语句之后,可以将这些语句存储在语料库中。
[0028]在从不同数据源收集到各种意见语句之后,语句表达单元11可以对收集到的每个语句进行处理,以通过多元组来表达每个语句。例如语句表达单元11可以利用分词技术对收集到的每个语句进行切分,然后利用句法依存技术对经分词技术切分得到的各个词加上相应的标记信息,从而得到每个语句的词汇之间的关系,进一步地以多元组方式来表达每个语句。其中。分词技术和句法依存技术是本领域公知的,在此省略对其的详细描述。
[0029]例如针对语句表达单元11从不同数据源分别收集到的语句I “M总部大楼的高度很高、工程量巨大,结构比较不抗震”,以及语句2 “M总部大楼的高度较高、工程量倒是很庞大,结构不抗震”,通过分词技术处理和句法依存技术处理后,得到的结果如下所示:
[0030]意见数据1.“M总部大楼高度很高、工程量巨大,结构比较不抗震”。
[0031]意见数据2.“M总部大楼高度较高、工程量很庞大,结构不抗震”。
[0032]然后针对经分词技术处理后的上述语句I和2,通过句法依存技术处理,得到语句中各个词汇间的关系(如动宾关系、主谓关系、定中关系)。例如针对“M总部大楼高度很高”,通过句法依存处理可以判断是一个主谓关系,其中“高度”是该主谓关系的从属词,“高”是核心词。因此以一组所定义的多元组对上述语句I和2进行表达,从而针对语句I和语句2分别得到多个多元组,如表1和表2所示。
[0033]表1 (针对语句 I)
[0034]
【权利要求】
1.一种用于自动更新预定词库的词库更新装置,包括: 语句表达单元,用于收集来自不同数据源的语句并对收集到的每个语句进行处理,以利用多元组来表达每个语句; 候选词集合形成单元,用于基于多元组中的分量并且根据预定词库,形成用于更新该预定词库的候选词集合; 候选词判定单元,用于针对候选词集合中的每个候选词,根据包含该候选词的至少一个多元组中除该候选词之外的一个或多个其它分量,判定该候选词是否与预定词库中的词是同一类型;以及 词库更新单元,用于在候选词被判定为与该预定词库中的词是同一类型时,使用该候选词更新该预定词库。
2.根据权利要求1所述的词库更新装置,其中,所述候选词集合形成单元包括: 预定候选词确定子单元,用于将每个所述多元组中的与该预定词库中的词相似的分量确定为与所述预定词库中的词为同一类型的预定候选词;以及 预定候选词判定子单元,用于判定每个所述预定候选词是否在该预定词库中;以及候选词集合形成子单元,用于将不在该预定词库中的预定候选词作为与预定词库中的词为同一类型的最终候选词,从而形成包括所有最终候选词的候选词集合。
3.根据权`利要求1或2所述的词库更新装置,其中所述多元组为四元组,所述四元组的分量包括否定词和程度副词。
4.根据权利要求3所述的词库更新装置,其中所述候选词判定单元根据包含该候选词的至少一个四元组中的程度副词和/或否定词,判定该候选词是否与预定词库中的词是同一类型。
5.一种用于自动更新预定词库的词库更新方法,包括: 收集来自不同数据源的语句并对收集到的每个语句进行处理,以利用多元组来表达每个语句; 基于多元组中的分量并且根据该预定词库,形成用于更新该预定词库的候选词集合;针对候选词集合中的每个候选词,根据包含该候选词的至少一个多元组中除该候选词之外的一个或多个其它分量,判定该候选词是否与预定词库中的词是同一类型;以及在候选词被判定为与预定词库中的词是同一类型时,使用该候选词更新该预定词库。
6.一种针对特定对象对来自不同数据源的语句进行整合的数据整合装置,包括: 语句表达单元,用于收集来自不同数据源的语句并对收集到的每个语句进行处理,以利用多元组表达每个语句; 预定候选词判定单元,用于将每个多元组中的与该预定词库中的词相似的分量作为与该预定词库中的词为同一类型的预定候选词并且判定每个预定候选词是否在该预定词库中; 词库更新单元,用于当预定候选词不在该预定词库中时,根据包含该预定候选词的至少一个多元组中的除该预定候选词之外的一个或多个其它分量,判断该预定候选词是否与该预定词库中的词是同一类型,并且使用被判断为与该预定词库中的词为同一类型的预定候选词更新该预定词库;以及 数据整合单元,用于当预定候选词在该预定词库中或者在经所述词库更新单元更新后的预定词库中的情况下,针对与所述特定对象相关的每个对象词,根据包含该对象词和相同预定候选词的多个多元组中除所述预定候选词和对象词之外的一个或多个其他分量,对所述多元组进行数据整合,得到针对所述特定对象的每个对象词的综合信息。
7.根据权利要求6所述的数据整合装置,还包括频率记录单元,用于针对所述特定对象记录具有相同多元组的语句出现的频率;并且所述数据整合单元针对与所述特定对象相关的每个对象词,根据包含该对象词和相同预定候选词的多个多元组中除所述预定候选词和对象词之外的一个或多个其他分量以及根据所述频率记录单元记录的所述频率,对所述多元组进行数据整合,得到针对所述特定对象的每个对象词的综合信息。
8.一种针对特定对象对来自不同数据源的语句进行整合的数据整合方法,包括: 收集来自不同数据源的语句并对收集到的每个语句进行处理,以利用包括对象词的多元组表达每个语句; 将每个多元组中的与该预定词库中的词相似的分量作为与该预定词库中的词为同一类型的预定候选词并且判定每个预定候选词是否在该预定词库中; 当预定候选词不在该预定词库中时,根据包含该预定候选词的至少一个多元组中的除该预定候选词之外的一个或多个其它分量,判断该预定候选词是否与该预定词库中的词是同一类型,并且使用被判断为与该预定词库中的词为同一类型的预定候选词更新该预定词库;以及 当预定候选词在该预定词库中或者在经所述词库更新单元更新后的预定词库中的情况下,针对与所述特定对象相关的每个对象词,根据包含该对象词和相同预定候选词的多个多元组中除该预定候选词和对象词之外的一个或多个其他分量,对所述多元组进行数据整合,得到针对所述特定对象的每个对象词的综合信息。
9.一种电子设备,包括如权利要求1-4中任一项所述的词库更新装置或者如权利要求6或7所述的数据整合装置。
10.如权利要求9所述的电子设备,其中所述电子设备是手机、计算机、平板电脑、或个人数字助理。
【文档编号】G06F17/30GK103678371SQ201210343121
【公开日】2014年3月26日 申请日期:2012年9月14日 优先权日:2012年9月14日
【发明者】周恩策, 张军, 邹纲, 皮冰锋, 松尾昭彦 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1