面向资源缺乏语言的实体链接系统的制作方法
【技术领域】
[0001] 本发明涉及信息技术领域中的信息抽取、知识发现领域,尤其涉及面向资源缺乏 语言的实体链接系统。
【背景技术】
[0002] 实体链接(EntityLinking)作为自然语言处理技术的一个分支,是指对于给定的 实体指称项,将其链接到知识库中的实体概念的过程。主要针对自然语言的多样性和歧义 性问题,通过将自然语言中的文本与知识库中的条目进行链接,实现阅读增强、以实体为中 心的精准信息聚合、知识库扩建等工作。
[0003] 在候选实体发现方面,主要有两种方法,一种是基于维基百科的方法,利用维基百 科中锚文本的超链接关系、消歧页面以及重定向页面获得候选实体。另一种是基于主题模 型的方法。
[0004] 在候选实体链接方面,核心仍然是计算实体指称项和候选实体的相似度,并选择 相似程度最高的候选实体作为链接的目标实体。从相似度计算的方式上,可以分成单一实 体链接和协同实体链接。单一实体链接仅仅考虑实体指称项与目标实体间的语义相似度。 协同实体链接通过利用协同式策略综合考虑多个实体间的语义关联,建立全局语义约束, 从而更好地对于文本内的多个实体进行消岐。
[0005] 在现有的实体链接系统中存在以下问题:
[0006] 1)系统运行需要丰富的语言资源,包括词性标注、句法分析等工具和标注资源库 和知识库等;
[0007] 2)目前还不存在一种面向新疆地区维吾尔语等小语种的实体链接系统可供使 用;
[0008] 为解决上述常规实体链接系统中存在的问题,本发明提供了一种面向资源缺乏语 言的实体链接系统。该系统可以通过词向量技术从未标注语料中进行语义发现并利用双语 对齐技术进行语义扩充,缓解了传统实体链接系统的语言资源依赖问题。
【发明内容】
[0009] 本发明目的在于,提供了一种面向资源缺乏语言的实体链接系统,该系统采用基 于规则和统计相结合的方法,对维吾尔语词汇进行词干切分和词性标注;根据实体指称项 的上下文,对实体指称项进行扩充,得到实体指称项的上下文信息;通过机器翻译的双语对 齐技术,实现汉语和维吾尔语词汇的对齐操作,从而利用汉语的丰富语义对维吾尔语进行 扩充,获取候选实体;通过融合实体上下文特征、篇章主题特征和知识库中的概念图特征, 对候选实体进行排序,将实体指称项链接到排序后的目标实体。本发明所述系统通过双语 对齐技术,利用资源丰富语言对资源缺乏语言的语义信息进行扩充,并融合了实体上下文 特征、篇章主题特征和知识库中的概念图特征对候选实体进行排序,其目的在于解决资源 缺乏语言的实体链接问题并构建实用化的维吾尔语实体链接系统。本发明所述的系统能够 实现语言资源缺乏的维吾尔语的实体链接功能,从而满足智能信息处理需求。
[0010] 本发明所述的一种面向资源缺乏语言的实体链接系统,该系统面向新疆地区的少 数民族语言一一维吾尔语,通过规则和统计相结合的方法,利用汉语的丰富语言资源对维 吾尔语进行语义扩充,完成实体链接,具体操作按下列步骤进行:
[0011] a.实体指称项获取模块:识别出文本中待链接到实体库的实体指称项;
[0012] b.维吾尔语预处理模块:采用基于规则和统计相结合的方法,对维吾尔语词汇进 行词干提取和词性标注,词干提取是将词汇切分为词干和词缀,并保留词干部分,其中词性 标注为标明该词汇的词性,如名词、动词、形容词;
[0013] c.实体指称项扩充模块:根据实体指称项的上下文,对实体指称项进行扩充,得 到实体指称项的上下文信息;
[0014] d.候选实体获取模块:通过机器翻译的双语对齐,实现汉语和维吾尔语词汇的对 齐操作,利用汉语的丰富语义对维吾尔语进行扩充,扩充后的文本组成实体库中实体的上 下文信息,将实体指称项的上下文信息与实体库中实体的上下文信息进行相似度计算,获 取候选实体;
[0015] e.候选实体排序模块:通过融合实体上下文特征、篇章主题特征和知识库中概念 图特征,对候选实体进行排序,将实体指称项链接到排序后的目标实体即可。
[0016] 步骤b中所述的基于规则和统计相结合的词性标注方法:是根据维吾尔语词后缀 的结合规则,总结出词缀组合规则与维吾尔语词性的对应关系,先使用最大熵统计方法和 条件随机场统计方法对词性做出一个粗略的判断,然后利用总结出的规则,对使用统计得 到的词性标注结果进行验证。
[0017] 步骤c中所述的实体指称项的上下文是实体指称项前后指定长度的文本。
[0018] 步骤c中所述的对实体指称项的上下文进行扩充是利用词向量模型和维基百科 标签对其上下文进行扩充。
[0019] 词向量的上下文扩充是使用深度学习方法进行多次迭代,通过逻辑回归的方法对 文本进行训练,采用二次抽样的方法来平衡训练语料中的频繁词汇和非频繁词汇的不对 称,将训练文本集合内的每个词汇表示成为200维的特征向量,通过度量向量之间的余弦 相似度,获取词汇间的语义关联,并将语义最为近似的词汇作为实体指称项的上下文。
[0020] 维基百科标签的上下文扩充是使用维基百科标签作为中间媒介,计算实体指称项 上下文和所有维基百科标签上下文的余弦相似度,并从结果中选取相似性最高的一个子 集,将相似性最高的标签作为实体指称项的上下文。
[0021] 步骤e中所述的实体上下文特征是实体指称项的上下文特征与候选实体的知名 度特征、名称特征的概率乘积。
[0022] 步骤e中所述的实体篇章主题特征是在基于统计的主题模型中,实体指称项所包 含的主题与候选实体包含的主题之间的相似程度。
[0023] 步骤e中所述的实体概念图特征是在以维基百科为基础的知识网络中,基于语义 相似度、共现度计算得到的实体指称项和候选实体相似程度。
[0024] 本发明所述的一种面向资源缺乏语言的实体链接系统,该系统包括:1)实体指称 项获取模块:识别出文本中待链接到实体库的实体指称项;2)维吾尔语预处理模块:采用 基于规则和统计相结合的方法,对维吾尔语词汇进行词干提取和词性标注;3)实体指称项 扩充模块:根据实体指称项的上下文,对实体指称项进行扩充,得到实体指称项的上下文信 息;4)候选实体获取模块:通过机器翻译的双语对齐技术,实现汉语和维吾尔语词汇的对 齐操作,从而利用汉语的丰富语义对维吾尔语进行扩充,获取候选实体;5)候选实体排序 模块:通过融合实体上下文特征、篇章主题特征和知识库中的概念图特征,对候选实体进行 排序,将实体指称项链接到排序后的目标实体。
[0025] 本发明所述的一种面向资源缺乏语言的实体链接系统,该系统是通过以下技术方 案实现的:
[0026] a、实体指称项获取:从输入文本中获得待链接到实体库的实体指称项;
[0027] b、维吾尔语预处理:对输入文本进行预处理,词干切分,去停用词,去标点符号; 采用规则与统计相结合的方式进行词性标注,统计方法采用最大熵与条件随机场相结合的 方式。先用最大熵为每个兼类词选择两个候选词性,然后再用条件随机场模型在这两个词 性中进行选择,不仅保留最优路径,而且将从其余几条路径中为每个兼类词选择出第二个 最合适的候选词性。根据维吾尔语词的构词特点和维吾尔语词后缀的结合规则,总结出词 缀组合规则与维吾尔语词性的对应关系,先使用统计的方法对词性做出一个粗略地判断, 然后利用总结出的规则,对使用统计得到的词性标注结果进行验证。
[0028] c、实体指称项扩充:利用词向量模型和维基百科标签,对实体指称项进行扩充,得 到扩充后的实体指称项上下文信息;
[0029] d、基于双语对齐的候选实体获取:给定文档d的上下文窗口c,词汇w的上下文信 息可由如下公式训练得到:
[0030]
其中/是神经网络函数,表中随机选取的一个子集,c#是包含'的上下文
[0031] 窗口。该目标函数可以对比正确词汇放入上下文和随机词汇放入同一个上下文