时 的不同打分。
[0032] 使用机器翻译中的词汇对齐技术来初始化双语词嵌入(wordembeddings)过程, 具体如下所示:
[0034] 其中S表示与原始词汇对齐的可能的目标词汇数量,Cts表示原始词汇s与目标词 汇t对齐的数量,Ct表示目标词汇t出现在目标语言中的总数量。
[0035] 通过对齐数量来生成对齐矩阵Auy_4和Azh_uy,对于Auy_zh,每行对应一个汉语词 汇,每列对应一个维吾尔语词汇,矩阵中的一项初始化为第i个汉语词汇与第j个维吾 尔语词汇在双语平行语料中对齐的数量。然后将矩阵中的每行归一化到加和为1。矩阵 Azh _uy通过类似方式定义。
[0036] 汉语词嵌入表示为Vzh,维吾尔语词嵌入表示为Vuy,通过这两个对齐矩阵,将汉语 词嵌入表示为(其中,A取值50):
[0037] Jc〇-zh+ 入?JtEO-uy-zh⑶
[0038] JlEO-uy-zh-IIVzh_Auy-zh?Ven | | (4)
[0039] 维吾尔语词嵌入表示为:
[0040] Jc〇-uy+ 入?JlEO-zh-uy⑶ 陶]JTE0-zh-uy=I|Ven-Azh_en.Vzh|I2 (6)
[0042] 通过双语对齐,可以利用汉语的丰富语义信息对维吾尔语等资源缺乏的语言进行 语义扩充,确保候选实体的正确选取。
[0043] e、多特征融合的候选实体排序:引入三种重要的附加语义特征,分别是实体上下 文特征、篇章主题特征和知识库中的概念图特征,并融合这些特征对候选实体进行排序。 [0044] 上下文与主题特征:实体本身包含知名度特征P(e)、名称特征P(s|e)和上下文特 征P(c|e),一个实体指称项m(其上下文是c,名称是s)与实体e,实体e是实体指称项m的 目标实体的概率可表示为:
[0045] P(m,e) =P(s,c,e) =P(e) ?P(s|e) ?P(c|e) (7)
[0046] 文章中的实体通常与文本主题相关,因此这些实体之间也存在着语义相关性。基 于这种主题一致性假设,构建面向实体链接的主题模型。假设每一篇文本都有N个内在主 题,每一个主题是实体的多项式分布,为实体分配若干主题。
[0047] 知识库概念图特征:以维基百科维吾尔语版作为维吾尔语知识库,从知识库中构 建知识网络,并基于语义相似度、共现度来计算知识图间的相似度。通过实体指称项的上下 文特征和知识库中概念的知识图片段进行基于语义的相似度计算,从而去除指称项的歧义 性,正确定位所对应的实体。
[0048] 基于图的协同推断通过将证据在图上的依存结构上传递来协同增强证据收敛,如 下所示:
[0049] rt+1= (1-入)XTXr入XS(8)
[0050] 其中,rt+1表示在时间t+1上的证据,T表示证据传递率矩阵(ReferentGraph)的 归一化相邻矩阵,A表示证据重分配率,S表示初始证据。
[0051] 本发明所述的一种面向资源缺乏语言的实体链接系统,该系统所提供的技术方案 的积极效果是:通过机器翻译技术对双语进行自动对齐处理,利用常用语种(汉语)的丰富 语言资源和语义特征,对资源缺乏语言(维吾尔语等)进行语义扩充,克服了小语种语言资 源缺乏的问题。融合实体上下文特征、篇章主题特征和知识库中的概念图特征对候选实体 进行排序,解决了在语言资源缺乏情况下,精确链接实体指称项和候选实体的问题。
【附图说明】
[0052] 图1为本发明流程图;
[0053] 图2为本发明最大熵结合条件随机场总体结构图;
[0054] 图3为本发明基于主题特征的候选实体排序示意图;
[0055] 图4为本发明基于知识库的实体关联示意图;
[0056] 图5本发明基于概念图的协同推断示意图。
【具体实施方式】
[0057] 为了使本技术领域的人员更好地理解本发明方案,下面结合附图对本发明做进一 步的详细说明。
[0058] 实施例
[0059] a.实体指称项获取模块:识别出文本中待链接到实体库的实体指称项,实体指称 项是准备链接到实体库的一段文本描述,如维吾尔语单词"kechiche"(汉语翻译:整夜,在 专利内容的后半部分,将使用拉丁维文的方式书写维吾尔语);
[0060] b.维吾尔语预处理模块:采用基于规则和统计相结合的方法,对维吾尔语词汇进 行词干提取和词性标注,词干提取是将词汇切分为词干和词缀,并保留词干部分,其中词性 标注为标明该词汇的词性,如名词、动词、形容词,其中,对维吾尔语词汇进行词干和词缀切 分,并保留词干部分。如维吾尔语单词"kechiche",提取词干的结果是"kech",汉语翻译是 "晚上";
[0061] 词性标注采用规则与统计相结合的方式进行,如图2所示,统计方法采用最大熵 与条件随机场相结合的方式。先用最大熵为每个兼类词选择两个候选词性,然后再用条件 随机场模型在这两个词性中进行选择,不仅保留最优路径,而且将从其余几条路径中为每 个兼类词选择出第二个最合适的候选词性;根据维吾尔语词的构词特点和维吾尔语词后缀 的结合规则,总结出词缀组合规则与维吾尔语词性的对应关系,先使用统计的方法对词性 做出一个粗略地判断,然后利用总结出的规则,对使用统计得到的词性标注结果进行验证。 如如维吾尔语单词"kech",词性标注的结果是"kech/n",即"kech"的词性是名词;
[0062] c.实体指称项扩充模块:根据实体指称项的上下文,对实体指称项进行扩充,得 到实体指称项的上下文信息,对经过词干提取和词性标注的实体指称项进行扩充。
[0063] 其中,扩充包括以下两种方式:
[0064] 1)以实体指称项作为输入,在词向量模型中通过余弦相似度方法,寻找语义相近 词汇作为扩充项,如以"夜晚"作为输入,则可以获得"夜、夜色、傍晚"等扩充词汇项;
[0065] 词向量模型的训练方法是:使用深度学习方法进行多次迭代,对文本进行训练,将 训练文本集合内的每个词汇表示成为200维的向量特征,进而可以通过度量向量之间的余 弦相似度,获取词汇间的语义关联,对于两个词汇对应的词向量,用A:[ApA2,. . .,An]和B: [BpB2,. . .,Bn]表示,余弦相似度的计算公式为:
[0067] 2)以实体指称项作为输入,在维吾尔语维基百科标签库中,通过余弦相似度方法, 寻找相似词汇,并作为扩充项;具体方法是:首先计算所有维基百科标签与输入文本的相 似性,并从结果中选取相似性最高的一个子集;然后直接计算两个输入文本所对应的维基 百科标签集之间的相似性,从而获取相似性结果。基于维基百科标签的相似性计算包括:对 于词汇Wpvwi表示其词向量,整个文本的词向量用如下公式表示:
[0069] 其中S表示文本,n表示S中的词汇数量。T={tpt2,A,tn}表示维基百科标签 集合,心表示其中的一个标签,对于词向量表示vs,遍历计算v#t亦相似性,并最终选出 相似性最高的一个子集作为输入文本S的扩充维基百科标签。如以"维吾尔语"作为输入, 则可以获得"突厥语族、土耳其语、新疆"等扩充词汇项;
[0070]d.候选实体获取模块:通过机器翻译的双语对齐,实现汉语和维吾尔语词汇的对 齐操作,利用汉语的丰富语义对维吾尔语进行扩充,扩充后的文本组成实体库中实体的上 下文信息,将实体指称项的上下文信息与实体库中实体的上下文信息进行相似度计算,获 取候选实体;对符合条件的候选实体进行选取,其中,维吾尔语属于语言资源缺乏的小语 种,通过实现基于双语平行语料的词嵌入(wordembeddings)学习算法和基于机器翻译的 双语对齐,利用资源丰富语言(汉语)对维吾尔语进行语义扩充。
[0071] 使用机器翻译中的词汇对齐技术来初始化双语词嵌入过程,具体如下所示:
[0073] 其中S表示与原始词汇对齐的可能的目标词