一种基于机器翻译的中文语义知识库的构建方法
【技术领域】
[0001] 本发明涉及中文语义知识库构建的方法,特别涉及一种基于机器翻译的中文语义 知识库的构建方法。
【背景技术】
[0002] 知识库汇集一系列的概念、实例以及关系,在自然语言处理领域的应用越来越广 泛,比如自动问答、事件检测、理解用户query等方面。目前较出名的知识库包括WordNet、 !1〇?^61:、?以1116此1:、¥460、?代6&38 6、01^6(1丨3等,分别在搜索、问答等方面发挥了很好的作 用。知识库根据构建方法主要分为两种,一种是依赖语言学基础知识以及语言学专家进行 的人工构建的知识库,比如WordNet、H 〇wNet等;另外一种是基于大规模现实语料的自动构 建的知识库,比如DBpedia、YAG0等。目前人工构建知识库的方法已经很成熟,但是完全依赖 于昂贵的人力及时间,而自动构建语义知识库可以节省这方面的消耗。
[0003] Freebase是一个由元数据组成的大型合作知识库,内容主要来自其社区成员的贡 献,它整合了许多网上的资源,包括部分私人wiki站点中的内容,包含3900万个实体和18亿 条实体关系,被谷歌收购并将其全部数据迀移至维基数据;DBpedia是德国莱比锡大学等机 构发起的项目,从维基百科中抽取实体关系,包括1千万个实体和14亿条实体关系;YAG0则 是德国马克斯?普朗克研究所发起的项目,也是从维基百科和WordNet等知识库中抽取实 体,到2010年该项目已包含1千万个实体和1.2亿条实体关系。
[0004] 在汉语语义知识库方面,董振东构建了知网(HowNet),知网是一个以汉语和英语 的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关 系为基本内容的常识知识库;张潮生构建的中文词语库CWB(Chine Se Word Base)是一个规 模较大的中文词库,该词库目前收入了 13万以上的书面形式的词条,包括单词、固定词组、 成语、等等,包含大量的同义、分类等语义信息。
[0005] 语义知识库构建的巨大推动力是其可以应用于语义搜索、机器问答等实际的应用 中。然而现有中文知识库相对匮乏,规模也较小。因此中文语义知识库的构建对中文信息处 理和中文信息检索具有重要的价值。
[0006] 目前语义知识库的构建方法主要有三种:
[0007] (1 )是依赖语言学基础知识以及语言学专家进行的人工构建的知识库,比如 WordNet、HowNet等。目前人工构建知识库的方法已经很成熟,但是完全依赖于昂贵的人力 及时间。
[0008] (2)是基于大规模语料的自动构建的知识库,比如DBpedia、YAG0等。该方法可以抽 取大量的实体及属性关联,然而存在严重的冗余问题需要处理。
[0009] (3)是基于跨语言映射的语义知识库翻译,利用现有的大型外文知识库,如 freebase,通过一定的翻译技术得到中文的语义知识库。
【发明内容】
[0010] 本发明的目的是为了解决中文语义知识库匮乏的问题、现有技术昂贵的人力及时 间的问题,和提高基于跨语言映射的语义知识库翻译的性能的问题,而提出的一种基于机 器翻译的中文语义知识库的构建方法。
[0011] 上述的发明目的是通过以下技术方案实现的:
[0012] 步骤一、利用源语言语义知识库中实体对原双语语料中源语言端语料进行命名实 体识别,得到标注了实体的源语言端语料;
[0013] 步骤二、利用步骤一得到的标注了实体的源语言端语料构建主题模型,根据主题 模型计算得到实体的主题分布;
[0014] 步骤三、将标注了实体的源语言端语料和原双语语料的目的语言端语料构成源语 言端标注了实体的双语语料,利用源语言端标注了实体的双语语料构建基于短语的统计机 器翻译模型,利用基于短语的统计机器翻译模型生成短语翻译表,根据源语言端实体词表 从短语翻译表中抽取源语言端语义知识库中实体的翻译概率,记为P(k | Sl),其中k属于Sl 的候选翻译集;
[0015] 步骤四、根据步骤二建立的源语言端主题模型和步骤三建立的p(k|Sl)构建基于 源语言端语义知识库图结构信息的实体翻译模型,其中,源语言端语义知识库图结构信息 即实体的上下文信息。
[0016] 发明效果
[0017] 本发明相关研究不仅是对信息学、语言学相关理论的佐证,同时对自然语言理解 有促进作用。本发明称语义知识库中每个节点为实体。为了提高实体翻译的性能,本发明利 用了源语言端实体在源语言端语义知识库中的图结构信息。为了解决中文语义知识库匮乏 的问题,本发明提出了一种基于机器翻译的中文语义知识库的构建方法。这种方法易于实 现,不仅减少了人力物力的消耗,且能提高翻译得到的中文语义知识库的质量。总的来说, 该方法提出了 一种基于机器翻译的自动构建中文语义知识库的方法。
[0018] 在本发明提出了一种基于机器翻译的中文语义知识库的构建方法。通过分析语义 知识库中的实体主题分布与该实体的上下文信息的相关性,利用机器翻译框架构建基于 语义知识库的翻译模型,进而实现中文语义知识库的自动化构建。本发明旨在基于现有的 语义知识库,比如Freebase、DBpedia等,利用机器翻译模型构建中文语义知识库。
[0019] 本发明在机器翻译模型及主题模型中,一般对原始数据进行分词处理,本发明机 器翻译技术应用于特定领域即知识图谱自动构建,由于源语言语义知识库中的所有实体的 已知,在数据预处理时,本发明以源语言实体为词表添加到源语言单语语料分词及命名实 体识别;为提高由源语言语义知识库中实体翻译得到中文语义知识库的质量,考虑了源语 言端实体在源语言端语义知识库中的图结构信息。
[0020] 本发明中使用源语言单语语料构建主题模型,并根据实体在源语言语义知识库的 图结构信息重新计算实体的主题分布,再利用该主题分布构建基于源语言语义知识库上下 文的机器翻译模型;
[0021] 由于本发明是利用机器翻译技术从源语言语义知识库翻译得到中文语义知识库, 本方法在对源语言语言进行预处理过程,将源语言语义知识库中的实体作为词表添加到源 语言端分词及命名实体识别模型中。语义知识库以图结构进行存储,实体在语义知识库中 的图结构信息包括通过属性节点和其他实体相连,因此不仅考虑与源语言实体相连的实 体,也考虑属性节点对实体翻译的影响。
[0022]如在知识图谱(一种语义知识库)中,"Heat"作为实体名称时,可能对应不同的实 体:Heat (盗火线,电影)、Heat (热能,物理术语)、Heat (灼热,动漫)、Heat (热度,杂志),等 等。如图一所示当"Heat"实体与导演Michael Mann,主演A1 Pacino等相连时,"Heat"对应 的翻译结果为"盗火线",其中Michael Mann和A1 Pacino为相连实体,导演和主演为连接实 体的边;当"Heat"与热能相关实体相连时,对应的翻译结果为"热能"。在本方法考虑了源语 言语义知识库中的上下文信息,以期提高通过基于跨语言映射的语义知识库翻译技术自动 构建的中文语义知识库的准确性。
【附图说明】
[0023]图1为【具体实施方式】一提出的一种基于机器翻译的中文语义知识库的构建方法的 主要过程流程图;
[0024]图2为【具体实施方式】四提出的两个Heat实体在语义知识库中的示例说明;其中,热 火线、Heat热能为两个heat实体对应的中文释义。
【具体实施方式】
【具体实施方式】 [0025] 一:本实施方式的一种基于机器翻译的中文语义知识库的构建方 法,具体是按照以下步骤制备的:
[0026] 基于源语言语义知识库中实体对源语言端单语语料进行分词及命名实体识别和 基于源语言端语义知识库图结构信息的机器翻译模型;
[0027] 步骤一、利用源语言语义知识库中实体对原双语语料中源语言端语料进行命名实 体识别,得到标注了实体的源语言端语料;
[0028] 步骤二、利用步骤一得到的标注了实体的源语言端语料构建主题模型,根据主题 模型计算得到实体的主题分布;
[0029] 步骤三、将标注了实体的源语言端语料和原双语语料的目的语言端语料构成源语 言端标注了实体的双语语料,利用源语言端标注了实体的双语语料构建基于短语的统计机 器翻译模型,利用基于短语的统计机器翻译模型生成短语翻译表,根据源语言端实体词表 从短语翻译表中抽取源语言端语义知识库中实体的翻译概率,记为P(k | Sl),其中k属于Sl 的候选翻译集;
[0030] 步骤四、根据步骤二建立的源语言端主题模型和步骤三建立的p(k|Sl)构建基于 源语言端语义知识库图结构信息的实体翻译模型,其中,源语言端语义知识库图结构信息 即实体的上下文信息如图1。
[0031] 本实施方式效果:
[0032]本实施方式相关研究不仅是对信息学、语言学相关理论的佐证,同时对自然语言 理解有促进作用。本实施方式称语义知识库中每个节点为实体。为了提高实体翻译的性能, 本实施方式利用了源语言端实体在源语言端语义知识库中的图结构信息。为了解决中文语 义知识库匮乏的问题,本实施方式提出了一种基于机器翻译的中文语义知识库的构建方 法。这种方法易于实现,不仅减少了人力物力的消耗,且能提高翻译得到的中文语义知识库 的质量。总的来说,该方法提出了一种基于机器翻译的自动构建中文语义知识库的方法。
[0033]在本实施方式提出了一种基于机器翻译的中文语义知识库的构建方法。通过分析 语义知识库中的实体主题分布与该实体的上下文信息的相关性,利用机器翻译框架构建基 于语义知识库的翻译模型,进而实现中