一种基于跨语言资源的柬语命名实体识别的方法与流程

文档序号：14057186阅读：454来源：国知局

本发明涉及一种基于跨语言资源的柬语命名实体识别的方法，属于自然语言处理技术的领域。

背景技术：

命名实体识别的主要任务是识别出文本中的人名、地名、机构组织名等专有名称。命名实体识别技术是信息抽取、信息检索、机器翻译、问答系统等多种自然语言处理技术必不可少的组成部分。从语言分析的全过程来看，命名实体识别属于词法分析中未登录词识别的范畴。柬埔寨语命名实体构造特点与汉语有类似的地方，除了极少量缩略词外，其余命名实体的外形与其他单词无区别，但仍存在一些线索暗示命名实体的存在，如人名地名指示词、人名或地名的指示kcc等，词性也暗示了命名实体的存在，在汉语等语言的命名实体识别中，这些特征取得了不错的效果，我们仍然沿用有效的特征。

同时和其他亚洲语言一样，柬埔寨语缺乏对命名实体识别非常有效的大写特征；对于大多数自然语言处理任务，英文具有较多的训练数据、更好的知识资源及区分度较强的特征，英文命名实体识别技术较为成熟，获得不错的效果，而在全球一体化的背景下，我们可以从纸质文本、网页及维基百科获得较多的英语与其他语言的双语平行文本，从而利用跨语言信息获得更具优势的特征来促进柬埔寨语命名实体的识别正确率。

技术实现要素：

本发明提供了一种基于跨语言资源的柬语命名实体识别的方法，用于解决柬埔寨语命名实体的识别正确率低的问题。

本发明的技术方案是：一种基于跨语言资源的柬语命名实体识别的方法，获取英柬双语平行文本语料及柬语单语文本语料；然后使用工具word2vec对柬语单语文本进行处理得到柬语单词的向量表示；再通过余弦方法计算柬语单词之间的相似度值同时使用ibm模型实现柬英双语词之间的词对齐；运用双语图模型中的标签传播算法对柬英双语语料进行处理进而得到在该文本中的柬语单词的对应类别，再将其作为跨语言特征并且连同词性特征、标记特征，包括标记人名、地名的单词特征运用到机器学习模型进而实现对所获得语料进行实体命名识别。

所述方法的具体步骤如下：

step1、获取英柬双语平行文本语料及柬语单语文本语料；

step2、使用word2vec工具对所获得的柬语单语文本语料进行处理，得到该文本

中的每个柬语单词所对应的词向量文本；

step3、计算柬语单语单词之间的相似度通过对词向量使用余弦相似度的方法来实现；设柬语文档中任意两个单词的向量表示为wi和wj，其中wi＝(wi1,wi2...win)，wj＝(wj1,wj2...wjn)，则其两词之间的相似度表示为：

step4、实现柬语单词与英语单词的词对齐：使用标准的词对齐技术ibm模型对柬语单词和英语单词进行词对齐；

step5、使用标签传播算法对柬英双语平行文本中的每个柬语单词计算出其对应的类别；

step6、将上述所得到的标签分布的类别作为柬语单词的跨语言特征，此外再连同词性特征、标记特征，包括标记人名、地名的单词特征一起作为特征模板，使用机器学习模型实现柬语的命名实体的初步识别，实体命名识别包括对柬语中的人名、地名、机构组织名，即per、loc、org命名实体识别进行识别。

所述步骤step1的具体步骤如下：

step1.1、首先利用爬虫程序从纸质文本、柬语网站和柬英双语网站中收集双语平行文本；

step1.2、对上述文本依次进行过滤、去重、分词处理，得到初级语料文本、柬语单语文本语料。

所述step2的具体步骤为：

step2.1、利用分词工具，对获取的柬语单语文本语料进行分词、去重得到初步处理文本；

step2.2、将经过上述初步处理之后的文本放于word2vec工具中进行文本的处理，得到该文本中的每个柬语单词所对应的词向量文本。

所述步骤step5的具体步骤为：

step5.1、利用标签传播算法将英文顶点的标签分布传送到柬文顶点中；即对每个与标记为类别y的英文单词有高置信度对齐关系的柬文单词对类别y的分布如下：

式中ri(y)表示标记为类型y的柬语的标签分布，ui表示柬语单词，vy表示标记类别为y的英语单词，表示柬语单词ui和类别为y的英语单词之间的对齐关系，表示柬语单词ui和类别为y的英语单词之间的对齐出现的次数，而公式中分母表示柬语单词ui在该文本中所有的对齐的次数，其类别y主要为人名类别、地名类别、机构组织名类别以及非实体类别，即per、loc、org、null；

step5.2、对于语料中存在的柬语与英语未对齐的单词的情况，在使用标签传播算法来计算其所属的类别分布时需通过最小化目标函数来进行：

约束条件为：

其中，i，j表示任意两个词的下标，ui表示柬语单词，uj表示英语单词，k(ui)表示柬语的k近邻词的集合，vk表示柬语单词的集合，表示柬语单词的边缘顶点集，表示柬语的顶点集合，qi表示柬语顶点的标签分布，qj表示英语顶点的标签分布，ν为经验参数，用于调整对所有类别y上的均匀分布的标签的分布，u表示均匀分布；qi(y)表示标签类别为y的柬语顶点的标签分布，qj(y)表示标签类别为y的英语顶点的标签分布；公式(4)表示对于任意存在某一柬语单词ui，其标签类别为y的所有柬语单词的标签分布总和等于1，其公式(7)表示对于相邻顶点中具有不同的标签分布的现象，在这里使用损失函数的平方来进行表述；

如果一个柬文单词顶点没有任何边与已标注类别的单词相连，公式(8)的第二项保证词顶点覆盖的边界在所有类别上是均匀的；按以下方式迭代：

在满足的前提下，γi(y)和κi的定义如下：

其中，qi(y)表示标签类别为y的柬语顶点的标签分布，m表示迭代的次数，u(y)表示标签类别为y的均匀分布，表示当前柬语词的k近邻词语的概率根据其相似度传递给当前词，并用一个均匀分布做平滑，超参数ν表示其比例，表示当前柬语词的k近邻词语的和再加上超参数，按照上述方法重复迭代50次。

所述步骤step6中，其中所述机器学习模型采用条件随机场crf，运用条件随机场crf最终得到柬语命名实体的初步识别。

本发明的有益效果是：

1、本发明提供了一种适用解决柬语的实体命名识别问题的方法，且对柬语命名实体实现了有效的识别；

2、本发明为后续的柬语的语法分析、语句分析、信息抽取、信息检索和机器翻译等工作提供了强有力的支撑。

附图说明

图1为本发明中的流程图。

具体实施方式

实施例1：如图1所示，一种基于跨语言资源的柬语命名实体识别的方法，所述方法的具体步骤如下：