一种基于主动学习的低资源语言机器翻译方法

文档序号：41450858发布日期：2025-03-28 17:44阅读：来源：国知局

技术特征：

1.一种基于主动学习的低资源语言机器翻译方法，其特征在于，包括：

2.根据权利要求1所述的基于主动学习的低资源语言机器翻译方法，其特征在于，所述提取所述初始数据集中每个句子对应的token序列，包括：

3.根据权利要求1所述的基于主动学习的低资源语言机器翻译方法，其特征在于，所述预设doc2vec模型的训练过程，包括：

4.根据权利要求3所述的基于主动学习的低资源语言机器翻译方法，其特征在于，所述对数似然计算公式为：

5.根据权利要求1所述的基于主动学习的低资源语言机器翻译方法，其特征在于，所述利用core-set方法从所述特征向量集中选取核心集，包括：

6.根据权利要求5所述的基于主动学习的低资源语言机器翻译方法，其特征在于，所述令所述初始翻译模型输出所述核心集中每个核心句子的不确定性排名，包括：

7.根据权利要求6所述的基于主动学习的低资源语言机器翻译方法，其特征在于，所述熵值计算公式为：

8.根据权利要求6所述的基于主动学习的低资源语言机器翻译方法，其特征在于，所述根据所述不确定性排名，利用选择函数从所述初始数据集中获取与每个所述核心句子对应的初始数据，包括：

9.根据权利要求8所述的基于主动学习的低资源语言机器翻译方法，其特征在于，所述选择函数的公式为：

10.根据权利要求1所述的基于主动学习的低资源语言机器翻译方法，其特征在于，所述利用所述目标训练数据集对所述初始翻译模型继续进行训练，得到目标翻译模型，包括：

技术总结
本发明提供一种基于主动学习的低资源语言机器翻译方法，属于自然语言处理技术领域，包括：从初始数据集中提取每个句子对应的token序列；将每个句子对应的token序列输入到预设模型，输出与每个句子对应的特征向量；根据特征向量构建特征向量集，从特征向量集中选取核心集；利用核心集训练预设翻译模型得到初始翻译模型，令初始翻译模型输出核心集中每个核心句子的不确定性排名；根据不确定性排名，利用选择函数从初始数据集中获取与每个核心句子对应的初始数据；将所有的初始数据进行标注和序列化得到目标训练数据集，利用目标训练数据集对初始翻译模型进行训练，得到目标翻译模型。本发明可以提高低资源环境下机器翻译的准确性。

技术研发人员：米尔阿迪力江·麦麦提,李艺飞,杨雅婷,周喜
受保护的技术使用者：中国科学院新疆理化技术研究所
技术研发日：
技术公布日：2025/3/27

完整全部详细技术资料下载

当前第2页1 2