1.一种基于微信公众平台的汉蒙语料库众包构建方法,其特征在于:相关定义,包括:
定义1:微信客户端,即安装微信客户端的移动设备,主要为手机和平板电脑,数量范围为25000到30000个;
定义2:微信公众平台,功能是用于注册一订阅号或者服务号,用于与微信客户端建立连接和交互信息;
定义3:蒙古语水平测试问卷,即考核微信客户端语言能力的测试,内容包括15个汉蒙翻译测试题与用户的基本信息如微信昵称、学历、年龄,所在城市和蒙古语学习年长等;
定义4:过滤规则,即过滤微信客户端的规则,通过结合翻译测试结果打分和用户信息统计结果对微信客户端进行过滤的人工定义的规则;
定义5:后台管理员,即微信公众平台的管理人员,用于登录公众号平台实现与微信客户端的交互并进行语料管理;
定义6:众包,即一种面向互联网大众的分布式问题解决机制,通过整合计算机和互联网上未知的大众来完成特定任务;
定义7:众包质量控制,即对众包完成的任务进行答案整合,主要通过算法来保证结果的质量;
所述汉蒙语料库众包构建方法,具体操作包括如下步骤:
步骤1、对原始语料进行预处理,得到经过预处理后的原始数据集;
其中,对原始语料进行预处理的具体过程因翻译方向的不同而异,目的为对语料进行规范化处理,得到经过预处理后的原始语料;
其中,规范化处理为断句及删除无意义数据操作;
步骤2、微信公众平台向微信客户端推送蒙古语水平测试问卷,利用过滤规则对参与翻译任务的微信客户端进行初步过滤,得到过滤后的微信客户端;
步骤3、结合步骤1得到的预处理后的原始语料以及步骤2得到的过滤后的微信客户端,后台管理员得到汉语语料集,把汉语语料集通过推送的方式发送给有效微信客户端;
步骤4、微信客户端利用步骤3推送的汉语句,选择其中的若干汉语句翻译成蒙古语,通过微信客户端的语音功能,以语音形式将翻译后的蒙语句发送给微信公众平台,完成语料的众包收集;
步骤5、结合人工审核与多人投票的众包质量控制机制,后台管理员评估步骤4得到的语音语料,实现对已获取语料的质量评估。
2.根据权利要求1所述的一种基于微信公众平台的汉蒙语料库众包构建方法,其特征在于:步骤1中的原始语料为教育、文娱、旅游、饮食以及百度贴吧领域的语料。
3.根据权利要求1所述的一种基于微信公众平台的汉蒙语料库众包构建方法,其特征在于:步骤2中,微信公众平台的阐述见定义2;微信客户端的阐述见定义1;蒙古语水平测试问卷的阐述见定义3;初步过滤中过滤规则的阐述见定义4。
4.根据权利要求1所述的一种基于微信公众平台的汉蒙语料库众包构建方法,其特征在于:步骤3中,汉语语料集的每一条由一个汉语句构成,后台管理员的阐述见定义5。
5.根据权利要求1所述的一种基于微信公众平台的汉蒙语料库众包构建方法,其特征在于:步骤4中,众包的阐述见定义6。
6.根据权利要求1所述的一种基于微信公众平台的汉蒙语料库众包构建方法,其特征在于:步骤5中,众包质量控制的阐述见定义7。