本发明属于电商信息翻译领域,涉及一种面向跨境电子商务平台的汉英蒙藏维多语机器翻译系统及方法。
背景技术
现如今,全球的经济发展已经进入了网络经济时代,互联网已经布满全球,并开始对世界各个国家和全球的经济变革带来巨大的影响。也正是伴随着这种经济的发展,电子商务也正在逐渐改变着经济发展方式和商品流通方式,世界各个国家之间、国家和企业之间、企业和企业之间、企业与个人之间、个人与个人之间的经济来往,商品流通等都在逐渐的改变原有的交往方式,更多的开始通过电子商务方式进行。随着近年来人民币持续升值、原材料价格上涨和人力成本不断提高,我国的外贸导向型企业受到了强烈冲击,使得我国传统外贸发展速度严重放缓,但是跨境电子商务却保持了快速增长的态势。商务部数据显示,2011年我国跨境电子商务交易额为1.6万亿元,同比增长33%;2012年,我国跨境电子商务交易额达到2万亿元,同比增长25%,同期我国外贸增速仅为6.2%。2014年上海自贸区挂牌后,许多电商巨头看到了海淘的巨大机遇,纷纷发力跨境电商,目前多家上市公司已开始布局跨境电商市场。据不完全统计,目前我国境内通过各类平台开展跨境电子商务业务的外贸企业已超过20万家。跨境电子商务具有巨大的发展潜力,将成为我国外贸的重要增长点。随着跨境电子商务的发展,电子商务翻译的需求也越来越大,但电子商务翻译的研究现状极其滞后于翻译产业的需求。特别是涉及蒙藏维等我国少数民族语言的电子商务翻译系统,目前还几乎没有。因此,本发明建立面向跨境电子商务平台的汉英蒙藏维多语机器翻译系统具有重要的应用价值。而开展跨境电商业务,将企业的商品推销给不同母语的客户,需要解决的一个关键问题就是要将产品的信息翻译成用户的母语,用户在母语版本的电商平台上浏览、挑选、购买商品。
技术实现要素:
本发明要解决的问题在于,为了少数民族企业更好的开展跨境电商业务,建立一种面向跨境电子商务平台的汉英蒙藏维多语言机器翻译系统,企业或者销售商只需在其母语环境下输入商品的信息,翻译系统将自动将这些商品信息翻译成其他语言供目标客户浏览购买,而客户只需在自己的母语环境下下单购买商品即可,翻译系统会自动将他的购买信息进行翻译并反馈给销售商。
为了解决上述问题,本发明提供的技术方案要点在于:一种面向跨境电子商务平台的汉英蒙藏维多语机器翻译系统,包括用于翻译商品属性信息的属性信息多语机器翻译子系统、用于翻译商品的评论信息的评论信息多语机器翻译子系统、用于翻译商品的交易信息的交易信息多语机器翻译子系统,且各子系统翻译时,于汉英蒙藏维多语平行语料库中检索并进行相应翻译,所述汉英蒙藏维多语平行语料库基于电子词典和双语网页来构建。
有益效果:本发明使得企业或者销售商只需在其母语环境下输入商品的信息,翻译系统自动将这些商品信息翻译成其他语言供目标客户浏览购买,而客户只需在自己的母语环境下下单购买商品即可,翻译系统会自动将他的购买信息进行翻译并反馈给销售商,而使用汉英蒙藏维多语平行语料库,且该库基于电子词典和双语网页来构建,可以增加翻译的准确性。
附图说明
图1示出汉英蒙藏维多语机器翻译系统的整体构成及所采用的方法;
图2示属性信息的汉英蒙藏维多语机器翻译子系统的翻译流程;
图3示评论信息的汉英蒙藏维多语机器翻译子系统的翻译流程;
图4示交易信息的汉英蒙藏维多语机器翻译子系统的翻译流程;
图5示商品信息的汉英蒙藏维多语平行语料库的构建流程;
图6示商品评论要素抽取方法的流程图。
具体实施方式
实施例1:电子商务的交易流程主要包括商品选购、支付结算和物流配送三个步骤。一个客户能否选购一件商品主要是依赖于商品的属性信息是否是客户所需要的以及其他客户对该商品的评价如何,因此,对商品的属性信息和评价信息进行准确的翻译对于跨境电子商务平台至关重要,此外,当一个销售商准确知道了客户的所购买的商品信息以及发货地址等交易信息后,才能保证将客户所购买的商品安全的配送到客户手里,因此,交易信息的准确翻译也至关重要,而商品的属性信息、评价信息和交易信息这三种信息在翻译的难度上和方法上都是不同的,因此为解决以上问题,如图1所示,本实施例建立了一种跨境电子商务平台多语翻译系统,其主要包括属性信息多语机器翻译系统、评论信息多语机器翻译系统和交易信息多语机器翻译系统三个子系统,共涉及到一个多语平行语料库和三种机器翻译方法,即商品信息的汉英蒙藏维多语平行语料库、基于规则的未登录词多语机器翻译方法、基于音译的未登录词机器翻译方法和商品评论的多语言摘要生成方法。
对于商品的属性信息翻译子系统。由于电子商务平台上的商品的属性信息通常是商品的名称、产地、规格等命名实体,很少包含有复杂的语义信息,因此属性信息的翻译难度要比普通文本的翻译难度略小,而且方法上也不尽相同,本质上是对命名实体的多语言翻译,因此,如图2,属性信息的汉英蒙藏维多语机器翻译子系统的翻译流程为,先读取商品的每一条属性名或者属性值,在商品信息的汉英蒙藏维多语平行语料库中检索看是否存在,如果存在则直接根据平行语料库给出该属性名或属性值的多语言翻译结果,如果不存在,则说明是未登录词,利用某种分词方法将其拆分成更小的平行语料库中存在的命名实体,然后利用基于规则的机器翻译方法将其翻译成各种语言,如果该属性名或者属性值不能拆分成已经存在的小的命名实体,则采用基于音译的机器翻译方法直接将其翻译成其他语言。
对于商品的评论信息翻译子系统。商品的评论信息一方面是决定客户能否购买该商品的一个重要因素,另一方面也为厂商制定商品研发策略和改进方向提供了重要依据,由于电子商务平台一般对用户对商品的评论在内容上没有要求,因此用户有可能就他们关注的某一商品属性或使用感受做出针对性的评论,也有可能发表一些与商品不相关的内容,而无论是新客户还是厂商他们关心的其实往往是人们对商品属性的感受和评价,因此在对商品的评论信息进行翻译时,我们只需对评论信息中的商品属性和与该属性对应的评价词、用户的情感等评论要素进行翻译即可,没有必要逐句进行翻译,这一方面可以降低翻译的难度,另一方面可以帮助客户与厂商一目了然的看到他们所需要的评价信息。按照以上思想,我们将采用如图3所示的评论信息翻译流程,对于商品的每一条评论,先利用某种评论要素抽取方法,抽取评论信息中的商品属性-评价词对以及客户的情感倾向性,然后根据汉英蒙藏维多语平行语料库将属性-评价词对翻译成不同的语言,再在每种语言环境下根据属性-评价词对和客户的情感倾向性利用某种摘要生成方法生成各种语言版本的商品评论摘要,从而实现对商品评论信息的多语言翻译。
对于交易信息翻译子系统。交易信息翻译子系统的主要功能是将客户在自己母语环境下的完成交易信息翻译成销售商的母语环境下的交易信息,以便销售商给客户发货。交易过程中涉及的内容主要包括客户购买的商品的相关信息和客户的姓名、收货地址等相关信息,由于商品的相关信息在商品信息翻译子系统中已经完成,所以对于商品信息只需要从客户的母语环境对应到销售商的母语环境即可,因此交易信息翻译子系统的主要难点在客户的姓名、收货地址等相关信息的翻译,如图4所示,这类信息的翻译我们主要采用基于音译的多语言机器翻译方法来实现。
前面对多语言翻译系统的构成以及翻译流程进行了描述,下面就翻译过程中所涉及的多语平行语料库的构建问题以及商品评论的多语言摘要生成方法进行详细的说明。
多语平行语料库的构建。平行语料库是统计机器翻译及其一系列相关研究应用不可或缺的重要资源。传统的人工校验、录入平行语料的方式不仅耗时费力,而且很难在有限的时间内建立起较大规模的平行语料库。随着互联网上各种双语、多语网站的兴起,很多研究人员开始研究从互联网上获取双语平行语料。本发明将基于电子词典和双语网页来构建商品信息的多语平行语料库,具体流程如图5所示,先通过各种中文电子商务平台获取待翻译的中文商品信息,然后利用双语词典对部分商品信息进行翻译,利用双语词典进行翻译的优点是容易获取、使用方便、准确性高,其缺点是很多专业词汇的翻译在双语词典中没有,因此,我们需要借助基于互联网的双语平行语句挖掘方法将双语词典不能翻译的中文商品信息翻译成其他语言,具体的思路是现将网页标签序列的相似性以及最大匹配计算数字序列的相似性等作为特征信息,利用支持向量机来提取候选平行网页,再对网页进行语句切分、对齐、整理等操作,最后获得商品信息的汉英、汉蒙、汉藏、汉维双语平行语料,从而完成多语平行语料库的构建。
商品评论要素的抽取方法。电商平台上客户对商品的评论信息通常包括两部分内容(如京东商城),第一部分为固定格式的评论,通常客户被要求分别对商品的优点和缺点进行评价,这种评论信息大都以主观性的短语或短句的形式存在,并且一般都显性地指定商品属性和评价词,较少采用指代和隐喻,而且很少有与商品不相关的评价信息;第二部分是自由评论,评论者可以自由地表达对商品属性信息的看法,也可以发表与商品无关的评论信息。本发明将按照如图6所示流程来提取商品的属性-评价词对和情感倾向性这两种评论要素,首先,由于固定格式评论信息中的属性-评论词对的形式通常比较简单,因此通过与人工词典直接匹配的方法对固定格式评论信息中的属性-评论词对进行抽取;然后,对于自由评论信息,利用基于词性关系模板的商品属性词和评价词同步抽取算法来抽取属性-评论词对,即先通过有监督的序列规则挖掘算法从训练样本中挖掘出可能的词性依存关系模式,并对这些模式进行置信度评分,利用置信度较高的模式构成模板集合,再利用模板在评论信息中抽取可能的属性-评价词对;最后,在得到评论信息中的属性-评价词对后,利用基于情感词典的方法分析评论信息的情感倾向性,即先通过一个情感词典对评价词的情感倾向性做出判断,再根据正负评价词在评论句中的数量优势来判断评论句的情感倾向。
商品评论摘要的生成方法。本发明拟分别从商品层次和评论层次来组织商品评论摘要。商品层次的评论摘要是指对同一商品下的所有评论进行分类汇总生成一个用户对该商品的总体评价,使读者能够在统计层面对商品的整体和特定属性有一个全面的了解,商品层次的评论摘要包括两部分内容,第一部分是客户对该商品的整体评分,主要是对该商品的各条评论的情感倾向性进行统计,通过各种情感的统计数字来计算一个商品的总体得分,第二部分是用户对商品的各种属性的总体评价,基本思路是先对该商品评论中的属性-评价词对进行聚类,根据聚类结果,将客户对商品主要属性的评论以列表形式展示出来,同时附上各属性下正负评论的数量。评论层次的商品评论摘要是指对每一个客户的评论都组织一个摘要,商品层次的评论摘要可以让读者对商品有一个全面的认识,然而有时候也有必要通过阅读各个客户的评论细节来对该商品的细节有更深入的认识,因此我们还采用主题模型方法在词语粒度上对每一个客户的评论来生成一个摘要。
实施例2:一种面向跨境电子商务平台的汉英蒙藏维多语机器翻译系统,包括用于翻译商品属性信息的属性信息多语机器翻译子系统、用于翻译商品的评论信息的评论信息多语机器翻译子系统、用于翻译商品的交易信息的交易信息多语机器翻译子系统,且各子系统翻译时,于汉英蒙藏维多语平行语料库中检索并进行相应翻译,所述汉英蒙藏维多语平行语料库基于电子词典和双语网页来构建。
作为一种实施例,所述所述汉英蒙藏维多语平行语料库构建的方法是:通过各中文电子商务平台获取待翻译的中文商品信息,利用双语词典对部分商品信息进行翻译;且将网页标签序列的相似性以及最大匹配计算数字序列的相似性作为特征信息,利用支持向量机提取候选平行网页,再对网页进行语句切分、对齐、整理的操作,获得商品信息的汉英、汉蒙、汉藏、汉维双语平行语料,完成多语平行语料库的构建。
下面详细介绍各子系统翻译的过程:
所述属性信息多语机器翻译子系统的翻译过程是:先读取商品的每一条属性名或者属性值,在商品信息的汉英蒙藏维多语平行语料库中检索是否存在该属性名或者属性值,如果存在该属性名或者属性值,则直接根据汉英蒙藏维多平行语料库给出该属性名或属性值的多语言翻译结果,如果不存在,则说明该属性名或者属性值为未登录词,使用分词方法将该属性名或者属性值拆分成更小的汉英蒙藏维平行语料库中存在的命名实体,然后使用基于规则的机器翻译方法将其翻译成各种语言,如果该属性名或者属性值不能拆分成已经存在的更小的命名实体,则采用基于音译的机器翻译方法直接将其翻译成其他语言。
所述评论信息多语机器翻译子系统的翻译过程是:对于商品的每一条评论,使用商品评论要素抽取方法,抽取评论信息中的商品属性-评价词对以及客户的情感倾向性,根据汉英蒙藏维多语平行语料库将属性-评价词对翻译成不同的语言,再在每种语言环境下根据属性-评价词对和客户的情感倾向性使用商品评论摘要生成方法生成各种语言版本的商品评论摘要,实现对商品评论信息的多语言翻译。
所述交易信息多语机器翻译子系统的翻译过程是:所述属性信息多语机器翻译子系统的翻译过程是:先读取商品的交易信息,在商品信息的汉英蒙藏维多语平行语料库中检索是否存在该交易信息,如果存在该交易信息,则直接根据汉英蒙藏维多平行语料库给出该交易信息的多语言翻译结果,如果不存在,则说明该交易信息为未登录词,采用基于音译的机器翻译方法直接将其翻译成其他语言。
所述商品评论要素的抽取方法用于提取商品的属性-评价词对和情感倾向性这两种评论要素,步骤是:
首先,通过与人工词典直接匹配的方法对固定格式评论信息中的属性-评论词对进行抽取;然后,对于自由评论信息,利用基于词性关系模板的商品属性词和评价词同步抽取算法来抽取属性-评论词对;
最后,在得到评论信息中的属性-评价词对后,利用基于情感词典的方法分析评论信息的情感倾向性。
所述商品评论摘要的生成方法,分别从商品层次和评论层次来组织商品评论摘要,步骤是:
先对该商品评论中的属性-评价词对进行聚类,根据聚类结果,将客户对商品主要属性的评论以列表形式展示出来,同时附上各属性下正负评论的数量;
然后针对评论层次的商品评论摘要对每一个客户的评论组织一个摘要,商品层次的评论摘要采用主题模型方法在词语粒度上对每一个客户的评论来生成一个摘要。
所述基于词性关系模板的商品属性词和评价词同步抽取算法是先通过有监督的序列规则挖掘算法从训练样本中挖掘出可能的词性依存关系模式,并对这些模式进行置信度评分,利用置信度较高的模式构成模板集合,再利用模板在评论信息中抽取可能的属性-评价词对;所述基于情感词典的方法是先通过一个情感词典对评价词的情感倾向性做出判断,再根据正负评价词在评论句中的数量优势来判断评论句的情感倾向。
本实施例还涉及一种翻译方法,使用上述任意方案中的翻译系统,具有:
翻译商品属性信息的步骤;翻译商品的评论信息的步骤;翻译商品的交易信息的步骤;且各子系统翻译时,于汉英蒙藏维多语平行语料库中检索并进行相应翻译,所述多语平行语料库基于电子词典和双语网页来构建;
所述的翻译商品的评论信息的步骤中,具商品评论要素抽取的步骤和商品评论摘要生成的步骤。
以上所述,仅为本发明创造较佳的具体实施方式,但本发明创造的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明创造披露的技术范围内,根据本发明创造的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明创造的保护范围之内。