一种多语种混合检索方法和系统的制作方法

文档序号：6485978阅读：277来源：国知局

一种多语种混合检索方法和系统的制作方法
【专利摘要】本发明提供了一种多语种混合检索方法和系统，涉及网络【技术领域】。本发明的方法包括：接收用户端输入的查询词，并识别所述查询词的所属源语种；将所述查询词从源语种翻译为各目标语种的查询词；所述各目标语种为与所述源语种不同的语种；对于每个语种的查询词，基于所述查询词检索对应各语种网页信息的索引，获得相应语种的网页信息；对于由各目标语种对应的索引获得的网页信息，获取从各目标语种翻译为源语种后的网页信息；对于得到的所有网页信息，返回至少一条网页信息至用户端。本发明去除了现有技术对于在检索过程中全文翻译的依赖，降低因翻译而存在的信息损失问题，降低没有明显上下文关系的信息的翻译信息损失问题，提高搜索结果的精确度。
【专利说明】一种多语种混合检索方法和系统
【技术领域】
[0001]本申请涉及网络【技术领域】，特别是涉及一种多语种混合检索方法和系统。
【背景技术】
[0002]随着网络的普及，网络上的信息资源日益丰富且用户对于网络资源的需求也在逐渐提高。但是在网页信息资源日益丰富的同时，又存在着阻碍这些资源为用户所广泛共存的一个主要障碍:多语种问题。为了解决多语种问题，便开始多语种信息检索(MLIR)的研究。
[0003]现有技术中，举例来说，以西班牙语和英语为例:首先，将英语的文档全文翻译为西班牙语文档，然后将翻译得到的西班牙语文档和原有的西班牙文档一起建立西班牙语对应的索引；同时也讲西班牙语文档全文翻译为英语文档，然后将翻译得到的英语文档和原有的英语文档一起建立英语对应的索引。当有英语查询词时，将英语查询词在英语对应的索引中进行检索，获取检索结果并返回；当有西班牙查询词时，将西班牙语查询词在西班牙语对应的索引中进行检索，获取检索结果并返回。
[0004]现有技术中，首先，对于其中任意一种语言A，先将其他语言的文档翻译为该语言A的文档在一起建立索引，导致系统结构臃肿，硬件设备规模庞大，不易于维护，也不易于扩展。其次，对于其中任意一种语言A，现有技术将其他语言的文档的全文翻译为该语言A的文档后，将语言A的查询词在这些文档中进行搜索，由于各种语言的规则很不相同，导致翻译时原文档的语义信息损失，并且翻译越多，则可能存在的损失越大，如此，再在全文翻译的基础上进行搜索必然会不够精确。

【发明内容】

[0005]本申请所要解决的技术问题是提供一种多语种混合检索方法和系统，能降低精准度损失的问题，并且系统结构简单，降低硬件设备的规模，易于扩展，布置灵活。
[0006]为了解决上述问题，本申请公开、一种多语种混合检索方法，包括:
[0007]接收用户端输入的查询词，并识别所述查询词的所属源语种；
[0008]将所述查询词从源语种翻译为各目标语种的查询词；所述各目标语种为与所述源语种不同的语种；
[0009]对于每个语种的查询词，基于所述查询词检索对应各语种网页信息的索引，获得相应语种的网页信息；
[0010]对于由各目标语种对应的索引获得的网页信息，获取从各目标语种翻译为源语种后的网页信息；
[0011]对于得到的所有网页信息，返回至少一条网页信息至用户端。
[0012]优选的，所述各语种的网页信息的索引建立的步骤包括:
[0013]对于一个语种的网页信息，获取所述网页信息对应的各特征域的域信息；
[0014]对于每个特征域的域信息，基于所属语种的语义规则进行规范化处理，得到该语种的各最简语义单元；
[0015]基于各最简语义单元和各特征域建立索引。
[0016]优选的，基于各最简语义单元和各特征域建立索引时包括:
[0017]利用各最简语义单元，建立第一倒排索引；所述第一倒排索引用于依据查询词初步筛选与所述查询词相关的网页信息；
[0018]利用所述各特征域和相应特征域中的最简语义单元，将特征域排序建立第二序列化索引；所述第二序列化索引用于在所述初步筛选的网页信息中再次筛选与所述查询词相关的网页信息。
[0019]优选的，对于每个语种的查询词，基于所述查询词检索对应各语种的网页信息的索引，获得相应语种的网页信息时包括:
[0020]对于每个语种的查询词，按相应语种的语义规则对所述查询词进行规范化处理，得到相应语种的各最简语义单元；
[0021]基于各语种的所述各最简语义单元检索相应语种网页信息的索引，获得相应语种的网页信息。
[0022]优选的，在获得相应语种的网页信息时包括:
[0023]对于每一个语种的网页信息，计算所述网页信息与相应语种查询词的相关性权值。
[0024]优选的，计算所述网页信息与相应语种查询词的相关性权值的步骤包括:
[0025]计算所述查询词与网页信息的主题特征域中相同的词占查询词长度的占比Π ;
[0026]计算所述查询词与网页信息的主题特征域中相同的词占所述主题特征域中各词长度的占比f2 ；
[0027]计算所述查询词对应的各最小语义单元在所述主题特征域的各最小语义单元中的占比f3 ；
[0028]计算查询词占网页信息的关键词特征域的关键词占比情况f4 ；
[0029]计算查询词的最小语义单元序列与网页信息的主题特征域的最小语义单元序列的匹配情况f5 ；
[0030]计算查询词的最小语义单元序列与网页信息的关键词特征域的关键词序列的匹配情况f6 ；
[0031]基于所述fl、f2、f3、f4、f5、f6进行线性回归拟合获得所述相关性权值。
[0032]优选的，将所述查询词从源语种翻译为各目标语种的查询词时包括:
[0033]计算所述查询词从源语种翻译为各目标语种的查询词的第一翻译权值。
[0034]优选的，获取从各目标语种翻译为源语种后的网页信息时包括:
[0035]获取各目标语种的网页信息从各目标语种翻译为源语种的第二翻译权值。
[0036]优选的，对于得到的所有网页信息，返回至少一条网页信息至用户端之前还包括:
[0037]对于每一条网页信息，利用所述网页信息的所述相关性权值、和/或第一翻译权值、和\或第二翻译权值归一化计算为同一标准下的总权值；
[0038]利用所述总权值对各条网页信息进行排序。
[0039]优选的，对于得到的所有网页信息，返回至少一条网页信息至用户端包括:[0040]将网页信息中的标识特征域相同的网页信息进行去重。
[0041]相应的，本申请还公开了一种多语种混合检索系统，包括
[0042]接收识别模块，用于接收用户端输入的查询词，并识别所述查询词的所属源语种；
[0043]翻译模块，用于将所述查询词从源语种翻译为各目标语种的查询词；所述各目标语种为与所述源语种不同的语种；
[0044]检索模块群，其中每个语种对应一个检索模块，用于对于相应语种的查询词，基于所述查询词检索对应语种网页信息的索引，获得相应语种的网页信息；
[0045]源语种网页信息获取模块，用于对于由各目标语种对应的索引获得的网页信息，获取从各目标语种翻译为源语种后的网页信息；
[0046]返回模块，用于对于得到的所有网页信息，返回至少一条网页信息至用户端。
[0047]优选的，所述索引的建立模块包括:
[0048]域信息获取子模块，用于对于一个语种的网页信息，获取所述网页信息对应的各特征域的域信息；
[0049]预处理子模块，用于对于每个特征域的域信息，基于所属语种的语义规则进行规范化处理，得到该语种的各最简语义单元；
[0050]建立子模块，用于基于各最简语义单元和各特征域建立索引。
[0051]与现有技术相比，本申请包括以下优点:
[0052]本申请首先对于每一种语言的网页信息建立一套索引，然后对于用户端输入的查询词，首先识别其所属的源语种，并将查询词从源语种翻译为其他语种的查询词；此时对于各语种的查询词，将其输入相应语种的检索引擎中进行检索，得到与查询词相关的网页信息，最后再将得到的产品翻译为源语种的网页信息，返回给用户端查看。在上述过程中，由于是针对每一种语言的网页信息单独建立了索引，在搜索时每种语言的查询词只搜索本语言的网页信息，不用分别为每种语言建立所有语言的网页信息的索引，简化了索引结构，使构建整个系统的硬件设备大大缩减；其次，在上述过程中只是对查询词翻译为目标语言，然后去目标语言的网页信息中搜索相关的网页信息，翻译量少，去除了现有技术对于在检索过程中全文翻译的依赖，降低了因翻译而存在的信息损失问题，特别是降低没有明显上下文关系的信息的翻译信息损失问题，提高了搜索结果的精确度。
【专利附图】

【附图说明】
[0053]图1是本申请一种多语种混合检索方法的流程示意图；
[0054]图2是本申请优选的建立索引的流程示意图；
[0055]图3是本申请优选的对应每个语种查询词的检索流程示意图；
[0056]图4是本申请一种多语种混合检索系统的结构示意图。
【具体实施方式】
[0057]为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和【具体实施方式】对本申请作进一步详细的说明。
[0058]本申请的核心思想之一在于，针对每种语言的网页信息，只建立本语种网页信息的索引；对于用户端某种语言的查询词，将其翻译为其他语种的查询词，然后将各种语言的查询词分别输入相应的语种的索引中进行查询，根据查询结果再提取相应的网页信息翻译返回给用户端。本申请提出的多语种混合检索方法，极易扩展到其他语种的语言产品，为多语言混合搜索平台打好基础，实现不同数据对象的混合搜索及混合排序，简化了索引结构，是构建整个系统的硬件设备大大缩减；并且翻译量少，去除了现有技术对于在检索过程中全文翻译的依赖，降低了因翻译而存在的信息损失问题，特别是降低没有明显上下文关系的信息的翻译信息损失问题，提高了搜索结果的精确度。
[0059]参照图1，示出了本申请一种多语种混合检索方法的流程示意图，包括:
[0060]步骤110，接收用户端输入的查询词，并识别所述查询词的所属源语种；
[0061]步骤120，将所述查询词从源语种翻译为各目标语种的查询词；所述各目标语种为与所述源语种不同的语种；
[0062]步骤130，对于每个语种的查询词，基于所述查询词检索对应各语种网页信息的索弓I，获得相应语种的网页信息；
[0063]步骤140，对于由各目标语种对应的索引获得的网页信息，获取从各目标语种翻译为源语种后的网页信息；
[0064]步骤150，对于得到的所有网页信息，返回至少一条网页信息至用户端。
[0065]本申请首先需要建立各语种的网页信息的索引，比如如果网络中存在英语、法语、汉语、日语四种语言的网页信息，那么对于每种语言的网页信息分别建立一套索引，各自不相互干扰。
[0066]在本申请中，首先需要针对各种语言的网页信息建立相应语言的索引。在实际中，可构建相应语种的索引集群，提供该种索引的查询服务。
[0067]优选的，所述各语种的网页信息的索引建立的步骤包括:
[0068]步骤S131，对于一个语种的网页信息，获取所述网页信息对应的各特征域的域信
肩、O
[0069]在实际中，本申请对于结构化信息具有更好的搜索精度和效率。比如电子商务领域，电子商务的检索对象是一种结构化信息，那么所述的网页信息为产品信息，进一步可为卖家的产品的详细描述。这类信息有其特殊的结构，通用的搜索索引建立和搜索方法对于该种结构化的信息检索精准度比较低。因为现有技术是将其他语言的产品信息翻译为一种语言的产品信息建立索引，即每种语言的索引包括了所有其他语言的产品信息翻译过来的索引，而现有技术中翻译基本上是针对具有相对完善的上下文关系的长文本内容进行的翻译，但是其针对基本上不具有上下文关系的文本的翻译，比如上述结构化文本，则会出现很大的歧义，如果再完全利用全文翻译的结果去进行搜索，则会导致搜索结果更不精确。
[0070]即在本申请中，优选的，所述网页信息可为产品信息。以卖家的产品为例，其产品信息的特征域包括:产品信息主题(title)、产品信息ID、产品信息的关键词、产品信息属性、产品信息类目、产品信息的概要描述、产品的详细描述等等，其中每个字段表示一个特征域。
[0071]如表一，其不出了一个英语产品信息的描述片段:
[0072]
【权利要求】
1.一种多语种混合检索方法，其特征在于，包括: 接收用户端输入的查询词，并识别所述查询词的所属源语种；将所述查询词从源语种翻译为各目标语种的查询词；所述各目标语种为与所述源语种不同的语种；对于每个语种的查询词，基于所述查询词检索对应各语种网页信息的索引，获得相应语种的网页信息；对于由各目标语种对应的索引获得的网页信息，获取从各目标语种翻译为源语种后的网页信息；对于得到的所有网页信息，返回至少一条网页信息至用户端。
2.根据权利要求1所述的方法，其特征在于，所述各语种的网页信息的索引建立的步骤包括: 对于一个语种的网页信息，获取所述网页信息对应的各特征域的域信息；对于每个特征域的域信息，基于所属语种的语义规则进行规范化处理，得到该语种的各最简语义单元；基于各最简语义单元和各特征域建立索引。
3.根据权利要求2所述的方法，其特征在于，基于各最简语义单元和各特征域建立索引时包括: 利用各最简语义单元，建立第一倒排索引；所述第一倒排索引用于依据查询词初步筛选与所述查询词相关的网页信息；利用所述各特征域和相应特征域中的最简语义单元，将特征域排序建立第二序列化索引；所述第二序列化索引用于在所述初步筛选的网页信息中再次筛选与所述查询词相关的网页信息。
4.根据权利要求1所述的方法，其特征在于，对于每个语种的查询词，基于所述查询词检索对应各语种的网页信息的索引，获得相应语种的网页信息时包括: 对于每个语种的查询词，按相应语种的语义规则对所述查询词进行规范化处理，得到相应语种的各最简语义单元；基于各语种的所述各最简语义单元检索相应语种网页信息的索引，获得相应语种的网页信息。
5.根据权利要求4所述的方法，其特征在于，在获得相应语种的网页信息时包括: 对于每一个语种的网页信息，计算所述网页信息与相应语种查询词的相关性权值。
6.根据权利要求5所述的方法，其特征在于，计算所述网页信息与相应语种查询词的相关性权值的步骤包括: 计算所述查询词与网页信息的主题特征域中相同的词占查询词长度的占比Π ; 计算所述查询词与网页信息的主题特征域中相同的词占所述主题特征域中各词长度的占比f2 ；计算所述查询词对应的各最小语义单元在所述主题特征域的各最小语义单元中的占比f3 ；计算查询词占网页信息的关键词特征域的关键词占比情况f4 ；计算查询词的最小语义单元序列与网页信息的主题特征域的最小语义单元序列的匹配情况f5 ；计算查询词的最小语义单元序列与网页信息的关键词特征域的关键词序列的匹配情况f6 ；基于所述H、f2、f3、f4、f5、f6进行线性回归拟合获得所述相关性权值。
7.根据权利要求1所述的方法，其特征在于，将所述查询词从源语种翻译为各目标语种的查询词时包括: 计算所述查询词从源语种翻译为各目标语种的查询词的第一翻译权值。
8.根据权利要求1所述的方法，其特征在于，获取从各目标语种翻译为源语种后的网页信息时包括: 获取各目标语种的网页信息从各目标语种翻译为源语种的第二翻译权值。
9.根据权利要求6、7、8其中之一所述的方法，其特征在于，对于得到的所有网页信息，返回至少一条网页信息至用户端之前还包括: 对于每一条网页信息，利用所述网页信息的所述相关性权值、和/或第一翻译权值、和\或第二翻译权值归一化计算为同一标准下的总权值；利用所述总权值对各条网页信息进行排序。
10.根据权利要求1所述的方法，其特征在于，对于得到的所有网页信息，返回至少一条网页信息至用户端包括:` 将网页信息中的标识特征域相同的网页信息进行去重。
11.一种多语种混合检索系统，其特征在于，包括接收识别模块，用于接收用户端输入的查询词，并识别所述查询词的所属源语种；翻译模块，用于将所述查询词从源语种翻译为各目标语种的查询词；所述各目标语种为与所述源语种不同的语种；检索模块群，其中每个语种对应一个检索模块，用于对于相应语种的查询词，基于所述查询词检索对应语种网页信息的索引，获得相应语种的网页信息；源语种网页信息获取模块，用于对于由各目标语种对应的索引获得的网页信息，获取从各目标语种翻译为源语种后的网页信息；返回模块，用于对于得到的所有网页信息，返回至少一条网页信息至用户端。
12.根据权利要求11所述的系统，其特征在于，所述索引的建立模块包括: 域信息获取子模块，用于对于一个语种的网页信息，获取所述网页信息对应的各特征域的域信息；预处理子模块，用于对于每个特征域的域信息，基于所属语种的语义规则进行规范化处理，得到该语种的各最简语义单元；建立子模块，用于基于各最简语义单元和各特征域建立索引。
【文档编号】G06F17/28GK103488648SQ201210194972
【公开日】2014年1月1日申请日期:2012年6月13日优先权日:2012年6月13日
【发明者】郑伟, 林锋, 金华兴, 孙丽, 刘清富申请人:阿里巴巴集团控股有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郑伟;林锋;金华兴;孙丽;刘清富
技术所有人：阿里巴巴集团控股有限公司
我是此专利的发明人

上一篇：一种阅读器及其业务操作的实现方法和装置制造方法
上一篇：门户网站页面的编写方法及系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。