专利名称:一种跨语言搜索的方法和装置的制作方法
一种跨语言搜索的方法和装置
技术领域:
本发明涉及互联网技术领域,特别涉及一种跨语言捜索的方法和装置。
背景技木随着互联网信息的不断增长,人们对于信息捜索提出了更高的要求,不再满足于在同一种语种文档集中捜索,而要求获取多种语种文档。例如,如果用户输入的搜索词(query)为“贝克汉姆图片”,则中文文档集中的捜索可能并不能最大程度地满足用户需求,欧美网站的英文文档集中可能具有更优、更多的搜索結果。
当从多语种文档集中进行搜索的需求越来越高时,为了获得更多、更全面、更准确的信息,同时为了跨越语言障碍,人们希望能够以ー种自己熟悉的语言描述query,而搜索结果中能够包括多语言的文档,即进行两语种之间的跨语言搜索。
发明内容有鉴于此,本发明提供了一种跨语言捜索的方法和装置,以便于实现包含多语言文档的搜索結果,为用户提供更优、更多的捜索結果。具体技术方案如下一种跨语言搜索的方法,该方法包括A、接收用户输入的源语言搜索请求query ;B、将所述源语言query翻译为N种目标语言query,N为大于I的整数;C、分别获取所述N种目标语言query对应的捜索结果;D、将步骤C获取的捜索结果进行整合后形成最終的捜索结果集合提供给用户;其中在所述最終的捜索结果集合中,根据各搜索结果在所属分类中的排次以及所属分类的排序权重,对各搜索结果进行排序。在步骤B中,针对每ー种目标语言,将所述源语言query对应的该种目标语言的翻译结果中,翻译分值最高的ー种翻译结果作为目标语言query ;翻译结果e的翻译分值由以下因素中的至少ー种确定翻译所使用的翻译语料库中翻译结果e的统计次数以及翻译结果e中各词的组合概率。较优地,所述步骤B具体包括BI、对所述源语言query进行优化处理,所述优化处理包括query纠错处理和query扩展处理中的任一种或组合;B2、将优化处理后的源语言query翻译为N种目标语言query。其中,如果所述优化处理仅包括query纠错处理,则对所述用户输入的源语言query进行query纠错处理后得到包含nl个query的源语言query集合Ql, nl为预设的正整数;所述步骤B2具体为针对每ー种目标语言,分别利用所述Ql中的各query进行翻译,确定翻译分值总和最高的翻译结果作为目标语言query ;其中,翻译结果的翻译分值总
权利要求
1.一种跨语言捜索的方法,其特征在于,该方法包括 A、接收用户输入的源语言搜索请求query; B、将所述源语言query翻译为N种目标语言query,N为大于I的整数; C、分别获取所述N种目标语言query对应的捜索结果; D、将步骤C获取的捜索结果进行整合后形成最終的捜索结果集合提供给用户; 其中在所述最終的捜索结果集合中,根据各搜索结果在所属分类中的排次以及所属分类的排序权重,对各搜索结果进行排序。
2.根据权利要求I所述的方法,其特征在于,在步骤B中,针对每ー种目标语言,将所述源语言query对应的该种目标语言的翻译结果中,翻译分值最高的一种翻译结果作为目标语目query ; 翻译结果e的翻译分值由以下因素中的至少ー种确定翻译所使用的翻译语料库中翻译结果e的统计次数以及翻译结果e中各词的组合概率。
3.根据权利要求I所述的方法,其特征在于,所述步骤B具体包括 BI、对所述源语言query进行优化处理,所述优化处理包括query纠错处理和query扩展处理中的任一种或组合; B2、将优化处理后的源语言query翻译为N种目标语言query。
4.根据权利要求3所述的方法,其特征在干,如果所述优化处理仅包括query纠错处理,则对所述用户输入的源语言query进行query纠错处理后得到包含nl个query的源语言query集合Ql, nl为预设的正整数; 所述步骤B2具体为针对每ー种目标语言,分别利用所述Ql中的各query进行翻译,确定翻译分值总和最高的翻译结果作为目标语言query ;其中,翻译结果的翻译分值总和 nl为ZP(eIqi),P (e I qj)为所述Ql中qi被翻译为e的翻译分值; 1=1 翻译结果e对应的翻译分值由以下因素中的至少ー种确定翻译所使用的翻译语料库中翻译结果e的统计次数以及翻译结果e中各词的组合概率。
5.根据权利要求3所述的方法,其特征在干,如果所述优化处理仅包括query扩展处理,则对所述用户输入的源语言query进行query扩展处理后得到包含n2个query的源语言query集合Q2,n2为预设的正整数; 所述步骤B2具体为针对每ー种目标语言,分别利用所述Q2中的各query进行翻译,确定翻译分值总和最高的翻译结果作为目标语言query ;其中,翻译结果的翻译分值总和 n2为ZP(eIqi),P (e I qj)为所述Q2中qi被翻译为e的翻译分值; 1=1 翻译结果e对应的翻译分值由以下因素中的至少ー种确定翻译所使用的翻译语料库中翻译结果e的统计次数以及翻译结果e中各词的组合概率。
6.根据权利要求3所述的方法,其特征在干,如果所述优化处理既包括query纠错处理又包括query扩展处理,则对所述用户输入的源语言query进行query纠错处理和query扩展处理后得到包含n个query的源语言query集合Q, n为预设的正整数; 所述步骤B2具体为针对每ー种目标语言,分别利用所述Q中的各query进行翻译,确定翻译分值总和最高的翻译结果作为目标语言query ;其中,翻译结果的翻译分值总和为
7.根据权利要求6所述的方法,其特征在干,对所述用户输入的源语言query进行query纠错处理后和query扩展处理后得到包含n个query的源语言query集合Q具体包括 对所述用户输入的源语言query进行query纠错处理后得到包含nl个query的源语 言query集合Ql, nl为预设的正整数,将所述Ql中的各query分别进行query扩展处理,得到包含n个query的源语言query集合Q ;或者, 对所述用户输入的源语言query进行query扩展处理后得到包含n2个query的源语言query集合Q2, n2为预设的正整数,将所述Q2中的各query分别进行query纠错处理,得到包含n个query的源语言query集合Q ;或者, 对所述用户输入的源语言query同时进行query纠错处理和query扩展处理后,分别得到包含nl个query的源语言query集合Ql和包含n2个query的源语言query集合Q2,将所述Ql和Q2取并集后,得到包含n个query的源语言query集合Q。
8.根据权利要求3、4或7所述的方法,其特征在干,对所述用户输入的源语言query进行query纠错处理具体包括 利用所述用户输入的源语言query查找纠错训练语料,判断纠错训练语料中是否存在与所述用户输入的源语言query相同的错误query,如果是,则确定与所述用户输入的源语言query相同的错误query所对应的所有正确query,从确定的所有正确query中选择对应纠错概率排在前nl个的正确query构成源语言query集合Ql ;否则,所述Ql中仅包括所述用户输入的源语言query ; 其中,所述纠错训练语料包括预先从搜索日志中收集的错误query和对应正确query构成的query对,以及错误query被纠错为对应正确query的纠错概率。
9.根据权利要求3、5或7所述的方法,其特征在干,对所述用户输入的源语言query进行query扩展处理具体包括 将所述用户输入的源语言query进行分词处理,通过查找源语言的复述资源确定分词处理后得到的各词语的同义词,利用分词处理后得到的各词语及各词语的同义词进行组合,取组合得到的query中扩展分值排在前n2个的query构成所述Q2 ; query的扩展分值由创建所述复述资源中该query的统计次数确定。
10.根据权利要求I至7任ー权项所述的方法,其特征在于,所述步骤C还包括 获取所述源语言query对应的搜索结果。
11.根据权利要求4、5、6或7所述的方法,其特征在于,所述步骤C还包括从优化处理后得到的源语言query集合中选择ー个query,获取所述选择的query对应的搜索结果。
12.根据权利要求11所述的方法,其特征在于,所述从优化处理后得到的源语言query集合中选择ー个query时,使用的选择策略包括 对优化处理后得到的源语言query集合中的各query逐一进行搜索,直至找到搜索效果满足预设要求的query,选择该捜索效果满足预设要求的query ;或者,对优化处理后得到的源语言query集合中的各query进行搜索,选择搜索效果最优的query。
13.根据权利要求I所述的方法,其特征在于,步骤D中所述整合包括对步骤C获取的捜索结果进行合并和去重。
14.根据权利要求I所述的方法,其特征在于,所述根据各捜索结果在所属分类中的排次以及所属分类的排序权重,对各搜索结果进行排序具体包括 利用各捜索结果在所属分类中的排次以及所属分类的排序权重,对各搜索结果进行打分,按照打分结果从高到低对各搜索结果进行排序; 其中,搜索结果Rst的打分结果Score(RSt)为
15.根据权利要求14所述的方法,其特征在于,捜索结果所属分类为搜索结果对应的语H ; 第i种分类的排序权重的确定方法具体为s1、提取所述用户输入的源语言query的特征; s2、将步骤SI提取的特征与各语言的特征向量进行相似度计算,确定相似度超过预设的相似度阈值的语言为所述用户输入的源语言query的映射语言; s、对于搜索结果Rst,如果Rst所属分类为映射语言,则该所属分类的排序权重Wi为第一设定值a ;如果Rst所属分类为源语言且源语言不是该所属分类的映射语言,则该所属分类的排序权重Wi为第二设定值b ;如果Rst所属分类既不是映射语言也不是源语言,则该所属分类的排序权重Wi为第三设定值c ; 其中,a > b > c,各语言的特征向量是预先对各语言的已有资源进行挖掘所训练出来的。
16.一种跨语言捜索的装置,其特征在于,该装置包括用户侧交互単元、翻译处理单元、捜索处理单元和结果整合単元; 所述用户侧交互単元,用于接收用户输入的源语言搜索请求query,将所述结果整合单元整合后形成的捜索结果集合提供给所述用户; 所述翻译处理单元,用于将所述源语言query翻译为N种目标语言query,N为大于I的整数; 所述搜索处理单元,用于分别获取所述N种目标语言query对应的捜索结果; 所述结果整合単元,用于将所述搜索处理单元获取的捜索结果进行整合后形成最終的捜索结果集合;其中,在所述最終的捜索结果集合中,根据各搜索结果在所属分类中的排次以及所属分类的排序权重,对各搜索结果进行排序。
17.根据权利要求16所述的装置,其特征在于,所述翻译处理单元针对每ー种目标语言,将所述源语言query对应的该种目标语言的翻译结果中,翻译分值最高的ー种翻译结果作为目标语言query ; 翻译结果e的翻译分值由以下因素中的至少ー种确定翻译所使用的翻译语料库中翻译结果e的统计次数以及翻译结果e中各词的组合概率。
18.根据权利要求16所述的装置,其特征在于,该装置还包括优化处理单元; 所述优化处理单元,用于对所述用户输入的源语言query进行优化处理后提供给所述翻译处理单元,所述优化处理包括query纠错处理和query扩展处理中的任一种或组合;所述翻译处理单元将所述优化处理单元进行优化处理后的源语言query翻译为N种目不不语— 目query。
19.根据权利要求18所述的装置,其特征在干,如果所述优化处理仅包括query纠错处理,则所述优化处理单元对所述用户输入的源语言query进行query纠错处理后得到包含nl个query的源语言query集合Ql, nl为预设的正整数; 所述翻译处理单元针对每ー种目标语言,分别利用所述Ql中的各query进行翻译,确定翻译分值总和最高的翻译结果作为目标语言query ;其中,翻译结果的翻译分值总和为nlHi5Olqi),P (e I q)为Ql中Qi被翻译为e的翻译分值;1=1 翻译结果e对应的翻译分值由以下因素中的至少ー种确定翻译所使用的翻译语料库中翻译结果e的统计次数以及翻译结果e中各词的组合概率。
20.根据权利要求18所述的装置,其特征在于,如果所述优化处理仅包括query扩展处理,则所述优化处理单元对所述用户输入的源语言query进行query扩展处理后得到包含n2个query的源语言query集合Q2, n2为预设的正整数; 所述翻译处理单元针对每ー种目标语言,分别利用所述Q2中的各query进行翻译,确定翻译分值总和最高的翻译结果作为目标语言query ;其中,翻译结果的翻译分值总和为n2Hi5Olqi),P (e I qj)为Q2中Qi被翻译为e的翻译分值;1=1 翻译结果e对应的翻译分值由以下因素中的至少ー种确定翻译所使用的翻译语料库中翻译结果e的统计次数以及翻译结果e中各词的组合概率。
21.根据权利要求18所述的装置,其特征在于,如果所述优化处理既包括query纠错处理又包括query扩展处理,则所述优化处理单元对所述用户输入的源语言query进行query纠错处理和query扩展处理后得到包含n个query的源语言query集合Q,n为预设的正整数; 所述翻译处理单元针对每ー种目标语言,分别利用所述Q中的各query进行翻译,确定翻译分值总和最高的翻译结果作为目标语言query ;其中,翻译结果的翻译分值总和为n写尸(Hqi),P (e I qi)为Q中Qi被翻译为e的翻译分值; 翻译结果e的翻译分值由以下因素中的至少ー种确定翻译所使用的翻译语料库中翻译结果e的统计次数以及翻译结果e中各词的组合概率。
22.根据权利要求21所述的装置,其特征在于,所述优化处理单元具体包括第一纠错模块和第一扩展模块; 所述第一纠错模块,用于对所述用户输入的源语言query进行query纠错处理后得到包含nl个query的源语言query集合Ql, nl为预设的正整数; 所述第一扩展模块,用于将所述Ql中的各query分别进行query扩展处理,得到包含n个query的源语言query集合Q。
23.根据权利要求21所述的装置,其特征在于,所述优化处理单元具体包括第二扩展模块和第二纠错模块; 所述第二扩展模块,用于对所述用户输入的源语言query进行query扩展处理后得到包含n2个query的源语言query集合Q2, n2为预设的正整数; 所述第二纠错模块,用于将所述Q2中的各query分别进行query纠错处理,得到包含n个query的源语言query集合Q。
24.根据权利要求21所述的装置,其特征在于,所述优化处理单元具体包括第三纠错模块、第三扩展模块和合并处理模块; 所述第三纠错模块,用于对所述用户输入的源语言query进行query纠错处理,得到包含nl个query的源语言query集合Ql ; 所述第三扩展模块,用于对所述用户输入的源语言query进行query扩展处理,得到包含n2个query的源语言query集合Q2 ; 所述合并处理模块,用于将所述Ql和Q2取并集后,得到包含n个query的源语言query集合Q。
25.根据权利要求19或21所述的装置,其特征在于,所述优化处理单元具体利用所述用户输入的源语言query查找纠错训练语料,判断纠错训练语料中是否存在与所述用户输入的源语言query相同的错误query,如果是,则确定与所述用户输入的源语言query相同的错误query所对应的所有正确query,从确定的所有正确query中选择对应纠错概率排在前nl个的正确query构成源语言query集合Ql ;否则,所述Ql中仅包括所述用户输入的源I音 g' query ; 其中,所述纠错训练语料包括预先从搜索日志中收集的错误query和对应正确query构成的query对,以及错误query被纠错为对应正确query的纠错概率。
26.根据权利要求20或21所述的装置,其特征在于,所述优化处理单元具体将所述用户输入的源语言query进行分词处理,通过查找源语言的复述资源确定分词处理后得到的各词语的同义词,利用分词处理后得到的各词语及各词语的同义词进行组合,取组合得到的query中扩展分值排在前n2个的query构成所述Q2 ; query的扩展分值由创建所述复述资源中该query的统计次数确定。
27.根据权利要求16至24任ー权项所述的装置,其特征在于,所述搜索处理单元,还用于获取所述源语言query对应的搜索结果。
28.根据权利要求19、20、21或22任ー权项所述的装置,其特征在于,该装置还包括 源请求选择单元,用于从所述优化处理单元进行优化处理后得到的源语言query集合中选择一个query ; 所述搜索处理单元,还用于获取所述源请求选择单元选择的query对应的搜索结果。
29.根据权利要求28所述的装置,其特征在干,所述源请求选择单元采用的选择策略包括 对所述优化处理单元进行优化处理后得到的源语言query集合中的各query逐一进行搜索,直至找到搜索效果满足预设要求的query,选择该搜索效果满足预设要求的query ;或者, 对所述优化处理单元进行优化处理后得到的源语言query集合中的各query进行搜索,选择搜索效果最优的query。
30.根据权利要求 16所 述的装置,其特征在干,所述结果整合単元包括合并处理模块、去重处理模块和排序处理模块; 所述合并处理模块,用于将所述搜索处理单元获取的捜索结果进行合并处理; 所述去重处理单元,用于将所述合并处理模块合并处理后的捜索结果进行去重处理得到搜索结果集合; 所述排序处理模块,用于在所述搜索结果集合中,根据各搜索结果在所属分类中的排次以及所属分类的排序权重,对各搜索结果进行排序。
31.根据权利要求30所述的装置,其特征在干,所述排序处理模块具体利用所述搜索结果集合中各捜索结果在所属分类中的排次以及所属分类的排序权重,对各搜索结果进行打分,按照打分结果从高到低对各搜索结果进行排序; 其中,搜索结果Rst的打分结果
32.根据权利要求31所述的装置,其特征在于,捜索结果所属分类为搜索结果对应的语H ; 所述排序处理模块在确定第i种分类的排序权重时,具体执行以下操作提取所述用户输入的源语言query的特征;将提取的特征与各语言的特征向量进行相似度计算,确定相似度超过预设的相似度阈值的语言为所述用户输入的源语言query的映射语言;对于搜索结果Rst,如果Rst所属分类为映射语言,则该所属分类的排序权重Wi为第一设定值a ;如果Rst所属分类为源语言且源语言不是该所属分类的映射语言,则该所属分类的排序权重Wi为第二设定值b ;如果Rst所属分类既不是映射语言也不是源语言,则该所属分类的排序权重Wi为第三设定值C ; 其中,a > b > c,各语言的特征向量是预先对各语言的已有资源进行挖掘所训练出来的。
全文摘要
本发明提供了一种跨语言搜索的方法和装置,其中方法包括A、接收用户输入的源语言搜索请求(query);B、将所述源语言query翻译为N种目标语言query,N为大于1的整数;C、分别获取所述N种目标语言query对应的搜索结果;D、将步骤C获取的搜索结果进行整合后形成最终的搜索结果集合提供给用户;其中在所述最终的搜索结果集合中,根据各搜索结果在所属分类中的排次以及所属分类的排序权重,对各搜索结果进行排序。通过本发明能够实现包含多语言文档的搜索结果,为用户提供更优、更多的搜索结果。
文档编号G06F17/30GK102651003SQ20111004789
公开日2012年8月29日 申请日期2011年2月28日 优先权日2011年2月28日
发明者吴华, 王海峰, 赵世奇 申请人:北京百度网讯科技有限公司