通过计算机实现的计算文本相似度和搜索处理方法及装置制造方法
【专利摘要】本发明提供的一种通过计算机实现的计算文本相似度和搜索处理方法及装置。所述方法包括:获取第一文本串和第二文本串;根据预先设置的短语翻译模型和依存结构模型,对所述第一文本串进行解码,获取K个翻译文本串;分别计算所述K个翻译文本串与所述第二文本串之间的第一语义相似度值,并且根据计算的K个第一语义相似度值计算所述第一文本串和第二文本串之间的第二语义相似度值。其解决了句子中长距离的依存关系问题,能够更好地表示搜索语句的语义,从而更好地将搜索语句与网页标题进行匹配,使用户得到语义匹配的搜索结果条目,增强用户搜索体验。
【专利说明】通过计算机实现的计算文本相似度和搜索处理方法及装置
【技术领域】
[0001] 本发明涉及自然语言处理技术,尤其涉及一种通过计算机实现的计算文本相似度 和搜索处理方法及装置。
【背景技术】
[0002] 在搜索引擎当中,为了能够将用户输入的搜索词(或Query)尽可能好的匹配到文 档的各个域上(例如,标题、内容),通常采用基于完全的词的匹配的方法来实现所述匹配。
[0003] 目前也有利用翻译模型的方法,从翻译的角度来假定标题和搜索词(例如, Query)是以不同的子语言所写成的假设下,来对类似于"有效果"被翻译成"有用"这样的 短语翻译来实现语义的匹配。但是,这种方法并不能够解决目标语言当中的长距离依赖问 题,只能简单进行语义匹配,使得不能真实体现和表示搜索语句的语义,从而将搜索语句与 网页标题匹配错误,影响搜索结果显示和排序,进而影响用户体验。例如,将句子"关羽当 年为什么没有杀曹操"匹配为"曹操当年为什么不杀关羽",原句子(query)中"关羽"是主 语,"曹操"是宾语,而由于未解决长距离依存关系问题,搜索语句与网页标题仅进行词的匹 配,而实际句子的依存关系却未体现。
【发明内容】
[0004] 本发明的目的在于,提供一种通过计算机实现的计算文本相似度和搜索处理方法 及装置,更好地刻画非局部的依存关系,解决长距离依存关系,从而实现更好的匹配效果。
[0005] 根据本发明的一方面,提供一种通过计算机实现的计算文本相似度的方法,包括: 获取第一文本串和第二文本串;根据预先设置的短语翻译模型和依存结构模型,对所述第 一文本串进行解码,获取K个翻译文本串;分别计算所述K个翻译文本串与所述第二文本串 之间的第一语义相似度值,并且根据计算的K个第一语义相似度值计算所述第一文本串和 第二文本串之间的第二语义相似度值。
[0006] 根据本发明的一方面,提供一种搜索处理方法,包括:接收搜索词;根据所述搜索 词获取多个搜索结果条目;根据所述通过计算机实现的计算文本相似度的方法计算所述搜 索词与所述多个搜索结果条目的内容标题的语义相似度值;根据计算的所述语义相似度值 对所述多个搜索结果条目进行排序;发送经过排序的搜索结果条目。
[0007] 根据本发明的另一方面,提供一种计算文本相似度的装置,包括:文本串获取单 元,用于获取第一文本串和第二文本串;文本串解码单元,用于根据预先设置的短语翻译模 型和依存结构模型,对所述第一文本串进行解码,获取K个翻译文本串;相似度值计算单 元,用于分别计算所述K个翻译文本串与所述第二文本串之间的第一语义相似度值,并且 根据计算的K个第一语义相似度值计算所述第一文本串和第二文本串之间的第二语义相 似度值。
[0008] 根据本发明的另一方面,提供一种搜索处理装置,包括:搜索词接收单元,用于接 收搜索词;搜索结果获取单元,用于根据所述搜索词获取多个搜索结果条目;语义相似值 计算单元,用于所述计算文本相似度的装置计算所述搜索词与所述多个搜索结果条目的内 容标题的语义相似度值;排序单元,用于根据计算的所述语义相似度值对所述多个搜索结 果条目进行排序;发送单元,用于发送经过排序的搜索结果条目。
[0009] 本发明实施例提供的通过计算机实现的计算文本相似度和搜索处理方法及装置, 通过短语翻译模型和依存结构模型对第一文本串(如用户输入的搜索关键词或query)进 行解码获得多个翻译文本串,分别计算所述多个翻译文本串与第二文本串(如搜索结果条 目的内容标题)之间的第一语义相似度值,并且根据计算的多个第一语义相似度值计算所 述第一文本串和第二文本串之间的第二语义相似度值,解决了文本串中长距离的依存关系 问题,能够全面、准确地计算文本串之间的相似度。
[0010] 在搜索技术中,通过将搜索词和搜索获取的搜索结果条目的内容标题进行如上所 述的语义相似度计算,可更好地表示搜索语句的语义,并且可综合根据该相似度值以及第 一文本串,对返回的搜索结果进行排序,从而得到最优的搜索结果,以供用户查看。如此,解 决文本串中长距离的依存关系问题,从而更好地将搜索语句与网页标题进行匹配,向用户 提供语义匹配的搜索结果条目,增强用户搜索体验。
【专利附图】
【附图说明】
[0011] 图1是示出本发明示例性实施例的通过计算机实现的计算文本相似度的方法的 流程示意图。
[0012] 图2是示出本发明示例性实施例的句子的依存关系示例图。
[0013] 图3是示出本发明示例性实施例的搜索处理方法的流程示意图。
[0014] 图4是示出本发明示例性实施例的计算文本相似度的装置的结构框图。
[0015] 图5是示出本发明示例性实施例的搜索处理装置的结构框图。
【具体实施方式】
[0016] 本发明的基本构思是,在信息处理技术中,通过为翻译模型引入目标语言的依存 结构模型来实现语义结构的匹配;在文本匹配的处理中,将翻译模型与依存结构模型结合 对文本串进行解码,用以产生Top K个翻译文本串,再通过所述多个翻译文本串与要进行比 较/匹配的另一文本串进行实现语义结构的匹配,强化语义结构信息,且通过语义相似度 的计算,向用户推送与搜索语句匹配的网页标题。
[0017] 传统的短语翻译模型,在将搜索词翻译成Top K的标题时,会使用NGRAM语言模型 来考察翻译得到的标题是否符合目标语言的语言规律。本发明中,为了进一步考察目标语 言的依存结构,故而进一步引入一个依存结构模型。
[0018] 具体地说,一个句子的依存关系是指句子S = (wl,w2,......wn)中两个词(wi, wj)之间是通过wj修饰wi这样的依存弧以描述词wj对wi的修饰关系;此外,为了描述链 式的修饰关系,增加特殊的根(root)节点w0,以(w0,wi)来表示其起始关系。
[0019] 可以通过如下等式计算句子S的依存结构概率:
【权利要求】
1. 一种通过计算机实现的计算文本相似度的方法,其特征在于,所述方法包括: 获取第一文本串和第二文本串; 根据预先设置的短语翻译模型和依存结构模型,对所述第一文本串进行解码,获取K 个翻译文本串; 分别计算所述K个翻译文本串与所述第二文本串之间的第一语义相似度值,并且根据 计算的K个第一语义相似度值计算所述第一文本串和第二文本串之间的第二语义相似度 值。
2. 根据权利要求1所述的方法,其特征在于,所述分别计算所述K个翻译文本串与所述 第二文本串之间的第一语义相似度值的处理包括: 获取对所述第二文本串进行依存关系分析取得的至少一个第二依存弧,并且对任一所 述翻译文本串,执行W下处理: 对所述翻译文本串进行依存关系分析,取得至少一个第一依存弧, 基于所述至少一个第一依存弧和至少一个第二依存弧计算所述任一所述翻译文本串 和所述第二文本串之间的第一语义相似度值。
3. 根据权利要求2所述的方法,其特征在于,所述基于所述至少一个第一依存弧和至 少一个第二依存弧计算所述任一所述翻译文本串和所述第二文本串之间的第一语义相似 度值的处理包括: 计算所述至少一个第一依存弧和至少一个第二依存弧的余弦相似度作为所述任一所 述翻译文本串和所述第二文本串之间的第一语义相似度值。
4. 根据权利要求1?3中任一项所述的方法,其特征在于,所述根据计算的K个第一语 义相似度值计算所述第一文本串和第二文本串之间的第二语义相似度值的处理包括: W所述依存结构模型给予每个翻译文本串的得分作为权重,对所述K个第一语义相似 度值进行加权求和,取得所述第一文本串和第二文本串之间的第二语义相似度值。
5. 根据权利要求4所述的方法,其特征在于,所述根据预先设置的短语翻译模型和依 存结构模型对所述第一文本串进行解码,获取K个翻译文本串的处理包括: 根据所述短语翻译模型、所述依存结构模型、NGRAM语言模型W及语序扭曲模型对所述 第一文本串进行解码,获取所述K个翻译文本串。
6. 根据权利要求5所述的方法,其特征在于,在所述根据所述短语翻译模型、所述依存 结构模型、NGRAM语言模型W及语序扭曲模型对所述第一文本串Q进行解码,获取所述K个 翻译文本串T的处理中, 通过W下公式对任一候选文本串T计算综合评分Score(T); Score(T)=入 iLMOO + AsTM 他 T) + A30 他 T) + A4DEP(T) 其中,LM(T)是根据所述NGRAM语言模型对翻译文本串T的评分,TM化T)是根据所述 短语翻译模型由第一文本串Q翻译为翻译文本串T的概率评分,D化T)是根据所述语序扭 曲模型计算的由第一文本串Q翻译为翻译文本串T的评分,DEP(T)是根据所述依存结构模 型对翻译文本串T的评分,A 1?A 4分别是赋予前述四个模型的评分的权重, 通过所述综合评分从候选文本串当中选取所述K个翻译文本串。
7. 根据权利要求6所述的方法,其特征在于,通过柱捜索解码器对所述第一文本串进 行解码,获取K个翻译文本串。
8. -种捜索处理方法,其特征在于,包括: 接收捜索词; 根据所述捜索词获取多个捜索结果条目; 根据如权利要求1?7中任一项所述的方法计算所述捜索词与所述多个捜索结果条目 的内容标题的语义相似度值; 根据计算的所述语义相似度值对所述多个捜索结果条目进行排序; 发送经过排序的捜索结果条目。
9. 一种计算文本相似度的装置,其特征在于,所述装置包括: 文本串获取单元,用于获取第一文本串和第二文本串; 文本串解码单元,用于根据预先设置的短语翻译模型和依存结构模型,对所述第一文 本串进行解码,获取K个翻译文本串; 相似度值计算单元,用于分别计算所述K个翻译文本串与所述第二文本串之间的第一 语义相似度值,并且根据计算的K个第一语义相似度值计算所述第一文本串和第二文本串 之间的第二语义相似度值。
10. 根据权利要求9所述的装置,其特征在于,所述相似度值计算单元获取对所述第二 文本串进行依存关系分析取得的至少一个第二依存弧, 对任一所述翻译文本串,执行W下处理: 对所述翻译文本串进行依存关系分析,取得至少一个第一依存弧, 基于所述至少一个第一依存弧和至少一个第二依存弧计算所述任一所述翻译文本串 和所述第二文本串之间的第一语义相似度值。
11. 根据权利要求10所述的装置,其特征在于,所述相似度值计算单元计算所述至少 一个第一依存弧和至少一个第二依存弧的余弦相似度作为所述任一所述翻译文本串和所 述第二文本串之间的第一语义相似度值。
12. 根据权利要求9?11中任一项所述的装置,其特征在于,所述相似度值计算单元W 所述依存结构模型给予每个翻译文本串的得分作为权重,对所述K个第一语义相似度值进 行加权求和,取得所述第一文本串和第二文本串之间的第二语义相似度值。
13. 根据权利要求12所述的装置,其特征在于,所述文本串解码单元根据所述短语翻 译模型、所述依存结构模型、NGRAM语言模型W及语序扭曲模型对所述第一文本串进行解 码,获取所述K个翻译文本串。
14. 根据权利要求13所述的装置,其特征在于,所述文本串解码单元通过W下公式对 任一候选文本串T计算综合评分Score(T); Score(T)=入 iLMOO + AsTM 他 T) + A30 他 T) + A4DEP(T) 其中,LM(T)是根据所述NGRAM语言模型对翻译文本串T的评分,TM化T)是根据所述 短语翻译模型由第一文本串Q翻译为翻译文本串T的概率评分,D化T)是根据所述语序扭 曲模型计算的由第一文本串Q翻译为翻译文本串T的评分,DEP(T)是根据所述依存结构模 型对翻译文本串T的评分,A 1?A 4分别是赋予前述四个模型的评分的权重, 通过所述综合评分从候选文本串当中选取所述K个翻译文本串。
15. 根据权利要求14所述的装置,其特征在于,通过柱捜索解码器对所述第一文本串 进行解码,获取K个翻译文本串。
16. -种捜索处理装置,其特征在于,包括: 捜索词接收单元,用于接收捜索词; 捜索结果获取单元,用于根据所述捜索词获取多个捜索结果条目; 语义相似值计算单元,用于根据如权利要求9?15中任一项所述的装置计算所述捜索 词与所述多个捜索结果条目的内容标题的语义相似度值; 排序单元,用于根据计算的所述语义相似度值对所述多个捜索结果条目进行排序; 发送单元,用于发送经过排序的捜索结果条目。
【文档编号】G06F17/27GK104462060SQ201410728432
【公开日】2015年3月25日 申请日期:2014年12月3日 优先权日:2014年12月3日
【发明者】张军, 吴先超, 刘占一 申请人:百度在线网络技术(北京)有限公司