一种查询串的同义变换方法及设备的制造方法_2

文档序号:9810568阅读:来源:国知局
因此,得到的 同义串可以更符合用户的表达习惯,并且能够最大程度地减少语义偏移。并且对查找的同 义串进行需求满意度统计,将需求满意度值较高的几个同义串进行反馈,由于需求满意度 值较高的同义串更符合用户的查询意图,这样反馈的同义串更加准确。
【附图说明】
[0067] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些附图获得其他的附图。
[0068] 图1是现有技术中查询串的同义变换方法流程图;
[0069] 图2是本发明提供的查询串的同义变换方法实施例一流程图;
[0070] 图3是本发明提供的查询串的同义变换方法实施例二流程图;
[0071] 图4是本发明提供的查询串的同义变换方法实施例三流程图;
[0072] 图5是本发明提供的查询串的同义变换设备实施例一示意图;
[0073] 图6是本发明提供的查询串的同义变换设备实施例二示意图;
[0074] 图7是本发明提供的查询串的同义变换设备实施例三示意图;
[0075] 图8是本发明提供的需求满意度统计模块示意图。
【具体实施方式】
[0076] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0077] 为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明 的【具体实施方式】做详细的说明。
[0078] 方法实施例一:
[0079] 参见图2,该图为本发明提供的查询串的同义变换方法实施例一流程图。
[0080] 本实施例提供的搜索引擎中查询串的同义变换方法,包括:
[0081] S201 :将查询串进行分词处理,得到分词片段;
[0082] 需要说明的是,S201可以利用现有技术中的分词处理方法,例如,查询串为"北京 市朝阳区阜通东大街方恒国际中心",分词处理后得到的分词片段为:"北京市/朝阳区/阜 通东大街/方恒国际中心"、"北京/市/朝阳/区/阜通/东/大街/方恒/国际/中心" 等多个粒度的分词结果。
[0083] 可以理解的是,一个查询串可以有多种分词结果,可以分的粒度较大,也可以分的 粒度较小。
[0084] S202:以分词片段为单元利用正向最大匹配算法在预置的词库中对所述查询串进 行同义词查询;
[0085] S203 :用查询到的同义词替换查询串中对应的分词片段得到多个同义串;
[0086] 下面举例说明正向最大匹配算法,从第一个分词片段开始,优先匹配更长的同义 串,如果查找成功则使用同义词集合替换原词,下次查询匹配时从这次匹配成功的原词的 下一个分词片段开始。如果查找不成功,则跳过该分词片段,下次查找时,从下个分词片段 开始匹配。一直重复上述过程,直到查询串的末尾结束。
[0087] 例如,一个查询串AB⑶分词为A/B/C/D四个分词片段,首先,匹配AB⑶,如果查找 成功,则不用继续查找ABC、AB等词了。如果AB⑶查找不成功,则查找ABC,如果ABC查找 成功了,就不查找AB 了。同理,如果ABC查找不成功,则查找AB。AB查找成功了,就从C开 始进行最长匹配,即查找⑶。
[0088] 例如,查询串为"北京北七家建材市场",分词处理后的最小基本切分粒度为"北京 /北/七/家/建材/市场"。
[0089] 查询"北京北七家建材市场"、"北京北七家建材"、"北京北七家"、"北京北七"、"北 京北"、"北京"这几个查询串,结果都没有同义词,则指针指向当前分词片段"北京"的下一 个分词片段"北"。
[0090] 查询"北七家建材市场"、"北七家建材"、"北七家"、"北七"、"北"这几个串,结果都 没有同义词,则指针指向当前分词片段"北"的下一个分词片段"七"。
[0091] 查询"七家建材市场"、"七家建材"、"七家"、"七"这几个串,结果只有"七"有同义 词"7",则指针指向匹配同义词"七"的下一个分词片段"家"。
[0092] 查询"家建材市场"、"家建材"、"家"这几个串,结果都没有同义词,则指针指向当 前分词片段"家"的下一个分词片段"建材"。
[0093] 查询"建材市场"、"建材"这几个串,结果"建材市场"有同义词"建材城,建筑材 料市场,建材批发市场,建材超市";"建材"有同义词"建筑材料,建材批发,建材装修",依据 最大正向匹配原则,此次同义词替换更长的"建材市场",则指针指向当前分词片段"建材市 场"的下一个分词片段"末尾"。
[0094] 至此,同义词查找结束,原查询串构建出"北京北七家建材城"、"北京北七家建筑 材料市场"、"北京北七家建材批发市场"、"北京北七家建材超市"、"北京北7家建材城"、"北 京北7家建筑材料市场"、"北京北7家建材批发市场"、"北京北7家建材超市"这八个同义 串。
[0095] 利用这种正向最大匹配算法的方式查询同义串比较符合用户的表达习惯,并且能 够最大程度地减少语义偏移。
[0096] S204:对每个所述同义串进行需求满意度统计,获得每个同义串的需求满意度 值;
[0097] 需要说明的是,需求满意度统计是针对历史用户行为进行统计的。例如,针对以上 "北京北七家建材市场"查找出来的八个同义串,每个同义串都有对应的需求满意度,需求 满意度较高的就是符合用户查询意图的,这样反馈的同义串才是有意义的。
[0098] S205 :对同义串按照需求满意度值由大到小的顺序进行排序;
[0099] S206 :将排序在前的η个同义串作为同义变换后的查询串,所述η为预置的需要反 馈的同义串个数,η为整数。
[0100] 因为反馈的同义串可能要求的是2个、3个或4个(即η的取值),甚至更多。例如 "北京北七家建材市场"查找出来的八个同义串,但是有可能仅需要反馈3个同义串即可,因 此,不必将这个八个同义串均反馈,只需要将需求满意度较高的同义串反馈就可以了。
[0101] 例如,需要反馈的同义串为2个,需求满意度值最高的2个同义串(这两个同义串 的需求满意度值不相同)是:"北京北七家建材市场"和"北京北七家建材批发市场"。
[0102] 还有一种情况是,有2个同义串的需求满意度值最高,并且这两个同义串的需求 满意度值相等,这样就直接反馈这2个同义串即可。
[0103] 还有一种情况是,需求满意度值最高的同义串有1个(例如为a),排序第二高的需 求满意度值对应的同义串有2个(例如为b和c),由于需要反馈的同义串要求为2个,第二 个同义串反馈b还是c,可以随机来反馈,可以反馈b,也可以反馈c。
[0104] 综上所述,本实施例提供的搜索引擎中查询串的同义变换方法,利用正向最大匹 配算法对分词片段进行同义词查询,得到的同义串可以更符合用户的表达习惯,并且能够 最大程度地减少语义偏移。并且对查找的同义串进行需求满意度统计,将需求满意度值较 高的几个同义串进行反馈,由于需求满意度值较高的同义串更符合用户的查询意图,这样 反馈的同义串更加准确。
[0105] 方法实施例二:
[0106] 参见图3,该图为本发明提供的查询串的同义变换方法实施例二流程图。
[0107] 实施例一中介绍了若排在第η位的同义串A之后的同义串与A的需求满意度值 相同,可以将这些需求满意度值相等的同义串中的任意一个随机作为第η个同义串进行反 馈。下面介绍本发明实施例针对这种情况不随机反馈,而是依据语言模型概率的大小进行 选择性地反馈。
[0108] 例如,如果需要反馈2个同义串,而需求满意度值排序在第2位和第3位的两个同 义串的需求满意度值相等,这两个同义串分别b和c来表示,此时需要判断b和c对应的语 言模型概率的大小,将语言模型概率较大的那个同义串反馈,另一个舍弃。例如,b的语言 模型概率大于c的语言模型概率,则将b反馈,将c舍弃。
[0109] 本实施例中的S301-S304分别与方法实施例一中的S201-S204相同,本实施例以 下步骤与方法实施例一中不同。
[0110] S305 :对同义串按照需求满意度值由大到小的顺序进行排序;
[0111] 下面介绍需求满意度值的计算方法,对所述同义串候选集合中的每个同义串进行 需求满意度统计,具体为:从预设的历史查询结果中,获取每个同义串对应的需求参数;
[0112] 根据每个所述同义串的需求参数,进行需求满意度的线性计算。
[0113] 可以理解的是,需求参数可以根据实际需要来设置,可以设置一个,也可以设置两 个,也可以设置更多个。
[0114] 当所述需求参数为两个时,根据预设的需求参数进行线性计算获得需求满意度 值,具体为:
[0115] y = k^+^b ;
[0116] k!+k2 = 1 ;
[0117] 其中,y为所述需求满意度值,a为预设的第一需求参数,所述b为预设的第二需求 参数,所述h为所述第一需求参数的加权系数,所述k 2为所述第二需求参数的加权系数。
[0118] 需要说明的是,加权系数也可以根据实际需要来设置。
[0119] 本实施例中举例两个需求参数,分别为:所述第一需求参数为每个同义串的点击 数得分;所述第二需求参数为每个同义串的查询频次得分;所述点击数得分和所述查询频 次得分均为预先获得的。
[0120] 预先获得所述点击数得分具体为:
[0121] 对搜索引擎积累的用户历史搜索的查询串对应的点击次数依据该点击次数分布 进行归
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1