专利名称:一种搜索需求识别方法及装置的制作方法
技术领域:
本申请涉及互联网应用技术领域,特别是涉及一种搜索需求识别方法及装置。
背景技术:
搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。传统的搜索引擎,在接收到用户的提交的搜索请求(query)后,首先提取该query所包含的关键词,然后基于文本内容匹配操作,将包含有该关键词的网页或文档返回给用户。随着用户对搜索智能化要求的不断提升,搜索需求识别已经成为搜索领域的一个研究热点。所谓搜索需求识别,就是根据用户所提交的query,分析和预测用户的需求,确定用户的意图或感兴趣的领域,然后再向其提供相应的信息。例如,用户输入“从北京到上海”这样的query,则可以识别出该用户可能具有较强的地图查询需求或票务查询需求,这样就可以在展示搜索结果时,直接向用户提供地图或票务的相关内容,或者将地图或票务的相关内容排在搜索结果的前面,从而方便用户进一步浏览。搜索需求识别所涉及的关键技术包括语义分析、行为分析、智能人机交互、海量计算处理、信息抽取等等。由于用户query表述方式的多样性,目前一种较为常用的方式是在不同的领域对用户的query进行分析,以实现更有针对性的搜索需求识别。翻译需求是用户在搜索过程中一种较为常见的需求,根据现有技术,当用户输入“XXX翻译”或“XXX是什么意思”这样的query后,搜索引擎可以根据“翻译”或“是什么意思”等明显具有翻译需求的表述,较好地识别出用户具有针对单词“xxx”的翻译需求。但是在实际应用中,用户的query中可能仅包括一个单词或短语,而不包括“翻译”或“是什么意思”等有翻译需求的表述,在这种情况下,现有的搜索引擎还不能够很好地确定用户当前是否具有翻译需求。
发明内容
为解决上述技术问题,本申请实施例提供种一种搜索需求识别方法及装置,以实现对用户翻译需求的更有效识别,技术方案如下本申请实施例提供一种搜索需求识别方法,包括根据用户的历史行为日志,获取用户在执行翻译操作时所使用的关键词;对所获取的关键词的出现频率进行统计;接收到搜索请求后,根据统计结果判断该搜索请求中搜索关键词的出现频率是否超过预设的阈值,如果是,则确定该搜索请求具有翻译需求。根据本申请的一种实施方式,所述获取用户在执行翻译操作时所使用的关键词,包括如果用户在搜索引擎所给出的搜索结果中,选择了可提供翻译服务的搜索结果,则获取用户本次搜索所使用的关键词。根据本申请的一种实施方式,所述获取用户在执行翻译操作时所使用的关键词,包括如果根据用户输入的搜索请求,可以明确判断出本次搜索具有翻译需求,则获取本次搜索具有翻译需求部分的关键词。根据本申请的一种实施方式,所述获取用户在执行翻译操作时所使用的关键词,包括获取用户在翻译类产品中所输入的关键词。根据本申请的一种实施方式,所述对所获取的关键词的出现频率进行统计,包括利用n-gram模型,对所获取的关键词中出现的每个n-gram单元的频率进行统计。根据本申请的一种实施方式,所述接收到搜索请求后,根据统计结果判断该搜索请求中搜索关键词的出现频率是否超过预设的阈值,包括根据统计结果,获得搜索关键词中每个n-gram单元的频率;判断搜索关键词中每个n-gram单元的频率值之和是否超过预设的阈值。根据本申请的一种实施方式,在对所获取的关键词的出现频率进行统计之前,还包括对所获取的关键词进行词形还原处理和/或去除停用词处理。根据本申请的一种实施方式,在判断搜索请求中搜索关键词的出现频率是否超过预设的阈值之前,还包括对搜索请求中的搜索关键词进行词形还原处理和/或去除停用词处理。根据本申请的一种实施方式,在确定搜索请求具有翻译需求后,还包括对搜索请求对应的翻译结果进行展现,所述翻译结果的展现方法包括在搜索框中,展现搜索请求所对应的翻译结果;或将搜索请求所对应的翻译结果以搜索建议的形式进行展现。根据本申请的一种实施方式,在接收到搜索请求并生成搜索建议之后,还包括判断搜索建议的内容是否具有翻译需求。本申请实施例还提供一种搜索需求识别装置,包括翻译关键词获取单元,用于根据用户的历史行为日志,获取用户在执行翻译操作时所使用的关键词;翻译关键词统计单元,用于对所获取的关键词的出现频率进行统计;翻译需求识别单元,用于接收到搜索请求后,根据统计结果判断该搜索请求中搜索关键词的出现频率是否超过预设的阈值,如果是,则确定该搜索请求具有翻译需求。根据本申请的一种实施方式,所述翻译关键词获取单元,具体配置为用于在用户在搜索引擎所给出的搜索结果中,选择了可提供翻译服务的搜索结果的情况下,获取用户本次搜索所使用的关键词。根据本申请的一种实施方式,所述翻译关键词获取单元,具体配置为用于在根据用户输入的搜索请求,可以明确判断出本次搜索具有翻译需求的情况下,获取本次搜索具有翻译需求部分的关键词。
根据本申请的一种实施方式,所述翻译关键词获取单元,具体配置为用于获取用户在翻译类产品中所输入的关键词。根据本申请的一种实施方式,所述翻译关键词统计单元,具体配置为用于利用n-gram模型,对所获取的关键词中出现的每个n-gram单元的频率进行统计。根据本申请的一种实施方式,所述翻译需求识别单元,具体配置为用于根据统计结果,获得搜索关键词中每个n-gram单元的频率;判断搜索关键词中每个n-gram单元的频率值之和是否超过预设的阈值。根据本申请的一种实施方式,该装置还包括翻译关键词预处理单元,用于在所述翻译关键词统计单元对所获取的关键词的出现频率进行统计之前,对所获取的关键词进行词形还原处理和/或去除停用词处理。根据本申请的一种实施方式,该装置还包括搜索关键词预处理单元,用于在所述翻译关键词统计单元判断搜索请求中搜索关键词的出现频率是否超过预设的阈值之前,对搜索请求中的搜索关键词进行词形还原处理和/或去除停用词处理。根据本申请的一种实施方式,该装置还包括翻译结果展现单元,用于在所述翻译需求识别单元确定搜索请求具有翻译需求后,对搜索请求对应的翻译结果进行展现,所述翻译结果展现单元具体配置为用于在搜索框中,展现搜索请求所对应的翻译结果;或将搜索请求所对应的翻译结果以搜索建议的形式进行展现。根据本申请的一种实施方式,所述翻译需求识别单元还用于在接收到搜索请求并生成搜索建议之后,判断搜索建议的内容是否具有翻译需求。本申请实施例所提供的方案,首先从大量用户的历史行为日志中获取用户在执行与翻译相关操作时所使用的关键词,并对这些关键词的出现频率进行统计。在统计结果中,词的出现频率越高,说明用户对这些词的翻译需求越强。进而,如果用户在搜索过程中,使用的搜索关键词的出现频率达到一定要求,则可以判断该用户本次的搜索行为具有翻译需求。应用本申请实施例所提供的方案,可以不要求用户在搜索时输入“翻译”或“是什么意思”等明确表示翻译需求的关键词,直接确定用户所输入的内容是否具有翻译需求并给出翻译结果,从而提高了翻译需求识别的应用范围,并且进一步方便了用户的使用。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。图1为本申请实施例搜索需求识别方法的流程图;图2为本申请实施例所提供的一种翻译结果展现方式示意图;图3为本申请实施例所提供的第二种翻译结果展现方式示意图4为本申请实施例所提供的第三种翻译结果展现方式示意图;图5为本申请实施例搜索需求识别装置的第一种结构示意图;图6为本申请实施例搜索需求识别装置的第二种结构示意图;图7为本申请实施例搜索需求识别装置的第三种结构示意图。
具体实施例方式在现有的搜索引擎中,当用户在搜索框输入一段文字,特别是输入外文时,用户可能是想得到包含有该文字内容的网页或文档,即普通搜索需求;也可能是想要查看与该文字内容相应的翻译或双语例句,即翻译需求。对于搜索引擎而言,如果可以正确判断出用户当前的需求,则可以构建更为符合用户需求的搜索结果向用户展现,以方便用户浏览。本申请实施例提供一种搜索需求识别方法,该方法包括以下步骤根据用户的历史行为日志,获取用户在执行翻译操作时所使用的关键词;对所获取的关键词的出现频率进行统计;接收到搜索请求后,根据统计结果判断该搜索请求中搜索关键词的出现频率是否超过预设的阈值,如果是,则确定该搜索请求具有翻译需求。上述方法首先从大量用户的历史行为日志中获取用户在执行与翻译相关操作时所使用的关键词,并对这些关键词的出现频率进行统计。在统计结果中,词的出现频率越高,说明用户对这些词的翻译需求越强。进而,如果用户在搜索过程中,使用的搜索关键词的出现频率达到一定要求,则可以判断该用户本次的搜索行为具有翻译需求。应用上述方案,可以不要求用户在搜索时输入“翻译”或“是什么意思”等明确表示翻译需求的关键词,直接确定用户所输入的内容是否具有翻译需求并给出翻译结果,从而提高了翻译需求识别的应用范围,并且进一步方便了用户的使用。为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请保护的范围。图1所示,为本申请实施例一种搜索需求识别方法的流程图,该方法可以包括以下步骤S101,根据用户的历史行为日志,获取用户在执行翻译操作时所使用的关键词;本申请实施例方案,是基于用户的行为的历史数据,对用户的曾经明确进行过翻译操作的关键词进行统计,作为识别翻译需求的依据。对于使用搜索引擎的每一名用户,系统都会记录用户的各种行为,并将这些行为记录在用户日志中。用户常见的翻译操作可以包括以下几种I)用户在搜索引擎所给出的搜索结果中,选择了可提供翻译服务的搜索结果。当用户在搜索引擎输入一段文字,搜索引擎返回相应的搜索结果,其中,有些搜索结果是可以提供翻译服务的,例如翻译类网站。如果用户进一步点选了这一类翻译结果,则对用户在搜索框中输入的文字进行记录。例如用户在搜索引擎中输入了 query :“patent”,然后用户在搜索结果页中点击了翻译类站点的链接(比如WWW.1ciba. com, diet, youdao. com等),此时可以认为用户输入的这个query是有翻译需求的,于是将该query :“patent”记录下来。而如果用户输入query后没有点击翻译类网站,比如用户输入“iphone”,然后点击了一个购物网站,则认为该query没有翻译需求,不对该query进行记录。2)根据用户输入的搜索请求,可以明确判断出本次搜索具有翻译需求。根据现有的翻译需求识别技术,当用户所输入的query中包含明显具有翻译需求的表述时,可以认为用户本次搜索具有翻译需求,此时将对query中有翻译需求的文字部分进行记录。例如,用户在搜索引擎中输入了 query :“patent翻译”,搜索引擎可以根据“翻译”这个明显具有翻译需求的表述确定用户本次搜索具有翻译需求,于是将query中明显具有翻译需求的表述部分去除,仅对剩下的部分“patent”进行记录。再比如,用户在搜索引擎中输入了 query :“patent是什么意思”,搜索引擎可以根据“是什么意思”这个明显具有翻译需求的表述确定用户本次搜索具有翻译需求,于是将query中的“是什么意思”去除,仅对剩下的部分“patent”进行记录。3)用户使用搜索引擎之外的其他翻译类产品。除了从搜索引擎获取用户进行翻译操作时所使用的关键词,还可以从其他的翻译类产品中,获取用户进行翻译操作时所使用的关键词。例如,对于百度系统而言,除了提供基本的搜索引擎之外,同时还提供其他直接翻译服务的产品,如百度翻译(fany1. baidu.com)、百度词典(diet, baidu. com)等等,而用户在这些产品中输入的文字显然是具有翻译需求的。因此,只要能够通过某种途径,获得用户在其他翻译类产品中输入的内容,就可以将这些内容记录下来,作为后续搜索引擎识别翻译需求的依据。当用户进行上述几种翻译操作时,所输入的内容都可以认为具有明确的翻译需求,因此可以记录下来作为搜索引擎识别翻译需求的依据。以上提供的几种获取用户在具有明确翻译需求时所使用的关键词的方法,可以分别使用,也相互结合使用,当然,本领域技术人员也可以根据实际的应用需求,采用其他方式获取用户具有明确翻译需求时所使用的关键词,这些并不影响本申请实施例方案的实现。此外,需要说明的是,本申请实施例方案是通过记录大量用户进行过翻译操作时所使用的关键词,作为识别翻译需求的依据。因此在实际应用中,所记录的内容并不需要对应到某一名具体的用户。S102,对所获取的关键词的出现频率进行统计;在步骤S101,获取了大量的关键词,在本步骤中,对这些关键词出现的频率进行统计。在实际应用中,如果用户输入query的是单词或者短语,可以直接以单词或短语为单位,记录同样形式的单词或短语的出现次数。如果用户输入的query是句子,则可以先对句子进行分词,然后以每个分词结果为单位,统计出现的次数。当然,在实际应用中,除了出现次数,也可以用出现次数与总次数的比值或tf-1df值等其他形式来表示关键词的出现频率,本申请实施例对此并不需要进行限定。在本申请的优选实施方案中,对这些关键词出现的次数进行统计之前,还可以先进行如下的预处理操作I)词形还原
以英文为例,每个单词可能包含多种形态的变化,例如名词的单数/复数、动词的不同时态、形容词/副词变化等等,在实际处理过程中,可以将用户对同一单词不同形态的翻译需求归为一类处理,因此,可以先统一将单词的词形还原为原型(例如将runs、running、ran都还原为run),再进行统计。也就是说,在搜索关键词中出现的任一种变形,在统计过程中都以原形进行处理。其中,词形还原可以利用现有技术如Porter Stemming实现,这里不再做详细说明。2)去除停用词停用词(Stop Words)大致可分为如下两类一类是使用十分广泛,甚至是过于频繁的一些单词。比如英文的“i”、“iS”、“what”,另一类是文本中出现频率很高,但实际意义又不大的词。这一类主要包括了语气助词、副词、介词、连词等,通常自身并无明确意义,只有将其放入一个完整的句子中才有一定的作用,如常见的“in”、“on”、“and”等等。可见,对于停用词而言,也没有必要单独记录其出现的频率,因此可以先根据预置的停用词表,对步骤SlOl中获取的关键词进行去除停用词处理后,再进行统计。根据实际的应用需求,上述两种优选的预处理方式可以分别使用,也可以结合使用,本申请实施例对此并不需要进行限制。S103,接收到搜索请求后,根据统计结果判断该搜索请求中搜索关键词的出现频率是否超过预设的阈值,如果是,则确定该搜索请求具有翻译需求。在步骤SlOl和S102,根据用户的历史行为,获得了若干具有翻译需求关键词,在本步骤中,当搜索引擎接收到新的搜索请求后,将根据搜索请求中搜索关键词的出现频率,确定该搜索请求是否具有翻译需求。对于阈值的设置方法,可以根据经验直接设定,也可以按照前述方法选择一批含有翻译需求的query,并同时选择另一批不含有翻译需求的query,两者的数量相近为宜。然后分别进行打分,选择一个使两类数据能够明显区分的数值作为阈值。最简单的一种方式,是判断当前输入的关键词是否存在于具有翻译需求关键词中,如果是,则确定当前搜索请求具有翻译需求,这种方式相当于将阈值设定为O。也可以将阈值设定为大于O的数值,也就是说,只有当前输入的关键词在统计结果中出现超过一定次数,才认为当前搜索请求具有翻译需求。当然,本领域技术人员可以理解,根据实际需求,也可以设置多个不同的阈值范围,从而确定当前搜索请求的翻译需求强度。对于具有不同翻译需求强度的搜索请求,可以给予不同的处理方式,例如,对于具有更强翻译需求强度的搜索请求,可以将翻译结果排在搜索结果中更为靠前的位置。类似S102,在实际应用中,如果用户输入query的是单词或者短语,可以直接以单词或短语为单位,与统计结果进行对比;如果用户输入的query是句子,则可以先对句子进行分词,然后以每个分词结果为单位,与统计结果进行对比,特别地,在当前query存在多个分词的情况下,可以以每个分词相应的统计频率求和,并与预置的阈值进行对比,作为识别翻译需求的依据。同样,如果在S102中,对关键词出现的次数进行统计之前,先做了词形还原或去除停用词的操作,则在本步骤中,也应在将当前query与统计结果进行对比之前,执行相应的词形还原或去除停用词操作。
在本申请的另一个实施例中,在S102还可以利用n-gram模型,对所获取的关键词中出现的每个n-gram的频率进行统计。N-Gram是大词汇连续识别中常用的一种语言模型,这种模型可以将具有I个单词的句子拆分为1-n+l个n-gram单元。当η取I时,即相当于前面的基本分词操作。在实际应用中,可以根据SlOl中所得到的queir的平均长度确定η的具体取值,如果平均长度较长(如10以上),可以选择较大的η,如果平均长度较短,可以选择较小的η,一般情况下,N值取2,3,4效果较好。下面以η = 2为例,对本申请实施例进行说明。假设在步骤S101,获得具有翻译需求的query集如下
Al)The server is temporarily unable to service your request due tomaintenance downtime or capacity problems. Please try again later.BI)This is a wrong number. Please check up and try again later.S102a,首先对两个句子进行分词,并做词形还原处理,得到结果如下A2)the server be temporar unable to service your request due tomaintenance downtime or capacity problem please try again IatB2)this be a wrong number, please check up and try again IatS102b,然后对两个句子进行去停用词处理,得到结果如下A3) server temporar unable service request due maintenancedowntimecapacity problem please try again IatB3)wrong number please check up try again IatS102c,进行 2-gram 频率统计在以上两个句子中,出现的所有2-gram单元列举如下server temporartemporar unableunable serviceservice requestrequest duedue maintenancemaintenance downtimedownt ime capac i tycapacity problemproblem pleasepi ease trytry againagain Iatwrong number
number pleaseplease checkcheck up
up trytry againagain Iat
对以上2-gram进行频次统计,并以频次作为2-gram的分值,得到分值查询词典
Server temporarI
again Iat2 capacity problemI
check upI
downtime capacityI
due maintenanceImaintenance downtime I
number pleaseI
please checkI
please tryI
problem pleaseI
request dueI
service requestI
temporar unableI
try again2
unable serviceI
up tryI
wrong numberI在S103,假设用户新输入的 query :“The page you are looking for
istemporarily unavailable. Please try again later·,,a)首先按照S102a和S102b的处理方法进行分词、词形还原、去停用词,得到page look temporar unavailable please try again Iat对于该句子,统计每个2-gram在分值词典中的值,并代入下面的公式求和
l-n+lScore = f (Gi)
i=l其中,I是经词形还原、去停用词处理后的文本长度,此例中I = 8,Gi表示文本中
中的第i个n-gram单元,f (Gi)是Gi在分值词典中的的分值,将分值代入上述公式,得到
权利要求
1.一种搜索需求识别方法,其特征在于,包括 根据用户的历史行为日志,获取用户在执行翻译操作时所使用的关键词; 对所获取的关键词的出现频率进行统计; 接收到搜索请求后,根据统计结果判断该搜索请求中搜索关键词的出现频率是否超过预设的阈值,如果是,则确定该搜索请求具有翻译需求。
2.根据权利要求I所述的方法,其特征在于,所述获取用户在执行翻译操作时所使用的关键词,包括 如果用户在搜索引擎所给出的搜索结果中,选择了可提供翻译服务的搜索结果,则获取用户本次搜索所使用的关键词。
3.根据权利要求I所述的方法,其特征在于,所述获取用户在执行翻译操作时所使用 的关键词,包括 如果根据用户输入的搜索请求,可以明确判断出本次搜索具有翻译需求,则获取本次搜索具有翻译需求部分的关键词。
4.根据权利要求I所述的方法,其特征在于,所述获取用户在执行翻译操作时所使用的关键词,包括 获取用户在翻译类产品中所输入的关键词。
5.根据权利要求I所述的方法,其特征在于,所述对所获取的关键词的出现频率进行统计,包括 利用n-gram模型,对所获取的关键词中出现的每个n-gram单元的频率进行统计。
6.根据权利要求I所述的方法,其特征在于,所述接收到搜索请求后,根据统计结果判断该搜索请求中搜索关键词的出现频率是否超过预设的阈值,包括 根据统计结果,获得搜索关键词中每个n-gram单元的频率; 判断搜索关键词中每个n-gram单元的频率值之和是否超过预设的阈值。
7.根据权利要求1-6任一项所述的方法,其特征在于,在对所获取的关键词的出现频率进行统计之前,还包括 对所获取的关键词进行词形还原处理和/或去除停用词处理。
8.根据权利要求7所述的方法,其特征在于,在判断搜索请求中搜索关键词的出现频率是否超过预设的阈值之前,还包括 对搜索请求中的搜索关键词进行词形还原处理和/或去除停用词处理。
9.根据权利要求1-6任一项所述的方法,其特征在于,在确定搜索请求具有翻译需求后,还包括对搜索请求对应的翻译结果进行展现,所述翻译结果的展现方法包括 在搜索框中,展现搜索请求所对应的翻译结果;或 将搜索请求所对应的翻译结果以搜索建议的形式进行展现。
10.根据权利要求1-6任一项所述的方法,其特征在于,在接收到搜索请求并生成搜索建议之后,还包括 判断搜索建议的内容是否具有翻译需求。
11.一种搜索需求识别装置,其特征在于,包括 翻译关键词获取单元,用于根据用户的历史行为日志,获取用户在执行翻译操作时所使用的关键词;翻译关键词统计单元,用于对所获取的关键词的出现频率进行统计; 翻译需求识别单元,用于接收到搜索请求后,根据统计结果判断该搜索请求中搜索关键词的出现频率是否超过预设的阈值,如果是,则确定该搜索请求具有翻译需求。
12.根据权利要求11所述的装置,其特征在于,所述翻译关键词获取单元,具体配置为 用于在用户在搜索引擎所给出的搜索结果中,选择了可提供翻译服务的搜索结果的情况下,获取用户本次搜索所使用的关键词。
13.根据权利要求11所述的装置,其特征在于,所述翻译关键词获取单元,具体配置为 用于在根据用户输入的搜索请求,可以明确判断出本次搜索具有翻译需求的情况下,获取本次搜索具有翻译需求部分的关键词。
14.根据权利要求11所述的装置,其特征在于,所述翻译关键词获取单元,具体配置为 用于获取用户在翻译类产品中所输入的关键词。
15.根据权利要求11所述的装置,其特征在于,所述翻译关键词统计单元,具体配置为 用于利用n-gram模型,对所获取的关键词中出现的每个n-gram单元的频率进行统计。
16.根据权利要求11所述的装置,其特征在于,所述翻译需求识别单元,具体配置为 用于根据统计结果,获得搜索关键词中每个n-gram单元的频率; 判断搜索关键词中每个n-gram单元的频率值之和是否超过预设的阈值。
17.根据权利要求11-16任一项所述的装置,其特征在于,该装置还包括 翻译关键词预处理单元,用于在所述翻译关键词统计单元对所获取的关键词的出现频率进行统计之前,对所获取的关键词进行词形还原处理和/或去除停用词处理。
18.根据权利要求17所述的装置,其特征在于,该装置还包括 搜索关键词预处理单元,用于在所述翻译关键词统计单元判断搜索请求中搜索关键词的出现频率是否超过预设的阈值之前,对搜索请求中的搜索关键词进行词形还原处理和/或去除停用词处理。
19.根据权利要求11-16任一项所述的装置,其特征在于,还包括 翻译结果展现单元,用于在所述翻译需求识别单元确定搜索请求具有翻译需求后,对搜索请求对应的翻译结果进行展现,所述翻译结果展现单元具体配置为 用于在搜索框中,展现搜索请求所对应的翻译结果;或 将搜索请求所对应的翻译结果以搜索建议的形式进行展现。
20.根据权利要求11-16任一项所述的装置,其特征在于,所述翻译需求识别单元还用于在接收到搜索请求并生成搜索建议之后,判断搜索建议的内容是否具有翻译需求。
全文摘要
本发明公开了一种搜索需求识别方法及装置。一种搜索需求识别方法包括根据用户的历史行为日志,获取用户在执行翻译操作时所使用的关键词;对所获取的关键词的出现频率进行统计;接收到搜索请求后,根据统计结果判断该搜索请求中搜索关键词的出现频率是否超过预设的阈值,如果是,则确定该搜索请求具有翻译需求。应用本发明实施例所提供的方案,可以不要求用户在搜索时输入“翻译”或“是什么意思”等明确表示翻译需求的关键词,直接确定用户所输入的内容是否具有翻译需求并给出翻译结果,从而提高了翻译需求识别的应用范围,并且进一步方便了用户的使用。
文档编号G06F17/30GK102982025SQ20111025883
公开日2013年3月20日 申请日期2011年9月2日 优先权日2011年9月2日
发明者蓝翔, 柴春光, 吴华 申请人:北京百度网讯科技有限公司