一种关键词推荐方法和装置的制造方法

文档序号:8319146阅读:360来源:国知局
一种关键词推荐方法和装置的制造方法
【技术领域】
[0001] 本发明涉及计算机领域,具体涉及一种关键词推荐方法和装置。
【背景技术】
[0002] 在线竞价广告是一种目前广泛存在的互联网信息推荐方案,包括基于关键词的信 息推荐方式。基于关键词的信息推荐方式是根据用户在搜索引擎中输入的关键词来确定向 用户推送的信息。用户在网站内外进行信息投放时,必须以关键词为单位选择投放,如何 获得适合自己的关键词成为关键操作之一。进行信息投放的用户选择关键词后,对关键词 进行出价,网站或信息投放平台制定投放和扣费机制。常见的扣费机制有CPC (Cost Per Click,按照点击扣费,信息的被点击数越多则扣费越多),CPM (Cost Per Mille,按照信息 的千次展现数扣费),CPS (Cost Per Sale,按照成交金额扣费,类似于成交提成)等。
[0003] 关键词推荐系统在互联网信息投放系统中一直有广泛的需求,现有技术方案有以 下几类:
[0004] ?基于Offer (比如信息投放者发布的一条商品出售信息或求购信息)的抽取和组 合。主要方法是:对信息投放者发布的offer的标题、属性等字段进行分词、标注和权重计 算等操作,对其中预设的重要term进行抽取和组合从而得到一个关键词集合,对关键词集 合中关键词的命中的term、term的标签(比如,term的词性)及term的权重进行打分。该 分数表示关键词完整地表达了 offer的重要含义的程度。其中,在空间向量模型中,文本的 内容特征常常用它所含有的基本语言单位(比如字、词、词组或者短语等)来表示,这些基本 的语言单位被统称为文本的词项,即term。
[0005] ?基于IR (信息检索)系统的offer的关键词推荐。IR系统是基于信息检索技术 的一种系统框架,封闭的形式如图书馆检索系统,开放应用形式如在线搜索引擎。IR系统包 含倒排索引的建立系统、查询的构造模块、排序模块等。基于IR (信息检索)系统的offer 的关键词推荐的主要方法包括:对信息投放者发布的offer进行分词、标注、分词的权重计 算等操作后,抽取重要term,查询每个term到关键词的倒排索引结构,召回与该重要term 相关的关键词。基于关键词中包含的term、term的标签及term权重对该关键词进行推荐 度评分。基于关键词的推荐度评分选择合适的关键词推送给信息投放者。
[0006] 现有技术方案的核心是基于用户投放信息的term级的组合,或运用了简单的IR 系统去扩大关键词的召回率,这些方法的缺点可能包括:
[0007] 1、关键词的召回率不足
[0008] 基于offer的term的组合的方法,用户的offer的标题和属性均受到长度的限 制,包含的信息普遍较少,质量参差不齐,难以推荐出足够数量的关键词供用户选择,关键 词的召回率明显不足。而基于IR的offer的关键词推荐,虽然能部分提高关键词的召回率, 但是不能召回同义词和近义词,以及字面含义不同但潜在含义相关的关键词。
[0009] 2、关键词的相关性不足
[0010] 基于offer的term的组合的方法,计算关键词与投放信息的相关性是按照term 的标签、term的权重高低来进行加权计算的。由于这种方法受到词项的权重(term weight) 的准确性和分词工具(如AliWS)的效果的限制,不能很好的衡量投放信息与关键词之间的 相关性。例如:〇ffer标题为"批发优质篮球背心",基于offer的term的组合方法能够推 出的词有"批发篮球背心"、"篮球背心"、"批发背心"。但是"批发背心"这个词已经和原来 的offer不太相关。
[0011] 基于IR的关键词推荐,能够通过IR的排序(rank)方法解决部分相关性问题,但是 仍然不能解决同义异形关键词的相关性评分。在基于IR的关键词推荐方法中,关键词是否 匹配投放信息判断是根据待匹配关键词包含投放信息中的分词的个数及该分词的权重确 定的。然而,一种可能的情形是:关键词中包含投放信息中的重要分词,基于IR的关键词推 荐方法可以确定该关键词与投放信息匹配,但实际上该关键词与该投放信息仍然不具有相 关性。比如在进行手机供应类的投放信息和"手机电池"此类关键词的相关性评价时,"手 机电池"这样的关键词表面上是存在"手机"这个重要term,且该term的权重较高。因此, 在基于IR的关键词推荐方法中,"手机电池"可能会作为手机供应类的投放信息的相关关键 词推荐给信息投放方。但是"手机"在手机供应类的投放信息中是作为产品核心词存在的, 而在"手机电池"里却是修饰"电池"的一个修饰词。实际上手机供应类的投放信息与"手 机电池"的相关性并不高。因此,基于IR的关键词推荐方法仍然具有推荐准确性不高的问 题。

【发明内容】

[0012] 本发明要解决的技术问题是提供一种关键词推荐方法和装置,能提高关键词与发 布信息的相关性。
[0013] 为解决上述技术问题,本发明提供了一种关键词推荐方法,所述方法包括:
[0014] 接收输入信息;
[0015] 将所述输入信息分词为多个词项;
[0016] 用每个词项查询预先建立的倒排索引结构,所有词项查询所述倒排索引结构得到 的关键词组成候选推荐词集合;
[0017] 计算候选推荐词集合中每个关键词与所述输入信息的相关性分数,根据所述相关 性分数选择一个或者多个关键词作为推荐词输出。
[0018] 进一步地,所述相关性分数包括以下分数的一种或多种:文本相似度分,信息检索 (IR)相关性分,类目相关性分,其中:所述文本相似度分由所述关键词分词后得到的各词项 与所述输入信息中的各词项的相似度确定;所述IR相关性分由所述关键词包含的输入信 息中的词项的个数及其权重确定;所述类目相关性分由每个关键词的类目与所述输入信息 的类目的相似度确定。
[0019] 进一步地,所述相关性分数包括文本相似度分、IR相关性分、类目相关性分中的两 种或两种以上时,将所包含的分数线性加权求和得到最终的相关性分数。
[0020] 进一步地,所述文本相似度分采用以下方法计算获得:
[002
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1