本发明涉及互联网技术领域,特别涉及一种搜索热点推荐方法及系统。
背景技术:
随着互联网技术的发展,交互变的越来越重要。在线的交互,已经成为日益重要的沟通模式。为了满足广大用户信息交互的需要,各种交互软件或者沟通软件应运而生。
微信是腾讯公司推出的一个为智能终端提供即时通讯服务的免费应用程序,微信支持跨通信运营商、跨操作系统平台通过网络快速发送免费(需消耗少量网络流量)语音短信、视频、图片和文字,同时,也可以使用通过共享流媒体内容的资料和基于位置的社交插件等服务插件。微信提供公众平台、朋友圈、消息推送等功能,用户可以通过“摇一摇”、“搜索号码”、“附近的人”、扫二维码方式添加好友和关注公众平台,同时微信将内容分享给好友以及将用户看到的精彩内容分享到微信朋友圈。
微信公众账号是开发者或商家在微信公众平台上申请的应用账号,该帐号与QQ账号互通,通过公众账号,商家可在微信平台上实现和特定群体的文字、图片、语音、视频的全方位沟通、互动。形成了一种主流的线上线下微信互动营销方式。正如线上线下微信互动营销的代表微部落,率先提出标准的行业通用模板和深定制的微信平台开发理念相结合。形成了线上线下微信互动营销的开放应用平台。
用户可以通过自身设备与公众账号进行互动。通过手机向公众账号发送消息,一般需要如下步骤:
首先用你的手机微信关注自己的微信公众账号。然后登陆自己的微信公众 平台点击公众账号助手。在公众账号助手设置的第二步选择输入你要绑定的微信号码。然后点击发送微信验证码。你的手机微信会收到一条信息,然后将数字输入到验证码输入框完成验证就完成了绑定了。然后进入通讯录,搜索公众账号助手。然后找到公众账号助手这个联系人这个号码是腾讯官方的账号mphelper(腾讯公众平台的助手账号需要通过它进行消息群发)。关注该账号就可以通过向它发送群发消息了。点击进入聊天界面,然后向其发送消息,然后看你的公众账号的关注用户是否会接受到这条消息。
搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。
一个搜索引擎由搜索器、索引器、检索器和用户接口四个部分组成。搜索器的功能是在互联网中漫游,发现和搜集信息。索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。
现有技术中,通常用户在进入微信公众号页面后,在提供的页面可以展开搜索功能。这个搜索功能可以是微信公众号范围内的搜索,也可以是全网的搜索。通常对于搜索内容以及结果的相关性之间,现有的搜索引擎可以提供一定的结果推荐,为用户推荐更为准确的搜索结果或者推荐与搜索结果相关的其它信息。但是,现有的结果推荐并不十分智能,推荐结果往往与用户的实际需求相差甚远。因而,亟需要一种新的结果推荐方案,以向用户提供更为准确的热点信息推荐,提高用户体验度。
技术实现要素:
本发明提供一种搜索热点推荐方法及系统,用以解决现有技术中搜索结果推荐内容不准确的问题。
本发明提供一种搜索热点推荐方法,包括:
获取用户的搜索特征信息;所述搜索特征信息包括用户使用搜索引擎的习惯特征信息和用户搜索内容习惯特征信息;
根据所述搜索特征信息将所述用户分为若干小组;
根据所述小组向小组内的用户推荐相应的搜索推荐信息。
所述方法还包括:
根据所述搜索推荐信息的关键字,将所述搜索推荐信息分类;
根据所述分类,将所述搜索推荐信息推荐给相应的用户。
所述方法还包括:
根据所述用户的搜索特征信息,采用聚类分析,将所述用户分为若干小组。
所述方法还包括:
每个所述小组对应若干用户;同一所述用户能够属于若干个所述小组。
所述方法还包括:
将所述搜索推荐信息以图文列表形式展示给所述用户;
所述用户通过所述图文列表的链接浏览具体展示信息。
所述方法还包括:
所述用户通过关注相应的微信公众号,并在所述微信公众号提供的页面进行搜索操作;
所述微信公众号获取用户的搜索特征信息,并在微信公众号页面为用户推荐所述搜索推荐信息。
一种搜索热点推荐系统,包括:
特征信息获取单元,用于获取用户的搜索特征信息;所述搜索特征信息包括用户使用搜索引擎的习惯特征信息和用户搜索内容习惯特征信息;
用户分组单元,用于根据所述搜索特征信息将所述用户分为若干小组;
搜索信息推荐单元,用于根据所述小组向小组内的用户推荐相应的搜索推荐信息。
所述搜索信息推荐单元,还包括:
分类子单元,用于根据所述搜索推荐信息的关键字,将所述搜索推荐信息分类;
推荐子单元,用于根据所述分类,将所述搜索推荐信息推荐给相应的用户。
所述用户分组单元,还包括:
聚类子单元,用于根据所述搜索特征信息,采用聚类分析获取用户的分组信息;
分组子单元,用于根据所述用户的分组信息,将所述用户分为若干小组。
所述搜索信息推荐单元,还包括:
图文展示子单元,用于将所述搜索推荐信息以图文列表形式展示给所述用户;
链接子单元,用于设置所述图文列表的链接,所述用户通过所述图文列表的链接浏览具体展示信息。
本发明实施例中,通过获取用户的搜索特征信息;所述搜索特征信息包括用户使用搜索引擎的习惯特征信息和用户搜索内容习惯特征信息;根据所述搜索特征信息将所述用户分为若干小组;根据所述小组向小组内的用户推荐相应的搜索推荐信息。本发明实施例的方案,能够根据用户的搜索习惯,为用户推荐搜索相关的热点信息,准确获取用户的搜索需求从而准确的推荐搜索推荐信息,极大的提高了用户体验度。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明 书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例1提供的一种搜索热点推荐方法原理流程图;
图2为本发明实施例2提供的一种搜索热点推荐系统结构示意图;
图3为本发明实施例2提供的搜索信息推荐单元23结构示意图;
图4为本发明实施例2提供的用户分组单元22结构示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
如图1所示,为本发明实施例1提供的一种搜索热点推荐方法原理流程图,其中,
步骤11,提取用户的搜索特征信息。
搜索特征信息包括用户使用搜索引擎的习惯特征信息和用户搜索内容习惯特征信息,也就是包括了用户自身的信息、用户使用搜索引擎的行为信息、用户搜索内容习惯、用户自行定义的自定义信息等。这些信息可以通过获取用户的搜索历史数据而得到,也可以实时记录用户的搜索习惯从而得到。用户的搜索特征信息记录着用户所有与搜索引擎相关的搜索信息。
首先需要获取这些信息。通常,获取用户信息的方法包括了要求用户自行上传、在用户使用过程中提取搜索特征信息等方式,或者,在用户使用应用的 日志信息中,通过文本分析的方法获取用户特征信息。
如果基于用户行为的日志数据进行文本提取的话,就要用到文本特征提取。文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同。文本挖掘的对象是海量、异构、分布的文档(web);文档内容是人类所使用的自然语言,缺乏计算机可理解的语义。传统数据挖掘所处理的数据是结构化的,而文档(web)都是半结构或无结构的。所以,文本挖掘面临的首要问题是如何在计算机中合理地表示文本,使之既要包含足够的信息以反映文本的特征,又不至于过于复杂使学习算法无法处理。在浩如烟海的网络信息中,80%的信息是以文本的形式存放的,WEB文本挖掘是WEB内容挖掘的一种重要形式。
文本的表示及其特征项的选取是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。将它们从一个无结构的原始文本转化为结构化的计算机可以识别处理的信息,即对文本进行科学的抽象,建立它的数学模型,用以描述和代替文本。使计算机能够通过对这种模型的计算和操作来实现对文本的识别。由于文本是非结构化的数据,要想从大量的文本中挖掘有用的信息就必须首先将文本转化为可处理的结构化形式。目前人们通常采用向量空间模型来描述文本向量,但是如果直接用分词算法和词频统计方法得到的特征项来表示文本向量中的各个维,那么这个向量的维度将是非常的大。这种未经处理的文本矢量不仅给后续工作带来巨大的计算开销,使整个处理过程的效率非常低下,而且会损害分类、聚类算法的精确性,从而使所得到的结果很难令人满意。因此,必须对文本向量做进一步净化处理,在保证原文含义的基础上,找出对文本特征类别最具代表性的文本特征。为了解决这个问题,最有效的办法就是通过特征选择来降维。
目前有关文本表示的研究主要集中于文本表示模型的选择和特征词选择 算法的选取上。用于表示文本的基本单位通常称为文本的特征或特征项。特征项必须具备一定的特性:1)特征项要能够确实标识文本内容;2)特征项具有将目标文本与其他文本相区分的能力;3)特征项的个数不能太多;4)特征项分离要比较容易实现。在中文文本中可以采用字、词或短语作为表示文本的特征项。相比较而言,词比字具有更强的表达能力,而词和短语相比,词的切分难度比短语的切分难度小得多。因此,目前大多数中文文本分类系统都采用词作为特征项,称作特征词。这些特征词作为文档的中间表示形式,用来实现文档与文档、文档与用户目标之间的相似度计算。如果把所有的词都作为特征项,那么特征向量的维数将过于巨大,从而导致计算量太大,在这样的情况下,要完成文本分类几乎是不可能的。特征抽取的主要功能是在不损伤文本核心信息的情况下尽量减少要处理的单词数,以此来降低向量空间维数,从而简化计算,提高文本处理的速度和效率。文本特征选择对文本内容的过滤和分类、聚类处理、自动摘要以及用户兴趣模式发现、知识发现等有关方面的研究都有非常重要的影响。通常根据某个特征评估函数计算各个特征的评分值,然后按评分值对这些特征进行排序,选取若干个评分值最高的作为特征词,这就是特征抽取(Feature Selection)。
特征选取的方式有4种:(I)用映射或变换的方法把原始特征变换为较少的新特征;(2)从原始特征中挑选出一些最具代表性的特征;(3)根据专家的知识挑选最有影响的特征;(4)用数学的方法进行选取,找出最具分类信息的特征,这种方法是一种比较精确的方法,人为因素的干扰较少,尤其适合于文本自动分类挖掘系统的应用。
实际上,在提取用户搜索特征的过程中,需要对用户信息以及行为信息全面分析,并设定合理的提取特征数量和具体内容,以更全面的反应用户实际的行为特征,从而为后续的分类处理奠定基础。
步骤12,根据搜索特征信息将用户分为若干小组。
在提取用户搜索特征的基础上,根据用户搜索特征之间的联系,将用户分 为若干个小组。每个小组对应一个或多个用户搜索特征信息,这样就将用户根据自身的搜索特征信息分配到不同的小组。同一小组对应多个用户,同一用户根据自身的搜索特征信息可以对应多个小组。
通常来说,根据用户搜索特征将用户分组的方案,需要用到聚类算法。聚类分析属于探索性的数据分析方法。通常,我们利用聚类分析将看似无序的对象进行分组、归类,以达到更好地理解研究对象的目的。聚类结果要求组内对象相似性较高,组间对象相似性较低。在用户研究中,很多问题可以借助聚类分析来解决,比如,网站的信息分类问题、网页的点击行为关联性问题以及用户分类问题等等。其中,用户分类是最常见的情况。
聚类分析计算方法主要有如下几种:
1、划分方法(partitioning methods)
给定一个有N个元组或者纪录的数据集,分裂法将构造K个分组,每一个分组就代表一个聚类,K<N。而且这K个分组满足下列条件:(1)每一个分组至少包含一个数据纪录;(2)每一个数据纪录属于且仅属于一个分组(注意:这个要求在某些模糊聚类算法中可以放宽);对于给定的K,算法首先给出一个初始的分组方法,以后通过反复迭代的方法改变分组,使得每一次改进之后的分组方案都较前一次好,而所谓好的标准就是:同一分组中的记录越近越好,而不同分组中的纪录越远越好。使用这个基本思想的算法有:K-MEANS算法、K-MEDOIDS算法、CLARANS算法;
大部分划分方法是基于距离的。给定要构建的分区数k,划分方法首先创建一个初始化划分。然后,它采用一种迭代的重定位技术,通过把对象从一个组移动到另一个组来进行划分。一个好的划分的一般准备是:同一个簇中的对象尽可能相互接近或相关,而不同的簇中的对象尽可能远离或不同。还有许多评判划分质量的其他准则。传统的划分方法可以扩展到子空间聚类,而不是搜索整个数据空间。当存在很多属性并且数据稀疏时,这是有用的。为了达到全局最优,基于划分的聚类可能需要穷举所有可能的划分,计算量极大。实际上, 大多数应用都采用了流行的启发式方法,如k-均值和k-中心算法,渐近的提高聚类质量,逼近局部最优解。这些启发式聚类方法很适合发现中小规模的数据库中小规模的数据库中的球状簇。为了发现具有复杂形状的簇和对超大型数据集进行聚类,需要进一步扩展基于划分的方法。
2、层次方法(hierarchical methods)
这种方法对给定的数据集进行层次似的分解,直到某种条件满足为止。具体又可分为“自底向上”和“自顶向下”两种方案。例如在“自底向上”方案中,初始时每一个数据纪录都组成一个单独的组,在接下来的迭代中,它把那些相互邻近的组合并成一个组,直到所有的记录组成一个分组或者某个条件满足为止。代表算法有:BIRCH算法、CURE算法、CHAMELEON算法等。
层次聚类方法可以是基于距离的或基于密度或连通性的。层次聚类方法的一些扩展也考虑了子空间聚类。层次方法的缺陷在于,一旦一个步骤(合并或分裂)完成,它就不能被撤销。这个严格规定是有用的,因为不用担心不同选择的组合数目,它将产生较小的计算开销。然而这种技术不能更正错误的决定。已经提出了一些提高层次聚类质量的方法。
3、基于密度的方法(density-based methods)
基于密度的方法与其它方法的一个根本区别是:它不是基于各种各样的距离的,而是基于密度的。这样就能克服基于距离的算法只能发现“类圆形”的聚类的缺点。这个方法的指导思想就是,只要一个区域中的点的密度大过某个阀值,就把它加到与之相近的聚类中去。代表算法有:DBSCAN算法、OPTICS算法、DENCLUE算法等。
4、基于网格的方法(grid-based methods)
这种方法首先将数据空间划分成为有限个单元(cell)的网格结构,所有的处理都是以单个的单元为对象的。这么处理的一个突出的优点就是处理速度很快,通常这是与目标数据库中记录的个数无关的,它只与把数据空间分为多少个单元有关。代表算法有:STING算法、CLIQUE算法、WAVE-CLUSTER算 法。
很多空间数据挖掘问题,使用网格通常都是一种有效的方法。因此,基于网格的方法可以和其他聚类方法集成。
5、基于模型的方法(model-based methods)
基于模型的方法给每一个聚类假定一个模型,然后去寻找能够很好的满足这个模型的数据集。这样一个模型可能是数据点在空间中的密度分布函数或者其它。它的一个潜在的假定就是:目标数据集是由一系列的概率分布所决定的。通常有两种尝试方向:统计的方案和神经网络的方案。
当然聚类方法还有:传递闭包法,布尔矩阵法,直接聚类法,相关性分析聚类,基于统计的聚类方法等。
现有的聚类已经比较成功的解决了低维数据的聚类问题。但是由于实际应用中数据的复杂性,在处理许多问题时,现有的算法经常失效,特别是对于高维数据和大型数据的情况。因为传统聚类方法在高维数据集中进行聚类时,主要遇到两个问题。一个是高维数据集中存在大量无关的属性使得在所有维中存在簇的可能性几乎为零;另一个是高维空间中数据较低维空间中数据分布要稀疏,其中数据间距离几乎相等是普遍现象,而传统聚类方法是基于距离进行聚类的,因此在高维空间中无法基于距离来构建簇。
高维聚类分析已成为聚类分析的一个重要研究方向。同时高维数据聚类也是聚类技术的难点。随着技术的进步使得数据收集变得越来越容易,导致数据库规模越来越大、复杂性越来越高,如各种类型的贸易交易数据、Web文档、基因表达数据等,它们的维度(属性)通常可以达到成百上千维,甚至更高。但是,受“维度效应”的影响,许多在低维数据空间表现良好的聚类方法运用在高维空间上往往无法获得好的聚类效果。高维数据聚类分析是聚类分析中一个非常活跃的领域,同时它也是一个具有挑战性的工作。高维数据聚类分析在市场分析、信息安全、金融、娱乐、反恐等方面都有很广泛的应用。
本实施例中,对于聚类方法没有具体的限定,只要可以将用户搜索特征信 息根据必要的条件分类,并根据分类的结果对用户进行分组即可。
步骤13,向小组内的用户推荐相应的搜索推荐信息。
完成用户的分组后,需要向小组内的用户推荐搜索推荐信息。这里的搜索推荐信息是与用户搜索特征信息相关联的。原则上只将小组内用户相关的搜索推荐信息推荐给小组内的用户。
搜索推荐信息需要根据搜索推荐信息的关键字进行分类,根据分类将对应的搜索推荐信息发送给相应的小组内的用户。例如,小组内用户搜索特征信息包括足球,则可以提取搜索推荐信息的关键字,如果有足球这个关键字,则将这个搜索推荐信息发送给这个小组内的用户。
本实施例中,将所述搜索推荐信息以图文列表形式展示给所述用户;所述用户通过所述图文列表的链接浏览具体展示信息。
通常,所述用户通过关注相应的微信公众号,并在所述微信公众号提供的页面进行搜索操作;所述微信公众号获取用户的搜索特征信息,并在微信公众号页面为用户推荐所述搜索推荐信息。
实际上,本实施例的方案并不仅限于对用户搜索特征的分析,推而广之,本实施例可以理解为推荐引擎,主动发现用户当前或潜在需求,并主动推送信息给用户的信息网络。挖掘用户的喜好和需求,主动向用户推荐其感兴趣或者需要的对象。不是被动查找,而是主动推送;不是独立媒体,而是媒体网络;不是检索机制,而是主动学习。
本实施例利用基于内容、基于用户行为、基于社交关系网络等多种方法,为用户推荐其喜欢的商品或内容。
基于内容的推荐是分析用户正在浏览的内容的"基因",选择与当前内容有相似"基因"的对象推荐给用户。同时也分析用户过去浏览过的内容的"基因",从而获取其偏好,然后将与用户偏好的对象推荐给用户。例如,用户在浏览一款包的时候,为其推荐其他外形相似的包。
基于用户行为的推荐则是利用群体智慧算法,分析用户的群体行为,综合 分析用户与用户之间的相似度、用户对小众商品的个性化需求,从而同时提高推荐的精准性、多样性与新颖性。
基于社交关系网络的推荐是通过分析用户所在的社交关系网络,找到其最能够影响到的用户,或者最能够影响到该用户的用户,再综合每位用户的个性化偏好进行推荐。
如图2所示,为本发明实施例2提供的一种搜索热点推荐系统结构示意图,其中,
特征信息获取单元21,用于获取用户的搜索特征信息;所述搜索特征信息包括用户使用搜索引擎的习惯特征信息和用户搜索内容习惯特征信息;
用户分组单元22,用于根据所述搜索特征信息将所述用户分为若干小组;
搜索信息推荐单元23,用于根据所述小组向小组内的用户推荐相应的搜索推荐信息。
如图3所示,上述搜索信息推荐单元23,还包括:
分类子单元231,用于根据所述搜索推荐信息的关键字,将所述搜索推荐信息分类;
推荐子单元232,用于根据所述分类,将所述搜索推荐信息推荐给相应的用户。
进一步的,上述搜索信息推荐单元,还包括:
图文展示子单元233,用于将所述搜索推荐信息以图文列表形式展示给所述用户;
链接子单元234,用于设置所述图文列表的链接,所述用户通过所述图文列表的链接浏览具体展示信息。
如图4所示,上述用户分组单元22,还包括:
聚类子单元221,用于根据所述搜索特征信息,采用聚类分析获取用户的分组信息;
分组子单元222,用于根据所述用户的分组信息,将所述用户分为若干小组。
综上所述,本发明实施例中,通过获取用户的搜索特征信息;所述搜索特征信息包括用户使用搜索引擎的习惯特征信息和用户搜索内容习惯特征信息;根据所述搜索特征信息将所述用户分为若干小组;根据所述小组向小组内的用户推荐相应的搜索推荐信息。本发明实施例的方案,能够根据用户的搜索习惯,为用户推荐搜索相关的热点信息,准确获取用户的搜索需求从而准确的推荐搜索推荐信息,极大的提高了用户体验度。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使 得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。