基于搜索词的数据挖掘方法

文档序号:9751008阅读:768来源:国知局
基于搜索词的数据挖掘方法
【技术领域】
[0001]本发明涉及大数据,特别涉及一种基于搜索词的数据挖掘方法。
【背景技术】
[0002]近年来移动互联网、电子商务、物联网迅猛发展,用户在网上可获取的消息越来越多,互联网中有海量的信息内容,用户为了找到自己真正感兴趣和需要的信息,不得不花费巨大的时间和精力去筛选这些信息,甚至可能还会由于搜索不当导致用户错过或漏选真正感兴趣的信息。因此需要一种根据自身在网络中的行为习惯和兴趣爱好,能够自动为用户提供用户需要的信息的服务。比如网络商家,当商家在网络中发布自己的商品信息,而对此感兴趣的用户又错过了浏览该商品的机会,商家就丧失了一次可能进行商品交易的机会,因此商家也需要网络能够提供一种自动将其发布的商品信息提供给对商品可能感兴趣的用户的服务。传统的技术方案对用户在网络中的行为习惯和兴趣爱好进行分析,实现信息推送。而只是记录了用户的上网记录,访问了哪些服务器的哪些页面。这些信息不能很明显地展示用户的兴趣爱好。而通过第三方网站跟踪用户的用户识别方法只考虑了商家的需求,没有考虑用户的信息安全;根据用户上网的行为模式判断新会话属于哪个用户的方法只是分析了动态的会话,而且当数据量庞大时,由于缺少识别用户的信息,仅依靠用户的行为模式,不能进行用户识别。

【发明内容】

[0003]为解决上述现有技术所存在的问题,本发明提出了一种基于搜索词的数据挖掘方法,包括:
[0004]根据用户搜索的关键词,通过分词提取特征关键词;对分词结果进行语义确定,得到表示每个用户的特征的词语,并根据用户兴趣特征挖掘相似特征用户。
[0005]优选地,所述根据用户搜索的关键词,通过分词提取特征关键词,进一步包括:
[0006]通过对日志的检索,得到搜索内容在URL字段中所在的位置,按照规则表将每一个用户的所有日志的URL字段中的搜索内容提取出来,以获取搜索关键词,对用户兴趣特征文本进行分词,并进行词性标注;
[0007]所述对分词结果进行语义确定,得到表示每个用户的特征的词语,进一步包括:
[0008]计算关键词的每一个语义与该词上下文各词语义的语义近似度,然后根据语义近似度值所反映出来的语义之间的关联关系,得到关键词在上下文中的语义;假设关键词W存在η个语义h-kn,该关键词W处于一个文本中,要找出W在该文本中的语义,首先计算关键词W的各个语义与这一文本中其他词汇的各个语义的语义近似度的值SinKk1,^),其中^表示文本中任意词语的任一语义,然后根据这些语义近似度的值判断出W在这一文本的语义;
[0009]定义基于语义近似度值的语义关系即语义关联度:取关键词W所在搜索关键词的分词中的前一个实词Wl和后一个实词W2,若关键词W处于第一位,则只取W2 ;若关键词处于最末,则只取1;若W所在的搜索关键词的分词结果只有W,则取其前一个搜索关键词的最后一个分词和后一个搜索关键词的第一个分词;
[0010]确定以下语义确定规则为:用Sl1表示取语义近似度值最大的语义,即表现为语义与上下文中出现的语义之间相似度最大,即该关键词在该上下文中可能的语义为;用
321表示语义1^与上下文求得的语义近似度最大值出现的次数最多,用S3,表示语义1^与上下文求得的语义近似度最大值大于某一固定阈值次数最多,如果1^满足上述任意两个或两个以上的规则,则按照语义关联度计算的综合结果,将h确定为该关键词在该上下文中的语义;
[0011]在对关键词进行语义确定时,将该关键词所在的搜索内容作为关键词所在的句;而该用户在同一会话下的搜索内容,以及在与该会话相邻的时间段内产生的会话中的搜索内容,作为该关键词所在句的段;对于从该用户所有日志中提取的搜索内容,则组合起来作为该关键词所在的文本,关键词的语义确定过程如下:
[0012]I)对于任一个用户i,将从该用户的日志的URL中提取的搜索关键词组合成一个段ti;
[0013]2)对于从搜索关键词中通过分词提取的表现用户兴趣特征的实词查询对其所标注的关键词的词性,如果该词性的语义多于I个,则取出具有相同词性标注的所有语义,作为语义确定运算的输入;
[0014]3)分别计算该关键词各语义的语义关联度值,按照上述语义确定规则分别计算该关键词可能的语义;
[0015]4)如果识别语义成功,则算法结束;否则通知用户无法识别待语义确定词汇词义,算法结束,得到表现用户兴趣特征的实词记录格式为:Record =〈User ID,Key,Sem,Cl s>,其中Sem字段为该词的语义,Cls为该词的所属分类。
[0016]本发明相比现有技术,具有以下优点:
[0017]本发明提出了一种基于搜索词的数据挖掘方法,通过对独立用户行为进行用户识另IJ,在识别过程中展示了用户的兴趣爱好,实现了针对性的有价值信息推送。。
【附图说明】
[0018]图1是根据本发明实施例的基于搜索词的数据挖掘方法的流程图。
【具体实施方式】
[0019]下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描述。结合这样的实施例描述本发明,但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定,并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本发明。
[0020]本发明的一方面提供了一种基于搜索词的数据挖掘方法。图1是根据本发明实施例的基于搜索词的数据挖掘方法流程图。
[0021]本发明选择在云计算平台上实现。云平台整体架构由用户识别模块和兴趣分析模块两部分组成。用户识别模块从日志数据中识别出独立会话,并且将这些数据按照用户聚类,从而识别出用户,为下一步的用户兴趣特征模块提供数据。兴趣分析模块在用户识别的基础上,对数据进行提取、分析,进一步找出用户兴趣特征,构建特征分类库,并最终找出属于每一个分类的用户,即相似特征用户,为将来的推荐提供有用信息。
[0022]用户识别模块由数据清理、会话识别、客户端缓存数据提取和用户识别四个子模块组成。数据清理子模块是对日志数据中一些冗余和无效等影响存储效率和分析效率的数据进行删除,得到无冗余的日志。会话识别子模块是根据日志记录中的时刻和URL等字段,对日志进行分析,找到属于同一个会话的日志,并对其进行聚类和标识。客户端缓存数据提取子模块对每个会话中客户端缓存数据非空的日志进行Name字段的提取,该字段是用户登录的一些网站的用户名。用户识别子模块是在上述数据清理、会话识别和客户端缓存数据提取的基础上,根据形成的日志格式和内容进行用户识别分析,将属于同一用户的会话聚类,识别出每一个上网的用户,方便后续的兴趣分析模块使用。
[0023]兴趣分析模块包括关键词提取、兴趣特征提取和相似特征用户挖掘三个子模块。关键词提取子模块是对日志的URL进行搜索关键词提取,并对提取的关键词分词。兴趣特征提取子模块是对关键词提取子模块获取的分词进行语义确定,获取每个词语的词义和分类,并对用户的相同语义和分类下的词语进行词频统计,从而得到用户兴趣特征。相似特征用户挖掘子模块是通过构建特征分类库,从而找出属于分类库中每一个分类的用户,实现对用户的聚类,实现特定兴趣特征用户的针对性推荐。
[0024]本发明采用了聚类进行用户识别,将所有对于识别出有用的字段都纳入了判断用户的比较范围,识别出了用户,并对日志进行了标记,而且将日志按用户进行了分类;采用基于分类词库的语义确定方法,判断其在不同上下文的环境中的不同的语义;在挖掘相似用户时,通过构建一个分类库,提取表示用户兴趣特征词语的分类;对上述过程在云计算平台上进行了实现,将海量的互联网日志数据存储在分布式文件系统中,然后对研究内容在MapReduce框架上进行实现。
[0025]在用户识别前,首先进行数据清理,删除Web日志中无关的数据,包括:1)访问的文件是图片、框架等文件;2)用户请求访问失败的记录。这些数据对于分析和识别真实用户在网站的访问情况并无关系,属于干扰信息,因此进行删除。经过数据清理后的日志有八个字段,可以表示为:
[0026]Record =〈Source,ACC,Time,URL,Reference,Des,Agent,cke>
[0027]其中,Source为用户登录时主机的IP地址;ACC为用户的账户;Time是用户访问这一 URL的时刻,即生成这一条日志的时刻;URL则是
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1