挖掘用户访问喜好的方法及装置与流程

文档序号:17299180发布日期:2019-04-03 04:45阅读:319来源:国知局
挖掘用户访问喜好的方法及装置与流程

本发明涉及网络技术领域,尤其涉及一种挖掘用户访问喜好的方法及装置。



背景技术:

随着互联网技术的不断发展,网络已经成为人们生活中不可分割的一部分。在当今大数据时代的背景下,在网络中如何更好的确定用户的行为和喜好,已经成为网络中各大媒体及商家在竞争时占据优势的最佳手段。为此,对于用户访问情况的确定以及访问喜好的挖掘,愈发受到域内人员的重视。

目前,在对用户访问喜好进行挖掘时,常采用基于用户的行为数据的方式来进行。一般来说,现有对用户访问喜好的挖掘都是通过用户浏览的文章、视频、图片等内容进行分析,进而根据分析结果确定用户访问喜好。然而,在实际应用中,通过用户的浏览内容来挖掘用户访问喜好的方式在操作上过于复杂,尤其是当用户浏览的内容较多、或者是需要分析的用户数量较大时,需要分析的浏览内容的数据量也过于巨大,进而导致挖掘用户访问喜好的过程耗时过多,影响用户访问喜好的挖掘效率。



技术实现要素:

鉴于上述问题,本发明提供一种挖掘用户访问喜好的方法及装置,主要目的在进行用户访问喜好的挖掘时,减少时间的消耗,提高用户访问喜好的挖掘效率。

为解决上述技术问题,第一方面,本发明提供了一种挖掘用户访问喜好的方法,该方法包括:

从目标用户的访问数据中获取目标域名;

根据预置的域名及分类标签的对应关系,为所述目标用户添加对应所述目标域名的分类标签,所述分类标签用于对不同域名对应的网站进行分类;

根据所述目标用户的不同分类标签的数量,确定所述目标用户的访问喜好。

可选的,在所述从目标用户的访问数据中获取目标域名之前,所述方法还包括:

获取不同用户的用户行为数据,并从所述用户行为数据中解析出用户的访问数据,所述访问数据中包含用户访问的网站及对应的域名;

根据所述用户的访问数据中用户访问的网站的属性信息,为所述用户访问的网站对应的域名匹配对应所述属性信息的分类标签,所述网站的属性信息包括网站的领域、功能及种类中的一种或多种;

将所述域名及对应的分类标签存储到数据库中,得到域名标签库;

所述根据预置的域名及分类标签的对应关系,为所述目标用户添加对应所述目标域名的分类标签,具体为:

根据所述域名标签库中存储的域名及分类标签的对应关系,为所述目标用户添加对应所述目标域名的分类标签,所述域名标签库存储有域名及对应的分类标签。

可选的,在所述从目标用户的访问数据中获取目标域名之前,所述方法还包括:

获取不同用户的用户行为数据,并根据指令信息中的筛选规则对所述用户行为数据进行筛选,所述指令信息中包含对所述用户行为数据进行筛选的筛选规则;

将筛选后的用户行为数据存储至数据库中,得到用户行为数据库,所述筛选后的用户行为数据中至少包括用户访问数据;

所述从目标用户的访问数据中获取目标域名包括:

根据目标用户的用户标识,从所述用户行为数据库中获取对应所述用户标识的用户行为数据,得到目标用户的用户行为数据;

从所述目标用户的用户行为数据中获取所述目标用户的访问数据。

可选的,在所述根据预置的域名及分类标签的对应关系,为所述目标用户添加对应所述目标域名的分类标签之前,所述方法还包括;

判断所述域名标签库中是否存在目标域名;

若不存在,则输出标签添加请求,所述标签添加请求用于对所述目标域名添加分类标签的请求信息;

根据所述标签添加请求反馈的标签信息,为所述目标域名添加所述标签信息中的分类标签;

为所述目标域名及所述标签信息中的分类标签建立对应关系并存储在所述域名标签库中。

可选的,其特征在于,所述根据所述目标用户的不同分类标签的数量,确定所述目标用户的访问喜好包括:

统计所述目标用户的不同分类标签的分组数量及分类标签的总体数量;

根据所述分组数量及所述总体数量计算不同分类标签占总体数量的比重,得到喜好权重值;

根据所述喜好权重值,确定所述目标用户的访问喜好。

第二方面,本发明还提供了一种挖掘用户访问喜好的装置,该装置包括:

获取单元,用于从目标用户的访问数据中获取目标域名;

添加单元,用于根据预置的域名及分类标签的对应关系,为所述目标用户添加对应所述获取单元获取的目标域名的分类标签,所述分类标签用于对不同域名对应的网站进行分类;

确定单元,用于根据所述添加单元添加的目标用户的不同分类标签的数量,确定所述目标用户的访问喜好。

可选的,所述装置还包括:

解析单元,用于获取不同用户的用户行为数据,并从所述用户行为数据中解析出用户的访问数据,所述访问数据中包含用户访问的网站及对应的域名;

匹配单元,用于根据所述解析单元解析的用户的访问数据中用户访问的网站的属性信息,为所述用户访问的网站对应的域名匹配对应所述属性信息的分类标签,所述网站的属性信息包括网站的领域、功能及种类中的一种或多种;

第一存储单元,用于将所述匹配单元匹配后的域名及对应的分类标签存储到数据库中,得到域名标签库;

所述添加单元,具体用于根据所述第一存储单元得到的域名标签库中存储的域名及分类标签的对应关系,为所述目标用户添加对应所述目标域名的分类标签,所述域名标签库存储有域名及对应的分类标签。

可选的,所述装置还包括:

筛选单元,用于获取不同用户的用户行为数据,并根据指令信息中的筛选规则对所述用户行为数据进行筛选,所述指令信息中包含对所述用户行为数据进行筛选的筛选规则;

第二存储单元,用于将所述筛选单元筛选后的用户行为数据存储至数据库中,得到用户行为数据库,所述筛选后的用户行为数据中至少包括用户访问数据;

所述获取单元包括:

第一获取模块,用于根据目标用户的用户标识,从所述用户行为数据库中获取对应所述用户标识的用户行为数据,得到目标用户的用户行为数据;

第二获取模块,用于从所述第一获取模块获取的目标用户的用户行为数据中获取所述目标用户的访问数据。

可选的,所述装置还包括;

判断单元,用于判断所述域名标签库中是否存在目标域名;

输出单元,用于若所述判断单元判断所述域名标签库中不存在所述目标域名,则输出标签添加请求,所述标签添加请求用于对所述目标域名添加分类标签的请求信息;

所述添加单元,还用于根据所述标签添加请求反馈的标签信息,为所述目标域名添加所述标签信息中的分类标签;

建立单元,用于为所述目标域名及所述添加单元所添加的标签信息中的分类标签建立对应关系并存储在所述域名标签库中。

可选的,所述确定单元包括:

统计模块,用于统计所述目标用户的不同分类标签的分组数量及分类标签的总体数量;

计算模块,用于根据所述统计模块统计的分组数量及所述总体数量计算不同分类标签占总体数量的比重,得到喜好权重值;

确定模块,用于根据所述计算模块得到的喜好权重值,确定所述目标用户的访问喜好。

为了实现上述目的,根据本发明的第三方面,提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述所述的挖掘用户访问喜好的方法。

为了实现上述目的,根据本发明的第四方面,提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述所述的挖掘用户访问喜好的方法。

借由上述技术方案,本发明提供的挖掘用户访问喜好的方法及装置,对于现有技术在根据浏览内容来挖掘用户喜好的方式时,所需分析的数据量较大,当用户浏览内容较多或需进行挖掘的用户数量较多时,需分析的数据较多,导致挖掘用户访问喜好的过程耗时过多,影响挖掘效率的问题,本发明在获取到目标用户的访问数据中的目标域名之后,通过预置的域名及分类标签的对应关系,为目标用户添加对应目标域名的分类标签,进而根据目标用户中不同的分类标签的数量,确定所述目标用户的访问喜好,实现了对用户访问喜好的挖掘,相比于现有技术,本发明通过用户中不同的分类标签的数量来确定用户所喜好访问的网站及其类别,从而实现对用户访问喜好的挖掘,减少了现有技术通过浏览内容来确定用户喜好时所需分析的数据量,进而减少了挖掘时间,提高了对用户访问喜好的总体的挖掘效率。同时,通过在预置域名标签库中域名与分类标签的对应关系,能够较快的实现对目标用户的添加分类标签的功能,从而能够进一步的减少挖掘用户访问喜好的时间,提高挖掘效率。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了本发明实施例提供的一种挖掘用户访问喜好的方法流程图;

图2示出了本发明实施例提供的另一种挖掘用户访问喜好的方法流程图;

图3示出了本发明实施例提供的一种挖掘用户访问喜好的装置的组成框图;

图4示出了本发明实施例提供的另一种挖掘用户访问喜好的装置的组成框图;

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。

为了提高挖掘用户访问喜好的准确性,本发明实施例提供了一种挖掘用户访问喜好的方法,应用于客户端,如图1所示,该方法包括:

101、从目标用户的访问数据中获取目标域名。

通常情况下,在挖掘用户的访问喜好之前,首先需要确定对哪个用户进行访问喜好的挖掘。因此,在本发明实施例中,首先确定需要挖掘的用户,即本步骤中所述的目标用户。此外,由于对用户的访问喜好的挖掘是基于用户的行为习惯确定的,对此,在进行挖掘之前,首先需要获取到用户的行为数据,具体的,在本发明实施例中,所述的用户行为数据主要是指用户的访问数据。在所述用户访问数据中包含用户访问过的网站信息,而网站信息中包含不同网站对应的域名信息。

其中,域名可以理解为一串用“点”分隔的字符组成的internet上某一台计算机或计算机组的名称,常用于在数据传输时标识计算机的电子方位,有时也指地理位置、地理上的域名、或指代有行政自主权的一个地方区域。由于域名作为同一资源定位符的一部分,其本身具有一定的唯一性,并且域名的目的是便于记忆和沟通的一组服务器的地址,从而可以使访问者更便捷的实现与网络中的服务器进行数据交互。由此,可以在进行用户的访问喜好挖掘时,可以通过获取目标用户曾经访问过的目标域名,进而实现对用户访问过的网站的确定。

需要说明的是,在获取目标用户的访问数据及访问数据中的目标域名时,可以通过在目标用户的客户端部署获取代码,或者通过爬虫对用户的行为数据进行爬取,或者采取其他现有技术中任意种方式来实现,在此不做具体的限定,可以根据需要进行选取。

102、根据预置的域名及分类标签的对应关系,为所述目标用户添加对应所述目标域名的分类标签。

由于域名具有唯一性,因此,在确定了用户访问数据中的域名后,可以根据该域名确定用户所访问的网站。由于不同的网站具有属于不同的分类,具有不同的功能,如购物网站,军事网站,娱乐网站等。因此,在本发明实施例中可以根据用户访问的网站的种类为其添加对应的标签,即本步骤中所述的分类标签,然后根据域名与网站的对应关系实现对域名和分类标签之间建立对应关系,其中,所述分类标签为一种用于对不同域名对应的网站进行分类的标识信息。具体的,在建立了域名及分类标签后,还可以将这些建立了对应关系的域名及分类标签统一存储在一个数据库中,得到存储域名及对应分类标签数据库,以便后续根据该数据库中的这些对应关系实现对域名进行分类标签的添加。

由此,在步骤101中获取到目标用户的目标域名后,可以根据域名标签库中的域名及分类标签的对应关系,查找该用户的目标域名所对应的分类标签,然后将该分类标签添加到该用户,以实现对用户访问类别的确定。进一步的,在添加完目标域名对应的分类标签后,还可以继续遍历该用户的所访问的域名,然后根据本步骤所述的方法为目标用户继续依次添加对应不同域名的分类标签,因此,在本发明实施例所述的方法中,目标用户对应的分类标签的数量可以与其所访问过的域名数量相对应。

具体的,分类标签的分类方式可以根据网站的功能、类别等不同的分类规则来确定分类标签的种类及数量,在此并不做具体的限定,可以根据用户访问喜好的具体分类需求进行确定。

103、根据所述目标用户的不同分类标签的数量,确定所述目标用户的访问喜好。

经前述步骤102的方法对目标用户添加了分类标签之后,由于通常情况下,用户访问的网站的数量是多于一个的,同时,因此用户访问的域名数量也是多个,因此在前述步骤102为用户添加分类标签时,其数量也很可能是多个。由此,在本步骤中需要将用户对应的多个分类标签进行分组,同时,在本步骤中,用户的分类标签可能存在相同的分类标签的情况,由此还可以将相同的分类标签进行去重并计算该分类标签的数量,然后再统计下一个分类标签的数量,以此类推,当统计完该用户的所有的分类标签后,可以根据目标用户的不同的分类标签的数量及分类标签的总体数量确定用户的访问喜好。

例如,当用户a的分类标签中一共出现了“军事”、“购物”、“邮件”、“娱乐”四个分类标签时,根据统计,得到“军事”的数量13次、“购物”的数量120次、“娱乐”的数量3200次、“邮件”的数量22次时,可以确定该用户访问最多的是娱乐类的网站,由此确定该用户的访问喜好为倾向于娱乐方面的网站。

需要说明的是,在本步骤中所述的用户访问喜好的确定方式可以根据实际需要进行选取。具体的可以选择其他不同的确定方式,譬如,可以根据不同分类标签的数量确定排序顺序,进而根据排序顺序确定用户最喜欢访问的网站种类。或者,根据分类标签中不同分类标签的占总体分类标签总数的比例,来确定用户的访问喜好。当然,还可以选择其他方式来确定用户访问喜好,进而实现对用户访问喜好的挖掘。在此,对于确定用户访问喜好的具体方式不做具体的限定,可以在不同分类标签的分组数量及分类标签的总数的基础上,根据需要自行进行选取用户访问喜好的确定方式。

本发明实施例提供的挖掘用户访问喜好的方法,对于现有技术在根据浏览内容来挖掘用户喜好的方式时,所需分析的数据量较大,当用户浏览内容较多或需进行挖掘的用户数量较多时,需分析的数据较多,导致挖掘用户访问喜好的过程耗时过多,影响挖掘效率的问题。相比于现有技术,本发明通过用户中不同的分类标签的数量来确定用户所喜好访问的网站及其类别,从而实现对用户访问喜好的挖掘,减少了现有技术通过浏览内容来确定用户喜好时所需分析的数据量,进而减少了挖掘时间,提高了对用户访问喜好的总体的挖掘效率。同时,通过在预置域名标签库中域名与分类标签的对应关系,能够较快的实现对目标用户的添加分类标签的功能,从而能够进一步的减少挖掘用户访问喜好的时间,提高挖掘效率。

进一步的,作为对图1所示实施例的细化及扩展,本发明实施例还提供了另一种挖掘用户访问喜好的方法,如图2所示,其具体步骤包括:

201、获取不同用户的用户行为数据,并从所述用户行为数据中解析出用户的访问数据。

由于本发明实施例所述的用户喜好的挖掘方法是基于用户的访问数据中的域名来实现的。因此,在进行用户访问喜好的挖掘之前,首先需要获取到用户的行为数据。其中,本发明实施例所述的用户行为数据可以理解为包括用户在网络中的全部交互行为,其中可以包括网页的点击、网页浏览、登录、登出等不同的操作行为,基于上述的用户行为,可以从中解析出用户的访问数据。所述的访问数据可以理解为用户访问不同网站的访问信息,包括不同网站的地址信息。由于统一资源定位符为最为重要的网站定位信息,因此,在本步骤中所述的访问数据也可以为用户访问过的统一资源定位符,然后通过在该统一资源定位符中获取到用户访问的域名。当然,也可以是其他类型的访问数据,在此对于访问数据的种类及形式并不做具体的限定,但是要确保在该访问数据中能够获取到用户访问的网站对应的域名。此外,在本发明实施例中涉及的域名的描述与前述实施例的步骤101中的描述完全一致,在此不再赘述。

由此,通过在用户的行为数据中解析出访问数据,进而得到域名,可以确保获取到的域名的准确性,从而为用户访问喜好的挖掘结果的准确性奠定基础。

202、根据所述用户的访问数据中用户访问的网站的属性信息,为所述用户访问的网站对应的域名匹配对应所述属性信息的分类标签。

由于不同的网站都对应不同的分类或者不同的领域、因此,对于不同的网站可以根据其网站的属性信息,按照分类规则对这些网站进行分类,例如,可以将“爱奇艺”、“优酷”等视频网站归类为“娱乐”类。同时,由于域名的唯一性,可以根据不同域名对应的网站的属性信息为域名匹配对应的分类标签。

其中,本步骤中所述的网站的属性信息,可以包括网站的领域、功能及种类中的一种或多种。具体的,对于属性信息的种类,可以按照实际的分类需求,选择对应的属性信息,在此不做具体的限定。此外,在对不同的域名匹配对应的分类标签时,对于分类规则可以根据实际需要进行选取,并且进行分类标签匹配时可以按照实际需要,自行选取匹配方式。例如,可以通过人工的方式进行匹配,由相关的技术人员根据不同域名对应的网站的属性来为该网站的域名匹配对应的分类标签。当然,也可以通过预置的函数或程序,通过预设一个用于确定不同网站的属性程序或函数,然后根据不同属性对应的分类标签来实现对网站的域名自动匹配分类标签的功能。对此,对于匹配方式在此不做具体的限定,可按照需要进行选取。

由此,根据域名对应的网站的属性信息来匹配对应的分类标签,提高了分类标签匹配结果的准确性,进而保证得了后续域名标签库中存储的域名及分类标签对应关系的准确性,从而在整体上保证了用户访问喜好的准确性。

203、将所述域名及对应的分类标签存储到数据库中,得到域名标签库。

通过步骤202的匹配后,得到了域名及分类标签的对应关系,为便于后续使用该对应关系并保证该对应关系的准确性,可以根据本步骤所述的方法,将上述域名及分类标签的对应关系存储在指定的数据库中,得到域名标签数据库。这样,在后续的操作中,可以根据需要在所述标签数据库中进行查询和判断。

204、获取不同用户的用户行为数据,并根据指令信息中的筛选规则对所述用户行为数据进行筛选。

一般来说,在对用户的用户行为进行分析时,并不是单单的分析一个或几个用户,而是需要分析用户群中的大量用户,对此,首先需要获取用户群的全部数据,然后再通过每个用户的行为数据进行一一的分析,进而得到整个用户群的分析结果。同理,在本发明实施例所述的用户访问喜好的挖掘过程中,也需要对每个用户的访问喜好进行一一的挖掘,进而得到不同用户的访问喜好。

由此,在本发明实施例中,可以首先将目前能够获取到的用户行为数据进行全量的获取,在此对于获取用户行为数据的方式可以根据现有技术中的爬虫、脚本等不同方式中的任意种方式进行获取。由于获取到的数据中可能存在错误、冗余等数据,同时在用户行为数据中存在很多并不是本发明实施例所述的方法所需的数据,因此,在获取到用户行为数据后,可以以请求的方式向数据的采集者发送过滤的请求,然后根据采集者下达的指令信息中的过滤要求,将其中错误、冗余、重复以及不需要的数据进行筛选和清洗,进而得到“干净”的用户行为数据,其中这里指的干净的用户行为数据实际上是符合本发明实施例所述的方法所需的用户行为数据,对于不需要的数据,则无需保留,以避免占用过多的系统资源。

需要说明的是,本步骤中所述的指令信息可以在每次进行筛选前进行下达的,也可以是采集者预设的,在此并不做具体的限定,可按照实际需要选取,但要确保根据该指令信息进行筛选后的用户行为数据中包括用户的访问数据。

通过对获取到的用户行为数据进行筛选,能够减少后续存储在数据库中的数据量,同时也能够使后续在进行目标用户行为数据获取过程中,减少查询时间,提高查询的效率,进而整体上减少用户访问喜好的挖掘过程的时间消耗,并减少了对系统资源的占用。

205、将筛选后的用户行为数据存储至数据库中,得到用户行为数据库。

在步骤204之后,可以将筛选后的用户行为数据存储在以预设的数据库中,进而得到用户行为数据库。通过该数据库可以实现对不同用户的用户行为数据进行全量收集效果,在需要挖掘该用户行为数据库中任意用户的访问喜好时,可以直接从该用户数据库中获取到访问数据,提高了获取速度。

需要说明的是,在前述步骤201-203的过程实际上是构建域名标签库的过程,而步骤204-205则为构建用户行为数据库的过程。其中,构建域名标签库的过程与构建用户行为数据库的过程可以根据需要选择先后顺序,在此并不做顺序上的限定,本发明实施例所述的执行方式仅为具体实现方式的一种。

206、从目标用户的访问数据中获取目标域名。

对于本发明实施例而言,在挖掘用户访问喜好之前,首先需要确定待挖掘喜好的用户是哪一个,具体的,可以存在两种情况。

一方面,当所述目标用户是前述实施例205中构建后得到的用户行为数据库中的用户时,则本步骤可以具体为:首先,根据目标用户的用户标识,从用户行为数据库中获取对应所述用户标识的用户行为数据。然后,在该用户行为数据中获取目标用户的访问数据,进而从访问数据中解析出目标用户所访问过的域名。其中,访问数据的种类与形式在此不做限定,与前述实施例的描述一致。

另一方面,当所述目标用户不是用户行为数据库中的用户时,则需要利用现有技术中的任意种数据获取方式来获取该目标用户的用户行为数据。具体的,可以采用爬虫、或部署脚本等方式来进行,在此不做限定。

在本步骤中,通过在用户行为数据库中查询用户标识,并在查询到目标用户的用户标识后,获取对应的用户行为数据,能够确保获取到的用户行为信息的准确性,避免了因获取到错误的用户行为数据导致最终对目标用户的访问喜好的挖掘结果的影响。

207、判断所述域名标签库中是否存在目标域名。

虽然前述实施例203中得到的域名标签数据库存储有大量的域名及对应的分类标签,但与网络中存在网站数量相比,仍可能存在未保存的域名。因此,在本发明实施例中,当获取到目标用户的目标域名后,需要在域名标签库查询是否有该目标域名,并根据判断的结果进行后续的步骤。

其中,若判断在所述域名标签库中存在所述目标域名,则执行步骤208;若判断在所述域名标签库中不存在所述目标域名,则执行步骤210。

208、根据预置的域名及分类标签的对应关系,为所述目标用户添加对应所述目标域名的分类标签。

在经步骤207判断后,当在域名标签库中查询到该目标域名时,则具体的本步骤可以根据所述域名标签库中存储的域名及分类标签的对应关系,为所述目标用户添加对应所述目标域名的分类标签,即从域名标签库中获取该域名对应的分类标签,然后将该分类标签添加到目标用户中。

需要说明的是,通常情况下,用户所访问过的域名可能是多个不同的域名,因此,目标用户访问过的域名的数量可能是多个,对此,可以为该目标用户建立标签集合,然后根据本步骤所述的方法为不同的域名对应的不同的分类标签添加到该目标用户的标签集合中。

在本步骤中,通过预置的域名及分类标签的对应关系,为目标用户添加对应目标域名的分类标签,能够实现对用户的访问类别的确定的准确性,进而提高了挖掘用户访问喜好的准确性。

209、根据所述目标用户的不同分类标签的数量,确定所述目标用户的访问喜好。

具体的,在为目标用户添加了对应不同目标域名的分类标签后,可以根据不同的分类标签确定目标用户的访问喜好。具体的,本步骤可以包括:首先,统计目标用户的不同分类标签的分组数量及分类标签的总体数量,其中,当存在相同的分类标签时,可以将相同的分类标签进行合并去重,并记录该分类标签的次数。然后,根据分类标签的分组数量及总体数量计算不同分类标签占总体数量的比重,得到对不同分类的喜好权重值。最后,根据用户不同分类的喜好权重值,确定目标用户的访问喜好。

例如,当用户a的分类标签为:“娱乐”、“新闻”、“娱乐”、“游戏”、“娱乐”、“娱乐”、“娱乐”、“网购”、“网购”、“娱乐”共10个分类标签时,则可以将上述分类标签进行合并去重,并统计次数得到“娱乐”6个、“网购”2个、“新闻”1个、“游戏”1个。然后计算这四个分类标签占整体的比重,得到四个分类标签的喜好权重值分别为“娱乐”0.6、“网购”0.2、“新闻”0.1及“游戏”0.1。最后由于分类标签“娱乐”的喜好权重值最高,且远高于其他几个,由此可以挖掘出该用户a的访问喜好为娱乐类的网站。

此外,需要说明的是,本步骤所述的方法,仅为本发明实施例所述的用户访问喜好挖掘方法中的较优实施方式,对于其他的具体实施方式可惜根据实际需要进行选取,譬如,可以选取分类标签中数量最多的作为用户喜好访问的网站类别。或者预置阈值,当占整体比重超过阈值的分类标签作为用户喜好访问的网站类别。

根据本步骤所述的方法,通过计算每种分类标签的数量及占整体的比重,并得到喜好权重值,能够量化的方式实现用户的访问喜好挖掘结果,并且可以使用户访问喜好的挖掘结果更为直观。

210、若在所述域名标签库中不存在所述目标域名,则输出标签添加请求。

在经步骤207判断后,当确定域名标签库中不存在目标域名时,则需要由人工方式来对该目标域名添加对应的分类标签。具体的,在本步骤中可以在确定域名标签库中不存在该目标域名时,可以向相关人员输出一个标签添加请求,以便相关人员在接收到该标签添加请求后根据目标域名对应的网站反馈包含对应的分类标签的反馈信息。其中该标签添加请求用于对所述目标域名添加分类标签的请求信息。

需要说明的是,在本步骤中所述的标签添加请求的具体实施方式可以为向预设的邮箱发送请求邮件或其他的实施方式,在此并不做具体的限定,可根据实施需要选择。

211、根据所述标签添加请求反馈的标签信息,为所述目标域名添加所述标签信息中的分类标签。

在步骤210输出了添加标签请求后,会接收到该请求的反馈信息,其中,该反馈信息中可以包括请求所需的分类标签。由此,在接收到反馈信息后,从该标签信息中获取分类标签,然后为该目标域名添加分类标签。

212、为所述目标域名及所述标签信息中的分类标签建立对应关系并存储在所述域名标签库中。

当确定了目标域名的分类标签后,可以为所述目标域名及分类标签建立对应关系,然后将该目标域名及分类标签存储在域名标签库中,以扩展该域名标签库中的内容,以确保后续当另一个用户也存在该目标域名时,能够从该域名标签库中直接获取到该目标域名对应的分类标签,进而能够减少为用户添加对应目标域名的分类标签时所需的时间,提高添加效率,进而提高整体的用户访问喜好的挖掘效率。

进一步的,作为对上述图1所示方法的实现,本发明实施例还提供了一种挖掘用户访问喜好的装置,用于对上述图1所示的方法进行实现。该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。如图3所示,该装置包括:获取单元31、添加单元32与确定单元33,其中

获取单元31,可以用于从目标用户的访问数据中获取目标域名。

添加单元32,可以用于根据预置的域名及分类标签的对应关系,为所述目标用户添加对应所述获取单元31获取的目标域名的分类标签,所述分类标签用于对不同域名对应的网站进行分类。

确定单元33,可以用于根据所述添加单元32添加的目标用户的不同分类标签的数量,确定所述目标用户的访问喜好。

进一步的,作为对上述图2所示方法的实现,本发明实施例还提供了一种挖掘用户访问喜好的装置,用于对上述图2所示的方法进行实现。该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。如图4所示,该装置包括:获取单元401、添加单元402与确定单元403,其中

获取单元401,可以用于从目标用户的访问数据中获取目标域名。

添加单元402,可以用于根据预置的域名及分类标签的对应关系,为所述目标用户添加对应所述获取单元401获取的目标域名的分类标签,所述分类标签用于对不同域名对应的网站进行分类。

确定单元403,可以用于根据所述添加单元402添加的目标用户的不同分类标签的数量,确定所述目标用户的访问喜好。

进一步的,所述装置还包括:

解析单元404,可以用于获取不同用户的用户行为数据,并从所述用户行为数据中解析出用户的访问数据,所述访问数据中包含用户访问的网站及对应的域名。

匹配单元405,可以用于根据所述解析单元404解析的用户的访问数据中用户访问的网站的属性信息,为所述用户访问的网站对应的域名匹配对应所述属性信息的分类标签,所述网站的属性信息包括网站的领域、功能及种类中的一种或多种。

第一存储单元406,可以用于将所述匹配单元405匹配后的域名及对应的分类标签存储到数据库中,得到域名标签库;

所述添加单元402,具体用于根据所述第一存储单元406得到的域名标签库中存储的域名及分类标签的对应关系,为所述目标用户添加对应所述目标域名的分类标签,所述域名标签库存储有域名及对应的分类标签。

进一步的,所述装置还包括:

筛选单元407,可以用于获取不同用户的用户行为数据,并根据指令信息中的筛选规则对所述用户行为数据进行筛选,所述指令信息中包含对所述用户行为数据进行筛选的筛选规则。

第二存储单元408,可以用于将所述筛选单元407筛选后的用户行为数据存储至数据库中,得到用户行为数据库,所述筛选后的用户行为数据中至少包括用户访问数据。

所述获取单元401包括:

第一获取模块4011,可以用于根据目标用户的用户标识,从所述用户行为数据库中获取对应所述用户标识的用户行为数据,得到目标用户的用户行为数据。

第二获取模块4012,可以用于从所述第一获取模块4011获取的目标用户的用户行为数据中获取所述目标用户的访问数据。

进一步的,所述装置还包括:

所述装置还包括;

判断单元409,可以用于判断所述域名标签库中是否存在目标域名。

输出单元410,可以用于若所述判断单元409判断所述域名标签库中不存在所述目标域名,则输出标签添加请求,所述标签添加请求用于对所述目标域名添加分类标签的请求信息。

所述添加单元402,还可以用于根据所述标签添加请求反馈的标签信息,为所述目标域名添加所述标签信息中的分类标签。

建立单元411,可以用于为所述目标域名及所述添加单元402所添加的标签信息中的分类标签建立对应关系并存储在所述域名标签库中。

进一步的,所述确定单元403包括:

统计模块4031,可以用于统计所述目标用户的不同分类标签的分组数量及分类标签的总体数量。

计算模块4032,可以用于根据所述统计模块统计的分组数量及所述总体数量计算不同分类标签占总体数量的比重,得到喜好权重值。

确定模块4033,可以用于根据所述计算模块得到的喜好权重值,确定所述目标用户的访问喜好。

借由上述技术方案,本发明实施例提供一种挖掘用户访问喜好的方法及装置。对于现有技术在根据浏览内容来挖掘用户喜好的方式时,所需分析的数据量较大,当用户浏览内容较多或需进行挖掘的用户数量较多时,需分析的数据较多,导致挖掘用户访问喜好的过程耗时过多,影响挖掘效率的问题。相比于现有技术,本发明通过用户中不同的分类标签的数量来确定用户所喜好访问的网站及其类别,从而实现对用户访问喜好的挖掘,减少了现有技术通过浏览内容来确定用户喜好时所需分析的数据量,进而减少了挖掘时间,提高了对用户访问喜好的总体的挖掘效率。同时,通过在预置域名标签库中域名与分类标签的对应关系,能够较快的实现对目标用户的添加分类标签的功能,从而能够进一步的减少挖掘用户访问喜好的时间,提高挖掘效率。

同时,在构建域名标签数据库的过程中,通过域名对应的网站的属性信息来匹配对应的分类标签,提高了分类标签匹配结果的准确性,进而保证得了后续域名标签库中存储的域名及分类标签对应关系的准确性,从而在整体上保证了用户访问喜好的准确性。

另外,在构建用户行为数据库的过程中,通过将对获取到的用户行为数据进行筛选,能够减少后续存储在数据库中的数据量,同时也能够使后续在进行目标用户行为数据获取过程中,减少查询时间,提高查询的效率,进而整体上减少用户访问喜好的挖掘过程的时间消耗,并减少了对系统资源的占用,并且通过构建用户行为数据库,可以实现对不同用户的用户行为数据进行全量收集效果,并且当需要挖掘该用户行为数据库中任意一个用户的访问喜好时,可以直接从该用户数据库中获取到访问数据,提高了获取速度,进而确保了对用户访问喜好的挖掘的整体速度。

进一步的,通过在用户行为数据库中查询用户标识,并在查询到目标用户的用户标识后,获取对应的用户行为数据,能够确保获取到的用户行为信息的准确性,避免了因获取到错误的用户行为数据导致最终对目标用户的访问喜好的挖掘结果的影响。

此外,通过计算每种分类标签的数量及占整体的比重,并得到喜好权重值,能够量化的方式实现用户的访问喜好挖掘结果,并且可以使用户访问喜好的挖掘结果更为直观。同时,当判断在域名标签库中不存在目标域名时,通过发送添加标签请求并接收反馈信息,从中得到分类标签,避免了当域名标签库中不存在目标域名时,无法为用户添加对应所述目标域名的分类标签的情况,提高了对用户访问喜好的挖掘结果的准确性,并且,将所述目标域名及分类标签建立对应关系并存在在所述域名标签库中,能够实现对域名标签库中内容的补充,确保了域名标签库内容的丰富性,进而确保了后续在使用域名标签库中为用户添加分类标签时的准确性

所述的挖掘用户访问喜好的装置包括处理器和存储器,上述获取单元、添加单元与确定单元等作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来减少用户访问喜好的挖掘过程中时间的消耗,提高挖掘效率。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram),存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述挖掘用户访问喜好的方法。

本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述挖掘用户访问喜好的方法。

本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:从目标用户的访问数据中获取目标域名;根据预置的域名及分类标签的对应关系,为所述目标用户添加对应所述目标域名的分类标签,所述分类标签用于对不同域名对应的网站进行分类;根据所述目标用户的不同分类标签的数量,确定所述目标用户的访问喜好。

进一步的,在所述从目标用户的访问数据中获取目标域名之前,所述方法还包括:

获取不同用户的用户行为数据,并从所述用户行为数据中解析出用户的访问数据,所述访问数据中包含用户访问的网站及对应的域名;

根据所述用户的访问数据中用户访问的网站的属性信息,为所述用户访问的网站对应的域名匹配对应所述属性信息的分类标签,所述网站的属性信息包括网站的领域、功能及种类中的一种或多种;

将所述域名及对应的分类标签存储到数据库中,得到域名标签库;

所述根据预置的域名及分类标签的对应关系,为所述目标用户添加对应所述目标域名的分类标签,具体为:

根据所述域名标签库中存储的域名及分类标签的对应关系,为所述目标用户添加对应所述目标域名的分类标签,所述域名标签库存储有域名及对应的分类标签。

进一步的,在所述从目标用户的访问数据中获取目标域名之前,所述方法还包括:

获取不同用户的用户行为数据,并根据指令信息中的筛选规则对所述用户行为数据进行筛选,所述指令信息中包含对所述用户行为数据进行筛选的筛选规则;

将筛选后的用户行为数据存储至数据库中,得到用户行为数据库,所述筛选后的用户行为数据中至少包括用户访问数据;

所述从目标用户的访问数据中获取目标域名包括:

根据目标用户的用户标识,从所述用户行为数据库中获取对应所述用户标识的用户行为数据,得到目标用户的用户行为数据;

从所述目标用户的用户行为数据中获取所述目标用户的访问数据。

进一步的,在所述根据预置的域名及分类标签的对应关系,为所述目标用户添加对应所述目标域名的分类标签之前,所述方法还包括;

判断所述域名标签库中是否存在目标域名;

若不存在,则输出标签添加请求,所述标签添加请求用于对所述目标域名添加分类标签的请求信息;

根据所述标签添加请求反馈的标签信息,为所述目标域名添加所述标签信息中的分类标签;

为所述目标域名及所述标签信息中的分类标签建立对应关系并存储在所述域名标签库中。

进一步的,其特征在于,所述根据所述目标用户的不同分类标签的数量,确定所述目标用户的访问喜好包括:

统计所述目标用户的不同分类标签的分组数量及分类标签的总体数量;

根据所述分组数量及所述总体数量计算不同分类标签占总体数量的比重,得到喜好权重值;

根据所述喜好权重值,确定所述目标用户的访问喜好。

本发明实施例中的设备可以是服务器、pc、pad、手机等。

本发明实施例还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:从目标用户的访问数据中获取目标域名;根据预置的域名及分类标签的对应关系,为所述目标用户添加对应所述目标域名的分类标签,所述分类标签用于对不同域名对应的网站进行分类;根据所述目标用户的不同分类标签的数量,确定所述目标用户的访问喜好。

进一步的,在所述从目标用户的访问数据中获取目标域名之前,所述方法还包括:

获取不同用户的用户行为数据,并从所述用户行为数据中解析出用户的访问数据,所述访问数据中包含用户访问的网站及对应的域名;

根据所述用户的访问数据中用户访问的网站的属性信息,为所述用户访问的网站对应的域名匹配对应所述属性信息的分类标签,所述网站的属性信息包括网站的领域、功能及种类中的一种或多种;

将所述域名及对应的分类标签存储到数据库中,得到域名标签库;

所述根据预置的域名及分类标签的对应关系,为所述目标用户添加对应所述目标域名的分类标签,具体为:

根据所述域名标签库中存储的域名及分类标签的对应关系,为所述目标用户添加对应所述目标域名的分类标签,所述域名标签库存储有域名及对应的分类标签。

进一步的,在所述从目标用户的访问数据中获取目标域名之前,所述方法还包括:

获取不同用户的用户行为数据,并根据指令信息中的筛选规则对所述用户行为数据进行筛选,所述指令信息中包含对所述用户行为数据进行筛选的筛选规则;

将筛选后的用户行为数据存储至数据库中,得到用户行为数据库,所述筛选后的用户行为数据中至少包括用户访问数据;

所述从目标用户的访问数据中获取目标域名包括:

根据目标用户的用户标识,从所述用户行为数据库中获取对应所述用户标识的用户行为数据,得到目标用户的用户行为数据;

从所述目标用户的用户行为数据中获取所述目标用户的访问数据。

进一步的,在所述根据预置的域名及分类标签的对应关系,为所述目标用户添加对应所述目标域名的分类标签之前,所述方法还包括;

判断所述域名标签库中是否存在目标域名;

若不存在,则输出标签添加请求,所述标签添加请求用于对所述目标域名添加分类标签的请求信息;

根据所述标签添加请求反馈的标签信息,为所述目标域名添加所述标签信息中的分类标签;

为所述目标域名及所述标签信息中的分类标签建立对应关系并存储在所述域名标签库中。

进一步的,其特征在于,所述根据所述目标用户的不同分类标签的数量,确定所述目标用户的访问喜好包括:

统计所述目标用户的不同分类标签的分组数量及分类标签的总体数量;

根据所述分组数量及所述总体数量计算不同分类标签占总体数量的比重,得到喜好权重值;

根据所述喜好权重值,确定所述目标用户的访问喜好。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1