确定用户的人群属性的方法及装置与流程

文档序号:20488964发布日期:2020-04-21 21:53阅读:340来源:国知局
确定用户的人群属性的方法及装置与流程

本公开涉及互联网技术领域,具体地,涉及一种确定用户的人群属性的方法及装置。



背景技术:

在内容平台如果能够了解到用户的人群属性(例如程序员、产品经理),就能够对用户进行精准的内容推荐以及广告推荐等服务。因此用户的人群属性对于内容平台是十分必要的特征。但大部分内容平台并不要求用户填写相关的信息,使得获取用户的人群属性变得十分困难。

现有技术中主要是基于有标签数据进行有监督学习来确定人群属性。例如,通过挖掘带标签训练数据,使用有监督的机器学习算法如梯度提升树(gbdt)或有监督的深度学习方法建立模型。然后根据训练数据中的标签对模型进行训练,再应用训练好的模型在全量数据中预测获得对应的人群标签。然而,由于某些站内不强制用户填写自己的个人信息(如职业),因此获取带标签的数据变得十分困难,只能通过用户的浏览行为等粗略的挖掘带标签数据。这种方案难以获得大量准确的带标签数据,因此难以训练出准确率较高的机器学习模型,从而导致基于机器学习模型得到的用户的人群属性结果不准确。



技术实现要素:

有鉴于此,本公开实施例的目的在于提供一种确定用户的人群属性的方法及装置,用以解决现有技术中出现基于机器模型得到的用户的人群属性不准确的问题。

根据本公开的第一方面,提供了一种确定用户的人群属性的方法,包括:根据话题数据建立话题网络;将所述话题网络中的话题聚类形成话题簇;根据用户行为数据确定用户与所述话题网络中的话题之间的连接权重;根据所述用户与所述话题网络中的话题之间的连接权重构建用户与话题簇间的关系图;以及根据所述用户与话题簇间的关系图确定用户的人群属性。

在一个可能的实施例中,其中,所述建立话题网络包括:计算任意两个话题之间的连接权重;以及根据所述任意两个话题之间的连接权重构建话题网络。

在一个可能的实施例中,其中,所述聚类形成话题簇,包括:将所述话题网络中具有连接关系的话题对输入至聚类算法中,输出话题所属的话题簇,并且从每个话题簇中去除异常话题。

在一个可能的实施例中,其中,所述从每个话题簇中去除异常话题,包括:计算每个话题簇中各话题的分值;以及将所述分值小于或等于阈值的话题从话题簇中剔除。

在一个可能的实施例中,其中,所述根据所述用户与话题簇间的关系图确定用户的人群属性,包括:根据所述用户与话题簇间的关系图确定用户话题簇列表;以及根据目标话题簇标签与所述用户话题簇列表中的话题簇标签的交集个数确定用户的人群属性,所述目标话题簇标签是根据目标人群在话题簇标签列表中查找的。

在一个可能的实施例中,其中,所述根据所述用户与话题簇间的关系图确定用户话题簇列表,包括:根据所述用户与话题簇间的关系图计算用户与所属话题簇的得分;以及对所述用户与所属话题簇的得分排序,得到用户话题簇列表。

在一个可能的实施例中,其中,所述根据所述用户与话题簇间的关系图确定用户的人群属性,包括:将所述用户与话题簇间的关系图输入至谱聚类算法中,输出用户和话题簇的聚类结果;以及根据所述用户和话题簇的聚类结果确定用户的人群属性。

根据本公开的第二方面,提供了一种确定用户的人群属性的装置,包括:话题网络建立模块,被配置为根据话题数据建立话题网络;话题簇形成模块,被配置为将所述话题网络中的话题聚类形成话题簇;连接权重确定模块,被配置为根据用户行为数据确定用户与所述话题网络中的话题之间的连接权重;关系图构建模块,还被配置为根据所述用户与所述话题网络中的话题之间的连接权重构建用户与话题簇间的关系图;以及人群属性确定模块,被配置为根据所述用户与话题簇间的关系图确定用户的人群属性。

在一个可能的实施例中,其中,所述话题网络建立模块具体被配置为:计算任意两个话题之间的连接权重;以及根据所述任意两个话题之间的连接权重构建话题网络。

在一个可能的实施例中,其中,所述话题簇形成模块具体被配置为:将所述话题网络中具有连接关系的话题对输入至聚类算法中,输出话题所属的话题簇,并且从每个话题簇中去除异常话题。

在一个可能的实施例中,其中,还包括:话题分值计算模块,被配置为计算每个话题簇中各话题的分值;以及所述话题簇形成模块还被配置为将所述分值小于或等于阈值的话题从话题簇中剔除。

在一个可能的实施例中,其中,所述人群属性确定模块具体被配置为:根据所述用户与话题簇间的关系图确定用户话题簇列表;以及根据目标话题簇标签与所述用户话题簇列表中的话题簇标签的交集个数确定用户的人群属性,所述目标话题簇标签是根据目标人群在话题簇标签列表中查找的。

在一个可能的实施例中,其中,所述人群属性确定模块具体还被配置为:根据所述用户与话题簇间的关系图计算用户与所属话题簇的得分;以及对所述用户与所属话题簇的得分排序,得到用户话题簇列表。

在一个可能的实施例中,其中,所述人群属性确定模块具体还被配置为:将所述用户与话题簇间的关系图输入至谱聚类算法中,输出用户和话题簇的聚类结果;以及根据所述用户和话题簇的聚类结果确定用户的人群属性。

根据本公开的第三方面,提供了一种电子设备,包括处理器以及存储器,其中所述存储器存储有指令,所述指令在被执行时使得所述处理器执行如本公开的第一方面所述的方法。

根据本公开的第四方面,提供了一种计算机可读存储介质,所述介质存储有指令,所述指令在被执行时实现如本公开的第一方面所述的方法。

本公开实施例提供的确定用户的人群属性的方法及装置,首先,根据话题数据建立话题网络;将话题网络中的话题聚类形成话题簇;然后,根据用户行为数据确定用户与话题网络中的话题之间的连接权重;根据用户与话题网络中的话题之间的连接权重构建用户与话题簇间的关系图;以及根据用户与话题簇间的关系图确定用户的人群属性。由于本方案中是基于无监督的算法进行的,因此不需要有标注的数据,只要用户在站内有行为,均能够实现人群的划分,从而提高划分用户的人群属性结果的准确性。

为使本公开实施例所要实现的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案,下面将对本公开实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例的一种人群划分的流程;

图2示出了本公开实施例的一种确定用户的人群属性的方法流程图;

图3示出了本公开实施例中的问题与话题的对应关系图;

图4示出了本公开实施例中的社区关系网络图;

图5示出了本公开实施例中的用户与话题簇间的关系图;

图6示出了本公开实施例的一种确定用户的人群属性的装置的结构示意图;

图7示出了本公开实施例的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

为了便于清楚描述本发明实施例的技术方案,在本发明的实施例中,采用了“第一”、“第二”等字样对功能或作用基本相同的相同项或相似项进行区分,本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定。

本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。

本文中术语“包括/包含”在本文使用时指特征、要素或组件的存在,但并不排除一个或更多个其它特征、要素或组件的存在或附加。

本公开实施例提供的确定用户的人群属性的方法,首先,根据话题数据建立话题网络;将话题网络中的话题聚类形成话题簇;然后,根据用户行为数据确定用户与话题网络中的话题之间的连接权重;根据用户与话题网络中的话题之间的连接权重构建用户与话题簇间的关系图;以及根据用户与话题簇间的关系图确定用户的人群属性。由于本方案中是基于无监督的算法进行的,因此不需要有标注的数据,只要用户在站内有行为,均能够实现人群的划分,从而提高划分用户的人群属性结果的准确性。以下将结合附图来详细描述本公开的实施例及其优点。

现有技术中主要是基于有标签数据进行有监督学习来确定人群属性。例如,通过挖掘带标签训练数据,使用有监督的机器学习算法如梯度提升树(gbdt)或有监督的深度学习方法建立模型。然后根据训练数据中的标签对模型进行训练,再应用训练好的模型在全量数据中预测获得对应的人群标签。然而,由于某些站内不强制用户填写自己的个人信息(如职业),因此获取带标签的数据变得十分困难。只能通过用户的浏览行为等粗略的挖掘带标签数据。但这种方案难以获得大量准确的带标签数据,因此难以训练出准确率较高的机器学习模型,从而导致基于机器学习模型得到的用户的人群属性结果不准确。

为了解决上述的问题,本公开中提出了一种人群划分的流程图,如图1所示,该流程主要包括以下内容:站内(例如知乎)话题网络构建—>话题网络聚簇—>话题簇与用户二分图构建—>基于二分图的人群划分。下面将基于该图1的内容展开描述具体的实现过程。

图2示出了本公开实施例的一种确定用户的人群属性的方法流程图。如图2所示,该方法包括:

201、根据话题数据建立话题网络。

示例性的,上述的话题数据包括用于描述问题的话题标签。通常情况下,话题与问题是密切绑定的,并且一个问题一般会绑定不止一个话题。用户在绑定话题时通常会将与内容最相关的话题进行绑定,因此出现在同一问题下的话题,通常具有一定的联系。在层次结构上可能同属于同一类话题,也可能是上下级关系。例如,当问题为:计算机视觉中,目前有哪些经典的目标跟踪算法?对应的话题可以包括以下标签:机器学习、图像识别、计算机视觉、机器视觉以及深度学习(deeplearning)。具体可以参照图3示出的问题与话题的对应关系图。在计算机视觉相关的问题中,基本都会被同时打上机器视觉、机器学习、深度学习等话题。在这个例子中,机器学习、深度学习应该是计算机视觉的母话题。因此我们可以通过同一问题下的话题共现构建知乎话题网络。

优选的,上述的步骤201具体包括以下内容:计算任意两个话题之间的连接权重;以及根据任意两个话题之间的连接权重构建话题网络。

示例性的,计算话题a和话题b之间的连接权重可以如下公式:

其中,话题a—>话题b的权重定义为所有包含话题a的问题中,同时包含话题a和话题b所占的比例。根据此定义,a—>b与b—>a可以具有不同的连接权重。根据上述公式对全站话题共现关系进行挖掘,并计算连接权重。在一些实施例中,过滤掉权重过低的边后,将有向图转化为无向图即为最终的话题网络。例如,最终的话题网络可以为包含近6万话题以及30万条边。

202、将话题网络中的话题聚类形成话题簇。

示例性的,上述的步骤202具体包括以下内容:将话题网络中具有连接关系的话题对(例如,在步骤201得到话题网络的无向图)输入至聚类算法中,输出话题所属的话题簇,并且从每个话题簇中去除异常话题。

可选的,在得到上述的话题网络后,可以应用已有的网络聚类(例如,社区发现)算法对话题网络进行聚簇。由于目前已有非常多的算法,因此我们直接可以应用已有的算法,但算法的使用需要满足以下几点要求:1、算法迭代速度快;2、同一话题可以被聚类到不同的簇;3、簇内的话题数分布较为均匀。为了满足上述几点,本公开选择bigclam算法。该算法认为一个网络可以通过社区关系二分图来生成,也即给定一个网络所有节点与其所属的社区关系,可以生成一个网络。反之,如果我们得到了一个网络,则可以反推其节点与社区的关系。

如图4所示为根据本公开实施例的社区关系网络图。图中上半部分的圆形节点表示社区,图中下半部分的方形节点表示网络中的点。我们可以通过已有的话题网络,反推对应的社区关系,从而得到话题对应的聚簇结果。一个社区就是一个话题簇。如图4所示,方形节点被聚类形成三个社区a、b、c,每个方形节点具有其属于每个社区的概率pa、pb、pc。基于上述的内容,通过bigclam算法得到话题簇,对于bigclam算法而言,其输入为具有连接关系的话题对,输出为话题所属簇,即有多个话题形成的话题簇列表。例如,最终通过该算法在10秒内完成对上述的6万话题及30万边的聚类,最终得到2500个话题簇。

示例性的,通过上述的算法对话题网络中的话题聚类后,类别中可能会存在不属于该话题簇类别的异常话题,需要去除异常值。可选的,上述的从每个话题簇中去除异常话题具体可以包括以下内容:计算每个话题簇中各话题的分值;以及将分值小于或等于阈值的话题从话题簇中剔除。对于计算每个话题簇中各话题的分值的内容如下:

给定话题簇类别c,对于其中的任意话题ti,其分值计算如下:

其中,上述的公式二中,上面的分子中的ti为话题簇类别c中的任意一个话题t,下面的分母中的ti和tj为话题簇类别c中的任意两个话题,n为话题簇类别c中话题的个数。

可选的,上述在剔除异常话题之前,还可以先按照分数从小到大进行排序,然后根据排序的结果从该类别中删除分值小于阈值的话题即可剔除异常话题。

203、根据用户行为数据确定用户与话题网络中的话题之间的连接权重。

示例性的,上述的用户行为数据可以包括但不限于:用户关注的话题和问题、用户点赞的回答和文章、用户收藏的回答和文章、用户创造的回答和文章。用户与话题网络中的话题之间的连接权重为某用户所产生的所有行为与某话题间的权重之和。

目前用户与话题之间的交互主要是通过上述的用户行为产生的,所有的话题、问题、回答、文章都可以对应到话题维度,因此我们可以将用户与知乎站内各类内容的互动转换为用户与话题的互动,进而计算用户与话题互动的频次来确定连接的权重。特别的,不同行为会分配一个不同的行为权重,例如用户的创作行为,可以认为用户对该话题有很强的兴趣才会主动进行创作。因此创作行为的权重会高于其他行为。例如,若设定创作行为的权重为6,收藏行为的权重为5,点赞行为的权重为4,关注行为的权重为3。某个用户a创作了2篇机器学习相关的文章,1篇深度学习相关的文章;收藏了2篇深度学习相关和1篇宠物相关的内容;点赞了1篇深度学习相关和2篇机器学习相关的文章;关注了3篇宠物相关和1篇机器学习相关的内容。则该用户a与机器学习话题间的连接权重为:6*2+4*2+3*1=23,用户a与深度学习话题间的连接权重为:6*1+5*2+4*1=20,用户a与宠物话题间的连接权重为:5*1+3*3=14。

204、根据用户与话题网络中的话题之间的连接权重构建用户与话题簇间的关系图。

示例性的,上述的话题之间有连接,通过聚类算法聚成话题簇。用户与话题之间有连接,因此可以通过加权的方式计算用户与话题簇之间的连接关系,这样就可以得到用户与话题簇间的关系图,具体参照图5所示内容。其中,用户与话题簇之间的连接关系是指用户与话题簇的得分。

205、根据用户与话题簇间的关系图确定用户的人群属性。

示例性的,上述的步骤205可以通过基于规则的方式来实现,具体包括以下内容:根据用户与话题簇间的关系图确定用户话题簇列表;以及根据目标话题簇标签与用户话题簇列表中的话题簇标签的交集个数确定用户的人群属性,目标话题簇标签是根据目标人群在话题簇标签列表中查找的。可选的,这里的目标人群可以根据用户需要进行设定,例如,用户可以设定为爱游戏人群、程序员人群等。话题簇标签列表是在聚类形成话题簇时,通过聚类算法输出话题所属的话题簇,从而得到话题簇标签列表。

示例性的,上述的根据用户与话题簇间的关系图确定用户话题簇列表,具体包括以下内容:根据用户与话题簇间的关系图计算用户与所属话题簇的得分;以及对用户与所属话题簇的得分排序,得到用户话题簇列表。

如图5所示,根据用户与话题簇间的关系图可以计算出用户与所属话题簇的得分,然后该得分排序得到用户话题簇列表,具体可以参照图5右侧部分内容。该用户话题簇列表包括用户、所属话题簇以及得分间的对应关系,例如:用户1分别与类别1的得分1和类别2的得分2;用户2分别与类别1的得分1和类别2的得分2。

示例性的,用户与所属话题簇的得分可以采用如下公式计算:

其中,上述的公式三中的ci为话题簇c的话题i,n为话题簇c中的话题的个数。考虑到某些话题簇包含的话题更多,而某些话题簇包含的话题较少。包含话题较多的话题簇与用户进行交互的概率相对较大,用户与话题簇得分会增大。但可能存在用户对某类类话题较少的话题簇具有更高的兴趣,比如用户与该话题簇内所有话题均有交互。自然该话题簇应该得分较高。因此在计算用户与所属话题簇的得分时需要剔除话题簇规模(即话题簇中话题个数的多少)的影响。

下面给出一个具体的例子来对上述的步骤105中根据目标话题簇标签与用户话题簇列表中的话题簇标签的交集个数确定用户的人群属性的内容进行说明。

例如,某个站内有10个用户,6个话题簇,该话题簇标签列表为:label1:游戏,label2:游戏,label3:程序员,label4:程序员,label5:程序员,label6:宠物;用户话题簇列表为:用户1:[label1,label2,label3];用户2:[label3,label4,label5];用户3:[label1,label6];用户4:[label1,label3,label4,label5];用户5[label4,label5,label6];...;用户10:[label3]。目前需求是圈定爱好游戏的人群,具体可以通过以下内容来实现:

步骤1:查看话题簇标签列表,找到游戏相关的label,发现游戏相关的有[label1,label2]。

步骤2:根据找到的label去查看用户话题簇列表,确定用户话题簇列表中的话题簇标签与游戏相关label的交集,交集数>=1的用户有用户1,用户3,用户4。因此对用户1,用户3,用户4打上“爱好游戏”人群的标签,从而确定出用户的人群属性。

示例性的,上述的步骤105还可以通过基于算法的内容来实现,具体包括以下内容:将用户与话题簇间的关系图输入至谱聚类算法中,输出用户和话题簇的聚类结果;以及根据用户和话题簇的聚类结果确定用户的人群属性。

在进行使用算法来确定用户的人群属性时,需要考虑到以下几点:1、知乎站内全量(所有)用户数量巨大,聚类算法需要有较好的时间效率以及空间效率;2、为了对聚类结果打上人群标签,需要聚类算法能够同时对用户及话题簇进行聚类。基于上述两点的考虑,最终选用谱聚类算法,谱聚类是从图论中演化出来的算法,在聚类中得到了广泛的应用。主要思想是把所有的数据看作空间的点,这些点之间可以用边进行连接。通过点之间的距离表示边的权重。对所有数据组成的图进行切图,使得切图后不同的子图间边权重的和尽可能低,而子图内的边权重和尽可能的高,从而达到聚类的目的。将谱聚类应用于本案中的关系图需要对算法进行一定的改造(由于数据量较大,因此需要对算法进行改造)。在实际的实现过程中,由于全量数据的用户与话题簇间的关系图规模达到了千万级别,需要应用spark等大数据工具进行算法开发。因此在开发的过程中,实现了基于spark的二分图聚类算法,改进了spark自带的稀疏矩阵乘法,最终在全量的用户与话题簇间的关系图数据上进行谱聚类,能够在一小时完成,速度较快。

经过上述的改造的基于spark的聚类算法更加高效,能够在很短的时间内对全量数据进行聚类。相较于传统的“训练+预测”的有监督方案,节省了近80%的时间开销。通过上述的谱聚类算法直接可以得到多个用户的人群属性,使得同时能够为多个用户打标签且为一个用户打多个标签,在提升准确率的同时,也能够提高运算的速率。

综上,本公开中基于规则与基于算法的不同人群属性的划分方式,可以同时提供快速挖掘单一人群的解决办法,也可以处理需要批量对用户进行人群划分的需求。不再需要反复训练模型来预测数据,能够快速的响应各类需求。

下面将基于图2对应的确定用户的人群属性的方法的实施例中的相关描述对本公开实施例提供的一种确定用户的人群属性的装置进行介绍。以下实施例中与上述实施例相关的技术术语、概念等的说明可以参照上述的实施例。

图6所示为本公开实施例的一种确定用户的人群属性的装置的结构示意图,如图6所示,该装置包括:话题网络建立模块61、话题簇形成模块62、连接权重确定模块63、关系图构建模块64以及人群属性确定模块65,其中:话题网络建立模块61,被配置为根据话题数据建立话题网络;话题簇形成模块62,被配置为将话题网络中的话题聚类形成话题簇;连接权重确定模块63,被配置为根据用户行为数据确定用户与话题网络中的话题之间的连接权重;关系图构建模块64,还被配置为根据用户与话题网络中的话题之间的连接权重构建用户与话题簇间的关系图;以及关系图构建模块确定模块65,被配置为根据用户与话题簇间的关系图确定用户的人群属性。

示例性的,话题网络建立模块61具体被配置为:计算任意两个话题之间的连接权重;以及根据任意两个话题之间的连接权重构建话题网络。

示例性的,计算话题a和话题b之间的连接权重可以如下公式:

其中,话题a—>话题b的权重定义为所有包含话题a的问题中,同时包含话题a和话题b所占的比例。根据此定义,a—>b与b—>a具有不同的连接权重。根据上述公式对全站话题共现关系进行挖掘,并计算连接权重。过滤掉权重过低的边后,将有向图转化为无向图即为最终的话题网络。例如,最终的话题网络可以为包含近6万话题以及30万条边。

示例性的,话题簇形成模块62具体被配置为:将话题网络中具有连接关系的话题对输入至聚类算法中,输出话题所属的话题簇,并且从每个话题簇中去除异常话题。

示例性的,通过上述的算法对话题网络中的话题聚类后,类别中难免会存在不属于该类别的异常话题,需要去除异常值。可选的,上述的话题簇形成模块62在从每个话题簇中去除异常话题具体包括以下内容:计算每个话题簇中各话题的分值;以及将分值小于或等于阈值的话题从话题簇中剔除。对于计算每个话题簇中各话题的分值的内容如下:

给定话题簇类别c,对于其中的任意话题ti,其分值计算如下:

其中,上述的公式五中,上面的分子中的ti为话题簇类别c中的任意一个话题t,下面的分母中的ti和tj为话题簇类别c中的任意两个话题,n为话题簇类别c中话题的个数。

可选的,上述在剔除异常话题之前,还可以先按照分数从小到大进行排序,然后根据排序的结果从该类别中删除分值小于阈值的话题即可剔除异常话题。

可选的,该装置还包括:话题分值计算模块66,被配置为计算每个话题簇中各话题的分值;以及话题簇形成模块62还被配置为将分值小于或等于阈值的话题从话题簇中剔除。

示例性的,人群属性确定模块65具体被配置为:根据用户与话题簇间的关系图确定用户话题簇列表;以及根据目标话题簇标签与用户话题簇列表中的话题簇标签的交集个数确定用户的人群属性,目标话题簇标签是根据目标人群在话题簇标签列表中查找的。

示例性的,人群属性确定模块65具体还被配置为:根据用户与话题簇间的关系图计算用户与所属话题簇的得分;以及对用户与所属话题簇的得分排序,得到用户话题簇列表。

如图5所示,根据用户与话题簇间的关系图可以计算出用户与所属话题簇的得分,然后该得分排序得到用户话题簇列表,具体可以参照图5右侧部分内容。该用户话题簇列表包括用户、所属话题簇以及得分间的对应关系,例如:用户1分别与类别1的得分1和类别2的得分2;用户2分别与类别1的得分1和类别2的得分2。

示例性的,用户与所属话题簇的得分可以采用如下公式计算:

其中,上述的公式六中的ci为话题簇c的话题i,n为话题簇c中的话题的个数。考虑到某些话题簇包含的话题更多,而某些话题簇包含的话题较少。包含话题较多的话题簇与用户进行交互的概率相对较大,用户与话题簇得分会增大。但可能存在用户对某类类话题较少的话题簇具有更高的兴趣,比如用户与该话题簇内所有话题均有交互。自然该话题簇应该得分较高。因此在计算用户与所属话题簇的得分时需要剔除话题簇规模(即话题簇中话题个数的多少)的影响。

示例性的,人群属性确定模块65具体还被配置为:将用户与话题簇间的关系图输入至谱聚类算法中,输出用户和话题簇的聚类结果;以及根据用户和话题簇的聚类结果确定用户的人群属性。

综上,上述的人群属性确定模块65具体被配置为基于规则与基于算法的不同人群属性的划分方式,可以同时提供快速挖掘单一人群的解决办法,也可以处理需要批量对用户进行人群划分的需求。不再需要反复训练模型来预测数据,能够快速的响应各类需求。

本公开实施例提供的确定用户的人群属性的装置,首先,根据话题数据建立话题网络;将话题网络中的话题聚类形成话题簇;然后,根据用户行为数据确定用户与话题网络中的话题之间的连接权重;根据用户与话题网络中的话题之间的连接权重构建用户与话题簇间的关系图;以及根据用户与话题簇间的关系图确定用户的人群属性。由于本方案中是基于无监督的算法进行的,因此不需要有标注的数据,只要用户在站内有行为,均能够实现人群的划分,从而提高划分用户的人群属性结果的准确性。

如图7所示,为本公开实施例提供的一种电子设备的结构示意图,包括:处理器(cpu)701、存储器(rom)702以及存储在存储器上并可在处理器上运行的计算机程序,所述cpu701执行所述程序时实现如图2所示的方法。cpu701可以根据存储在只读存储器rom702中的程序或者从存储部分708加载到随机访问存储器(ram)703中的程序而执行各种适当的动作和处理。在ram703中,还存储有电子设备700操作所需的各种程序和数据。cpu701、rom702以及ram703通过总线704彼此相连。输入/输出(i/o)接口705也连接至总线704。

以下部件连接至i/o接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至i/o接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。

本公开实施例提供一种计算机存储介质,包括计算机指令,当所述计算机指令在计算机上运行时,使得所述计算机执行如上所述的方法流程。示例性的,计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质,(例如,软盘,硬盘、磁带)、光介质(例如,dvd)或者半导体介质(例如固态硬盘solidstatedisk(ssd))等。

通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1