本发明涉及计算机应用技术与数据挖掘和信息处理领域,尤其涉及一种feed流信息的智能下发方法与系统。
背景技术:
随着自媒体时代的开启,让很多营销商或公司在微博、微信、今日头条等每个平台都会拥有一批账号,然后不断在这些账号上发布信息,持续更新内容。营销商或公司通过其所拥有的账号下发的持续更新并呈现给用户的内容都可以理解为feed流。在feed流的日常运营过程中,信息流的下发是一项很重要的环节,一篇优质的内容应该在哪一平台上的哪个账号上下发能带来更大的传播效果是运营人员非常关心的问题。通常运营人员都是根据日常下发经验来确定内容与账号主基调的匹配来进行账号筛选,缺乏量化指标;人工下发选择账号时,由于经常选择自己熟悉的账号下发,可能无意识中导致长尾账号无法得到有效下发,且过多的发送也会影响熟悉账号的粉丝体验;其次,当管理账号过多或工作交接时,人工方法无法复制,导致有效的下发经验无法快速传递影响工作效率的提高。
此外,由于第三方营销公司缺乏完善的粉丝用户画像数据,无法自动实现根据账号粉丝的偏好进行个性化下发,其用户画像数据主要是通过日积月累的尝试获取,且受限于平台接口管理以及平台规则受限,无法有效的去量化内容传播模型,无法实现自动化无缝的内容下发,工作效率较低。
针对上述不足,目前还没有提出较有效的解决方案。
技术实现要素:
本发明提供一种feed流信息的智能下发方法与系统,通过上述方案解决了现有feed流信息下发自动化程度低、缺乏量化指标和工作效率低的问题,达到了快速实现智能化feed流信息的下发,显著提高下发效率的技术效果。一方面,本发明提供了一种feed流信息的智能下发方法,包括:
从需要向客户端下发的待下发信息中提取至少一个关键词构建内容标签集合;
获取所述客户端所拥有的至少一个账号的账号画像,并根据各账号画像获取对应账号的账号标签集合;
计算所述内容标签集合与每一个账号标签集合的匹配度;
根据所述匹配度从所述客户端的至少一个账号中筛选所述待下发信息的待下发账号,并依据所述待下发账号的实时画像完成所述待下发信息的下发。
在一个实施例中,所述获取所述客户端所拥有的至少一个账号的账号画像并根据各账号画像获取对应账号的账号标签集合,包括:
针对每一个账号,计算该账号的自身标签集合中每一个标签元素与该账号对应的粉丝兴趣标签集合中各标签元素之间的相似性数值;
从该账号的自身标签集合中每一个标签元素对应的各相似性数值中筛选出大于预设相似性阈值的若干相似性数值,将该账号的自身标签集合中各标签元素与对应于该标签元素的若干相似性数值的均值构成的集合作为该账号的账号画像;
将该账号的自身标签集合中各标签元素根据对应于该标签元素的若干相似性数值的均值进行排序,选取预设数目的标签元素作为所述账号的账号标签集合。
在一个实施例中,计算所述内容标签集合与每一个账号标签集合的匹配度之前,还包括:
获取每一个账号标签集合中不重复的标签元素作为账号标签元素;
获取内容标签集合中的标签元素作为内容标签元素;
基于一致性分析,在所述账号标签元素和内容标签元素中存在一致性的标签元素之间建立映射关系,生成标签映射表;其中,所述一致性分析包括标签别名处理和标签同义词扩展。
在一个实施例中,所述内容标签集合与任一账号标签集合的匹配度的计算方法,包括:
对所述账号标签集合和所述内容标签集合中的标签元素根据所述标签映射表进行和运算,得到交集标签元素数目,将所述交集标签元素数目作为匹配度。
在一个实施例中,所述内容标签集合与任一账号标签集合的匹配度的计算方法,包括:
根据所述账号标签集合中每一个标签元素及其权重构建新账号标签集合a{a1,b1,…ai,bi,…an,bn},其中,n表示账号a的标签元素总数,ai表示账号a的第i个标签元素,bi表示标签元素ai的权重;
根据所述内容标签集合中每一个标签元素及其权重构建新内容标签集合d{c1,d1,…cj,dj,…cm,dm},其中,m表示待下发信息d的标签元素总数,cj表示d的第j个标签元素,dj表示标签元素cj的权重;
当ai与cj满足所述标签映射表中的映射关系时,计算匹配度:
另一方面,本发明还提供了一种feed流信息的智能下发系统,包括:
内容标签集合模块,用于从需要向客户端下发的待下发信息中提取至少一个关键词构建内容标签集合;
账号标签集合模块,用于获取所述客户端所拥有的至少一个账号的账号画像,并根据账号画像获取对应账号的账号标签集合;
匹配度计算模块,用于计算所述内容标签集合与每一个账号标签集合的匹配度;
信息下发模块,用于根据所述匹配度从所述客户端的至少一个账号中筛选所述待下发信息的待下发账号,根据所述待下发账号的实时画像完成所述待下发信息的下发。
在一个实施例中,所述账号标签集合模块包括:
相似性计算模块,用于针对每一个账号,计算该账号的自身标签集合中每一个标签元素与所述账号对应的粉丝兴趣标签集合中各标签元素之间的相似性数值;
账号画像模块,用于将从该账号的自身标签集合中每一个标签元素对应的各相似性数值中筛选出大于预设相似性阈值的若干相似性数值,将该账号的自身标签集合中各标签元素与对应于该标签元素的若干相似性数值的均值构成的集合作为该账号的账号画像;
账号标签集合获取模块,用于将该账号的自身标签集合中各标签元素根据对应于该标签元素的若干相似性数值的均值进行排序,选取预设数目的标签元素作为所述账号的账号标签集合。
在一个实施例中,所述系统还包括:
账号标签元素获取模块,用于获取每一个账号标签集合中不重复的标签元素作为账号标签元素;
内容标签获取模块,用于获取内容标签集合中的标签元素作为内容标签元素;
标签映射模块,用于基于一致性分析,在所述账号标签元素和内容标签元素中存在一致性的标签元素之间建立映射关系,生成标签映射表;其中,所述一致性分析包括标签别名处理和标签同义词扩展。
在一个实施例中,所述匹配度计算模块具体包括:
匹配度计算第一子模块,用于对所述账号标签集合和所述内容标签集合中的标签元素根据所述标签映射表进行和运算,获取交集标签元素的数目,并将所述交集标签元素的数目作为匹配度。
在一个实施例中,所述匹配度计算模块具体包括:
匹配度计算第二子模块,用于根据如权利要求5所述的匹配度的计算方法计算匹配度。
本发明通过采用计算待下发信息的内容标签集合与账号标签集合中元素匹配度的方法,从客户端的账号中进行账号筛选,并根据账号的实时画像进行待下发信息的下发。通过上述方案解决了现有feed流信息下发自动化程度低、缺乏量化指标和工作效率低的问题,达到了快速实现智能化feed流信息的下发,显著提高下发效率的技术效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是一种智能feed流信息的智能下发方法流程图;
图2是获取账号标签集合的方法流程图;
图3是一种智能feed流信息的智能下发系统结构图;
图4为账号标签集合模块结构图;
图5为一种feed流信息的智能下发系统结构图;
图6为一种匹配度计算模块结构图;
图7为一种匹配度计算模块结构图。
具体实施方式
下面将根据本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本说明书中,诸如第一和第二这样的形容词仅可以用于将一个元素或动作与另一元素或动作进行区分,而不必要求或暗示任何实际的这种关系或顺序。在环境允许的情况下,参照元素或部件或步骤(等)不应解释为局限于仅元素、部件、或步骤中的一个,而可以是元素、部件、或步骤中的一个或多个等。
在本说明书中,为了便于描述,附图中所示的各个部分的尺寸并不是按照实际的比例关系绘制的。
图1为一种feed流信息的智能下发方法流程图,包括:
s11、从需要向客户端下发的待下发信息中提取至少一个关键词构建内容标签集合;
s12、获取所述客户端所拥有的至少一个账号的账号画像,并根据所述账号画像获取所述账号的账号标签集合;
s13、计算所述内容标签集合与每一个账号标签集合的匹配度;
s14、根据所述匹配度从所述客户端的至少一个账号中筛选所述待下发信息的待下发账号,并依据所述待下发账号的实时画像完成所述待下发信息的下发。
其中,客户端待下发信息是客户端编辑的待下发信息,包括但不限于广告、咨询、评论内容。本发明对上述内容利用自然语言处理技术进行文本处理,从中提取出至少一个关键词构建内容标签集合。具体的,从内容中选取关键词的方法之一为tf-idf方法,该方法用于评估一字词对于一篇文章或一个语料库中其中一份文件的重要程度,字词的重要性随着它在文件中出现的次数成正比增加,但同时随着它的语料库中出现的程度成反比。即,当一个词语在一篇文章中出现的次数越多,同时在所有文档中出现的次数越少,越能代表该文章。
对于一个客户端而言,该客户端在不同的网络平台中可能有若干个账号,例如,如今很多营销公司为保证其营销的规模和力度,往往会在不同的网络平台,如微博、微信、今日头条、qq等每个平台都拥有一批账号。在步骤s12中,通过获取客户端所拥有的至少一个账号的账号画像,并通过上述账号画像获取每一个账号所对应的账号标签集合。
具体地,获取所述客户端所拥有的至少一个账号的账号画像,并根据各账号画像获取对应账号的账号标签集合方法如图2所示:
s21、针对每一个账号,计算该账号标签集合中每一个标签元素与该账号对应的粉丝兴趣标签集合中各标签元素直接的相似性数值;
s22、从该账号的自身标签集合中每一个标签元素对应的各相似性数值中筛选出大于预设相似性阈值的若干相似性数值,将该账号的自身标签集合中各标签元素与对应于该标签元素的若干相似性数值的均值构成的集合作为该账号的账号画像;
s23、将该账号的自身标签集合中各标签元素根据对应于该标签元素的若干相似性数值的均值进行排序,选取预设数目的标签元素作为所述账号的账号标签集合。
即,账号画像主要考虑两部分,一部分是账号自身标签元素,如应用于微博平台的账号能力标签,表明该账号自身生产上述能力标签对应类型的内容;另一部分是该账号的粉丝兴趣标签集合。账号画像获取的具体思路为:对于某个账号自身标签元素,如果在该账号的粉丝兴趣标签集合中,某一粉丝拥有与上述账号自身标签元素相一致的粉丝兴趣标签元素,则会增强该账号自身标签元素的可信度,如果某一粉丝没有该账号自身标签元素,则会减弱该账号自身标签元素的可信度。
基于此,对于客户端所拥有的任一个账号,获取该账号的自身标签集合中每一个标签元素与该账号对应得粉丝兴趣标签集合中各标签元素之间的相似性数值。
具体的,一种相似性数值的计算过程如下所示:
一般情况下,网络平台大数据会利用数据挖掘技术计算用户的兴趣标签,在如下的具体计算方法中,考虑到实际的应用场景和计算的方便起见,计算相似性数值时,我们仅考虑粉丝的长期兴趣标签,该长期兴趣标签是通过统计学的方法对粉丝进行长期兴趣建模获取。
设某一账号account的账号自身标签集合为account{α1,α2,…αi,…αn},其中,n为正整数;该账号account的粉丝长期兴趣标签集合为b{β1,β2,…βj,…βm},其中,m为正整数,则该账号account的粉丝总数目sum<b>=m,假设其中某一粉丝用户fan的长期兴趣标签集合为βj{γ1,γ2,…γk,…γq},其中,q为正整数。
则该账号a1的相似性数值计算方法如下所示:
式中,account_weight(αi)表示该账号account中,账号自身标签元素为αi的标签权重,其中:
fan_weight(βj)表示该账号account1的粉丝βj的长期兴趣标签权重,计算公式为:
式中,intimacy(account,βj)表示该账号account与粉丝βj的亲密度,
δ的取值如下所示:
其中,
其中,δ用来衡量账号account与粉丝βj的亲密度,主要考虑以下两种情况:
粉丝βj的某一长期兴趣标签元素γk与该账号account的某一账号自身标签元素αi一致,即,粉丝βj的某一长期兴趣标签元素γk属于账号account的子集,如:账号自身标签粉丝的长期兴趣标签均含有“美食菜谱”,则将该长期兴趣标签“美食菜谱”设定设置权重值-50;
若粉丝bj的长期兴趣标签中某一兴趣标签元素γk与账号account的能力标签元素均不一致,则进行惩罚,默认惩罚权重值为50。
最后,利用weight(account)的计算公式计算得到该账号每一个标签元素与该账号对应的粉丝兴趣标签集合中各标签元素之间的相似性数值,并根据s22中所描述的步骤得到该账号的账号画像。,然后对账号画像中的标签元素根据相似性数值进行倒序排序,从中提取topn个标签元素构建最终账号account的账号标签集合,其中,n的取值在此不做限定。
需要说明的是,由于不同的账号自身标签元素所属的等级不同,因此,在设定δ的取值时,还可以考虑根据长期兴趣标签元素相一致的账号自身标签元素的等级,对
另外,在粉丝兴趣标签集合的获取过程中,可以将根据长期建模模型计算所得的粉丝长期兴趣标签根据标签元素的重要程度或粉丝的关注力度,分为一级、二级和三级长期兴趣标签元素。在设定δ的取值时,还可以考虑该与账号自身标签元素一致的长期兴趣标签元素的等级。
在获得账号标签集合和内容标签集合之后,需要计算内容标签集合与账号标签集合的匹配度,从而根据所述匹配度从所述客户端的至少一个账号中筛选所述待下发信息的待下发账号,进而,完成所述待下发信息的下发。然而,由于内容标签元素与账号标签元素在构建时的需求场景不同,往往存在二者对同一项内容或事件表述不一致的问题,影响后续根据内容标签元素检索账号标签元素的工作。
本发明提出了标签一致性处理,即,在计算所述内容标签集合与任一个账号标签集合的匹配度之前,还包括:
获取每一个账号标签集合中不重复的标签元素作为账号标签元素;
获取内容标签集合中的标签元素作为内容标签元素;
基于一致性分析,在所述账号标签元素和内容标签元素中存在一致性的标签元素之间建立映射关系,生成标签映射表;其中,所述一致性分析包括标签别名处理和标签同义词扩展。
具体地,对账号标签元素和内容标签元素做标签别名处理和标签同义词扩展的一致性处理,构建标签知识图谱,将一致化处理后的内容标签元素和账号标签元素集结在一起进行映射处理,从而生成标签映射表。根据该标签映射表,即可以很方便的根据某一内容标签元素找到与之对应的某一账号标签元素,从而根据该账号标签集合内所包含的标签元素进行账号筛选。
需要注意的是,上述过程针对的是根据一个账号标签集合与具体的内容标签集合构建的标签映射表,在后续的构建过程中,可以先查阅需要建立映射关系的账号标签集合中的所有标签元素与内容标签集合中的所有标签元素是否完全包含在现有的标签映射表中,然后,只需要从需要建立映射关系的账号标签集合和内容标签集合中选取未包含在标签映射表中的标签元素,并根据一致性分析原则,对这些未包含在标签映射表中的标签元素与标签映射表中的标签元素建立映射关系,即对已有的标签映射表进行更新,获得最新的标签映射表,节省后续建立标签映射表的时间。在步骤s13中,需要计算内容标签集合与每一个账号标签集合的匹配度。
其中,一种匹配度的计算方法为:
对所述账号标签集合和所述内容标签集合中的标签元素根据所述标签映射表进行和运算,获取交集标签元素的数目,将所述交集标签元素的数目作为匹配度。
具体的,上述匹配度的计算过程如下所示:
对待下发信息d进行文本处理,提取出的文本对应的内容标签集合为d′{d1,d2,…di,…dn},其中,n为待下发信息d的内容标签元素总数;
账号account的账号标签集合a′{a1,a2,…aj,…am};
则待下发信息d与账号account的匹配度计算公式为:
式中,cnt(a′∩d′)表示集合a′与集合d′中,满足标签映射关系的标签元素总数,cnt(d′)表示标签集合d′中的标签总数元素,即为n;
另外,一种优化的计算待下发信息d与账号account的匹配度的方法为:
式中,weight(a′∩d′)表示集合a′与集合d′中,满足标签映射关系的标签元素的权重,将集合d′中的每个标签元素按照上式进行权重相加,得到待下发信息d与账号account的匹配度。
然后,对客户端所拥有的所有账号进行上述匹配度计算,并对所得的匹配度进行排序,从中选择前n位匹配度对应的账号作为待下发账号。
另外,一种优化的匹配度计算方法如下所示:
根据所述账号标签集合中每一个标签元素及其权重构建新账号标签集合a{a1,b1,…ai,bi,…an,bn},其中,n表示账号a的标签元素总数,ai表示账号a的第i个标签元素,bi表示标签元素ai的权重;
根据所述内容标签集合中每一个标签元素及其权重构建新内容标签集合d{c1,d1,…cj,dj,…cm,dm},其中,m表示待下发信息d的标签元素总数,cj表示d的第j个标签元素,dj表示标签元素cj的权重;
当ai与cj满足所述标签映射表中的映射关系时,计算匹配度:
其中,一种计算账号标签集合中每一个标签元素的权重的方法为:
使用tf-idf思想,tf-idf是一种统计方法,用来评估一字词对于一个文章集或一个语料库中其中一份文件的重要程度,字词的重要性随它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。即,一个词语在一篇文章中出现的次数越多,同时在所有文档中出现的次数越少,越能代表该文章。在本发明中,我们将账号看成文章,账号标签元素看成是从文章中提取的关键词,将账号标签集合中的标签元素进行权重转换。然后,根据客户端任一账号account的账号标签集合和该账号标签集合中任一账号标签元素权重构建新账号标签集合a{a1,b1,…ai,bi,…an,bn},其中,n表示账号a的账号标签总数,ai表示账号a的第i个账号标签元素,bi表示账号标签元素ai根据if-idf算法计算所得的权重。
同时,根据所述内容标签集合和所述内容标签集合中任一元素对应的权重构建新内容标签集合d{c1,d1,…cj,dj,…cm,dm},其中,m表示待下发信息d的内容标签总数,cj表示d的第j个内容标签元素,dj表示内容标签元素cj根据if-idf算法计算所得的权重,然后,将a和d向量化,得到向量
当ai与cj满足上述标签映射表中的映射关系,且集合d或集合a中共有k个标签元素满足该映射关系,则待下发信息d与账号account的匹配度计算公式如下所示:
进而根据上述公式,计算客户端所有账号与待下发信息d的匹配度,并对所得的匹配度进行排序,从中选择前n位匹配度对应的账号作为待下发账号。
需要说明的是,上述两种匹配度的计算方法可以根据实际需求分别使用,也可以结合使用,即首先根据交集标签元素的数目完成初次的筛选,获得一批账号,然后,根据第二种余弦公式计算匹配度的方法近一步从筛选出的账号中进行账号筛选,从而选择出最适合下发待下发信息的账号。
另外,需要说明的是,在获取账号标签集合后,在匹配度计算之前,还可以人工对账号标签集合进行一级账号标签标注,即生成账号的一级标签,从而确定账号的主调性。比如:某账号只发体育类内容,其他类内容不能发。然后,在执行后续的匹配度计算,显著的节省计算的时间,提高工作效率。
则根据待下发信息d与账号account的匹配度从客户端的账号中筛选出至少一个账号作为待下发账号之后,还需要根据所选择的待下发账号的实时画像数据,然后再进行待下发信息d的下发。
即根据匹配度的数值,选择topn个账号作为待下发信息的待下发账号之后,还需要根据上述选择出的待下发账号的实时画像,从而选择最适合下发的账号和下发的时间,完成待下发信息的下发。
例如,虽然根据匹配度选择出了topn个待下发账号,但很可能存在某些综合类账号由于粉丝数量多,往往有很多内容都适合在该账号下发。账号从粉丝量角度来看有大小之分,如果下发传播效果仅考虑互动量,很容易出现同类型账号的小账号得不到下发机会,从而极易出现长尾问题。另外,考虑到对不同账号的粉丝来说,其活跃时间点是不一致的,因此,为达到最佳的传播效果,还应当考虑在粉丝活跃度最大的时间点进行下发。
具体的,账号的实时画像包括但不限于所属账号层级、当天下发次数、账号粉丝历史活跃度、实时账号粉丝或与人数等。
具体的,为解决上述提出的长尾问题,本发明采取账号分级的方法解决长尾问题。
一种账号层级的判断标准为:通过活跃粉丝数、互动人数、粉丝总数等多种维度参数将账号划分为大、中、小三个层级,大层级的账号往往存在很多标签,粉丝人数也比较多,可能导致很多信息都适合在该类型的账号下发,但并不是关注该账号的所有粉丝对该账号下发的所有内容都感兴趣,为了不影响粉丝的使用体验,可以对每个层级的账号每天下发次数做一定的限制。该发明需定时统计更新账号的下发次数,当检测到该账号在当天的下发次数达到限制值之后,该账号则不能继续下发内容,只能选择筛选出的同类的其他账号进行下发,从而在一定程度上,解决长尾问题。
另外,为了能够在活跃粉丝人数最多的时候进行信息下发,从而带来更广泛的传播,可以根据过去一段时间账号历史活跃粉丝人数与时间的关系,建立账号粉丝历史活跃度图表,然后根据该图表和当前实时统计的粉丝活跃人数,预测未来半小时的活跃粉丝人数,当未来半小时的活跃粉丝人数大于某一活跃粉丝人数阈值时,触发自动下发功能,从而实现智能下发。
其中,活跃粉丝人数阈值可以是该账号的客户端自己设定的,也可以是根据账号粉丝历史活跃度图表中得到的,如设定活跃粉丝人数阈值为历史活跃粉丝人数5日最高值的均值。
在上述的技术方案中,借助账号画像技术和内容标签技术,量化处理内容和账号的匹配度,同时兼顾考虑账号长尾问题、用户体验干扰问题,从账号池中选择合适的账号作为特定的下发列表,提高了工作效率,且不依赖下发人员经验的积累;另外,待下发信息下发时机的把握,本技术方案借助实时活跃粉丝人数的监控来实现自动触发,不仅将之前人工下发时经验评估过程实现了量化,而且自动化的触发可以减少人工跟踪(比如需要去等待粉丝活跃高峰的到来,有可能因为忘记或者正忙于别的事情而耽误),明显提高工作效率。
图3为一种feed流信息的智能下发系统结构图,包括:
内容标签集合模块31,用于从需要向客户端下发的待下发信息中提取至少一个关键词构建内容标签集合;
账号标签集合模块32,用于获取所述客户端所拥有的至少一个账号的账号画像,并根据账号画像获取对应账号的账号标签集合;
匹配度计算模块33,用于计算所述内容标签集合与每一个账号标签集合的匹配度;
信息下发模块34,用于根据所述匹配度从所述客户端的至少一个账号中筛选所述待下发信息的待下发账号,根据所述待下发账号的实时画像完成所述待下发信息的下发。
具体的,对待下发信息,内容标签集合模块通过对该待下发信息利用自然语言处理技术进行文本处理,从中提取出至少一个关键词,进而构建出内容标签集合。
然后,利用账号标签集合模块获取客户端所有账号的账号标签集合。
具体的,账号标签集合模块如图4所述,包括相似性计算模块41、账号画像模块42和账号标签集合获取模块43:
相似性计算模块41,用于针对每一个账号,计算该账号的自身标签集合中每一个标签元素与所述账号对应的粉丝兴趣标签集合中各标签元素之间的相似性数值;
账号画像模块42,用于将从该账号的自身标签集合中每一个标签元素对应的各相似性数值中筛选出大于预设相似性阈值的若干相似性数值,将该账号的自身标签集合中各标签元素与对应于该标签元素的若干相似性数值的均值构成的集合作为该账号的账号画像;
账号标签集合获取模块43,用于将该账号的自身标签集合中各标签元素根据对应于该标签元素的若干相似性数值的均值进行排序,选取预设数目的标签元素作为所述账号的账号标签集合。即,账号画像主要考虑两部分,一部分是账号自身标签元素,如应用于微博平台的账号能力标签,表明该账号自身生产上述能力标签对应类型的内容;另一部分是该账号的粉丝兴趣标签集合。账号画像获取的具体思路为:对于某个账号自身标签元素,如果在该账号的粉丝兴趣标签集合中,某一粉丝拥有与上述账号自身标签元素相一致的粉丝兴趣标签元素,则会增强该账号自身标签元素的可信度,如果某一粉丝没有该账号自身标签元素,则会减弱该账号自身标签元素的可信度。
具体的,一种优化的feed流信息的智能下发系统结构如图5所述,该系统还包括账号标签元素获取模块51、内容标签元素获取模块52和标签映射模块53:
账号标签元素获取模块51,用于获取每一个账号标签集合中不重复的标签元素作为账号标签元素;
内容标签获取模块52,用于获取内容标签集合中的标签元素作为内容标签元素;
标签映射模块53,用于基于一致性分析,在所述账号标签元素和内容标签元素中存在一致性的标签元素之间建立映射关系,生成标签映射表;其中,所述一致性分析包括标签别名处理和标签同义词扩展。
即,由于内容侧标签元素与账号侧标签元素在构建时的需求场景不同,往往存在二者对同一项内容或事件表述不一致的问题,影响后续根据内容标签元素检索账号标签元素的工作。标签映射模块对内容标签集合中所有元素和账号标签集合中所有元素任一或同时做标签别名处理和标签同义词扩展的一致性处理,构建标签知识图谱,将一致化处理后的内容标签集合和账号标签集合在一起进行映射处理,从而生成标签映射表。根据该标签映射表,即可以很方便的根据某一内容标签元素找到与之对应的某一账号标签元素,从而方便进行后续的账号筛选。
具体的,匹配度计算模块33包括匹配度计算第一子模块61,如图6所示,其中,匹配度计算第一子模块61用于对所述账号标签集合和所述内容标签集合中标签元素根据所述标签映射表进行和运算,获取交集标签元素的数目,并将所述交集标签元素的数目作为匹配度。
具体的计算过程在上述方法中有详细的介绍,在此不进行赘述。
具体的,匹配度计算模块33还包括匹配度计算第二子模块71,如图7所示,匹配度计算第二子模块用于根据权利要求5所述的方法计算匹配度,匹配度的计算方法上方法项中已做详细的介绍,在此不进行赘述。
另外,需要说明的是,匹配度计算模块可以包含匹配度计算第一子模块和匹配度计算第二子模块的其中任一种或两种。即当匹配度计算模块包含上述两个模块时,先利用匹配度计算第一子模块进行初次的账号筛选,再利用匹配度计算第二子模块进一步从筛选出的账号中进行筛选,从而选择出最适合下发待下发信息的账号。
需要说明的是,在匹配度计算之前,还可以包括人工筛选模块,即利用人工方法对账号标签集合进行一级账号标签元素标注,即生成账号的一级标签元素,从而确定账号的主调性。比如:某账号只发体育类内容,其他类内容不能发。然后,在执行后续的匹配度计算,显著的节省计算的时间,提高工作效率。
信息下发模块34,用于根据所述匹配度从所述客户端的至少一个账号中筛选所述待下发信息的待下发账号,并依据所述待下发账号的实时画像完成所述待下发信息的下发。
其中,账号的实时画像包括但不限于所属账号层级、当天下发次数、账号粉丝历史活跃度、实时账号粉丝或与人数等。
具体的,账号从粉丝量角度来看有大小之分,如果下发传播效果仅考虑互动量,很容易出现同类型账号的小账号得不到下发机会,即出现长尾问题,本发明采取账号分级的方法解决上述问题。
一种账号层级的判断标准为:通过活跃粉丝数、互动人数、粉丝总数等多种维度参数将账号划分为大、中、小三个层级,大层级的账号往往存在很多标签,粉丝人数也比较多,可能导致很多信息都适合在该类型的账号下发,但并不是关注该账号的所有粉丝对该账号下发的所有内容都感兴趣,为了不影响粉丝的使用体验,可以对每个层级的账号每天下发次数做一定的限制。该发明需定时统计更新账号的下发次数,当检测到该账号在当天的下发次数达到限制值之后,该账号则不能继续下发内容,只能选择筛选出的同类的其他账号进行下发,从而在一定程度上,解决长尾问题。
另外,为了能够在活跃粉丝人数最多的时候进行信息下发,从而带来更广泛的传播,可以根据过去一段时间账号历史活跃粉丝人数与时间的关系,建立账号粉丝历史活跃度图表,然后根据该图表和当前实时统计的粉丝活跃人数,预测未来半小时的活跃粉丝人数,当未来半小时的活跃粉丝人数大于某一活跃粉丝人数阈值时,触发自动下发功能,从而实现智能下发。
其中,活跃粉丝人数阈值可以是该账号的客户端自己设定的,也可以是根据账号粉丝历史活跃度图表中得到的,如设定活跃粉丝人数阈值为历史活跃粉丝人数5日最高值的均值。
从以上的描述中,可以看出,本发明通过采用计算待下发信息的内容标签集合与账号标签集合中元素匹配度的方法,从客户端账号中进行账号筛选,并根据账号的实时画像进行待下发信息的下发。通过上述方案解决了现有feed流信息的下发自动化程度低、缺乏量化指标和工作效率低的问题,达到了快速实现智能化feed流信息的下发,显著提高下发效率的技术效果。
至此,已详细描述了本发明。为了避免蒙蔽本发明的构思,没有对本领域所公知的一些细节进行描述。本领域技术人员根据上面的描述,完全可以明白如何实施本发明公开的技术方案。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。