和自然语言处理等 技术,结合历史媒体信息和用户行为数据库信息,通过网络影响力传播模型,对于待发布的 媒体信息(包括其视频、图片、语音及文字),进行比较和分析,能够在媒体信息发布之前, 准确预测其潜在影响力范围和相应的影响人群。其包括以下步骤:
[0055] 第一步,媒体信息和用户信息的特征提取。根据媒体信息库和用户行为数据库,采 用概率主题模型和隐马尔科夫模型,提取出媒体信息的特征和用户的喜好特征信息。其主 要为数据获取和特征提取环节,具体包括以下步骤:
[0056] (1)根据媒体信息库C,对于媒体的音频信息使用隐马尔科夫模型识别音频信息 的文字内容,并扩充入媒体的文字描述信息中,以扩充媒体的描述信息。隐马尔可夫模型 (Hidden Markov Model,HMM)作为一种统计分析模型,创立于20世纪70年代。隐马尔可 夫模型是马尔可夫链的一种,它的状态不能直接观察到,但能通过观测向量序列观察到,每 个观测向量都是通过某些概率密度分布表现为各种状态,每一个观测向量是由一个具有相 应概率密度分布的状态序列产生。所以,隐马尔可夫模型是一个双重随机过程一一具有一 定状态数的隐马尔可夫链和显示随机函数集。自20世纪80年代以来,HMM被应用于语音 识别,取得重大成功。到了 90年代,HMM还被引入计算机文字识别和移动通信核心技术"多 用户的检测"。HMM在文字识别、生物信息科学、故障诊断等领域也开始得到应用。
[0057] (2)根据媒体信息库C,对媒体的文字描述信息使用概率主题模型进行主题分 类。概率主题模型是一种非监督的生成模型,可以用于从文本中提取潜在的主题。Latent dirichlet allocation (LDA)是一种常用的概率主题模型,由David M. Blei等人于2002年 提出。LDA模型是基于"词袋"假设的,在该假设中,每个文档可以表示成一个各个词汇出现 次数的向量。LDA模型对文档定义了一个完整的生成过程。在该过程中,对于一个文档,首 先从该文档的主题分布中选取一个主题,然后再从对应主题的词汇分布中,选取一个单词。 在LDA模型中,文档可以看成是由不同比例的主题混合而成,而主题则是对词汇表中的词 汇的概率分布。利用LDA模型,我们可以对文本集合进行分析,从而找出文本集合隐含的主 题,以及文本集合中各个文本对于各个主题的比例。概率主题模型是一种非监督模型,不需 对数据进行标注,因此应用十分广泛。近年来,随着社交网络的兴起,概率主题模型也常常 被用来分析社交网络中的文本,发现社交文本中的主题。
[0058] 利用概率主题模型将所有视频信息进行主题分类后,能够定义并提取主题数为η 个,即为[山,d2,…,dn]。同时,每个视频i都可以描述η个主题,同理,定义并提取视频i的 主题描述O 1,即O1= [0 :,02,…,0n],其中,〇"表示视频i在第η个主题上的分布概率。
[0059] (3)通过网页爬虫技术来抓取网站上的用户行为数据,利用概率主题模型获取用 户u对这η个主题的喜好程度,记为P u= [u U2,…,un]。
[0060] 在此,视频i的主题描述O1和用户u对这η个主题的喜好程度P u,均用于在划分 出潜在影响力人群中作为基础数据而使用。
[0061] 第二步,基于网络传播影响力进行建模。根据用户之间的网络,建立一个影响力传 播模型,模拟用户之间的信息传播效应。其具体包括以下步骤:
[0062] (1)根据社交网络信息,将用户当成网络的节点,将用户之间的链接关系当成网络 的边,则边(i,j)表示用户i关注了用户j。
[0063] (2)使用带权重的有向图G = <V,E,T>来表示社交网络,其中:
[0064] V为节点集合,每个节点代表一个用户个体;
[0065] E为所有有向边集合,代表一种朋友或链接关系;
[0066] T为用户之间影响力传播概率矩阵,Tlj表示节点i到节点j的影响力传播概率。
[0067] (3)计算节点之间的影响力传播概率,节点之间的影响力传播概率通常不能直接 得到,虽然可以通过很多方法来计算它,比如随机赋予一个0到1之间的实数值,让T u等 于节点j的出度分之一,但是这些赋值方法在实际的应用中会有很大的偏差,并不能真实 的反应节点之间的影响力传播概率。在此采用基于用户兴趣主题的影响力传播概率计算方 法。其具体步骤如下:
[0068] A、根据用户对媒体信息的行为记录,通过概率主题模型获得用户u所看媒体信息 库C中各个主题[山,d2,…,dj的喜好程度,
[0069] 记为Du。= [d ul, du2,…,dun],其中dui E [0, 1]表示用户u对主题i的喜好程度。
[0070] B、采用相似度计算方法来计算两个用户(用户i和用户j)喜好特性的相似度,可 以使用余弦相似方法或Jaccard相似性计算方法,在此使用余弦相似方法来计算,其计算 公式如^ ·
[0071] ' ' Vif.-·: ' ' ^:if. ·:
[0072] 其中,D1。为用户i对各个主题的喜好程度,D μ= [d u, dl2,…,dj ;
[0073] Dj。为用户j对各个主题的喜好程度,D j。= [d n,dj2,…,djn]。
[0074] C、计算用户之间的影响力传播概率T1,,其计算公式如下:
[0075]
[0076] a , w川,」H"、度邻居节点。
[0077] 从而,获得合理的用户两两之间的影响力传播概率,基于用户之间的影响力传播 概率,快速计算网络影响力的传播范围。
[0078] 第三步,划分出潜在影响力人群。根据已提取的媒体信息特征和用户喜好特征,估 算待发布媒体信息会影响到的用户,以这些用户为初始用户,划分出相应的潜在影响力人 群,针对潜在影响力人群进行在线广告推送。即根据待发布的媒体信息特征与用户的喜好 特征,估计出每个用户"喜欢"这个媒体信息的程度。然后,选取最"最喜欢"这个媒体信息 的K个用户作为该待发布媒体信息的潜在影响用户。其具体步骤如下:
[0079] (1)抽取待发布媒体信息m在各个主题的相关度Oni,即Oni= [Ol^Oni2, ···,0""],相关 度Oni即视频m在各个主题上的分布概率,来源于第一步中视频i的主题描述0 1<3
[0080] (2)同理,通过第一步中用户u对这η个主题的喜好程度Pu获取用户i对各个主 题的喜好程度P 1= [i i,i2,…,ij。采用余弦相似度方法来计算该待发布媒体信息m对每 个用户i的擻亦影·α?士 ·苴彳+曾/A忒如下:
[0081]
[0082] (3)根据所有用户的inf (i)值,选取K个最大值所对应的用户集合S,此用户集合 S作为潜在影响力人群进行在线广告推送。
[0083] 至此,完成了针对用户行为数据和潜在用户影响力分析的在线广告推送,其考虑 用户的喜好程度也考虑了媒体信息在用户之间的传播效应(潜在用户的影响力对其好友 进行扩散的可能性)。相对于其他传统方法而言,本技术更能够真实的模拟媒体信息影响力 的传播过程,能够更加准确的分析和预测媒体信息的影响力传 播范围。并且采用了基于用 户兴趣主题的影响力传播概率计算方法能够真实的计算用户与用于之间的影响力传播概 率,比随机的传播概率值等方法能够更好的模拟影响力传播过程。
[0084] 第四步,推送效果评估。利用通过多重影响力计算方法,计算待发布信息通过用户 集合S对所用网络用户的影响力。以这K个用户为种子节点集合,按照用户间的影响力传 播效应和多重影响力计算方法,计算出该待发布媒体信息通过这K个潜在影响用户在整个 网络中所达到的影响力。其具体步骤如下:
[0085]