关系模型的确定方法及装置的制造方法
【技术领域】
[0001] 本发明涉及统计技术领域,特别涉及一种关系模型的确定方法及装置。
【背景技术】
[0002] 随着统计技术的不断发展,对对象间的关系信息进行建模成为了一个热点问题。 其中,对象间的关系信息多种多样,例如被调查人群中人与人之间的联系信息,因特网上 页面与页面之间的链接关系信息等等。各种各样的关系信息描述了一类对象内的相互关 系或是多类对象间的关系,通过对关系信息进行分析,可以获得很多有价值的信息。也正 因为如此,基于关系信息的应用种类越来越多,将不同样本数据根据关系信息进行关系聚 类即是其中的一种。而在关系聚类的过程中,通常会用到关系模型。例如,如果某电影公司 想要获取用户对当前上映的一系列电影的评价,则收集一批用户对上映的一系列电影的评 分,通过关系模型将用户和电影分到不同的类别内,实现对用户、电影和电影评分同时进行 聚类,从而通过聚类结果进行电影评价分析。然而在实际应用中,同一样本数据可能同时拥 有多个特征,给关系聚类带来困难。因此,如何确定关系模型成为了目前研究关系聚类的关 键。
[0003] 在实际应用中,关系模型由隐变量的变分分布和模型参数确定。隐变量是指不 能被直接观测到,而需要通过样本数据推导得出的变量,隐变量的变分分布用于描述样本 数据被聚类到对应类别的概率;模型参数用于描述每个类别下子模型的参数。目前,文章 Findingmixed-membershipsinsocialnetworks,Koutsourelakisetal.,AAAI, 2008中 给出了一种通过采样确定隐变量的变分分布和模型参数的方式。该方式下,从样本数据中 有放回地抽取预设数目次至少一个样本数据,根据初始化的隐变量的变分分布及模型参数 确定抽取的每个样本数据所拥有的特征,获取根据每个样本数据所拥有的特征更新的隐变 量的变分分布及模型参数,根据更新的隐变量的变分分布及模型参数确定关系模型。
[0004] 在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
[0005] 由于从样本数据中有放回地抽取预设数目次至少一个样本数据,并根据初始化的 隐变量的变分分布及模型参数确定抽取的每个样本数据所拥有的特征,即需要重复抽取样 本数据及确定每个样本数据所拥有的特征,致使确定关系模型的效率较低。
【发明内容】
[0006] 为了解决现有技术的问题,本发明实施例提供了一种关系模型的确定方法及装 置。所述技术方案如下:
[0007] 第一方面,提供了一种关系模型的确定方法,所述方法包括:
[0008] 获取根据样本数据、至少两个隐变量及模型参数确定的对数似然、正则项及各个 隐变量的变分分布的对数,每个隐变量用于说明样本数据拥有的特征;
[0009] 根据所述对数似然、正则项及各个隐变量的变分分布的对数确定目标函数;
[0010] 确定使所述目标函数收敛的隐变量的变分分布及模型参数,根据使所述目标函数 收敛的隐变量的变分分布及模型参数确定关系模型。
[0011] 结合第一方面,在第一方面的第一种可能的实现方式中,根据所述样本数据、至少 两个隐变量及模型参数确定的对数似然为:
[0013] 其中,所述logp0表示对数似然,所述P表示联合概率密度函数,所述为样本 数据,所述队为行样本个数,所述N。为列样本个数,所述ZK为行隐变量,所述Ze为列隐变 量,所述Q为模型参数的集合,所述模型参数包括a、#、所述a分别为行、列混合 比率,所述f表示模型参数。
[0014] 结合第一方面,在第一方面的第二种可能的实现方式中,根据样本数据、至少两个 隐变量及模型参数确定的正则项为:
[0016] 其中,所述队为行样本个数,所述N。为列样本个数;所述&是行特征的个数,所述 K。是列特征的个数;所述外)为隐变量的变分分布的近似值,所述Z|为第i个行样本数据 拥有第k个行特征的行隐变量,所述Zf为第j个列样本数据拥有第1个列特征的列隐变量; 所述a,0分别为行、列混合比率,所述表示模型参数,所述Da为所述a的维度,所述De 为所述0的维度,所述为所述f的维度,L(a,b)=logb+(a_b)/b,所述a为
> 所述b为
[0017] 结合第一方面,在第一方面的第三种可能的实现方式中,根据所述样本数据、至少 两个隐变量及模型参数确定的隐变量的变分分布的对数为:
[0018]logq(ZK)和logq(Zc);
[0019]其中,所述q(ZK)为行隐变量ZK的变分分布,所述q(Ze)为列隐变量ZC的变分分 布。
[0020] 结合第一方面及第一方面的第一种可能的实现方式至第三种可能的实现方式中 的任一种可能的实现方式,在第一方面的第四种可能的实现方式中,所述根据所述对数似 然、正则项及各个隐变量的变分分布的对数确定目标函数,包括:
[0021] 根据所述对数似然的期望值、所述正则项的期望值及各个隐变量的变分分布的对 数的期望值确定目标函数。
[0022] 结合第一方面的第四种可能的实现方式,在第一方面的第五种可能的实现方式 中,根据所述对数似然的期望值、所述正则项的期望值及各个隐变量的变分分布的对数的 期望值确定的目标函数为:
[0023]
[0024] 结合第一方面的第五种可能的实现方式,在第一方面的第六种可能的实现方式 中,所述确定使所述目标函数收敛的隐变量的变分分布及模型参数,包括:
[0025] 获取更新的隐变量的变分分布及更新的模型参数;
[0026] 根据更新的隐变量的变分分布及更新的模型参数确定所述目标函数是否收敛,如 果所述目标函数未收敛,则重新获取更新的隐变量的变分分布及更新的模型参数,直至得 到使所述目标函数收敛的隐变量的变分分布及模型参数。
[0027] 结合第一方面的第六种可能的实现方式,在第一方面的第七种可能的实现方式 中,所述获取更新的隐变量的变分分布及更新的模型参数,包括:
[0028] 根据从样本数据中抽取的子样本数据获取更新的隐变量的变分分布,并根据更新 的隐变量的变分分布获取更新的模型参数。
[0029] 结合第一方面的第七种可能的实现方式,在第一方面的第八种可能的实现方式 中,所述根据更新的隐变量的变分分布获取更新的模型参数之前,还包括:
[0030] 确定所述更新的隐变量的变分分布是否收敛,如果所述更新的隐变量的变分分布 未收敛,则重新根据从样本数据中抽取的子样本数据获取更新的隐变量的变分分布,直至 得到收敛的更新的隐变量的变分分布;
[0031] 所述根据更新的隐变量的变分分布获取更新的模型参数,包括:
[0032] 根据所述收敛的更新的隐变量的变分分布获取更新的模型参数。
[0033] 结合第一方面的第六种可能的实现方式,在第一方面的第九种可能的实现方式 中,所述获取更新的隐变量的变分分布及更新的模型参数,包括:
[0034] 根据从样本数据中抽取的子样本数据获取更新的模型参数,并根据更新的模型参 数获取更新的隐变量的变分分布。
[0035] 结合第一方面的第九种可能的实现方式,在第一方面的第十种可能的实现方式 中,所述根据更新的模型参数获取更新的隐变量的变分分布之前,还包括:
[0036] 确定所述更新的模型参数是否收敛,如果所述更新的模型参数未收敛,则重新根 据从样本数据中抽取的子样本数据获取更新的模型参数,直至得到收敛的更新的模型参 数;
[0037] 所述根据更新的模型参数获取更新的隐变量的变分分布,包括:
[0038] 根据所述收敛的更新的模型参数获取更新的隐变量的变分分布。
[0039] 结合第一方面的第六种可能的实现方式至第八种可能的实现方式中的任一种实 现方式,在第一方面的第十一种可能的实现方式中,所述根据从样本数据中抽取的子样本 数据获取更新的隐变量的变分分布,包括:
[0040] 根据从样本数据中抽取的子样本数据按照如下公式迭代更新行隐变量的变分分 布f⑷ ?
[0041]
,直至t3等于时,
[0042] 根据从样本数据中抽取的子样本数据按照如下公式迭代更新列隐变量的变分分 布#;;厂:
[0043]
,直至t4等于T2时,
[0044] 交替更新
I:至达到预设终止条件时,
为更新的行隐变量的变分分布,所述为更新的 列隐变量的变分分布;
[0045] 所述根据更新的隐变量的变分分布获取更新的模型参数,包括:
[0046] 根据更新的隐变量的变分分布按照如下公式获取模型参数《@和
[0048] 根据更新的隐变量的变分分布以及从样本数据中抽取的子样本数据按照如下公 式迭代更新模型参数:
[0049]
,直至t5等于T3时,nfkuU1,所述 和M.§>为更新的模型参数;
[0050]其中,
[0053] 所述h代表当前获取更新的隐变量的变分分布及更新的模型参数,所述t:t2代 表当前交替更新行隐变量的变分分布及列隐变量的变分分布,所述t:t2t3代表当前迭代更 新行隐变量的变分分布,所述t:t2t4代表当前迭代更新列隐变量的变分分布,所述t:t5代 表当前迭代更新模型参数,所述代表上一次获取更新的隐变量的变分分布及更新的模 型参数或初始化隐变量的变分分布及模型参数,所述tA-1代表上一次交替更新行隐变量 的变分分布及列隐变量的变分分布或初始化行隐变量的变分分布及列隐变量的变分分布, 所述t:t2t3-l代表上一次迭代更新行隐变量的变分分布或初始化行隐变量的变分分布,所 述t:t2t4-l代表上一次迭代更新列隐变量的变分分布或初始化列隐变量的变分分布,所述 代表上一次迭代更新模型参数或初始化模型参数。
[0054] 结合第一方面的第六种可能的实现方式、第九种可能的实现方式或第十种可能的 实现方式,在第一方面的第十二种可能的实现方式中,所述根据从样本数据中抽取的子样 本数据获取更新的模型参数,包括:
[0055] 根据从样本数据中抽取的子样本数据按照如下公式获取模型参数'和:
[0057] 根据从样本数据中抽取的子样本数据按照如下公式迭代更新模型参数
,直至t5等于T3'时,
为更新的模型参数;
[0058] 所述根据更新的模型参数获取更新的隐变量的变分分布,包括:
[0059] 根据更新的模型参数以及从样本数据中抽取的子样本数据按照如下公式迭代更 新行隐变量的变分分布f:
[0060]
,直至t3等于V时,
[0061] 根据更新的模型参数以及从样本数据中抽取的子样本数据按照如下公式迭代更 新列隐变量的变分分布f1:
[0062]
,直至t4等于T2'时,
[0063] 交替更新
,直至达到预设终止条件时,
?,所述¥柯尸,为更新的行隐变量的变分分布,所述?,产为更新的 列隐变量的变分分布;
[0064] 其中,
[0067] 所述t/代表当前获取更新的隐变量的变分分布及更新的模型参数,所述2代 表当前交替更新行隐变量的变分分布及列隐变量的变分分布,所述3代表当前迭代 更新行隐变量的变分分布,所述4代表当前迭代更新列隐变量的变分分布,所述5 代表当前迭代更新模型参数,所述t/ -1代表上一次获取更新的隐变量的变分分布及更新 的模型参数或初始化隐变量的变分分布及模型参数,所述tj'2_1代表上一次交替更新行 隐变量的变分分布及列隐变量的变分分布或初始化行隐变量的变分分布及列隐变量的变 分分布,所述3_1代表上一次迭代更新行隐变量的变分分布或初始化行隐变量的变分 分布,所述4_1代表上一次迭代更新列隐变量的变分分布或初始化列隐变量的变分分 布,所述tj' 5_1代表上一次迭代更新模型参数或初始化模型参数。
[0068] 结合第一方面的第六种可能的实现方式至第十二种可能的实现方式中的任一种 可能的实现方式,在第一方面的第十三种可能的实现方式中,所述根据更新的隐变量的变 分分布及更新的模型参数确定所述目标函数是否收敛,包括:
[0069] 比较根据更新的隐变量的变分分布及更新的模型参数确定的目标函数与上一次 得到的目标函数之间的距离是否小于阈值,所述上一次得到的目标函数根据上一次更新的 隐变量的变分分布及更新的模型参数确定;
[0070] 如果根据更新的隐变量的变分分布及更新的模型参数确定的目标函数与上一次 得到的目标函数之间的距离小于阈值,则确定所述目标函数收敛。
[0071] 第二方面,提供了一种关系模型的确定装置,所述装置包括:
[0072] 获取模块,用于获取根据样本数据、至少两个隐变量及模型参数确定的对数似然、 正则项及各个隐变量的变分分布的对数,每个隐变量用于说明样本数据拥有的特征;
[0073] 第一确定模块,用于根据所述对数似然、正则项及各个隐变量的变分分布的对数 确定目标函数;
[0074] 第二确定模块,用于确定使所述目标函数收敛的隐变量的变分分布及模型参数;
[0075] 第三确定模块,用于根据使所述目标函数收敛的隐变量的变分分布及模型参数确 定关系t吴型。
[0076] 结合第二方面,在第二方面的第一种可能的实现方式中,所述获取模块获取到对 数似然为:
[0078] 其中,所述logp()表示对数似然,所述p表示联合概率密度函数,所述为样本 数据,所述队为行样本个数,所述N。为列样本个数,所述ZK为行隐变量,所述Ze为列隐变 量,所述e为模型参数的集合,所述模型参数包括a、爲所述a分别为行、列混合 比率,所述?7表示模型参数。
[0079] 结合第二方面,在第二方面的第二种可能的实现方式中,所述获取模块获取到的 正则项为:
[0080]
[0081] 其中,所述队为行样本个数,所述N。为列样本个数;所述&是行特征的个数,所述 K。是列特征的个数;所述# )为隐变量的变分分布的近似值,所述Zj为第i个行样本数据 拥有第k个行特征的行隐变量,所述为第j个列样本数据拥有第1个列特征的列隐变量; 所述a,0分别为行、列混合比率,所述-表示模型参数,