关系模型的确定方法及装置的制造方法

文档序号：9217155阅读：787来源：国知局

关系模型的确定方法及装置的制造方法
【技术领域】
[0001] 本发明涉及统计技术领域，特别涉及一种关系模型的确定方法及装置。
【背景技术】
[0002] 随着统计技术的不断发展，对对象间的关系信息进行建模成为了一个热点问题。其中，对象间的关系信息多种多样，例如被调查人群中人与人之间的联系信息，因特网上页面与页面之间的链接关系信息等等。各种各样的关系信息描述了一类对象内的相互关系或是多类对象间的关系，通过对关系信息进行分析，可以获得很多有价值的信息。也正因为如此，基于关系信息的应用种类越来越多，将不同样本数据根据关系信息进行关系聚类即是其中的一种。而在关系聚类的过程中，通常会用到关系模型。例如，如果某电影公司想要获取用户对当前上映的一系列电影的评价，则收集一批用户对上映的一系列电影的评分，通过关系模型将用户和电影分到不同的类别内，实现对用户、电影和电影评分同时进行聚类，从而通过聚类结果进行电影评价分析。然而在实际应用中，同一样本数据可能同时拥有多个特征，给关系聚类带来困难。因此，如何确定关系模型成为了目前研究关系聚类的关键。
[0003] 在实际应用中，关系模型由隐变量的变分分布和模型参数确定。隐变量是指不能被直接观测到，而需要通过样本数据推导得出的变量，隐变量的变分分布用于描述样本数据被聚类到对应类别的概率；模型参数用于描述每个类别下子模型的参数。目前，文章 Findingmixed-membershipsinsocialnetworks,Koutsourelakisetal.，AAAI, 2008中给出了一种通过采样确定隐变量的变分分布和模型参数的方式。该方式下，从样本数据中有放回地抽取预设数目次至少一个样本数据，根据初始化的隐变量的变分分布及模型参数确定抽取的每个样本数据所拥有的特征，获取根据每个样本数据所拥有的特征更新的隐变量的变分分布及模型参数，根据更新的隐变量的变分分布及模型参数确定关系模型。
[0004] 在实现本发明的过程中，发明人发现现有技术至少存在以下问题：
[0005] 由于从样本数据中有放回地抽取预设数目次至少一个样本数据，并根据初始化的隐变量的变分分布及模型参数确定抽取的每个样本数据所拥有的特征，即需要重复抽取样本数据及确定每个样本数据所拥有的特征，致使确定关系模型的效率较低。

【发明内容】

[0006] 为了解决现有技术的问题，本发明实施例提供了一种关系模型的确定方法及装置。所述技术方案如下：
[0007] 第一方面，提供了一种关系模型的确定方法，所述方法包括：
[0008] 获取根据样本数据、至少两个隐变量及模型参数确定的对数似然、正则项及各个隐变量的变分分布的对数，每个隐变量用于说明样本数据拥有的特征；
[0009] 根据所述对数似然、正则项及各个隐变量的变分分布的对数确定目标函数；
[0010] 确定使所述目标函数收敛的隐变量的变分分布及模型参数，根据使所述目标函数收敛的隐变量的变分分布及模型参数确定关系模型。
[0011] 结合第一方面，在第一方面的第一种可能的实现方式中，根据所述样本数据、至少两个隐变量及模型参数确定的对数似然为：
[0013] 其中，所述logp0表示对数似然，所述P表示联合概率密度函数，所述为样本数据，所述队为行样本个数，所述N。为列样本个数，所述ZK为行隐变量，所述Ze为列隐变量，所述Q为模型参数的集合，所述模型参数包括a、#、所述a分别为行、列混合比率，所述f表示模型参数。
[0014] 结合第一方面，在第一方面的第二种可能的实现方式中，根据样本数据、至少两个隐变量及模型参数确定的正则项为：
[0016] 其中,所述队为行样本个数，所述N。为列样本个数；所述&是行特征的个数，所述 K。是列特征的个数；所述外）为隐变量的变分分布的近似值，所述Z|为第i个行样本数据拥有第k个行特征的行隐变量，所述Zf为第j个列样本数据拥有第1个列特征的列隐变量；所述a，0分别为行、列混合比率，所述表示模型参数，所述Da为所述a的维度，所述De 为所述0的维度，所述为所述f的维度，L(a,b)=logb+(a_b)/b，所述a为
> 所述b为
[0017] 结合第一方面，在第一方面的第三种可能的实现方式中，根据所述样本数据、至少两个隐变量及模型参数确定的隐变量的变分分布的对数为：
[0018]logq(ZK)和logq(Zc);
[0019]其中，所述q(ZK)为行隐变量ZK的变分分布，所述q(Ze)为列隐变量ZC的变分分布。
[0020] 结合第一方面及第一方面的第一种可能的实现方式至第三种可能的实现方式中的任一种可能的实现方式，在第一方面的第四种可能的实现方式中，所述根据所述对数似然、正则项及各个隐变量的变分分布的对数确定目标函数，包括：
[0021] 根据所述对数似然的期望值、所述正则项的期望值及各个隐变量的变分分布的对数的期望值确定目标函数。
[0022] 结合第一方面的第四种可能的实现方式，在第一方面的第五种可能的实现方式中，根据所述对数似然的期望值、所述正则项的期望值及各个隐变量的变分分布的对数的期望值确定的目标函数为：
[0023]
[0024] 结合第一方面的第五种可能的实现方式，在第一方面的第六种可能的实现方式中，所述确定使所述目标函数收敛的隐变量的变分分布及模型参数，包括：
[0025] 获取更新的隐变量的变分分布及更新的模型参数；
[0026] 根据更新的隐变量的变分分布及更新的模型参数确定所述目标函数是否收敛，如果所述目标函数未收敛，则重新获取更新的隐变量的变分分布及更新的模型参数，直至得到使所述目标函数收敛的隐变量的变分分布及模型参数。
[0027] 结合第一方面的第六种可能的实现方式，在第一方面的第七种可能的实现方式中，所述获取更新的隐变量的变分分布及更新的模型参数，包括：
[0028] 根据从样本数据中抽取的子样本数据获取更新的隐变量的变分分布，并根据更新的隐变量的变分分布获取更新的模型参数。
[0029] 结合第一方面的第七种可能的实现方式，在第一方面的第八种可能的实现方式中，所述根据更新的隐变量的变分分布获取更新的模型参数之前，还包括：
[0030] 确定所述更新的隐变量的变分分布是否收敛，如果所述更新的隐变量的变分分布未收敛，则重新根据从样本数据中抽取的子样本数据获取更新的隐变量的变分分布，直至得到收敛的更新的隐变量的变分分布；
[0031] 所述根据更新的隐变量的变分分布获取更新的模型参数，包括：
[0032] 根据所述收敛的更新的隐变量的变分分布获取更新的模型参数。
[0033] 结合第一方面的第六种可能的实现方式，在第一方面的第九种可能的实现方式中，所述获取更新的隐变量的变分分布及更新的模型参数，包括：
[0034] 根据从样本数据中抽取的子样本数据获取更新的模型参数，并根据更新的模型参数获取更新的隐变量的变分分布。
[0035] 结合第一方面的第九种可能的实现方式，在第一方面的第十种可能的实现方式中，所述根据更新的模型参数获取更新的隐变量的变分分布之前，还包括：
[0036] 确定所述更新的模型参数是否收敛，如果所述更新的模型参数未收敛，则重新根据从样本数据中抽取的子样本数据获取更新的模型参数，直至得到收敛的更新的模型参数；
[0037] 所述根据更新的模型参数获取更新的隐变量的变分分布，包括：
[0038] 根据所述收敛的更新的模型参数获取更新的隐变量的变分分布。
[0039] 结合第一方面的第六种可能的实现方式至第八种可能的实现方式中的任一种实现方式，在第一方面的第十一种可能的实现方式中，所述根据从样本数据中抽取的子样本数据获取更新的隐变量的变分分布，包括：
[0040] 根据从样本数据中抽取的子样本数据按照如下公式迭代更新行隐变量的变分分布f⑷ ?
[0041]
，直至t3等于时，
[0042] 根据从样本数据中抽取的子样本数据按照如下公式迭代更新列隐变量的变分分布#;;厂：
[0043]
，直至t4等于T2时，
[0044] 交替更新
I：至达到预设终止条件时，

为更新的行隐变量的变分分布，所述为更新的列隐变量的变分分布；
[0045] 所述根据更新的隐变量的变分分布获取更新的模型参数，包括：
[0046] 根据更新的隐变量的变分分布按照如下公式获取模型参数《@和
[0048] 根据更新的隐变量的变分分布以及从样本数据中抽取的子样本数据按照如下公式迭代更新模型参数:
[0049]
，直至t5等于T3时，nfkuU1，所述和M.§>为更新的模型参数；
[0050]其中，

[0053] 所述h代表当前获取更新的隐变量的变分分布及更新的模型参数，所述t:t2代表当前交替更新行隐变量的变分分布及列隐变量的变分分布，所述t:t2t3代表当前迭代更新行隐变量的变分分布，所述t:t2t4代表当前迭代更新列隐变量的变分分布，所述t:t5代表当前迭代更新模型参数，所述代表上一次获取更新的隐变量的变分分布及更新的模型参数或初始化隐变量的变分分布及模型参数，所述tA-1代表上一次交替更新行隐变量的变分分布及列隐变量的变分分布或初始化行隐变量的变分分布及列隐变量的变分分布，所述t:t2t3-l代表上一次迭代更新行隐变量的变分分布或初始化行隐变量的变分分布，所述t:t2t4-l代表上一次迭代更新列隐变量的变分分布或初始化列隐变量的变分分布，所述代表上一次迭代更新模型参数或初始化模型参数。
[0054] 结合第一方面的第六种可能的实现方式、第九种可能的实现方式或第十种可能的实现方式，在第一方面的第十二种可能的实现方式中，所述根据从样本数据中抽取的子样本数据获取更新的模型参数，包括：
[0055] 根据从样本数据中抽取的子样本数据按照如下公式获取模型参数'和:
[0057] 根据从样本数据中抽取的子样本数据按照如下公式迭代更新模型参数
，直至t5等于T3'时，
为更新的模型参数；
[0058] 所述根据更新的模型参数获取更新的隐变量的变分分布，包括：
[0059] 根据更新的模型参数以及从样本数据中抽取的子样本数据按照如下公式迭代更新行隐变量的变分分布f:
[0060]
，直至t3等于V时，
[0061] 根据更新的模型参数以及从样本数据中抽取的子样本数据按照如下公式迭代更新列隐变量的变分分布f1:
[0062]
，直至t4等于T2'时，
[0063] 交替更新
，直至达到预设终止条件时，

?，所述￥柯尸，为更新的行隐变量的变分分布，所述?,产为更新的列隐变量的变分分布；
[0064] 其中，
[0067] 所述t/代表当前获取更新的隐变量的变分分布及更新的模型参数，所述2代表当前交替更新行隐变量的变分分布及列隐变量的变分分布，所述3代表当前迭代更新行隐变量的变分分布，所述4代表当前迭代更新列隐变量的变分分布，所述5 代表当前迭代更新模型参数，所述t/ -1代表上一次获取更新的隐变量的变分分布及更新的模型参数或初始化隐变量的变分分布及模型参数，所述tj'2_1代表上一次交替更新行隐变量的变分分布及列隐变量的变分分布或初始化行隐变量的变分分布及列隐变量的变分分布，所述3_1代表上一次迭代更新行隐变量的变分分布或初始化行隐变量的变分分布，所述4_1代表上一次迭代更新列隐变量的变分分布或初始化列隐变量的变分分布，所述tj' 5_1代表上一次迭代更新模型参数或初始化模型参数。
[0068] 结合第一方面的第六种可能的实现方式至第十二种可能的实现方式中的任一种可能的实现方式，在第一方面的第十三种可能的实现方式中，所述根据更新的隐变量的变分分布及更新的模型参数确定所述目标函数是否收敛，包括：
[0069] 比较根据更新的隐变量的变分分布及更新的模型参数确定的目标函数与上一次得到的目标函数之间的距离是否小于阈值，所述上一次得到的目标函数根据上一次更新的隐变量的变分分布及更新的模型参数确定；
[0070] 如果根据更新的隐变量的变分分布及更新的模型参数确定的目标函数与上一次得到的目标函数之间的距离小于阈值，则确定所述目标函数收敛。
[0071] 第二方面，提供了一种关系模型的确定装置，所述装置包括：
[0072] 获取模块，用于获取根据样本数据、至少两个隐变量及模型参数确定的对数似然、正则项及各个隐变量的变分分布的对数，每个隐变量用于说明样本数据拥有的特征；
[0073] 第一确定模块，用于根据所述对数似然、正则项及各个隐变量的变分分布的对数确定目标函数；
[0074] 第二确定模块，用于确定使所述目标函数收敛的隐变量的变分分布及模型参数；
[0075] 第三确定模块，用于根据使所述目标函数收敛的隐变量的变分分布及模型参数确定关系t吴型。
[0076] 结合第二方面，在第二方面的第一种可能的实现方式中，所述获取模块获取到对数似然为：
[0078] 其中，所述logp()表示对数似然，所述p表示联合概率密度函数，所述为样本数据，所述队为行样本个数，所述N。为列样本个数，所述ZK为行隐变量，所述Ze为列隐变量，所述e为模型参数的集合，所述模型参数包括a、爲所述a分别为行、列混合比率，所述?7表示模型参数。
[0079] 结合第二方面，在第二方面的第二种可能的实现方式中，所述获取模块获取到的正则项为：
[0080]
[0081] 其中,所述队为行样本个数，所述N。为列样本个数；所述&是行特征的个数，所述 K。是列特征的个数；所述# )为隐变量的变分分布的近似值，所述Zj为第i个行样本数据拥有第k个行特征的行隐变量，所述为第j个列样本数据拥有第1个列特征的列隐变量；所述a，0分别为行、列混合比率，所述-表示模型参数，

完整全部详细技术资料下载

当前第1页1 2 3 4 5 6

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：冯璐;刘春辰;藤巻辽平;中台慎二;
技术所有人：日本电气株式会社;
我是此专利的发明人

上一篇：关系模型的确定方法及装置的制造方法
上一篇：一种用于衡量信号稀疏性的稀疏度量方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。