元素之间连接边的权值。然后利用主题模型算法(Topicmodeling)基于该矩阵 进行聚类。
[0080] 通过主题模型算法可以得到聚类为群组类别的各个群组,以及聚类为用户类别的 各个用户。其中群组类别为群组所对应的类别,用户类别为用户所对应的类别。比如聚类 为群组类别1的群组包括群组1、群组2和群组5,聚类为群组类别2的群组包括群组3、群 组4和群组6 ;聚类为用户类别1的用户2、用户4、用户5和用户7,聚类为用户类别2的用 户1、用户3、用户6和用户8等。
[0081] 208,计算聚类后属于同一个初始类别的对象的数目;
[0082] 聚类后,每一种聚类类别中可以包含很多对象,这些对象在经过步骤203时已经 确定了初始类别,此时则可以统计该聚类类别中每个初始类别所对应的对象的数目。
[0083] 209,将数目最多的初始类别确定为扩散类别;
[0084] 210,将聚类后其他各个对象的类别均确定为扩散类别。
[0085] 很显然,在一种可能的实现方式中,可以将聚类后其他各个对象的类别均增加该 扩散类别,也可以将聚类后其他各个对象的类别均替换为扩散类别。
[0086]举例来讲,聚类类别为"篮球",该聚类类别中包含有20个群组,其中有16个群组 的初始类别为"篮球",3个群组的初始类别为"排球",1个群组的初始类别为"网球"。此时 则可以将初始类别"篮球"确定为扩散类别。然后将初始类别为"排球"的群组以及初始类 别为"网球"的群组的类别均增加一个"篮球"类别,或者将初始类别为"排球"的群组以及 初始类别为"网球"的群组的类别均替换为"篮球"类别。
[0087] 综上所述,本发明实施例中提供的基于社交网络的对象分类方法,通过将对象的 特征信息表示成语义向量,将该语义向量输入预定分类器,得到对象被分类后的初始类别; 解决了现有技术中由于用户信息和群组信息有数亿的规模,空间向量的维度非常大,导致 计算的时间复杂度与空间复杂度都非常大,甚至还会严重损害到向量空间模型的处理效率 以及性能的问题;由于语义向量是用于反映各个分词在特征信息中同时出现时的相关性特 征的向量,因此语义向量的维度远小于空间向量的维度,达到了可以大大降低计算的复杂 度,提高向量空间模型的处理效率以及性能的效果。
[0088]请参见图3所示,其示出了本发明一个实施例中提供的基于社交网络的对象分类 装置的结构示意图。该基于社交网络的对象分类装置可以应用于服务器或其他需要进行分 类的设备中。该基于社交网络的对象分类装置可以包括:第一获取模块302、表示模块304 和分类模块306。
[0089]第一获取模块302,可以用于获取对象的特征信息;
[0090]表示模块304,可以用于将特征信息表示成语义向量,语义向量用于反映各个分词 在特征信息中同时出现时的相关性特征;
[0091] 分类模块306,可以用于将对象的特征信息的语义向量输入预定分类器,得到对象 被分类后的初始类别。
[0092] 综上所述,本发明实施例中提供的基于社交网络的对象分类装置,通过将对象的 特征信息表示成语义向量,将该语义向量输入预定分类器,得到对象被分类后的初始类别; 解决了现有技术中由于用户信息和群组信息有数亿的规模,空间向量的维度非常大,导致 计算的时间复杂度与空间复杂度都非常大,甚至还会严重损害到向量空间模型的处理效率 以及性能的问题;由于语义向量是用于反映各个分词在特征信息中同时出现时的相关性特 征的向量,因此语义向量的维度远小于空间向量的维度,达到了可以大大降低计算的复杂 度,提高向量空间模型的处理效率以及性能的效果。
[0093]请参见图4所示,其示出了本发明另一个实施例中提供的基于社交网络的对象分 类装置的结构示意图。该基于社交网络的对象分类装置可以应用于服务器或其他需要进 行分类的设备中。该基于社交网络的对象分类装置可以包括:第一获取模块402、表示模块 404和分类模块406。
[0094]第一获取模块402,可以用于获取对象的特征信息;
[0095]表示模块404,可以用于将特征信息表示成语义向量,语义向量用于反映各个分词 在特征信息中同时出现时的相关性特征;
[0096] 分类模块406,可以用于将对象的特征信息的语义向量输入预定分类器,得到对象 被分类后的初始类别。
[0097] 在图4所示实施例中的第一种可能的实现方式中,该基于社交网络的对象分类装 置还可以包括:第一确定模块408、组成模块410、构造模块412和聚类模块414。
[0098] 第一确定模块408,可以用于对于每个对象,利用对象的特征信息的语义向量,确 定与对象对应的预定个数相似对象;
[0099] 组成模块410,可以用于将对象分别与各个相似对象组成对象对;
[0100] 构造模块412,可以用于利用组成模块410组成的对象对以及群组与群组中的用 户之间的对应关系构造二分图;
[0101] 聚类模块414,可以用于利用主题模型算法对二分图中的对象进行聚类;
[0102] 其中,二分图包含至少一组由第一元素和第二元素组成的对应关系,当对应关系 的第一元素为一个群组时,则第二元素为群组中的一个用户或为与群组在同一组对象对的 群组,或,当对应关系的第一元素为用户时,则第二元素为与用户在同一组对象对的用户。
[0103] 在图4所示实施例中的第二种可能的实现方式中,该基于社交网络的对象分类装 置还可以包括:计算模块416、第二确定模块418和第三确定模块420。
[0104] 计算模块416,可以用于计算聚类后属于同一个初始类别的对象的数目;
[0105] 第二确定模块418,可以用于将计算模块416计算出的数目最多的初始类别确定 为扩散类别;
[0106] 第三确定模块420,可以用于将聚类后其他各个对象的类别均确定为扩散类别。
[0107] 在图4所示实施例中的第三种可能的实现方式中,第一确定模块408可以包括:计 算单元408a、排序单元408b和确定单元408c。
[0108] 计算单元408a,可以用于利用对象的特征信息的语义向量,计算对象与其他同类 型对象之间的相似度;
[0109] 排序单元408b,可以用于按照计算单元408a计算得到的相似度由高到低排序同 类型对象;
[0110] 确定单元408c,可以用于依次从排序后的同类型对象中选取预定个数对象,将选 取出的预定个数对象确定为对象的相似对象。
[0111] 在图4所示实施例中的第四种可能的实现方式中,计算单元408a可以包括:计算 子单元408al和确定子单元408a2。
[0112] 计算子单元408al,可以用于计算对象的语义向量与其他同类型对象的语义向量 之间的余弦夹角值;
[0113] 确定子单元408a2,可以用于将计算子单元408al计算得到的余弦夹角值确定为 相似度。
[0114] 在图4所示实施例中的第五种可能的实现方式中,该基于社交网络的对象分类装 置还可以包括:第二获取模块422和归类模块424。
[0115] 第二获取模块422,可以用于获取对象在被预定分类器分类时所确定的置信度 值;
[0116] 归类模块424,可以用于当置信度值大于预定置信度阈值时,将置信度值所对应的 对象归类为分类器所确定的类别。
[0117] 在图4所示实施例中的第六种可能的实现方式中,表示模块404可以包括:统计单 元404a、求解单元404b和相加单元404c。
[0118] 统计单元404a,可以用于利用预存的语料库,统计出分词在预定个数指定分词后 出现的概率,分词以及预定个数指定分词构成特征信息;
[0119] 求解单元404b,可以用于利用反向传播算法求解预定数学模型,得到特征信息中 各个分词的语义向量;
[0120] 相加单元404c,可以用于将同一个特征信息中各个分词的语义向量相加后归一 化,得到特征信息的语义向量。
[0121] 在图4所示实施例中的第七种可能的实现方式中,该预定数学模型可以为:
[0122] y=softmax(U?tanh(Hx+d)+ffx+b),
[0123] 其中,y为分词在各个特征信息中出现的概率所组成的矩阵,x是各个特征信息中 的预定个数指定分词的语义向量首尾相接得到的向量,d和b为偏置项,tanh和softmax均 为激活函数,U是预定数学模型的隐含层到输出层的参数,W是从预定数学模型的输入层直 接到输出层的线性变换。
[0124] 综上所述,本发明实施例中提供的基于社交网络的对象分类装置,通过将对象的 特征信息表示成语义向量,将该语义向量输入预定分类器,得到对象被分类后的初始类别; 解决了现有技术中由于用户信息和群组信息有数亿的规模,空间向量的维度非常大,导致 计算的时间复杂度与空间复杂度都非常大,甚至还会严重损害到向量空间模型的处理效率 以及性能的问题;由于语义向量是用于反映各个分词在特征信息中同时出现时的相关性特 征的向量,因此语义向量的维度远小于空间向量的维度