基于社交网络的对象分类方法及装置的制造方法
【技术领域】
[0001] 本发明涉及计算机技术领域,特别涉及一种基于社交网络的对象分类方法及装 置。
【背景技术】
[0002] 社交网络通常具有庞大的用户群,这些用户相互交流分享形成很多群组。由于用 户有不同的兴趣,因此他们相互形成的群组也有不同的偏好,譬如〃篮球〃类群,"小区〃类 群,"瑜伽"类群等。用户要从这海量的数据中找到与自己有类似兴趣的用户或者相似偏 好的群组是相当困难的。因此急需一种能够自动地把兴趣相同的用户或者话题相似的群组 进行整理归类的聚类方法。
[0003] 在传统的对用户或者群组进行整理归类的聚类方法中,首先把每一个用户信息或 每一个群组信息用0/1表示方法(即对于每条用户信息或群组信息所对应的特征信息,如 果某些分词在该特征信息中出现,则将对应的用于表示该分词的向量值设置为1,否则将用 于表示该分词的向量值设置为〇)表示成空间向量,该空间向量的维度为全部特征的总词 数;然后基于特征信息的空间向量利用分类器VSM(VectorSpaceModel,向量空间模型) 进行聚类分析。
[0004] 在实现本发明的过程中,发明人发现现有技术至少存在以下问题:由于用户信息 和群组信息有数亿的规模,空间向量的维度非常大,导致计算的时间复杂度与空间复杂度 都非常大,甚至还会严重损害到向量空间模型的处理效率以及性能。
【发明内容】
[0005] 为了解决现有技术中由于用户信息和群组信息有数亿的规模,空间向量的维度非 常大,导致计算的时间复杂度与空间复杂度都非常大,甚至还会严重损害到向量空间模型 的处理效率以及性能的问题,本发明实施例提供了一种基于社交网络的对象分类方法及装 置。所述技术方案如下:
[0006] 第一方面,提供了一种基于社交网络的对象分类方法,所述方法包括:
[0007] 获取对象的特征信息;
[0008] 将所述特征信息表示成语义向量,所述语义向量用于反映各个分词在所述特征信 息中同时出现时的相关性特征;
[0009] 将所述对象的特征信息的语义向量输入预定分类器,得到所述对象被分类后的初 始类别。
[0010] 第二方面,提供了一种基于社交网络的对象分类装置,所述装置包括:
[0011] 第一获取模块,用于获取对象的特征信息;
[0012] 表示模块,用于将所述特征信息表示成语义向量,所述语义向量用于反映各个分 词在所述特征信息中同时出现时的相关性特征;
[0013] 分类模块,用于将所述对象的特征信息的语义向量输入预定分类器,得到所述对 象被分类后的初始类别。
[0014] 本发明实施例提供的技术方案带来的有益效果是:
[0015] 通过将对象的特征信息表示成语义向量,将该语义向量输入预定分类器,得到对 象被分类后的初始类别;解决了现有技术中由于用户信息和群组信息有数亿的规模,空间 向量的维度非常大,导致计算的时间复杂度与空间复杂度都非常大,甚至还会严重损害到 向量空间模型的处理效率以及性能的问题;由于语义向量是用于反映各个分词在特征信息 中同时出现时的相关性特征的向量,因此语义向量的维度远小于空间向量的维度,达到了 可以大大降低计算的复杂度,提高向量空间模型的处理效率以及性能的效果。
【附图说明】
[0016] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使 用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于 本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他 的附图。
[0017] 图1是本发明一个实施例中提供的基于社交网络的对象分类方法的方法流程图;
[0018] 图2A是本发明另一个实施例中提供的基于社交网络的对象分类方法的方法流程 图;
[0019] 图2B是本发明一个实施例中提供的将特征信息表示成语义向量的方法的流程示 意图;
[0020] 图2C是本发明一个实施例中提供的确定与对象对应的预定个数相似对象的方法 的流程示意图;
[0021] 图2D是本发明一个实施例中提供的二分图的示意图;
[0022] 图3是本发明一个实施例中提供的基于社交网络的对象分类装置的结构示意图;
[0023] 图4是本发明另一个实施例中提供的基于社交网络的对象分类装置的结构示意 图。
【具体实施方式】
[0024] 为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方 式作进一步地详细描述。
[0025] 请参见图1所示,其示出了本发明一个实施例中提供的基于社交网络的对象分类 方法的方法流程图。该基于社交网络的对象分类方法可以应用于服务器或其他需要进行分 类的设备中。该基于社交网络的对象分类方法可以包括:
[0026] 101,获取对象的特征信息;
[0027] 102,将特征信息表示成语义向量,语义向量用于反映各个分词在特征信息中同时 出现时的相关性特征;
[0028] 103,将对象的特征信息的语义向量输入预定分类器,得到对象被分类后的初始类 别。
[0029] 综上所述,本发明实施例中提供的基于社交网络的对象分类方法,通过将对象的 特征信息表示成语义向量,将该语义向量输入预定分类器,得到对象被分类后的初始类别; 解决了现有技术中由于用户信息和群组信息有数亿的规模,空间向量的维度非常大,导致 计算的时间复杂度与空间复杂度都非常大,甚至还会严重损害到向量空间模型的处理效率 以及性能的问题;由于语义向量是用于反映各个分词在特征信息中同时出现时的相关性特 征的向量,因此语义向量的维度远小于空间向量的维度,达到了可以大大降低计算的复杂 度,提高向量空间模型的处理效率以及性能的效果。
[0030] 请参见图2A所示,其示出了本发明另一个实施例中提供的基于社交网络的对象 分类方法的方法流程图。该基于社交网络的对象分类方法可以应用于服务器或其他需要进 行分类的设备中。该基于社交网络的对象分类方法可以包括:
[0031] 201,获取对象的特征信息;
[0032] 这里所讲的对象可以包括用户和/或群组。通常群组中可以包含多个用户,一个 用户可以同时加入在多个群组中,也可以不存在于任何一个群组中。
[0033] 当对象为用户时,对象的特征信息则可以为用户信息,比如可以包括用户名、用户 的兴趣信息、用户发表的心情或说说内容、用户发表的日志等。特性信息可以包括文本信息 和/或非文本信息。
[0034] 当对象为群组时,对象的特征信息则可以为群组信息,比如可以包括群名称等。
[0035] 202,将特征信息表示成语义向量;
[0036] 这里所讲的语义向量可以用于反映各个分词在特征信息中同时出现时的相关性 特征。通常来讲,语义向量是利用预定数学模型为每个分词寻找一个连续向量空间中的表 示,考虑到上下文语境,利用分词之间在同一个语境中出现的频率来刻画分词的相关性特 征。也就是说,一个特征信息的语音向量可以涵盖该特征信息的上下文语境信息。
[0037] 也正因为语义向量可以涵盖该特征信息的上下文语境信息,因此可以将语义向量 的维度降低到非常小的维度,比如可以为200维。
[0038] 请参见图2B所示,其示出了本发明一个实施例中提供的将特征信息表示成语义 向量的方法的流程示意图,将特征信息表示成语义向量,可以包括:
[0039] 202a,利用预存的语料库,统计出分词在预定个数指定分词后出现的概率,分词以 及预定个数指定分词构成特征信息;
[0040] 语料库中包含有各种特征信息,语料库中的特征信息的来源比较多,比如,服务器 可以从其他服务器中获取各种特征信息,用户也可以向服务器上传特征信息。
[0041] 举例来讲,在语料库中的各种特征信息中,当一个分词为"大学"时,统计该分词在 "北京" + "科技"之后出现的概率,其中特征信息为"北京科技大学"。
[0042] 202b,利用反向传播算法求解预定数学模型,得到特征信息中各个分词的语义向 量;
[0043] 这里所讲的预定数学模型的公式如下:
[0044]y=softmax(U?tanh(Hx+d)+ffx+b),
[0045] 其中,y为分词在各个特征信息中出现的概率所组成的矩阵,x是各个特征信息中 的预定个数指定分词的语义向量首尾相接得到的向量,d和b为偏置项,tanh和softmax均 为激活函数,U是预定数学模型的隐含层到输出层的参数,W是从预定数学模型的输入层直 接到输出层的线性变换。
[0046] 在实际应用中,语义向量需要能涵盖词的上下文语境信息,这样语义相似的分词, 其对应的语义向量的余弦夹角值会比较大,因此在确定相似度的特征信息时具有很好的识 别效果。这里通常可以用条件概率来刻画词的上下文语境,也就是每个分词的概率只受前 面出现过的分词的影响,条件概率即为P(W1IW1,...,W1i)。为了简化计算,一般只考虑每个 分词受其前11