适用tcmf网络的基于多三角形群组相似性凝聚的重叠社区发现方法
【技术领域】
[0001] 本发明涉及一种中药方剂挖掘的方法,尤其涉及适用TCMF网络的基于多三角形 群组相似性凝聚的重叠社区发现方法。
【背景技术】
[0002] 在复杂网络分析中对网络社团结构的研究已经有很长的历史,其涉及到计算机科 学、社会学、生命科学等各个领域。分析网络中的社团结构,对于分析网络结构与了解网络 特性都是非常重要的。现实世界中有很多的真实复杂网络,如社会网络、互联网页面间互相 链接网络、文献引用网络、生物学网络(如蛋白质相互作用网络)、论文合著网络等等。不同 的真实网络结构代表其研究方向的现实意义,中药方剂(Traditional Chinese Medicine Formula,简写TCMF)网络也属于真实复杂网络当中的一种,如图1所示为TCMF网络。
[0003] 中医药方剂(TCMF)网络具有明显社区结构,它不仅具有重叠结点,还具有重叠 边,另外TCMF网络还具有一定的层次性,但通过实验表明,一些传统的重叠社区发现方法 (如LFM方法、CPM方法等)并不适用于TCMF网络。
[0004] 利用数据挖掘技术对中药复方数据进行药群社区挖掘最常用的方法是以聚类为 主的数据挖掘研究模式,其对相似的药物进行聚合来发现药群社区。本发明尝试在已经构 建好的TCMF药物网络中利用基于多三角形群组相似性凝聚的重叠社区发现方法来挖掘药 性相似的药物组。
[0005] CN201210110861. 6 提供一种适用中药方剂(TraditionalChineseMedicineHer bs,以下简称TCMF)网络的基于共近邻相似三角形凝聚的层次重叠社区发现方法,包括如 下步骤:1)共近邻相似三元组凝聚阶段a寻找所有三元组;b对任意两个三元组计算相似 度;c给定三元组的相似度阈值,合并相似度高于相似度阈值的三元组对作为初始社区;d 结束;2)簇合并阶段a计算任意两个初始社区的距离;b定初始社区距离阈值,合并距离小 于距离阈值的两个初始社区;c结束。通过三个参数α,β,γ的设定能挖掘TCMF网络的 高重叠及层次药群社区结构,为方剂配伍中核心药群发现提供了解决方案。其中该方法当 中寻找初始社团阶段的复杂度高,TCMF网络当中药群社团发现的准确性亦有待提高。
【发明内容】
[0006] 本发明所要解决的技术问题是,提供一种适用TCMF网络的基于多三角形群组相 似性凝聚的重叠社团发现方法,为TCMF网络提供了中药方剂挖掘的解决方案。
[0007] 为解决上述问题,本发明技术方案是:适用TCMF网络的基于多三角形群组相似性 凝聚的重叠社区发现方法,包括如下步骤:
[0008] 1)寻找初始社团:
[0009] a寻找中心点,并初始化社团;
[0010] b搜索多三角形群组,加入到初始社团;
[0011] C重复上述步骤直到中心点的度数小于阈值;
[0012] d将未分派的结点加入到初始社团;
[0013] e 结束;
[0014] 2)合并初始社团:
[0015] a计算每两个社团之间的相似度;
[0016] b选择最相似的两个社团合并;
[0017] c重复以上步骤直到结束。
[0018] 步骤l)_a中所述的中心点是利用结点的度数服从幂率分布,根据度数从大到小 寻找中心点。
[0019] 其中步骤l)_b中所述的多三角形群组是指搜索能够与中心点构成三角形的所有 它的邻接结点,并将这些邻接结点加入到社团当中,构成多三角形群组。
[0020] 其中步骤l)-c中所述的阈值一般情况为所有结点的平均度数。
[0021] 其中步骤l)_d中所述的将未分派的结点加入到初始社团的规则是,若该结点的 度数为〇时,该结点作为单独社团;若该结点的度数为1时,该结点加入其邻接结点的社团 当中;若该结点的度数大于1时,统计其邻接结点属于各个社团的个数,将其加入到个数最 多的社团当中。
[0022] 其中步骤2)_a中所述的两个社团之间的相似度公式如下:
[0024] 其中Nan Nb表示社团a和b中共有的结点个数,MIN{Na,Nb}表示a和b中最小的 结点个数。
[0025] 本发明的有益效果:本发明的适用TCMF网络的基于多三角形群组相似性凝聚的 重叠社团发现方法为中医药复方数据挖掘提供了一种新的方法,该方法通过多三角形群组 技术提高了社团发现的准确性,提供了准确的药群社区信息。
[0026] 寻找初始社团阶段中,本发明使用种子扩散的方法,根据节点度数大小寻找中心 点,根据多三角形技术将周围节点加入的以该中心点形成的社团当中;而现有技术基于搜 索的过程,首先寻找所有单独的三元组,然后根据三元组的相似度,将高于相似度阈值的三 元组合并后作为初始社团。
[0027] 初始社团合并阶段(基于社团相似性公式有所不同):本发明采用效率更高的公 式。现有三元组相似性凝聚:以三元组的相似度公式定义。
[0028] 本发明关键技术是:采用多三角形技术,即搜索能够与中心点构成三角形的所有 它的邻接结点,并将这些邻接结点加入到社团当中,构成多三角形群组。
[0029] 本发明的优势在于:中心点根据节点的度数由高到低选取,再根据多三角形技术 依次扩散,省去繁琐的公式计算过程,减少了寻找初始社团的时间复杂度,通过实验证明该 方法提高了 TCMF网络当中药群社团发现的准确性。
【附图说明】
[0030] 图1为适用TCMF网络的基于多三角形群组相似性凝聚的重叠社区发现方法的流 程图。
[0031] 图2为形成多三角形群组流程图。
[0032] 图3为社团相似性凝聚流程图。 图4为社团相似性凝聚流程图。
【具体实施方式】
[0033] 为了更了解本发明的技术内容,特举具体实施例并配合所附图式说明如下。
[0034] 如图1所示,中医药方剂(TCMF)网络具有明显社区结构,TCMF网络的构建过程为: 遍历中医药方剂数据库,根据每味药两两之间的贡献度值来构建得到TCMF网络。
[00