一种基于图分解的多模式网络话题生成方法及其系统的制作方法
【专利摘要】本发明公开了一种基于图分解的多模式网络话题生成方法及其系统,包括:网络话题检测步骤用于将网络数据转化为一无向图,基于预定阈值将无向图截断为多个截断图,并在截断图中寻找表示候选网络话题的极大团,基于极大团获取多模式种子话题;网络话题排序步骤用于通过种子话题对原始的无向图进行重构,获取种子话题的重构系数,根据重构系数对种子话题进行排序。本发明还公开了一种基于图分解的多模式网络话题生成系统。
【专利说明】一种基于图分解的多模式网络话题生成方法及其系统
【技术领域】
[0001]本发明涉及网络中的话题检测技术,特别涉及一种基于图分解的多模式网络话题生成方法及其系统。
【背景技术】
[0002]随着信息技术的快速发展,用户越来越倾向于从网络上获取所需的信息。然而,高速膨胀的网络数据使得用户很难从中发现感兴趣的内容,因此,按照话题组织网络数据显得愈发重要,从而使得从网络中进行话题检测成为当前研究的热点问题之一。话题检测可以帮助用户快速有效地寻找和了解感兴趣的信息,同时也能帮助网络管理员合理地管理和分析网络数据。
[0003]然而,从网络中检测出有意义的话题十分困难,其原因在于:1)在网络上,有助于检测话题的监督信息难以获得;2)网络话题具有稀有性,也就是说,每天网络上会出现大量元素,但是只有一少部分会形成话题;3)网络话题具有重叠性,也即同一个网络元素可能同时属于多个话题,不同的话题会有重叠;4)话题具有不同模式——有些是紧密连接的,有些是疏松连接的;5)用户的网络行为可能出现关注转移,也就是说可能从一个话题转移到另一话题;6)在网络中存在的话题数目难以确定;7)已有的评测标准不能整体衡量话题检测系统的性能。
[0004]许多现有的话题检测方法认为话题就是聚类,例如有些方法使用非负矩阵分解来检测话题,但是非负矩阵分解是基于分割的聚类,也就是说,网络上的任何一个元素都属于且仅属于某一个话题,但实际中并非如此,有些元素不属于任何话题,而有些元素可能同时属于多个话题。例如,“石油生产”既可以属于话题“经济”,又可以属于话题“能源”。另外一些方法的核心在于寻找紧密相连的数据子集作为话题,其出发点是同一个话题中所有元素都是高度相似的,但事实并非如此。同时,网络上的用户行为会出现关注转移,即从话题的一部分内容转移到另一部分,即使二者并不高度相似。
[0005]目前的算法检测出的话题数目是确定的(不论是预先指定还是算法自适应确定),但是不同的用户对话题有不同的认识,因此很难确定网络上话题的真实数目。
[0006]对于目前的话题检测算法评测标准,也往往只考虑到正确检测到的话题的数目,而忽略了与此同时系统错误检测出的话题数目,但合理的评测标准应该综合考虑两方面的内容。
【发明内容】
[0007]本发明的目的在于提供一种基于图分解的多模式网络话题生成方法及其系统,以解决现有技术中网络话题具有稀疏性和重叠性,而造成不容易检测出的问题。
[0008]为达上述目的,本发明提出了一种基于图分解的多模式网络话题生成方法,其特征在于,包括:
[0009]网络话题检测步骤:将网络数据转化为一无向图,基于预定阈值将所述无向图截断为多个截断图,并在所述截断图中寻找表示候选网络话题的极大团,基于所述极大团获取多模式种子话题;
[0010]网络话题排序步骤:通过所述种子话题对原始的所述无向图进行重构,获取所述种子话题的重构系数,根据所述重构系数对所述种子话题进行排序,使用户发现感兴趣的话题。
[0011]上述基于图分解的多模式网络话题生成方法,其特征在于,所述方法还包括:
[0012]性能评价步骤:根据检测到的所述种子话题中的正确话题数目和错误话题数目,同时对所述话题生成方法进行综合性能评价。
[0013]上述基于图分解的多模式网络话题生成方法,其特征在于,所述网络话题检测步骤还包括:
[0014]数据表示步骤:采用所述无向图代表所述网络数据间的关系,所述无向图的节点表示所述网络数据,所述无向图的边表示所述网络数据之间的相似度;
[0015]图截断步骤:通过多个所述预定阈值依次将所述无向图截断为多个所述截断图,根据预定门限参数,将所述截断图分为高阈值截断图和低阈值截断图;
[0016]寻找话题步骤:在所述高阈值截断图中寻找所述极大团作为种子话题,在所述低阈值截断图中寻找所述种子话题的演化,即包含所述种子话题的极大团。
[0017]上述基于图分解的多模式网络话题生成方法,其特征在于,所述性能评价步骤还包括:
[0018]话题正确性匹配步骤:检测到的所述种子话题与真正存在话题的匹配度大于预定匹配度阈值,则认为所述种子话题为正确检测的话题,否则所述种子话题为错误检测话题。
[0019]上述基于图分解的多模式网络话题生成方法,其特征在于,所述网络数据之间的相似度公式为:
【权利要求】
1.一种基于图分解的多模式网络话题生成方法,其特征在于,包括: 网络话题检测步骤:将网络数据转化为一无向图,基于预定阈值将所述无向图截断为多个截断图,并在所述截断图中寻找表示候选网络话题的极大团,基于所述极大团获取多模式种子话题; 网络话题排序步骤:通过所述种子话题对原始的所述无向图进行重构,获取所述种子话题的重构系数,根据所述重构系数对所述种子话题进行排序,使用户发现感兴趣的话题。
2.根据权利要求1所述基于图分解的多模式网络话题生成方法,其特征在于,所述方法还包括: 性能评价步骤:根据检测到的所述种子话题中的正确话题数目和错误话题数目,同时对所述话题生成方法进行综合性能评价。
3.根据权利要求1所述基于图分解的多模式网络话题生成方法,其特征在于,所述网络话题检测步骤还包括: 数据表示步骤:采用所述无向图代表所述网络数据间的关系,所述无向图的节点表示所述网络数据,所述无向图的边表示所述网络数据之间的相似度; 图截断步骤:通过多个所述预定阈值依次将所述无向图截断为多个所述截断图,根据预定门限参数,将所述截断图分为高阈值截断图和低阈值截断图; 寻找话题步骤:在所述高阈值截断图中寻找所述极大团作为种子话题,在所述低阈值截断图中寻找所述种子话题的演化,即包含所述种子话题的极大团。
4.根据权利要求2所述基于图分解的多模式网络话题生成方法,其特征在于,所述性能评价步骤还包括: 话题正确性匹配步骤:检测到的所述种子话题与真正存在话题的匹配度大于预定匹配度阈值,则认为所述种子话题为正确检测的话题,否则所述种子话题为错误检测话题。
5.根据权利要求3所述基于图分解的多模式网络话题生成方法,其特征在于,所述网络数据之间的相似度公式为:
其中,所述无向图的边E = {eu}表示相似度,所述h表示元素的特征直方图,所述hi(k)表示第i个元素的第k维特征。
6.根据权利要求1所述基于图分解的多模式网络话题生成方法,其特征在于,所述截断图表示为:
在所述预定阈值Ii下将所述无向图截断,得到该阈值下的截断图G1。
7.一种基于图分解的多模式网络话题生成系统,采用如权利要求1-6中任一项所述话题生成方法,其特征在于,所述话题生成系统包括: 网络话题检测模块:采用无向图表示网络数据间的关系,基于预定阈值将所述无向图截断为多个截断图,并在所述截断图中寻找表示候选网络话题的极大团,基于所述极大团获取多模式种子话题; 网络话题排序模块:通过所述种子话题对原始的所述无向图进行重构,获取所述种子话题的重构系数,根据所述重构系数对所述种子话题进行排序,使用户发现感兴趣的话题。
8.根据权利要求7所述基于图分解的多模式网络话题生成系统,其特征在于,所述系统还包括: 性能评价模块:根据检测到的所述种子话题中包含的正确话题数目和错误话题数目,同时对所述话题生成方法进行综合性能评价。
9.根据权利要求7所述基于图分解的多模式网络话题生成系统,其特征在于,所述网络话题检测模块还包括: 数据表示模块:将所述无向图代表所述网络数据间的关系,所述无向图的节点表示所述网络数据,所述无向图的边表示所述网络数据之间的相似度; 图截断模块:通过多个所述预定阈值依次将所述无向图截断为多个所述截断图,根据预定门限参数,所述截断图包含高阈值截断图和低阈值截断图; 寻找话题模块:在所述高阈值截断图中寻找所述极大团作为种子话题,在所述低阈值截断图中寻找所述种子话题的演化,即包含所述种子话题的极大团。
10.根据权利要求8所述基于图分解的多模式网络话题生成系统,其特征在于,所述性能评价模块还包括: 话题正确性匹配模块:检测到的所述种子话题与真正存在话题的匹配度大于预定匹配度,则认为所述种子话题为正确检测的话题,否则所述种子话题为错误检测话题。
【文档编号】G06F17/30GK104166675SQ201410313181
【公开日】2014年11月26日 申请日期:2014年7月2日 优先权日:2014年7月2日
【发明者】黄庆明, 贾飞, 庞俊彪 申请人:中国科学院计算技术研究所