一种元数据分组方法及装置与流程

文档序号:12836977阅读:146来源:国知局
一种元数据分组方法及装置与流程
本发明涉及移动互联网和自动化信息处理
技术领域
,尤其涉及一种短信发送方法及装置。
背景技术
:随着信息技术的飞速发展,通常是采用模型驱动的方式来设计软件。在以数据模型为驱动的系统中,这类数据模型通常是特定类型的抽象,统称为元数据。在数据量呈爆炸增长的年代,数据模型的管理显得越来越重要,元数据描述了数据的各种特征,包括内容,状况,质量等各种维度。因此,在大数据时代下,如何能合理,高效的对元数据进行分组管理成数据质量管控的突出问题。目前运用较广泛的元数据分组管理主要是采用分级结构的元数据管理,并由erp系统软件进行统一的管理和发布,通过一个或是多个层级管控确保元数据能合理,规范的分类,避免冲突。常用的管理方式还包括通过图形界面的方式进行管控,该方式从元数据输入源头到逻辑模型,物理模型构建都采用图形化界面方式实现,确保了元数据分组管理能直观。另外还包括采用构建分类树的方式对元数据进行逐步的聚类,并对分组后的结果进行统一的管理。从现有的技术方案来看,缺乏自动化分类的方法,图形界面虽然能直观的分类,但是在大数据融合环境下,元数据也呈几何级增长。因此,手工方式完全不能适应现有背景下得元数据管控。并且在现有技术中尽管通常也采用层级结构分类管理,但是层级结构只是在一定层度上反映了相似性,但元数据之间的关系是无法仅依赖层级关系进行描述的,因此无法从更深度和广度的角度去考虑,必然影响了后续分类管控的准确性。仅仅采用字面属性对元数据进行管理,缺乏对上下文的考虑,很可能将字面上相近的元数据划分成同一类别进行 管理,但实际应当属于不同类别进行管理。综上所述,现有技术中对元数据进行分组管理存在缺乏对元数据上下环境的考虑,在缺失元数据加工描述信息时无法完善分组类别的问题。技术实现要素:本发明提供一种元数据分组方法及装置,用以解决现有技术中对元数据进行分组管理存在缺乏对元数据上下环境的考虑,在缺失元数据加工描述信息时无法完善分组类别的问题。本发明提供一种元数据分组方法,包括获取数据库的各节点中的元数据的来源信息;根据所述各节点中的元数据的来源信息确定各节点之间的关联关系和关联度;根据所述各节点及所述各节点之间的关联关系构建关系网,所述关系网中的边为所述各节点之间的关联关系,所述关系网中的边的权重为具有关联关系的节点间关联度;利用粒子群算法对所述关系网进行划分,得到多个子关系网,其中,每个所述子关系网为一个分组。本发明实施例中,根据数据库中元数据的来源信息确定由元数据构成的节点之间的关联关系,以及节点之间的关联度,根据节点与其他节点之间的关联关系将数据库中所有节点构成关系网,并且在确定元数据的关系网后利用粒子群算法对关系网进行划分,能够得到每一个子网络,将子网络作为一个分组。本发明实施例中,根据各节点及所述各节点之间的关联关系构建关系网后,在元数据的资料缺乏的情况下,仍然能够将元数据进行分组。进一步地,所述根据所述各节点中的元数据的来源信息确定各节点之间的关联关系和关联度,包括:若第一节点中的一个元数据来源于第二节点,则确定所述第一节点与所述 第二节点之间存在一个关联关系;将所述第一节点与所述第二节点之间存在的关联关系的数量确定为所述第一节点与所述第二节点之间的关联度,其中,所述第一节点与所述第二节点为所述数据库中的任意两个不同的表本发明实施例中,若一个节点中的元数据是来源于另一个节点,或者一个节点中的元数据是另一个节点的元数据来源时,就认为两个节点之间存在关联关系,利用元数据之间的关联关系构建关系网,解决了现有技术中不考虑关联关系,只是用元数据的描述信息进行分组的问题。并且将两个节点之间的关联关系的数量作为关联度,体现了两个节点之间元数据的输入与输出的具体关系。进一步地,所述根据所述各节点及所述各节点之间的关联关系构建关系网,包括:若所述第一节点与所述第二节点之间存在关联关系,则确定所述第一节点与所述第二节点在所述关系网中存在一条边,其中,所述边的权重为所述第一节点与所述第二节点之间的关联度。本发明实施例中,将所述关系网中两个有关联关系的节点存在的关联关系简化为两个节点中的一条边,利用边的权中来表示两个节点之间存在的关联关系的数量,更好的表示了关系网中两个节点之间的关联关系。进一步地,所述利用粒子群算法对所述关系网进行划分,得到多个子关系网之前,还包括:若所述关系网中存在无效节点,则将所述无效节点删除,其中,所述无效节点为与所述关系网中其他节点的相关性小于合并阈值且仅作为所述关系网中其他节点的元数据的输入来源,或,所述无效节点为与所述关系网中其他节点的相关性小于合并阈值且所述无效节点仅作为所述关系网中其他节点的元数据的输出来源,或所述无效节点为与所述关系网中其他节点的相关性为零。本发明实施例中,将关系网中只有输出元数据的节点以及只有元数据输入 的节点或者与其他元数据之间没有关联关系的节点删除,优化关系网,利用优化后的关系网进行分组,更能够提高元数据分组的效率与准确性。进一步地,所述利用粒子群算法对所述关系网进行划分,得到多个子关系网之前,还包括:若所述关系网中存在一组节点满足如下关系,则将所述一组节点合并为一个节点;所述关系为所述一组节点中的节点个数不少于2个,且每两个存在输出和输入关系节点的相关性不小于合并阈值。本发明实施例中,将关系网中存在的相互之间有关联关系的节点,并且计算出有关联关系节点之间的相关性不小于合并阈值时,说明其中的一个节点中的元数据完全来自与另一个节点的元数据,则需要将符合条件的节点进行合并,进一步优化关系网。进一步地,所述利用粒子群算法对所述关系网进行划分,得到多个子关系网之后,还包括:将所述子关系网中出现频率最高的描述信息作为所述子关系网的标识信息。本发明实施例中,利用分组后每一个子关系网中每个节点的描述信息出现的频率对每一个子关系网进行标注,以便之后能够更好的进行调用、修改等操作。本发明还提供一种元数据分组装置,包括:获取单元,用于获取数据库的各节点中的元数据的来源信息;确定单元,用于根据所述各节点中的元数据的来源信息确定各节点之间的关联关系和关联度;关系网构建单元,用于根据所述各节点及所述各节点之间的关联关系构建关系网,所述关系网中的边为所述各节点之间的关联关系,所述关系网中的边的权重为具有关联关系的节点间关联度;分组单元,用于利用粒子群算法对所述关系网进行划分,得到多个子关系网,其中,每个所述子关系网为一个分组。本发明实施例中,根据数据库中元数据的来源信息确定由元数据构成的节点之间的关联关系,以及节点之间的关联度,根据节点与其他节点之间的关联关系将数据库中所有节点构成关系网,并且在确定元数据的关系网后利用粒子群算法对关系网进行划分,能够得到每一个子网络,将子网络作为一个分组。本发明实施例中,根据各节点及所述各节点之间的关联关系构建关系网后,在元数据的资料缺乏的情况下,仍然能够将元数据进行分组。进一步地,所述确定单元,具体用于:若第一节点中的一个元数据来源于第二节点,则确定所述第一节点与所述第二节点之间存在一个关联关系;将所述第一节点与所述第二节点之间存在的关联关系的数量确定为所述第一节点与所述第二节点之间的关联度,其中,所述第一节点与所述第二节点为所述数据库中的任意两个不同的节点。进一步地,所述确定单元,具体用于:若第一节点中的一个元数据来源于第二节点,则确定所述第一节点与所述第二节点之间存在一个关联关系;将所述第一节点与所述第二节点之间存在的关联关系的数量确定为所述第一节点与所述第二节点之间的关联度,其中,所述第一节点与所述第二节点为所述数据库中的任意两个不同的节点。进一步地,所述关系网构建单元,具体用于:若所述第一节点与所述第二节点之间存在关联关系,则确定所述第一节点与所述第二节点在所述关系网中存在一条边,其中,所述边的权重为所述第一节点与所述第二节点之间的关联度。进一步地,所述关系网构建单元,还用于:若所述关系网中存在无效节点,则将所述无效节点删除,其中,所述无效 节点为与所述关系网中其他节点的相关性小于合并阈值且仅作为所述关系网中其他节点的元数据的输入来源,或,所述无效节点为与所述关系网中其他节点的相关性小于合并阈值且所述无效节点仅作为所述关系网中其他节点的元数据的输出来源,或所述无效节点为与所述关系网中其他节点的相关性为零。进一步地,所述关系网构建单元,还用于:若所述关系网中存在一组节点满足如下关系,则将所述一组节点合并为一个节点;所述关系为所述一组节点中的节点个数不少于2个,且每两个存在输出和输入关系节点的相关性不小于合并阈值。进一步地,所述分组单元,还用于:将所述子关系网中出现频率最高的描述信息作为所述子关系网的标识信息。附图说明为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本发明实施例提供的一种元数据分组方法的流程示意图;图2为本发明实施例中节点与元数据的示意图;图3为本发明实施例中节点与元数据的示意图;图4为本发明实施例中数据库中节点之间元数据的输入输出关系示意图;图5为本发明实施例中数据库中节点之间元数据的输入输出关系示意图;图6为本发明实施例中优化前与优化后的关系网的示意图;图7为本发明实施例提供的利用优化方法对关系网进行优化后的关系网示意图;图8为本发明实施例中关系网在分组前的节点之间的关联关系示意图;图9为本发明实施例中关系网进行分组时节点之间的关联关系示意图;图10为本发明实施例中利用粒子群算法对关系网进行分组过程后节点之间的关联关系示意图;图11为本发明实施例提供的一种元数据分组装置的结构示意图。具体实施方式为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。本发明实施例提供一种元数据分组方法,如图1所示,包括步骤101,获取数据库的各节点中的元数据的来源信息;步骤102,根据所述各节点中的元数据的来源信息确定各节点之间的关联关系和关联度;步骤103,根据所述各节点及所述各节点之间的关联关系构建关系网,所述关系网中的边为所述各节点之间的关联关系,所述关系网中的边的权重为具有关联关系的节点间关联度;步骤104,利用粒子群算法对所述关系网进行划分,得到多个子关系网,其中,每个所述子关系网为一个分组。在步骤101中,通过获取数据库中各节点中的元数据的来源信息,可以得知各节点中元数据的输入输出关系,在本发明实施例中,可以认为节点就是保存在数据库中的表,而元数据就是表中的字段,例如如图2所示,a代表数据库中的表,a表中的“name”、“class”、“address”表示的是字段,也就是说,在本发明实施例中,a表就是节点,而“name”、“class”、“address”字段就是a表中的元数据。在本发明实施例中,元数据的来源信息指的是元数据是从哪个节点中输出的,或者是从数据库哪一层输入到数据库中,并执行了几个元数据合并的语言,将几个元数据组成了一个节点的,等等,所以元数据的来源信息可以通过多种途径来获得,例如通过获得建立数据库中表的建立过程,获得元数据的来源信息,本发明提供两种获得元数据的来源信息。方法一在本发明实施例中,可以通过建立数据库中表的建立过程,获得表中元数据的来源信息,如图3所示,数据库中的表b即节点b由“name”、“class”、“address”、“age”、“sex”元数据构成,如表1所示,每个元数据的来源信息都能够从表1中获得。元数据来源信息name节点p输出class节点p输出address节点f输出age节点m输出sex节点v输出表1:节点b中元数据的来源信息表方法二在本发明实施例中,根据节点与节点的实体关系图,来确定节点中元数据的来源信息,例如,如图4所示,节点c中有5个元数据,元数据1来源于节点d,元数据2来源于节点a,元数据3来源于元数据e,元数据4和元数据5来源于元数据b。在本发明实施例中,只以以上两种方法作为如何获取元数据的来源信息的说明,还可以使用其它方法获得元数据的来源信息。在本发明实施例中,在获取节点中的来源信息后,就可以获得节点与节点之间的关联关系以及关联度,在本发明实施例中,如图4和表1所示,节点b 与节点p、节点f、节点m、节点v有关联关系,节点c与节点a、节点b节点d、节点e有关联关系;在本发明实施例中,关联度为有关联关系之间的节点之间的元数据的交互数量,可选的,可以利用两个节点之间元数据的输入输出关系,即元数据的来源信息确定两个节点的关联度,如表1所示,节点c与节点p之间有两个元数据的输入输出,所以关联度可以设置为2,节点c与节点f、节点m、节点v之间有一个元数据的输入输出,所以关联度可以设置为1。在本发明实施例中,根据上述两种方法确定的元数据的来源信息,可以获得两个有元数据输入输出的节点之间的关联关系,例如如图5所示,数据库中存在节点v1、节点v2、节点v3、节点v4之间存在关联关系,将节点v1与节点v2之间的关联关系定义为一条边,将节点v2与节点v3之间存在的两个关联关系定义为两条边,节点v3与v4之前的关联关系定义为一条边。在本发明实施例中,可选的,可以定义数据库中的节点,即数据库中的表为一个四元组,即一个节点包括节点中元数据的来源信息,节点中输出元数据的集合,节点中输入元数据的组合,以及节点的文字性描述,例如节点a中由“name”、“score1”、“score2”、“score3”四个元数据构成,节点a还包括了“name”字段来自节点m的输出,“score1”字段来自节点n的输出,“score2”、“score3”为在建立节点a时就存在的字段,节点a中“name”、“score1”为输入字段的集合,“score2”、“score3”字段为输出字段的集合,对节点a的文字性描述为“成绩分数表”。在本发明实施例中,可以用权重来表示两个节点的关联度,如表1所示,节点c与节点p之间的关联度为2,可以设置节点c与节点p之间的权重为2,节点c与节点f、节点m、节点v之间的关联度为1,可以设置节点c与节点f、节点m、节点v之间的权重为1,或者根据图5所示的数据库中节点之间的实体关系图,节点v1与与节点v2之间的权重可以设置为1,节点v2与节点v3之间的权重可以设置为2,节点v3与节点v4之间的权重可以设置为1。在本发明实施例中,还可以通过两个节点之间的相关性来确定边的权重,例如图5中节点v3有两个元数据来源于节点v2,即v2的三个元数据中有两个输出给了v3,即这条边的相关性可以确定为2/3。在本发明实施例中,根据节点与节点之间的边以及节点与节点之间的权重可以构建数据库中节点与节点之间的关系网,如图5所示,数据库中存在一个关系网,节点v1与v2之间有关联关系,并且v1与v2之间的边的权重为1,节点v2与v3之间有关联关系,并且v2与v3之间的边的权重为2,节点v3与节点v4之间有关联关系,并且v3与v4之间的边的权重为1。在本发明实施例中,将数据库中有关联关系的节点通过边和权重连接起来,形成节点之间有元数据输入输出关系的关系网,避免现有技术中通过元数据的属性描述缺乏时,无法对元数据进行有限分组的问题。进一步地,在建立了数据库中节点之间的关系网后,还需要对关系网进行优化,在本发明实施例中,提供几种关系网优化的方法对关系网进行优化。方法一如图6所示,图6中(a)图为优化前的关系网,节点v2与节点v3之间存在两条边,为了能够简化关系网中边的数量,在边的描述上加入权重,表示两个有关联关系的节点之间有多少条边,例如节点v2与v3之间有两条边,节点v2与v3之间的边的权重为2,则简化后的关系网如图6中(b)图所示,节点v2与v3之间只存在一条边,这条边的权重为2,因此在简化后的关系网中每两个有关联关系的节点之间都只存在一条边。方法二在本发明实施例中,对关系网进行优化还需要删除无效节点。在本发明实施例中,无效节点指的是与所述关系网中其他节点的相关性小于合并阈值且仅作为所述关系网中其他节点的元数据的输入来源,或,所述无效节点为与所述关系网中其他节点的相关性小于合并阈值且所述无效节点仅作为所述关系网中其他节点的元数据的输出来源,或所述无效节点为与所述关系网中其他节点 的相关性为零。在本发明实施例中,合并阈值指的是两个有关联关系的节点可以合并为一个节点的可能性,两个节点之间的相关性不小于合并阈值,则说明两个节点可以合并为一个节点,两个节点之间的相关性小于合并阈值,则说明两个节点不能合并为一个节点。在本发明实施例中,两个节点之间的相关性为两个节点之间元数据的输入输出关系的值,例如,如图7所示,数据库中存在一组节点,节点vv2与节点vv3,节点vv2与vv3之间存在一条边,权重为3即说明节点vv3中的元数据全部来源于节点vv2,或者节点vv2中的元数据全部来源于节点vv3,则节点vv2与vv3之间的边的相关性为2/3。可选的,在本发明实施例中,由于两个节点之间的相关性计算是通过数学计算方式来确定的,所以相关性计算结果的值为小于等于1的正数,可以设置合并阈值为0.8,即两个节点之间的相关性的计算结果取模的值大于或者等于0.8,则认为两个节点可以合并为一个节点。在本发明实施例中,存在三种无效节点,这些无效节点在关系网划分中会影响划分效果,所以需要将这些无效节点进行删除。一种是存在与数据库中与其它节点的关联度小于合并阈值的节点,即该节点不能与其它节点合并,并且,该节点中的元数据是全部用于输出给其它节点的。另一种是存在与数据库中与其它节点的关联度小于合并阈值的节点,即该节点不能与其它节点合并,并且,该节点中的元数据全部来自于其它节点的输出。还有一种就是在建立关系网后,还有一些节点与其它节点之间没有关联关系,即节点与其它节点之间不存在元数据的输入输出关系,与关系网中其它节点之间的关联度为零,则不能够按照元数据的输入输出关系将元数据进行分组,所以,将这一类型的节点删除。方法三在本发明实施例中,在关系网中有一组节点,节点的个数不少于n,边不少于n-1,且每个边对应的两个节点之间的相关性不小于合并阈值,则将该组中的所有节点合并为一个节点。例如如图7所示,合并阈值为0.5,则节点vv2与节点vv3之间边的相关性为2/3,2/30.5,所以节点vv2与vv3可以合并为一个节点。可选的,在本发明实施例中,还可以通过以下公式计算节点与节点之间的相关性:其中,mout为节点的输出给另一个节点的元数据,min为另一个节点向该节点输入的元数据,在本发明实施例中,可以将节点中元数据的输入输出关系用向量来表示,例如,如图7所示的两个节点,节点vv2中向节点vv3输出三个元数据,节点vv3向节点vv2输出三个元数据,在本发明实施例中,可以将元数据映射到哈希表中,然后映射出的哈希值取模,就可以得到每个元数据的计算出的一串向量,例如元数据name的字段通过哈希函数计算后对计算结果进行取模,在取模后的结果会映射到向量的一个单元格内,例如对哈希函数计算后的结果是除以1000取模的,那么就有1000个单元格,如果取模后的结果是落在第900个单元格内,则将该单元格的位置的值取1,其它位置为0,所以会形成(1,0,0,0,1,1,1,1,1,1,0……)的向量。或者,在本发明实施例中,可以设置一个向量来表示节点中元数据的输入或者输出,设置0表示节点中的该元数据不是来源于其它节点,也不是输出给其它节点,设置1表示节点中的该元数据是其它节点中的元数据的输入,或者该元数据是输出给其它节点。在本发明实施例中,节点vv3的输入的元数据的向量为(1,0,1,1),节点vv3的向节点vv2输出向量为(1,0,1,1),则可以按照上式计算出vv3与vv2之 间的相关性为1,则可以将节点vv2与vv3进行合并。在本发明实施例中,在进行计算节点相关性之前,还需要计算节点是否需要被拆分,例如,节点x1向节点x3输出“a”、“b”、“c”、“d”四个元数据,节点x2向节点x3输出“e”、“f”两个元数据,而节点x3中包括“a”、“b”、“c”、“d”、“e”、“f”六个元数据,则可以将节点x3拆分成节点x31以及节点x32,在拆分后节点x31中的所有字段都来自于节点x1的输出,则合并节点x1以及节点x31,在拆分后节点x32中的所有字段都来自于节点x2的输出,则合并节点x2以及x32。在本发明实施例中,将建立的关系网进行优化后,就要对关系网进行分组,在本发明实施例中,利用粒子群算法和经典社区划分算法bgll算法对本发明实施例中的关系网进行分组,避免了在传统分组凝聚过程中节点与节点之间,群与群之间反复融合导致的时间开销较大的问题。在本发明实施例中,对关系网进行分组的过程如下:如图8所示,数据库中存在一个关系网,由节点a、b、c、d组成,根据图8节点之间的边的关系,可以确定粒子群算法中粒子的初始位置为x1=(b,a,b,c)、x2=(b,c,b,c)、x3=(b,a,d,c)、x4=(b,c,d,c),在本发明实施例中,由于只给出了一个关系网中有四个节点,所以粒子群算法中粒子的初始位置为四个节点之间的连接关系,若数据库中的关系网为多个节点之间的连接关系,则粒子的初始位置的数量也对应增加。在本发明实施例中,在确定粒子的初始化位置后,还需要确定粒子的初始化速度,初始化速度和节点中每个边的权重有关,权重越大,则根据图8中权重值的不同,确定粒子的初始化速度为v1=(b,c,b,d)v2=(b,a,b,d)v3=(b,c,d,d)v4=(b,a,d,d)。在确定了粒子的初始化速度后,假设粒子x1的a初始化选择b,b初始化选择a,c初始化选择d,d初始化选择c。那么粒子x1将下图划分成两个群,如图9所示,节点边上的权重不变。然后根据经典bgll算法,计算粒子群中个体适应度以及全局适应度的值,在本发明实施例中,个体适应度的值的计算可以描述为则δqv用经典bgll算法进行计算,具体如下式所述:在本发明实施例中,c表示加速常数,v表示种群数量,是关系网中群体的内部边的权重,例如,如图9所示,群1内部边的权重为1,群2内部边的权重为2,是关系网中所有群体的权重,即群1与群2的权重和为3,wi是所有节点i相关的边权重,例如,节点a相关的边权中为1,wi,in是节点i与群相连接的所有边的权重,m表示关系网中所有边的权重之和,在图9中由于只有两个节点,所以节点a与群相连接的所有边的权重还是等于1。在本发明实施例中,计算了δqv后,再计算个体适应度的值,全局适应度的值为fitg=max(pbest)。在每次迭代后,都需要更新粒子群中粒子的速度,其更新算法描述如下:其中即粒子在新的群中的个体适应度最大值除以种群中所有粒子的个体适应度的和,即在粒子的处于m位置时,所有可能的粒子最优适应度进行平均化,然后按照随机值的方式选择适合粒子的m位置的速度。在对粒子群中的粒子速度进行更新后,调整粒子的位置。循环上述步骤,直到满足fitn-fitn-1<ε,本发明实施例中ε为收敛阈值,当fitn-fitn-1<ε时,由于ε非常小。所以说明种群中粒子的位置不再发生大的变化时,则认为分组完毕。进一步地,在本发明实施例中,为了更好的对分组后的元数据进行管理, 还需要对分组后的每个组进行标记,标记后的每个组的组名就是元数据的标记。在本发明实施例中,将分组后得到的每个子关系网中出现频率最高的描述信息作为子关系网的标识信息,例如如图10所示,将关系网中的7个节点分为两个子网,根据每个子关系网中节点的描述信息的出现频率作为子关系网的标识信息,第一子网中,节点a的描述信息为成绩,节点b的描述信息为成绩,节点e的描述信息为数学成绩,节点f的描述信息为平均成绩,所以可以将成绩作为第一子网的标识信息。可选的,在本发明实施例中,可以采用tf-idf的方法对子关系网进行标识,在本发明实施例中,使用tf-idf方法为每个子关系网进行标记,是由于tf-idf方法的主要思想是,如果某个词或短语在一篇文章中出现的tf高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类,tf是词频(termfrequency)的缩写,指的是某一个给定的词语在该文件中出现的频率。idf为逆向文件频率(inversedocumentfrequency)的缩写,是一个词语普遍重要性的度量。某一特定词语的idf,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。在本发明实施例中,可以用以下公式来表示tf:在本发明实施例中,分子表示的是该词在文件中的出现次数,而分母则表示的是该词在文件中所有字词的出现次数之和。在本发明实施例中,可以用以下公式来表示idf:在本发明实施例中,tf表示词条在任一一个子关系网中出现的频率,例如如图10所示,tf表示节点a的描述信息为成绩在第一子网中出现的频率,在本发明实施例中成绩的tf为2/4=0.5,而idf表示的是词条在所有节点a 的描述信息在所有子关系网中出现的频率再对频率取对数,在本发明实施例中,对数据库中的节点进行分组后,得到5000个子关系网,而成绩这一描述信息在50个子关系网中出现过,则成绩的idf为log(5000/50)=2,则根据tf-idf方法计算的成绩这一描述信息的tf-idf的值为0.5*2=1。在本发明实施例中,根据计算的每个节点的描述信息的tf-idf值对节点的描述信息进行排序,tf-idf值越高,排序的位置越靠前,将排序后排序位置第一的描述信息作为该子关系网的标识信息。可选的,在本发明实施例中,还可以首先对子关系网中的节点的描述信息进行二元以及三元分词,再计算二元以及三元分词的tf-idf的值,根据二元以及三元分词的tf-idf的值进行排序,排序的位置越靠前,将排序后排序位置第一的二元分词或者三元分词作为该子关系网的标识信息。例如,如图10所示,节点f的描述信息为平均成绩,则对f的描述信息为平均成绩进行二元分词为“平均”、“成绩”,对f的描述信息为平均成绩进行三元分词为“平均成”、“绩”,分别计算“平均”、“成绩”、“平均成”、“绩”的tf-idf的值,根据“平均”、“成绩”、“平均成”、“绩”的tf-idf的值进行排序,排序的位置越靠前,将排序后排序位置第一的“平均”、“成绩”、“平均成”或者“绩”作为该子关系网的标识信息。本发明还提供一种元数据分组装置,如图11所示,包括:获取单元s1001,用于获取数据库的各节点中的元数据的来源信息;确定单元s1002,用于根据所述各节点中的元数据的来源信息确定各节点之间的关联关系和关联度;关系网构建单元s1003,用于根据所述各节点及所述各节点之间的关联关系构建关系网,所述关系网中的边为所述各节点之间的关联关系,所述关系网中的边的权重为具有关联关系的节点间关联度;分组单元s1004,用于利用粒子群算法对所述关系网进行划分,得到多个子关系网,其中,每个所述子关系网为一个分组。进一步地,所述确定单元s1002,具体用于:若第一节点中的一个元数据来源于第二节点,则确定所述第一节点与所述第二节点之间存在一个关联关系;将所述第一节点与所述第二节点之间存在的关联关系的数量确定为所述第一节点与所述第二节点之间的关联度,其中,所述第一节点与所述第二节点为所述数据库中的任意两个不同的节点。进一步地,所述关系网构建单元s1003,具体用于:若所述第一节点与所述第二节点之间存在关联关系,则确定所述第一节点与所述第二节点在所述关系网中存在一条边,其中,所述边的权重为所述第一节点与所述第二节点之间的关联度。进一步地,所述关系网构建单元s1003,还用于:若所述关系网中存在无效节点,则将所述无效节点删除,其中,所述无效节点为与所述关系网中其他节点的相关性小于合并阈值且仅作为所述关系网中其他节点的元数据的输入来源,或,所述无效节点为与所述关系网中其他节点的相关性小于合并阈值且所述无效节点仅作为所述关系网中其他节点的元数据的输出来源,或所述无效节点为与所述关系网中其他节点的相关性为零。进一步地,所述关系网构建单元s1003,还用于:若所述关系网中存在一组节点满足如下关系,则将所述一组节点合并为一个节点;所述关系为所述一组节点中的节点个数不少于2个,且每两个存在输出和输入关系节点的相关性不小于合并阈值。进一步地,所述分组单元s1004,还用于:将所述子关系网中出现频率最高的描述信息作为所述子关系网的标识信息。本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1