相关规则分析装置以及相关规则分析方法【
技术领域:
】[0001]本发明涉及一种用于为了信息系统(system)的开发等而对用于掌握在作为对象的信息系统中利用的DB(Database:数据库)的标准的相关规则进行分析的技术。【
背景技术:
】[0002]作为本
技术领域:
的【
背景技术:
】,有日本特开平11-259567(专利文献1)。在该公报中记载了为了分析相关规则,“提供一种技术,其能够提取竞争的事件的数据集(dataset),能够搜索即使发生比例低而关联性也强的数据集”(参照摘要)。【
发明内容】[0003]在信息系统(system)的开发、维护中,理解DB(数据库)的标准是重要的。DB的标准有时明确地记载在说明书中,但也有时被隐含地规定。为了理解隐含的标准,从DB的数据(data)中提取特征的技术是有效的。具体地说,通过使用购物篮(basket)分析,能够根据数据的同时出现关系的原则(相关规则)找到DB所保存的数据应该满足的依存关系/制约条件(标准的一个方面)。此外,在本发明中,作为DB特别设想RDB(Relat1nalDatabase:相关数据库)。这时,通过购物篮分析,能够找到存在于列(column)之间的数据依存关系/制约条件。[0004]例如在某RDB的表(table)中,如果通过购物篮分析能够发现“在‘删除标志(flag)’的值为‘1’时,‘删除年月日’的值一定不是NULL(空)”这样的相关规则,则能够推测存在“在‘删除标志’为‘1’时,‘删除年月日’的值是必需的”这样的标准。[0005]—般,在购物篮分析中,大多输出大量的相关规则。因此,必须进行用于削减人进行确认时的麻烦的处理。采用以下的手段,即(1)通过汇总所提取出的相关规则来减少相关规则的总数,另外,(2)通过机械地进行评分(scoring),使得能够进行过滤/排名(filtering/ranking)(排序:sort)。[0006]对于其中的(2)评分,大多使用作为相关规则的指标值的支持度(Support)、准确度(Confidence)、提升值(Lift)这样的值。另外,在上述专利文献1中说明了根据“期待关联指数”、“关联强度指数”等指标,将“虽然在现有的购物篮分析中为低的评价但是有用的规则”反映到得分(Score)中的方法。[0007]但是,通过这些现有的方法进行数值化的指标只是作为各个相关规则的有用性,并不是表示作为存在于列之间的标准的有用性的指标。存在于列之间的标准由多个相关规则构成,因此存在只有这样的指标是不充分的问题。[0008]另外,通过现有的方法数值化了的指标值,是对所有的相关规则进行统一处理的指标值,不是依据作为标准的特性的指标值。具体地说,在表示数据的对应关系的相关规则(例如在“年休标志”为“1”时“代休标志”是“0”)、表示数据的大小关系的相关规则(例如在“售价”为“105”时“材料费”是“30”)中,通过相同的方法计算评价值。因此,存在无法计算出适当地表示相关规则的有用性的评价值的问题(具体地在实施例中说明)。[0009]因此,本发明提供一种结构,其综合多个相关规则,另外输出依据数据的特性的观点下的评价值,由此,对作为存在于RDB表的列之间的标准的有用性进行数值化。由此,其目的在于从作为RDB的标准的观点出发,适当地对相关规则进行评分。[0010]为了解决上述问题,在本发明中,作为上述评分,使用与数据有关的条件的出现比例、满足制约的比例的比率。能够将其结果用于相关规则的汇总。更详细地说,采用以下的结构。作为一种相关规则分析装置,其从存储在数据库中的数据中至少提取该数据库的DB列的数据依存关系、制约条件等的任意一个,具备:相关规则提取单元,其从存储了作为分析对象的数据的DB表数据中,提取多个列之间的数据的同时出现关系的信息作为相关规则;相关规则汇总单元,其根据特定的共通性汇总所提取的相关规则;汇总结果妥当性判定单元,其根据汇总后的各相关规则的出现频度和组合,计算包含数据依存关系和制约条件的至少一方的有用性指标。在此,在本申请说明书中,“同时出现关系”表示在一方出现时另一方也出现,也可以不一定在时间上一致地出现。此外,在本发明中也包含用于实现方法、上述装置的计算机程序(computerprogram)。[0011]根据本发明,从作为RDB的标准的观点出发,能够对从RDB的数据中提取的相关规则进行评分。由此,能够提供例如在本发明的利用者分析RDB的标准时,用于一边适当地进行排名(ranking)或进行过滤(filtering)—边确认作为表示该标准的信息的相关规则的附加信息。因此,能够使RDB的标准的分析作业高效。【附图说明】[0012]图1是本发明的一个实施例的相关规则分析装置的结构图的例子。[0013]图2是说明本发明的一个实施例的相关规则分析装置的处理的流程图的例子。[0014]图3是说明本发明的一个实施例的从数据库读入的表的数据的影像图的例子。[0015]图4是说明本发明的一个实施例的计数列值的出现次数的处理的影像图的例子。[0016]图5是说明本发明的一个实施例的列特性判定原则的影像图的例子。[0017]图6是说明本发明的一个实施例的制作列特性信息的处理的影像图的例子。[0018]图7是说明本发明的一个实施例的计数列值的组的出现次数的处理的影像图的例子。[0019]图8是说明本发明的一个实施例的相关规则汇总原则的影像(image)图的例子。[0020]图9是说明本发明的一个实施例的选择相关规则汇总原则的处理的影像图的例子。[0021]图10是说明本发明的一个实施例的导出相关规则汇总名的处理的影像图的例子。[0022]图11是说明本发明的一个实施例的重构相关规则的处理的影像图的例子。[0023]图12是说明本发明的一个实施例的补充重构后的相关规则的原因侧件数信息的处理的影像图的例子。[0024]图13是说明本发明的一个实施例的补充重构后的相关规则的结果侧件数信息的处理的影像图的例子。[0025]图14是说明本发明的一个实施例的为了高效地进行补充相关规则的信息的处理而使用的列值出现次数的影像图的例子。[0026]图15是说明本发明的一个实施例的根据相关规则的信息计算并更新指标值的处理的影像图的例子。[0027]图16是说明本发明的一个实施例的汇总相关规则的处理的影像图的例子。[0028]图17是针对本发明的一个实施例的相关规则汇总结果说明基于提升(Lift)的差异的影像图的例子。[0029]图18是说明本发明的一个实施例的补充相关规则汇总结果的信息的原则的影像图的例子。[0030]图19是说明本发明的一个实施例的补充相关规则汇总结果的信息的处理的影像图的例子。[0031]图20是说明本发明的一个实施例的将相关规则汇总结果变换为在视觉上容易理解的形式的处理的影像图的例子。【具体实施方式】[0032]以下,使用【附图说明】本发明的一个实施例。[0033]在本实施例中,说明相关规则分析装置的例子。[0034]图1是本实施例的相关规则分析装置的结构图的例子。本相关规则分析装置100具备CPU101、存储器(memory)102、输入装置103、输出装置104、外部存储装置105。即,通过所谓的计算机(computer)实现。外部存储装置105保存分析对象表数据存储部106、列值出现次数存储部121、列特性判定原则存储部107、列特性存储部108、相关规则汇总原则存储部109、相关规则存储部110、相关规则汇总结果存储部111、汇总后相关规则评价原则存储部112,进而保存处理程序113。处理程序(program)113保存列值出现次数计数(count)处理部122、列特性判定部114、相关规则汇总原则判定部115、相关规则提取处理部116、相关规则汇总前处理部117、相关规则汇总处理部118、汇总结果妥当性判定部119、汇总结果视觉化处理部120。[0035]处理程序113在执行时被读入到存储器102,通过CPU101执行。此外,使用流程图在后面说明其处理内容。[0036]列特性判定原则存储部107、相关规则汇总原则存储部109、汇总后相关规则评价原则存储部112中分别预先输入列特性判定原则、相关规则汇总原则、汇总后相关规则评价原则。在将后面说明列特性判定原则、相关规则汇总原则、汇总后相关规则评价原则的细Το[0037]将经由输入装置103从外部输入的DB表的数据写入到分析对象表数据(table当前第1页1 2 3 4