专利名称::基于关联规则的卷烟配方维护行为挖掘系统及其方法
技术领域:
:本发明涉及一种基于关联规则的巻烟配方维护行为挖掘系统及其方法。
背景技术:
:巻烟产品的风格是消费者选购巻烟的重要依据。从消费者角度来看,巻烟的风格包括劲头、巻烟的留香、口腔的感受和烟气的浓度及走势。保持巻烟风格的相对稳定性是建立品牌的基本要求。巻烟风格的保持受许多主客观因素的影响,其中最重要的就是保持叶组配方的相对稳定性。由于不同地区,不同档次和部位的烟叶的化学成分相差较大,对巻烟产品的质量影响也是最大的,只有叶组配方的相对稳定,才能保证一个品牌烟的风格稳定。实际生产中由于原材料的生产量有限,供应量和实际需求量存在差距,所以当叶组配方中一种烟叶或几种烟叶出现库存短缺或价格、质量方面的波动时,需要用另一种品质特征近似的烟叶来替换。因此寻找与这些烟叶在品质特征上最能接近的替代烟叶,而使整个产品的质量不受影响,保持该品牌巻烟质量的相对稳定性就成了研究的关键问题。近年来,许多巻烟配方研究人员致力于研究一种快速选择替代烟叶的方法。目前常见的方法有两种,一种是根据经验选择产地、等级接近的烟叶作为替代烟叶;另一种是以检测的常规化学成分、烟气成分为依据,利用层次聚类法建立烟叶的分类模型,通过建立的模型对需要替代的烟叶找出其相对优化的替代品。第一种方法的缺陷是替代效率低,往往需要多次调试才能成功;第二种方法是检测工作需要耗费大量的人力、物力和材料,而且烟叶中的化学成分多达上千种,目前己检测的化学成分只占少数,难以说明烟叶质量的相似性。这两种方法的共同缺点是没有考虑替代烟叶的协同互补性,单纯只依靠某种方法,难以实现叶组的最优搭配。巻烟叶组配方中烟叶的协同互补性又很难用语言描述,这些规律都隐含在历史的叶组配方维护数据中。在历史配方数据中,积累了很多烟叶组合的规律,充分挖掘这些规律中烟叶的搭配和协同信息,可以直接有效的指导实际的配方维护。关联规则算法是一种很好的挖掘烟叶间组合和搭配的方法。关联规则挖掘是一种应用广泛的机器学习技术,它运用统计原理,在海量的数据中发现数据项之间的关系,1993年Agrawal等人首先提出了交易数据库中不同商品之间的关联规则挖掘,并逐渐被改进优化。目前关联规则挖掘技术己经被广泛应用在金融行业的客户需求和销售领域的购物篮分析中。但把关联规则应用到工业生产和烟草产品配方维护中还没有先例。关联规则挖掘问题可以分为发现频繁项目集和生成关联规则两个子问题,其中发现所有的频繁项集是生成关联规则的基础。
发明内容本发明的目的就是为克服传统巻烟叶组配方维护方法的弊端,提供一种能够充分利用巻烟企业所积累的历史数据,将叶组配方数据中隐含的多位巻烟配方专家维护配方时的行为规律提取为规则表示形式,并且全面地考虑烟叶间的优化组合,更高效、实际地指导巻烟产品的配方维护,达到保持巻烟产品配方的相对稳定性的目的基于关联规则的巻烟配方维护行为挖掘系统及其方法。为实现上述目的,本发明采用如下技术方案-一种基于关联规则的巻烟配方维护行为挖掘系统,它包括数据库服务器和数据挖掘客户端,其中数据挖掘客户端包括可视化展示工具,该可视化展示工具与数据展示处理模块和结果展示模块连接;数据展示处理模块与数据连接模块连接,数据连接模块提供各种不同数据类型格式数据源的连接,生成挖掘算法可以直接使用的数据库,提供数据对象访问的接口;结果展示模块与挖掘处理模块连接,挖掘处理模块分别与模型库模块、模型评估模块和数据连接模块连接;数据连接模块则与身份验证处理模块和数据库服务器中的数据源连接,同时身份验证处理模块与数据库服务器中的权限数据库连接,身份验证处理模块通过用户名和密码验证用户的合法性。所述可视化展示工具和结果展示模块通过直方图、点线图、表格形式直观展示处理结果。所述挖掘处理模块提供关联规则的数据挖掘算法,设定、修改关联规则算法的参数,执行用户提交的数据挖掘任务。所述模型评估模块利用不同挖掘模型对测试数据进行挖掘分析,对结果进行评估,根据评估结果选择相应的挖掘模型进行数据挖掘。一种基于关联规则的巻烟配方维护行为挖掘系统的使用方法,包括以下步骤St印l:进入系统启动系统,输入用户名和密码,进行用户身份验证;用户名密码正确,则通过验证,进入系统;用户名或密码不正确,则退出系统;St印2:设置数据库,导入巻烟叶组配方数据;该系统对不同服务器上的数锯库进行模型的建立和输入,选择服务器连接和数据库数据源;导入数据库中的巻烟叶组配方数据,作为关联规则模型的训练数据;St印3:建立频繁烟叶组合模型巻烟生产中,不同档次的巻烟其用料不同,烟叶组合使用情况也不同;要挖掘烟叶搭配使用的规律,找到频繁烟叶组合模型,必须按档次进行划分;然后分别对高档烟,中档烟和低档烟建立关联规则模型;(1)指定导入的历史巻烟配方数据为关联规则模型的训练数据;(2)设置算法参数:MAXIMUM—ITEMSET一COUN(最大项集个数)指定要生成的最大项集个数;MAXIMUM—ITEMSET_SIZE(最大项集大小)指定一个项集中允许的最大项数;MAXIMUM—SUPPORT(最大支持度)指定可包含某项集的最大事例数;MINIMUM—IMPORTANCE(最小重要性)指定关联规则的重要性阈值;重要性低于此值的规则将被筛选出去;MINIMUM—ITEMSET—SIZE(最小项集大小)指定一个项集中允许的最小项数;MINIMUX—PROBABILITY(最小概率)指定规则为True的最小概率;MINIMUM_SUPPORT(最小支持度)指定包含该项集的最小事例数;(3)调用关联规则算法训练模型,得出当前频繁烟叶组合模型;St印4:建立烟叶替换规则模型(1)导入数据库中的烟叶替换记录的数据;(2)设置关联规则算法参数MAXIMUM—SUPPORT(最小支持度);用替换前烟叶作为输入,替换后烟叶作为输出;(3)调用关联规则算法训练模型,得出烟叶替换规则;St印5:推荐最佳替换烟叶根据上述的St印3和St印4,已经产生了频繁烟叶组合模型和烟叶替换规则模型;输入巻烟的档次信息和烟叶名称以及推荐个数,调用关联规则算法建立的上述两个叶组配方维护行为挖掘模型;系统自动输出可作为替代烟叶的方案,并给出重要性值.St印6:频繁烟叶组合模型和烟叶替换规则模型性能评价应用计算烟叶替代实例的预测正确率来评价基于关联规则算法训练后建立的频繁烟叶组合模型和烟叶替换规则模型的性能;如将IO个己有烟叶调整方案的巻烟叶组配方作为测试样本,将实际替代烟叶与模型给出的替代烟叶进行对比,正确率未达到设定值,则转到St印3,并且'调整模型参数MINIMUM—SUPPORT(最小支持度),MINIMUX—PROBABILITY(最小概率);当正确率达到要求,则将转到步骤St印7保存所述模型;St印7:保存频繁烟叶组合模型和烟叶替换规则模型通过St印6模型性能评价后,保存建立的烟叶频繁项集模型和烟叶替换规则模型到数据库中,以应用于今后的叶组配方维护过程中;并展示挖掘出的频繁烟叶组合规则和烟叶替换关系的规则。本发明的有益效果是1.按照本发明所提供的基于关联规则的巻烟配方维护行为挖掘系统,可以快速、准确、自动地实现烟叶替代。2.按照本发明所提供的基于关联规则的巻烟配方维护行为挖掘系统,数据可视化展现模块和挖掘结果展示模块的数据展示,可以通过直方图、点线图、表格形式直观展示。3.按照本发明所提供的基于关联规则的巻烟配方维护行为挖掘系统,克服了传统替代方法不能直接用于叶组配方中替代烟叶只考虑单一因素的弊端。4.按照本发明所提供的基于关联规则的巻烟配方维护行为挖掘系统,克服了传统替代方法忽略了历史数据,造成大量的有实用价值的配方技巧得不到充分利用的缺陷。系统提供的方法不需要事先得到各类型烟叶化学成分的要求,从而简化了问题的复杂性,增强了应用的可行性。降低了配方维护和烟叶替代的难度,对科学、高效地进行巻烟产品开发设计,提高工作效率,增强巻烟生产的稳定性,提高企业市场竞争力,引导其更快、更好的发展具有重要的现实意义。5.按照本发明所提供的基于关联规则的巻烟配方维护行为挖掘系统,对巻烟行业中不同烟叶间协同互补关系的分析研究及不同烟叶类型间的优化组合和替代关系提供准确、高效的决策支持,达到了.保持品牌^i叶配方稳定的目的。图l本发明的系统结构示意图;图2本发明系统的使用流程其中,1.数据库服务器,2.数据挖掘客户端,3.可视化展示工具,4.数据展示处理模块,5.结果展示模块,6.数据達接模块,7.挖掘处理模块,8.模型库模块,9.模型评估模块,10.身份验证处理模块,11.数据源,12.权限数据库,13.模型预测模块具体实施例方式本发明提出了一种围绕数据挖掘中关联规则挖掘的巻烟配方维护系统。本系统较完善的实施了烟叶配方的数据挖掘维护功能。该系统客户端运行于windows平台,服务器采用SQLSERVER数据库系统。本发明的基于关联规则的巻烟配方维护行为挖掘系统主要包括两大内容,内容一巻烟配方维护的基于关联规则的烟叶替换算法内容二巻烟配方维护的应用系统首先,本发明构造了一个基于C/S模式的数据挖掘系统,它主要包括数据库服务器和数据挖掘客户端。客户端提供一个用户界面交互窗口,接受用户的输入信息、提供挖掘过程的交互界面和展示挖掘分析结果,其特征在于包含以下几个模块,其系统结构图见附图l:该系统包括数据库服务器1和数据挖掘客户端2,数据服务器1提供模型处理的数据源11及用户的权限数据库12。数据源11为模型的处理及评估提供数据支持,权限数据库12中保存了用户的角色、用户名、用户组名及密码,在一定程度上保证了数据库的安全性。数据挖掘客户端2提供一个用户界面交互窗口,接受用户的输入信息、提供挖掘过程的交互界面和展示挖掘分析结果,其中数据挖掘客户端2具体包含身份验证处理模块10、数据连接模块6、数据展示处理模块4、挖掘处理模块7、模型评估模块9、结果展示模块5等功能模块。身份验证处理模块10提供系统中的角色、用户、用户组的定义及各自权限的管理,保证了数据库的安全访问。角色管理,用于定义系统的角色和相应的角色权限。用户管理,用于定义系统的用户及相应的用户权限。用户组管理,用于定义系统的用户组及相应的权限。数据连接模块6:提供各种不同数据类型格式数据源的连接,生成挖掘算法可以直接使用的数据库,提供数据对象访问的接口。数据展示处理模块4:运用统计学知识,将要处理数据的特性以直观的形势展示给用户,使用户对该部分数据有初步整体的认识和把握。挖掘处理模块7:本系统提供关联规则的数据挖掘处理算法,可以根据具体的挖掘要求设定、修改算法的参数,对数据源提供的数据进行多种模型的挖掘,建立适合本任务的挖掘模型。模型评估模块9:利用不同挖掘模型对测试数据进行挖掘分析,对结果进行评估,根据评估结果选择相应的挖掘模型进行数据挖掘。结果展示模块5:提供直观的、图形化的展示工具对挖掘的结果进行展示。巻烟配方维护的应用系统的使用步骤如下,其使用流程图见附图2:Stepl:进入系统;Step2:设置数据库,导入巻烟叶组配方数据;Step3:建立频繁烟叶组合模型;Step4:建立烟叶替换规则模型;Step5:推荐最佳替换烟叶;Step6:频繁烟叶组合模型和烟叶替换规则模型性能评价;Step7:保存频繁烟叶组合模型和烟叶替换规则模型;结合系统流程图(附图2),系统结构图(附图l)和应用实例,说明其具体实施过程如下St印l:进入系统启动系统,输入用户名和密码,进行用户身份验证。用户名密码正确,则通过验证,进入系统。用户名或密码不正确,则退出系统。该步与系统结构图(附图l)中的权限数据库12和身份验证处理10两个模块相对应.St印2:设置数据库实际使用过程中,用户可能改变存放烟叶配方数据的数据库所在的服务器,该系统可以进行不同数据服务器和数据源的选择,此处选择服务器连接和数据库数据源。该步与系统结果图(附图l)中的数据源11和数据连接模块6两个模块相对应.St印3:建立频繁烟叶组合模型巻烟生产中,不同的档次的烟的用料不同,烟叶组合使用情况也不同。要挖掘烟叶搭配使用的规律,找到频繁烟叶组合模型,必须按档次进行划分。然后分别对高档烟,中档烟和低档烟建立关联规则模型。(l)在数据库中,历史巻烟配方的数据表的结构及说明如下:<table>tableseeoriginaldocumentpage10</column></row><table>在使用关联规则算法时,用版本号作为算法输入的主键,烟叶名称即为输入属性,也为输出属性。(2)设置算法参数'MAXIMUM_ITEMSET—COUN(最大项集数)指定要生成的频繁烟叶组合的最大项集数。如果不加以指定,算法将生成所有可能的项集。MAXIMUMJTEMSET—SIZE(最大项集大小)指定一个频繁烟叶项集中允许的最多的烟叶个数。MAXIMUM—SUPPORT(最大支持度)指定可包含某频繁烟叶项集的最大事例数。如果此值小于1,则表示该值在总事例中所占的百分比。如果大于1,则表示可包含该项集的事例的绝对数。MINIMUM—IMPORTANCE(最小重要性)指定关联规则的重要性阈值。重要性低于此值的规则将被筛选出去。MINIMUM—ITEMSET—SIZE(最小项集大小)指定一个频繁烟叶项集中允许的最少烟叶的个数。MINIMUX—PROBABILITY(最小概率)指定规则为True的最小概率。例如,如果将该值设置为0.5,则指定不生成概率低于50%的规则。MINIMUM—SUPPORT(最小支持度)指定包含某频繁烟叶项集的最小记录数,只有达到该数目,才能生成规则。如果将该值设置为小于1的数,则最小事例数将通过其在总事例数中所占的百分比来加以指定。如果将该值设置为大于1的整数,则指定最小事例数为必须包含该项集的事例绝对数。如果内存有限,算法会增大此参数的值。(3)调用关联规则算法训练模型,得出如下关联模型"支持"是满足当前频繁烟叶模式的在一起使用的次数,"大小"是指当前频繁项集的大小。"项集"是当前频繁项集的烟叶组合。如系统给出这样的一个关联模型:支持为19,大小为2,项集为复烤云南省红河UBF1片烟05年1批烟叶和复烤云南省红河A-C3F片烟04年1批烟叶。它表明,复烤云南省红河UBF1片烟05年1批烟叶和复烤云南省红河A-C3F片烟04年1批烟叶作为一个频繁二项集,它们有19次一起搭配使用的历史记录。St印4:建立烟叶替换规则模型.(1)数据库中,保存烟叶替换记录的部分表结构及说明如下:<table>tableseeoriginaldocumentpage11</column></row><table>运用关联规则算法,用替换前烟叶作为输入,替换后烟叶作为输出。(2)设置关联规则算法参数设置关联规则算法参数,具体参数细节如Step3所说明。设定如下MINIMUM_SUPPORT=0.03,MINIMUM—IMPORTANCE=l.2,MINIMUM—ITEMSETSIZE=0;(3)调用关联规则算法训练模型,得出如下烟叶替换规则-"重要性"是指该规则的可靠程度。规则形式如"调整前烟叶名称-2005年巴西复烤烟->调整后烟叶名称->2004年巴西复烤烟L10CT,重要性为1.74","调整前烟叶名称=2005年云南省曲靖复烤烟C2&调整后烟叶名称》2006年云南省曲靖罗平复烤烟C2F,重要性为1.45"。该规则说明关联规则算法挖掘出使用2004年巴西复烤烟L10CT的烟替换2005年巴西复烤烟的烟。系统得到多条烟叶替换规则,重要性越大,说明该规则越有使用价值。St印5:推荐最佳替换烟叶根据上述的Step3和Step4,己经产生了频繁烟叶组合模型和烟叶替换规则。首先输入一个预替换烟叶的档次信息和烟叶名称以及推荐个数。利用改进的关联规则法建立的叶组配方维护行为挖掘模型,根据需要调整烟叶的某个档次的巻烟牌号,输出替代烟叶的规则。如选择某个牌号巻烟为中档类型,其中2005年巴西复烤烟MDC/S烟因为库存短缺需要调整。当设置推荐条数为2时,系统给出两个可选择的替代烟叶,并给出重要性值。对"2005年巴西复烤烟MDC/S"烟叶,推荐了两个替换烟叶"2004年巴西复烤烟L10CT,重要性1.736;2006年玉溪1复烤烟,重要性1.435"。其中"2004年巴西复烤烟L10CT"的重要性比"2006年玉溪1复烤烟"高,说明2004年巴西复烤烟L10CT更适合替换"2005年巴西复烤烟MDC/S"烟叶。Step3,Step4,Step5三步与系统结构图(附图I)中挖掘处理模块7、模型库模块8和结果展示模块5三个模块相对应。St印6:频繁烟叶组合模型和烟叶替换规则模型性能评价采用实例预测正确率来评价采用改进的关联规则算法训练后建立的模型性能。如将10个已有烟叶调整方案的巻烟叶组配方作为测试样本,将实际替代烟叶与模型给出的替代烟叶进行对比,正确率未达到80%,则转到Step3,并且调整模型参数如MINIMUM—SUPPORT(最小支持度),MINIMUX—PROBABILITY(最小概率)每次增长0.05。当正确率达到要求,则将挖掘出的烟叶替代关联规则模型保存。该步与系统结果图(附图1)中模型评估9模块对应。St印7:保存频繁烟叶组合模型和烟叶替换规则模型保存建立的烟叶频繁项集模型和烟叶替换规则模型到数据库中,以应用于今后的叶组配方维护过程中;并展示挖掘出的规则。该步与系统结果图(附图1)中结果展示5模块对应。其次,巻烟配方维护行为挖掘系统的基于关联规则的烟叶替换算法的步骤如下Stepl:运用关联规则算法,按档次、牌号挖掘巻烟配方中的频繁项集即频繁烟叶组合;Step2:利用历史配方替换调整数据,产生烟叶替代规则;St邻3:给出一个烟叶和档次信息,利用上述建立的两个模型,推荐最佳替换烟叶;所述巻烟配方维护行为挖掘系统的关联规则算法技术方案的Stepl的具体技术方案如下系统将历史数据中所有的叶组配方数据从数据库导入,配方中的烟叶数据既作为输入,又作为输出。利用改进的关联规则算法,找到烟叶的频繁项集,即烟叶的频繁使用组合。(1)关联规则算法原理将所研宄的数据记录集表示成为/={/1,/2,...力}(£1为正整数,d大于等于l)是数据中所有记录的集合,其中ihi2......id分别表示记录集I中的一条记录,事物集r=化力W(d为正整数,d大于等于l)是所有事务的集合,其中ta2......td分别表示事物集T中的一个事务,每个事务tk(k大于等于1,小于等于d)包含的项集都是/的子集,即t产&,i2,i4…)。在关联分析中,包含0个或多个项的集合被称为项集。如果一个项集包含;t个项,则称它为/t项集。以分析频繁烟叶组合的数据为例,则数据集I特指烟叶配方记录数据表的所有记录,h,i2,…分别指烟叶配方记录数据集中的第一条记录,第二条记录……等,事务集T特指所有配方调整的版本记录,tt,t2……分别表示第一个配方调整的版本,第二个调整的版本……,其中tht2……等每个配方调整版本中,都包含若干条配方记录数据集即I中的记录.如果通过关联规则分析,有ifc个烟叶一起搭配使用,则这6个烟叶就是一个;t项集.如2005年巴西复烤烟和2004年巴西复烤烟L10CT为一个项集,我们称其为二项集,记作项集{2005年巴西复烤烟,2004年巴西复烤烟Liocn。频繁项集是在数据集中出现频率相当高的那些项集。项集出现的阀值是使用支持度(support)来定义。支持度是用于度量一个项集的出现频率。项集(A,B)的支持度是(A,B〉的事务数与所有事务数之比,记为support(A々B)-suppwMu""支持度描述了A,B这两个项集在所有事务中同时出现的概率。规则J=>^在事务集中的置信度(confidence)是指同时包含A,B的事务数与包含A的事务数之比,它用来衡量关联规则的可信程度。记为—=>丑)=s卿ort(AB)o重要性(imm)用于度量项集和规则,它依赖于摸support(A)、个事物的出现概率(probability)。其定义如下-Importance({A,B})=probability(A,B)/probability(A)*probability(B)如果importance-l,则A和B是独立的项。如果importance^,则A和B是负相关的。如果importances,则A和B是正相关的。其中probability(A,B)是事务(A,B)同时出现的概率?probability(A)是事务A出现的概率probability(B)是事物B出现的概率。关联规则原理是从发现的频繁项集中提取所有高置信度规则,即分别对每个频繁项集L产生其所有的非空子集s,对每个非空子集计算s给定事务的集合T,关联规则发现是指找出支持度大于等于MINIMUM—SUPPORT(最小支持度),并且置信度大于等于MINIMUMLCONFIDENCE(最小置信度)的所有规则,其中最小支持度和最小置信度是对应的支持度和置信度的阈值,则说明发现了一条有意义的关联规则,重复这个过程直到将所有的有意义的规则全部输出。如最小支持度MINIMUM—SUPPORT(最小支持度)是概率阀值,如果MINIMUM—IMPORTANCE(最小重要性)=2%,这表示用户只对概率大于等于2%的项集感兴趣。在一种基于关联规则的巻烟配方维护行为挖掘系统中,采用关联规则之改进的Apriori算法目的就是找到在不同档次,不同牌号的配方中常搭配使用的烟叶,即烟叶频繁组合项集;以及适合作为某个烟叶的替代烟叶的最佳方案,即烟叶替代规则。(2)改进的关联规则算法Apriori关联规则算法是通过有候选项集的方法来产生频繁项集,它的核心思想任何频繁项集的所有子集一定是频繁项集。传统Apriori关联规则算法需要多次扫描数据库,算法时间复杂度很高。现使用改进的关联规则算法进行频繁烟叶组合模型的挖掘,改进的关联规则算法相对与传统Apriori算法改进指出体现在下述第2步和第3步,它只需要扫描整个数据库两次,其算法描述如下-输入事务数据库D;最小支持度阈值(minimum一support)输出D中的频繁项集L'第1步将烟叶配方数据库划分成4个规模相当的部分第2步针对每个部分单独产生一组频繁烟叶组合项集第3步最后将这些项目集合并为一个全局的候选频繁烟叶组合项集第4步针对整个数据库,计算每个候选频繁烟叶组合项集的实际支持度,从而确定最后的频繁烟叶组合项集。所述第2步的频繁项目集产生方法为1)扫描数据库,发现所有的频繁1项集烟叶组合2)产生候选频繁烟叶项集3)扫描数据库中烟叶配方版本修改事务;4)识别属于烟叶配方版本修改事务的所有候选项集;5)计算上述候选项集的支持度6)提取频繁烟叶组合k项集所述第3步的候选频繁项目集产生方法为-1)连接频繁烟叶组合候选项集2)判断频繁烟叶组合候选项集是否含有非频繁项集3)剪枝删除频繁烟叶组合项集中非频繁项目子集的候选元素所述巻烟配方维护行为挖掘系统的基于关联规则的烟叶替换算法技术方案的Step2的具体技术方案如下'在叶组配方历史维护数据中,存在烟叶替换的具体记录,即在一次配方调整中,用一个烟叶替换了另一个烟叶。将配方数据中的叶组配方调整前的烟叶名称做输入,叶组配方调整后的烟叶名称做输出,系统应用改进的关联规则算法挖掘烟叶替代关系的规则,并保存烟叶替换规则的模型。该模型应用于下一步的巻烟叶组配方维护方案计算机自动推荐的过程中。所述巻烟配方维护行为挖掘系统的基于关联规则的烟叶替换算法技术方案的Step3的具体技术方案如下.根据前面两个步骤,建立两个模型,第一个模型就是烟叶频繁组合模型MODELl,第二个模型就是烟叶替换模型MODEL2。根据系统中输入的叶组配方组成数据和配方调整前后的烟叶数据,推荐最佳替换烟叶的步骤如下1)给定一个烟叶A,査找烟叶替换模型MODEL2,找到适合该烟叶的替换烟叶列表L2)如果列表L中的烟叶个数为1,则直接输出该列表中的烟叶,即为推荐的替换烟叶3)如果列表L中的烟叶个数大于1(如烟叶B和烟叶C),则对L中的每个烟叶(如B))使用烟叶频繁组合模型MODEL1,找到该烟叶(B烟叶)的频繁烟叶组合组合(B组合),若B组合在烟叶A所在的配方中占的比例最大,则推荐烟叶B;若C组合在烟叶A所在的配方中占的比例最大,则推荐烟叶C。以上三个步骤,就是一种基于关联规则的巻烟配方维护系统中的核心步骤和应用的关键算法,结合使用这两个模型可以由该系统推荐一个烟叶的替代烟叶方案。本发明的保护范围包括但不限于上述公开的内容,对于本领域的普通技术人员而言,在本发明的内容上根据现有技术进行的显而易见的改变仍在本发明的保护范围之内。权利要求1.一种基于关联规则的卷烟配方维护行为挖掘系统,其特征是,它包括数据库服务器(1)和数据挖掘客户端(2),其中数据挖掘客户端(2)包括可视化展示工具(3),该可视化展示工具(3)与数据展示处理模块(4)和结果展示模块(5)连接;数据展示处理模块(4)与数据连接模块(6)连接,数据连接模块(6)提供各种不同数据类型格式数据源的连接,生成挖掘算法可以直接使用的数据库,提供数据对象访问的接口;结果展示模块(5)与挖掘处理模块(7)连接,挖掘处理模块(7)分别与模型库模块(8)、模型评估模块(9)和数据连接模块(6)连接;数据连接模块(6)则与身份验证处理模块(10)和数据库服务器(1)中的数据源(11)连接,同时身份验证处理模块(10)与数据库服务器(1)中的权限数据库(12)连接,身份验证处理模块(10)通过用户名和密码验证用户的合法性。2.如权利要求1所述的基于关联规则的巻烟紀方维护行为挖掘系统,其特征是,所述可视化展示工具(3)和结果展示模块(5)通过直方图、点线图、表格形式直观展示处理结果。3.如权利要求1所述的基于关联规则的巻烟配方维护行为挖掘系统,其特征是,所述挖掘处理模块(7)使用关联规则的数据挖掘算法,设定、修改算法的参数,执行用户提交的数据挖掘任务。4..如权利要求1所述的基于关联规则的巻烟配方维护行为挖掘系统,其特征是,所述模型评估模块(9)利用不同挖掘模型对测试数据进行挖掘分析,对结果进行评估,根据评估结果选择相应的挖掘模型进行数据挖掘。5.如权利要求1所述的基于关联规则的巻烟配方维护行为挖掘系统的使用方法,其特征是,包括以下步骤St印l:进入系统启动系统,输入用户名和密码,进行用户身份验证;用户名密码正确,则通过验证,进入系统;用户名或密码不正确,则退出系统;St印2:设置数据库,导入巻烟叶组配方数据该系统可以设置不同的服务器和数据源,满足服务器和数据库修改的配置要求;St印3:建立频繁烟叶组合模型巻烟生产中,不同的档次的烟的用料不同,烟叶组合使用情况也不同;要挖掘烟叶搭配使用的规律,找到频繁烟叶组合模型,必须按档次进行划分;然后分别对高档烟,中档烟和低档烟建立关联规则模型-(1)在数据库中保存历史巻烟配方的数据表;(2)设置算法参数最大项集数MAXIMUM—ITEMSETJX)UN指定要生成的最大项集数;最大项集的大小MAXIMUM_ITEMSET_SIZE指定一个项集中允许的最大项数;最大支持度MAXIMUM—SUPPORT指定可包含某项集的最大事例数;最小重要性MINIMUM—IMPORTANCE指定关联规则的重要性闳值;重要性低于此值的规则将被筛选出去;最小项集的大小MINIMUM—ITEMSET—SIZE指定一个项集中允许的最小项数;最小概率MINIMUX—PROBABILITY指定规则为True的最小概率;最小支持度MINIMUM_SUPPORT指定包含该项集的最小事例数;(3)调用算法训练模型,得出当前频繁相集的烟叶组合关联模型;St印4:建立烟叶替换规则模型(1)数据库中保存烟叶替换记录的数据表;(2)运用关联规则算法,设置算法参数用替换前烟叶作为输入,替换后烟叶作为输出;(3)调用算法训练模型,得出烟叶替换规则;St印5:推荐最佳替换烟叶根据上述的St印3和St印4,己经产生了频繁烟叶组合模型和烟叶替换规则输入烟叶的档次信息和烟叶名称以及推荐个数,系统给出利用改进的关联规则法建立的叶组配方维护行为挖掘模型,根据需要调整烟叶的某个档次的巻烟牌号以及烟叶的名称,系统自动输出可作为替代烟叶的方案,并给出可信度值;St印6:频繁烟叶组合模型和烟叶替换规则模型性能评价采用实例预测正确率来评价采用改进的关联规则算法训练后建立的模型性能;如将10个己有烟叶调整方案的巻烟叶组配方作为测试样本,将实际替代烟叶与模型给出的替代烟叶进行对比,正确率未达到设定值,则转到St印3,并且调整模型参数最小支持度MINIMUM_SUPPORT,最小概率MINIMUX—PROBABILITY;当正确率达到要求,则将挖掘出的烟叶替代关联规则模型保存;St印7:保存频繁烟叶组合模型和烟叶替换规则模型保存建立的频繁烟叶组合模型和烟叶替换规则模型到数据库中,以应用于今后的叶组配方维护过程中;并展示挖掘出的频繁烟叶组合规则和烟叶替换关系的规则。6.如权利要求5所述的基于关联规则的巻烟配方维护行为挖掘系统的使用方法,其特征是,使用改进的关联规则算法,产生频繁烟叶组合模型和烟叶替换规则模型,它两次使用关联规则算法,产生的两个模型,综合使用这两个模型进行烟叶的最佳替换,其中改进的关联规则算法步骤如下St邻l:运用关联规则算法,按档次、牌号挖掘巻烟配方的频繁项集即频繁烟叶组合模型;Step2:利用历史配方替换调整数据,使用关联规则算法,产生烟叶替代规则模型;Step3:给出一个烟叶和档次信息,利用上述建立的两个模型,推荐最佳替换烟叶;其中,Step3中,根据前面两个步骤,建立两个模型,第一个模型就是烟叶频繁组合模型M0DEL1,第二个模型就是烟叶替换模型MODEL2;根据系统中输入的叶组配方组成数据和配方调整前后的烟叶数据,推荐最佳替换烟叶的步骤如下1)给定一个烟叶A,查找烟叶替换模型MODEL2,找到适合该烟叶的替换烟叶列表L;2)如果列表L中的烟叶个数为l,则直接输出该列表中的烟叶,即为推荐的替换烟叶;3)如果列表L中的烟叶个数大于1,则对L中的每个烟叶,使用烟叶频繁组合模型MODELl,找到该烟叶的频繁烟叶组合组合,若B组合在烟叶A所在的配方中占的比例最大,则推荐烟叶B;若C组合在烟叶A所在的配方中占的比例最大,则推荐烟叶C。全文摘要本发明公开了一种基于关联规则的卷烟配方维护行为挖掘系统及其方法。它包括数据库服务器和数据挖掘客户端,其中数据挖掘客户端包括可视化展示工具,该可视化展示工具与数据展示处理模块和结果展示模块连接;数据展示处理模块与数据连接模块连接,数据连接模块提供各种不同数据类型格式数据源的连接,生成挖掘算法可以直接使用的数据库,提供数据对象访问的接口;结果展示模块与挖掘处理模块连接,挖掘处理模块分别与模型库模块、模型评估模块和数据连接模块连接;数据连接模块则与身份验证处理模块和数据库服务器中的数据源连接,同时身份验证处理模块与数据库服务器中的权限数据库连接,身份验证处理模块通过用户名和密码验证用户的合法性。文档编号G06F17/30GK101419627SQ200810237699公开日2009年4月29日申请日期2008年12月3日优先权日2008年12月3日发明者勃刘,刘红伟,姜福东,孟广宇,宋学艳,张金林,李成富,宁杨,玲段,英贺,赵砚棠,阮晓明申请人:山东中烟工业公司;中国海洋大学