专利名称::基于ncr数据仓库平台的性能测算方法
技术领域:
:本发明涉及一种基于NCR数据仓库平台的性能测算方法,属于数据仓库系统领域。适用于电信运营系统的经营分析平台,也可用于其它领域的经营分析系统。
背景技术:
:在数据仓库系统应用中,数据量是影响系统规划和配置的重要因素。随着数据量的不断增长,存储空间及主机处理性能逐渐支撑能力不足。由于NCR数据仓库主机基本满足性能线性增长的扩容方式,在传统的测算方法中,根据应用量增长的需求,测算出数据量的增长,再测算出数据仓库所需的磁盘空间。基于NCR数据仓库平台的Teradata数据库管理系统而建立的数据仓库,其物理磁盘容量的计算方法为最小磁盘空间需求MDSR(MiniumDiskSpaceRequirements"数据量承FALLBACK因子申RAID因子*操作系统和文件系统因子。最后按照NCR公司提供的各种型号的海量并行数据库服务器所支持的磁盘量测算得出满足性能要求的节点数。传统的性能测算方法仅能测算存储。根据实际应用,在满足数据库空间的情况且下,应用较繁忙时,并发作业较多,作业完成时间相对拖后,不能及时满足应用的需求。另外,随着不断增长的业务需求,各作业的完成时间比较紧张,仍满足不了应用的需要。
发明内容本发明所要解决的技术问题是提供一种实用、易操作、易实现、适应性较强的基于NCR数据仓库平台的性能测算方法。本发明解决其技术问题所采用的技术方案-基于NCR数据仓库平台的性能测算方法,其特征在于其方法步骤如下(1)确定预期性能目标,即确定出满足各作业完成时间要求a、统计扩容前完成所有作业所需的时间Mp单位为分钟;b、扩容后完成所有作业所需要的时间M2,单位为分钟;(2)统计影响数据仓库平台数据量的关键因素,即统计在数据仓库应用系统中,影响数据库空间的关键因素的当前数据量及预期数据量当前数据量为S,,预期数据量为52,在此期间增加的数据量为53=52-&;G)ETL系统现有作业基础数据统计,即统计系统中作业类型、业务类型、各业务类型的作业个数,增加特定数据量前后各类作业运行时长比较a、所述的作业类型分为基础数据类和应用类;对基础类作业和应用类作业进行细分,分为更小的类别,并统计各小类的现有作业个数;同时统计出现有作业总数^和预期作业总数^;b、统计出随着数据量的增长对作业运行时长的影响;根据实际应用,选取合适的数据增长量A5进行统计,统计增加数据量前后的各小类作业运行时间;C、利用下述公式计算各小类作业性能增加比例Z:44:增加数据量前各小类别作业运行时间增加数据量后各小类别作业运行时间Z:各小类作业性能增加比例;(4)ETL系统作业折合率测算测算预期关键因素的数据量的增长折合为各小类作业的增长的比例即各小类作业折合率户,根据各小类作业折合率测算预期各小类作业个数^:.a、作业折合率P的计算公式如下尸=(1+2)&(2)P:各小类作业折合率Z:各小类作业性能增加比例预期增加的数据量;b、预期各小类作业个数^的计算公式如下7Cxi3(3)72:预期各小类作业个数J1:现有各小类作业个数P:各小类作业折合率;c、按照上述公式(2)和(3)计算出各小类作业的作业折合率以及预期各小类作业个数;(5)数据仓库平台的最终性能测算a、首先按下式计算估算增加性能r:7V2—1r:估算增加性能iV1:现有作业平均运行时间,JV,=^M,:扩容前完成所有作业所需的时间,单位分钟■73:现有作业总个数期望作业平均运行时间,7V2=&M2:扩容后完成所有作业所需的时间,单位分钟74:预期作业总个数;b、按下式计算目前数据仓库平台的总性能z;:7;=《xr《+G2x7P2+".+Gx7P(5)r1:目前数据仓库平台的总性能r户。7P2、……、7P:各种型号数据库服务器的Tperf值G,、G2、……、G:各种型号数据库服务器的数量;c、按下式计算达到预期性能所需要增加的Tperf值K:r2=rlXr(6)r2:达到预期性能所需要增加的Tperf值r1:目前数据仓库平台的总性能r:估算增加性能;d、进行系统实测性能要求所需增加NCR主机的台数,计算公式如下-G丄(7)7TG:所需增加NCR主机的台数T2:达到预期性能所需要增加的Tperf值7T:新扩容的单台NCR主机的Tperf值。本发明的有益效果如下(1)本发明不仅能满足数据量增长、应用增长导致的数据存储要求,而且能满足各作业完成的时间要求,以及能满足各种固定应用和临时应用的及时处理。(2)本发明还具有实用、易操作、易实现、适应性较强的特点。具体实施方式下面以中国移动为例,说明本发明的具体实施例本实施例的具体测算方法如下(1)确定预期性能目标,即确定出满足各作业完成时间要求a、统计扩容前完成所有作业所需的时间M,,单位为分钟;b、扩容后完成所有作业所需要的时间M,,单位为分钟;(2)统计影响数据仓库平台数据量的关键因素,即统计在数据仓库应用系统中,影响数据库空间的关键因素的当前数据量及预期数据量在电信运营系统的经营分析平台中,该关键因素为用户数量。根据实际统计,当前用户数量为S,(百万),根据业务发展的速度,估算得出扩容后预期支撑用户数为^(百万)。因此,在此期间增加的用户量为=&(百万)。G)ETL系统现有作业基础数据统计,即统计系统中作业类型、业务类型、各业务类型的作业个数,增加特定用户量前后各类作业运行时长比较等参数a、所述的作业类型分为基础数据类和应用类,基础类作业对原始数据进行抽取、加载和转换,并将原始数据加载到数据仓库中。应用类作业的数据来源于基础数据,是对基础数据的加工和汇总,以满足各种应用的需求。在本步骤中,对基础类作业和应用类作业进行细分,分为更小的类别(A、B、C…J),并将各小类的作业个数,列于附表l中(见附表l)。b、统计出随着用户数量的增长对作业运行时长的影响;根据实际应用,选取合适的用户增长量AS进行统计,统计增加用户量前后的各小类作业运行时间;当用户数量为S,-AS(百万)时,统计各小类作业运行时间4分别列于附表1中;用户数量为当前的S,(百万)时,再统计各小类作业运行时间^分别列于附表l中;在本实施例中,选取AS-1(百万)。C、利用下述公式计算各小类作业性能增加比例Z(计算结果见附表1,附表1中的Z为增加1百万用户各小类作业需要的性能增加比例)44:增加用户量前各小类别作业运行时间增加用户量后各小类别作业运行时间Z:各小类作业性能增加比例;(4)ETL系统作业折合率测算测算预期关键因素的用户量的增长折合为各小类作业增长的比例即各小类作业折合率P,根据各小类作业折合率P测算出预期各小类作业个数厶a、各小类作业折合率P的计算公式如下P-(1+Zf3(2)P:各小类作业折合率Z:各小类作业性能增加比例预期增加的用户量,单位百万;b、预期各小类作业个数^的计算公式如下A4x尸(3)/2:预期各小类作业个数现有各小类作业个数户各小类作业折合率;c、按照上述公式(2)和(3)计算出各小类作业的作业折合率尸以及预期各小类作业个数^(计算结果见附表2);考虑到应用的不断增长,从而会新增加部分应用类作业。对于新增加的应用类作业的作业折合率,可以根据其业务类型的特点,估算出需新增的作业个数,并参考相似业务的作业折合率P(计算结果见附表2)。在附表l中统计了每增加l百万用户各作业小类性能增加的比例z。本实施例中,预期增加的用户量为6百万,即按照S,6计算。按照公式2,计算出以上各作业小类的作业折合率P以及各小类作业的折算作业个数,计算结果列于附表2中,同时合计得到现有作业总数^和预期作业总数人。(5)数据仓库平台的最终性能测算a、首先按下式计算估算增加性能r(计算结果见附表3):7V2-lr:估算增加性能w1:现有作业平均运行时间,」3M1:扩容前完成所有作业所需的时间,单位分钟现有作业总个数期望作业平均运行时间,7V2=^M2:扩容后完成所有作业所需的时间,单位分钟74:预期作业总个数;b、按下式计算目前数据仓库平台的总性能z;:根据以上计算,得出需要增加的性能r,按照实例中现有的NCR各种型号的数据库服务器的Tperf值,以及各种型号的数据库服务器的数量,得出目前数据仓库平台的总性能z;:r1:目前数据仓库平台的总性能r《、TP2、……、7P:各种型号数据库服务器的Tperf值G,、G2、……、G:各种型号数据库服务器的数量;c、按下式计算达到预期性能所需要增加的Tperf值r,:根据测算得出的需增加的性能r,从而可以测算出达到预期性能所需要增加的Tperf值72;计算公式如下7^r,xr(6)r2:达到预期性能所需要增加的Tperf值r1:目前数据仓库平台的总性能r:估算增加性能;d、进行系统实测目前数据仓库平台系统有6台NCR5350主机和6台NCR5380主机。其中,每台NCR5350主机的Tperf值为6.13。每台NCR5380主机的Tperf值为8.15。得出目前数据仓库平台的总Tperf值7;=6><6.13+6><8.45=87.48。因此,达到预期性能所需要增加的Tperf值T^=7;xr二87.48x0.545(见附表3中的r)-47.68。若新扩容的设备为NCR5450主机,该主机的Tperf值为10.14,按照以上测算,需要新增加的NCR5450主机为G-f="=4.7。因此,为满足性能要求,需增加NCR5450主机5台。附表l:ETL系统现有作业基础数据统计<table>tableseeoriginaldocumentpage11</column></row><table><table>tableseeoriginaldocumentpage12</column></row><table>附表2:各小类作业的作业折合率以及各小类作业的折算作业个数<table>tableseeoriginaldocumentpage12</column></row><table>附表3:<table>tableseeoriginaldocumentpage12</column></row><table><table>tableseeoriginaldocumentpage13</column></row><table>权利要求1、基于NCR数据仓库平台的性能测算方法,其特征在于其方法步骤如下:(1)确定预期性能目标,即确定出满足各作业完成时间要求a、统计扩容前完成所有作业所需的时间T^,单位为分钟;b、扩容后完成所有作业所需要的时间M,,单位为分钟;(2)统计影响数据仓库平台数据量的关键因素,即统计在数据仓库应用系统中,影响数据库空间的关键因素的当前数据量及预期数据量当前数据量为&,预期数据量为52,在此期间增加的数据量为&=&-51;(3)ETL系统现有作业基础数据统计,即统计系统中作业类型、业务类型、各业务类型的作业个数,增加特定数据量前后各类作业运行时长比较a、所述的作业类型分为基础数据类和应用类;对基础类作业和应用类作业进行细分,分为更小的类别,并统计各小类的现有作业个数;同时统计出现有作业总数^和预期作业总数厶;b、统计出随着数据量的增长对作业运行时长的影响;根据实际应用,选取合适的数据增长量AS进行统计,统计增加数据量前后的各小类作业运行时间;C、利用下述公式计算各小类作业性能增加比例Z:44:增加数据量前各小类别作业运行时间增加数据量后各小类别作业运行时间Z:各小类作业性能增加比例;(4)ETL系统作业折合率测算测算预期关键因素的数据量的增长折合为各小类作业的增长的比例即各小类作业折合率i3,根据各小类作业折合率测算预期各小类作业个数^:a、作业折合率P的计算公式如下i^(l+Z力(2)P:各小类作业折合率Z:各小类作业性能增加比例S3:预期增加的数据量;'b、预期各小类作业个数厶的计算公式如下<formula>formulaseeoriginaldocumentpage3</formula>(3)预期各小类作业个数■71:现有各小类作业个数各小类作业折合率;c、按照上述公式(2)和(3)计算出各小类作业的作业折合率以及预期各小类作业个数;(5)数据仓库平台的最终性能测算-a、首先按下式计算估算增加性能r:<formula>formulaseeoriginaldocumentpage3</formula>r:估算增加性能现有作业平均运行时间,iV1=^M1:扩容前完成所有作业所需的时间,单位分钟、现有作业总个数期望作业平均运行时间,iV2=&M2:扩容后完成所有作业所需的时间,单位分钟■/4:预期作业总个数;b、按下式计算目前数据仓库平台的总性能《<formula>formulaseeoriginaldocumentpage3</formula>(5)T1:目前数据仓库平台的总性能r《、JP2、……、77>:各种型号数据库服务器的Tperf值Gi、G2、……、各种型号数据库服务器的数量;c、按下式计算达到预期性能所需要增加的Tperf值r,:<formula>formulaseeoriginaldocumentpage4</formula>(6)r2:达到预期性能所需要增加的Tperf值r1:目前数据仓库平台的总性能r:估算增加性能;d、进行系统实测根据上述公式(5)和(6),依据新扩容的NCR主机的型号,计算出为满足性能要求所需增加NCR主机的台数,计算公式如下<formula>formulaseeoriginaldocumentpage4</formula>(7)G:所需增加NCR主机的台数r2:达到预期性能所需要增加的Tperf值TP:新扩容的单台NCR主机的Tperf值。全文摘要本发明涉及一种基于NCR数据仓库平台的性能测算方法,属于数据仓库系统领域。本发明的方法步骤如下(1)确定预期性能目标,即确定出满足各作业完成时间要求;(2)统计影响数据仓库平台数据量的关键因素,即统计在数据仓库应用系统中,影响数据库空间的关键因素的当前数据量及预期数据量;(3)ETL系统现有作业基础数据统计;(4)ETL系统作业折合率测算;(5)数据仓库平台的最终性能测算。本发明的有益效果如下(1)本发明不仅能满足数据量增长、应用增长导致的数据存储要求,而且能满足各作业完成的时间要求,以及能满足各种固定应用和临时应用的及时处理;(2)本发明还具有实用、易操作、易实现、适应性较强的特点。文档编号G06F17/30GK101145221SQ200710139609公开日2008年3月19日申请日期2007年10月24日优先权日2007年10月24日发明者辉乔,卢建辉,明吴,咏庞,张树文,祎李,武海斌,王海通,贾殿承申请人:河北全通通信有限公司