一种基于XGBoost模型的数据库容量预测方法、系统、设备及可读存储介质与流程

文档序号:37368526发布日期:2024-03-22 10:21阅读:14来源:国知局
一种基于XGBoost模型的数据库容量预测方法、系统、设备及可读存储介质与流程

本发明涉及一种数据库容量预测方法、系统、设备及可读存储介质,具体地涉及一种基于xgboost模型的数据库容量预测方法、系统、设备及可读存储介质,属于数据库领域。


背景技术:

1、随着企业数据量的快速增长,数据库容量预测成为一个重要问题。传统的数据库容量预测方法通常基于经验或简单的统计模型,无法准确预测数据库的容量,缺乏灵活性以适应复杂和变化的数据增长模式。随着业务的发展和变化,这些方法可能无法准确捕捉到趋势和变化。数据库容量的增长通常涉及到非线性的关系,而传统的统计模型可能难以捕捉到这些非线性关系,并且考虑不到季节性、促销活动、突发事件等动态性因素的影响。

2、基于xgboost模型进行数据库容量预测模型的背景技术可以追溯到数据挖掘和机器学习领域的发展。随着大数据时代来临,企业和组织面临着海量数据的挑战,有效管理和利用这些数据成为一项紧迫任务,现代复杂数据库环境下的应用需要更新技术。数据库作为数据存储和管理的核心工具,其容量规划成为数据库管理中的一项至关重要的业务。这包括对数据库的存储空间、性能、备份恢复等方面的精准规划。通过合理的数据库容量管理,可以确保数据库保持高性能,解决数据库运维成本问题,并提高数据存取效率。

3、数据库容量的增长通常涉及到非线性的关系,而传统的统计模型难以捕捉这些非线性关系,这导致了在处理复杂数据模式时预测的准确性不高;同时难以适应业务的快速发展和数据增长的变化。季节性、促销活动、突发事件等动态因素的影响难以被充分考虑,导致容量预测结果的不稳定性。


技术实现思路

1、为解决现有技术中存在的技术问题,本发明提供一种基于xgboost模型的数据库容量预测方法,该方法包括以下步骤:

2、(1)收集数据库的日志数据;

3、(2)对上述日志数据进行特征提取;

4、(3)利用提取的特征训练xgboost模型;

5、(4)训练好的xgboost模型通过输入数据库的当前特征输出预测容量。

6、进一步地,日志数据可为磁盘使用量、数据库连接数、性能指标或告警信息。

7、进一步地,xgboost训练模型为fk∈f(i=1,2,...n),其中数据集为n条m维,f={f(x)=wq(x)}(q:rm→{1,2,...t},w∈rt)是决策树结构集合,q为样本映射到叶子节点的树结构,t为叶子节点数,w为叶节点的实数分数;在xgboost模型中加入一个新的函数f,

8、其中,表示第t次迭代后样本i的预测结果;k表示决策单元的数量;ft(xi)表示第i个样本xi在第t棵树中的预测值,再累加上前面t-1次的预测值即为最终的预测结果;,其中n为样本数量;目标函数为模型的损失函数,为抑制模型复杂度的正则项,

9、进一步地,根据模型预测得到的值,计算预测使用率,并设定预警等级。

10、在上述方法基础上,本发明又提出一种基于xgboost模型的数据库容量预测系统,该系统包括数据收集模块、特征提取模块、xgboost模块训练和容量预测模块,各模块功能如下:

11、(1)数据收集模块:该模块收集数据库的日志数据;

12、(2)特征提取模块:该模块对上述日志数据进行特征提取;

13、(3)xgboost模型训练模块:该模块利用提取的特征训练xgboost模型;

14、(4)容量预测模块:此模块利用训练好的xgboost模型进行数据库容量预测。通过输入数据库的当前特征,模型将输出预测的容量。

15、进一步地,数据收集模块收集数据库的日志数据可为磁盘使用量、数据库连接数、性能指标或告警信息。

16、进一步地,xgboost模型训练模块中xgboost训练模型为fk∈f(i=1,2,...n),其中数据集为n条m维,f={f(x)=wq(x)}(q:rm→{1,2,...t},w∈rt)是决策树结构集合,q为样本映射到叶子节点的树结构,t为叶子节点数,w为叶节点的实数分数;在xgboost模型中加入一个新的函数f,其中,表示第t次迭代后样本i的预测结果;k表示决策单元的数量;ft(xi)表示第i个样本xi在第t棵树中的预测值,再累加上前面t-1次的预测值即为最终的预测结果;,其中n为样本数量;目标函数为模型的损失函数,为抑制模型复杂度的正则项,

17、进一步地,容量预测模块中,根据模型预测得到的值,计算预测使用率,并设定预警等级。

18、本发明又提供了一种设备,所述设备包括:数据采集装置、处理器和存储器;所述数据采集装置用于采集数据;所述存储器用于存储一个或多个程序指令;所述处理器,用于执行一个或多个程序指令,用以执行上述任一项方法。

19、本发明又提供了一种计算机可读存储介质,所述计算机存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于执行上述任一项方法。

20、xgboost算法进行特征选择的原理为:在单个决策树中,利用每个属性分割点改进性能度量的量来计算属性重要性,由节点进行加权和记录次数。一个属性对分割点改进性能度量越大,权值越大,属性越重要。最后将属性在所有提升树中的结果进行加权求和并平均,得到重要性得分。

21、xgboost是对梯度提升决策树(gbdt)的改进,能够多线程实现回归树的并行构建,将计算速度和效率发挥到极致。gbdt只利用了一阶导数的信息,xgboost对损失函数做了二阶泰勒展开,计算精度更高。

22、模型预测精度由模型偏差和方差共同决定,损失函数代表了模型偏差,正则项可减小方差,防止过拟合。因此目标函数由模型的损失函数l与抑制模型复杂度的正则项ω组成,目标函数其中,是将全部t棵树的复杂度之和,添加到目标函数作为正则化项,用于防止模型过度拟合;由于前t-1棵树的结构已经确定,因此前t-1棵树的复杂度之和可以用一个常量表示,如下所示:其中正则项拆分为

23、构建xgboost模型时,需要根据目标函数最小化的原则寻找最优参数,建立最优模型。xgboost是一种优化的梯度提升决策树算法,通过串行的方式迭代训练多个相互依赖的决策树回归模型,最后综合多个简单模型共同作用产生输出。在训练过程中,xgboost优化了损失函数的部分,加入了正则项,并使用二阶负梯度拟合带正则项损失函数的残差,因此可以使用任意二阶可导的损失函数。同时,为了平衡模型复杂度和预测精度,还引入了结构分数增益等新的决策分支准则。采用本发明后,能够更好地捕捉非线性关系,提供更准确、灵活和全面的容量预测,xgboost模型可以综合考虑多个特征,提供更全局的视角,有助于整合其他系统组件的需求,提高容量规划的全面性。本发明通过不断学习和调整,可以更好地适应变化,提高对新业务和技术趋势的预测能力。



技术特征:

1.一种基于xgboost模型的数据库容量预测方法,其特征在于:该方法包括以下步骤:

2.如权利要求1所述的一种基于xgboost模型的数据库容量预测方法,其特征在于:步骤(1)中,日志数据可为磁盘使用量、数据库连接数、性能指标或告警信息。

3.如权利要求1所述的一种基于xgboost模型的数据库容量预测方法,其特征在于:步骤(3)中,xgboost训练模型为fk∈f(i=1,2,...n),其中数据集为n条m维,f={f(x)=wq(x)}(q:rm→{1,2,...t},w∈rt)是决策树结构集合,q为样本映射到叶子节点的树结构,t为叶子节点数,w为叶节点的实数分数;在xgboost模型中加入一个新的函数f,

4.如权利要求1所述的一种基于xgboost模型的数据库容量预测方法,其特征在于:步骤(4)中,根据模型预测得到的值,计算预测使用率,并设定预警等级。

5.一种基于xgboost模型的数据库容量预测系统,该系统包括数据收集模块、特征提取模块、xgboost模块训练和容量预测模块,其特征在于:

6.如权利要求5所述的一种基于xgboost模型的数据库容量预测系统,其特征在于:数据收集模块收集数据库的日志数据可为磁盘使用量、数据库连接数、性能指标或告警信息。

7.如权利要求5所述的一种基于xgboost模型的数据库容量预测系统,其特征在于:xgboost模型训练模块中xgboost训练模型为fk∈f(i=1,2,...n),其中数据集为n条m维,f={f(x)=wq(x)}(q:rm→{1,2,...t},w∈rt)是决策树结构集合,q为样本映射到叶子节点的树结构,t为叶子节点数,w为叶节点的实数分数;在xgboost模型中加入一个新的函数f,

8.如权利要求5所述的一种基于xgboost模型的数据库容量预测系统,其特征在于:容量预测模块中,根据模型预测得到的值,计算预测使用率,并设定预警等级。

9.一种设备,所述设备包括:数据采集装置、处理器和存储器;所述数据采集装置用于采集数据;所述存储器用于存储一个或多个程序指令;所述处理器,用于执行一个或多个程序指令,用以执行上述1-4任一项方法。

10.一种计算机可读存储介质,所述计算机存储介质中包含一个或多个程序指令,


技术总结
本发明提供一种基于XGBoost模型的数据库容量预测方法、系统、设备及可读存储介质,根据目标函数最小化的原则寻找最优参数,建立最优模型。训练过程中,XGBoost优化了损失函数的部分,加入了正则项,并使用二阶负梯度拟合带正则项损失函数的残差,因此可以使用任意二阶可导的损失函数。同时,为了平衡模型复杂度和预测精度,还引入了结构分数增益等新的决策分支准则。采用本发明后,能够更好地捕捉非线性关系,提供更准确、灵活和全面的容量预测,XGBoost模型可以综合考虑多个特征,提供更全局的视角,有助于整合其他系统组件的需求,提高容量规划的全面性。本发明通过不断学习和调整,可以更好地适应变化,提高对新业务和技术趋势的预测能力。

技术研发人员:王伟斌,陈传凯,李超德
受保护的技术使用者:北京新数科技有限公司
技术研发日:
技术公布日:2024/3/21
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1