一种基于GLM及机器学习算法的车险纯风险保费预测方法及装置与流程

文档序号:32854146发布日期:2023-01-06 23:39阅读:来源:国知局

技术特征:
1.一种基于glm及机器学习算法的车险纯风险保费预测方法,其特征在于,包括:步骤s1:采集第一建模因子的第一定价数据形成第一模型样本集,使用所述第一模型样本集拟合第一层glm模型,计算预测结果残差;步骤s2:在所述第一定价数据的基础上,采集第二建模因子;将所述第二建模因子的定价数据关联至所述第一定价数据,形成第二定价数据,并将第二定价数据作为第二模型样本集,将所述第二模型样本集进行处理后拟合第二层xgboost残差模型,并将残差的预测结果进行切分,切分后的每组数据作为梯度提升分因子;步骤s3:将所述梯度提升分因子、第三定价数据作为第三模型样本集拟合第三层glm模型,计算并输出纯风险保费预测值。2.根据权利要求1所述的基于glm及机器学习算法的车险纯风险保费预测方法,其特征在于,所述步骤s1包括:s11:采集第一建模因子的第一定价数据和对应的第一纯风险保费形成第一模型样本集;其中所述第一建模因子包含从车信息、从人信息、平台信息、保单信息;s12:对所述第一模型样本集进行预处理,生成符合glm模型要求的第一样本数据;s13:使用所述第一样本数据拟合第一层glm模型;s14:在第一层glm模型中输入所述第一定价数据,处理后,输出第一纯风险保费预测值;s15:通过所述纯风险保费预测值计算预测结果残差;所述第一预测结果残差=纯风险保费实际值-纯风险保费预测值。3.根据权利要求1或2所述的基于glm及机器学习算法的车险纯风险保费预测方法,其特征在于,所述步骤s2包括:s21:在所述第一定价数据的基础上,采集第二建模因子;将所述第二建模因子的定价数据关联至所述第一定价数据,形成第二定价数据,并将第二定价数据作为第二模型样本集;其中第二建模因子包含从车信息、从人信息、平台信息、保单信息、高维从车信息;s22:对所述第二模型样本集进行预处理,生成符合xgboost残差模型的第二样本数据;s23:使用分层随机抽样的方法将所述第二定价数据与第一预测结果残差划分为训练集、验证集和测试集;所述训练集、验证集和测试集划分比例为6:2:2;s24:使用所述训练集数据拟合xgboost残差模型,使用所述验证集数据调整xgboost残差模型训练过程中的超参,使用所述测试集数据测试训练完毕的xgboost残差模型预测准确性;s25:使用步骤s33拟合的第二层xgboost残差模型对纯风险保费残差进行预测,再第二层xgboost残差模型中输入所述第二定价数据,处理后,输出第二纯风险保费残差预测值;s26:对所述第二纯风险保费残差预测值进行排序,将排序后的第二纯风险保费残差预测值按照n等分进行切分,并将切分后的每组第二纯风险保费残差预测值依序赋予1到n的值,作为新的风险因子标签——梯度提升分。4.根据权利要求3所述的基于glm及机器学习算法的车险纯风险保费预测方法,其特征在于,所述步骤s3包括:s31:将梯度提升分因子加入至第一层glm模型建模因子中,构成第三层glm模型入模风险因子列表,并采集所述第三建模因子的第三定价数据与对应的第三纯风险保费,形成第
三样本集;所述第三建模因子包含从车信息、从人信息、平台信息、保单信息、风险因子标签;s32:使用第三样本集拟合第三层glm模型,得到风险预测模型;s33:在所述第三层glm模型中输入第三定价数据,输出对应的第三纯风险保费预测值。5.根据权利要求2所述的基于glm及机器学习算法的车险纯风险保费预测方法,其特征在于,所述步骤s12包括:数据清洗,处理第一模型样本集的空缺值、噪声数据,删除第一模型样本集的重复值;数据集成,集成多个数据源,处理数据源的冗余问题;特征工程:将步骤s121中处理后的第一样本数据连续变量分桶,类别变量编码,形成第一样本数据。6.根据权利要求3所述的基于glm及机器学习算法的车险纯风险保费预测方法,其特征在于,所述步骤s22包括:数据清洗,处理第二模型样本集的空缺值、噪声数据,删除第二模型样本集的重复值;数据集成,集成多个数据源,处理数据源的冗余问题;特征工程,将步骤s221处理后的第二模型样本集连续变量分桶,类别变量编码,形成第二样本数据。7.一种基于glm及机器学习算法的车险纯风险保费预测装置,其特征在于,包括处理单元以及存储单元,所述存储单元有一个或多个程序,当所述一个或多个程序被所述处理单元运行时,使得所述处理单元实现如权利要求1-6任一项所述的基于glm及机器学习算法的车险纯风险保费预测方法的步骤。

技术总结
本申请提供一种基于GLM及机器学习算法的车险纯风险保费预测方法及装置,包括:采集第一建模因子的第一定价数据形成第一模型样本集,使用第一模型样本集拟合第一层GLM模型,计算预测结果残差;在第一定价数据的基础上,采集第二建模因子;将第二建模因子的定价数据关联至第一定价数据,形成第二定价数据,并将第二定价数据作为第二模型样本集,将第二模型样本集进行处理后拟合第二层XGBoost残差模型,并将残差的预测结果进行切分,切分后的每组数据作为梯度提升分因子;将梯度提升分因子、第三定价数据作为第三模型样本集拟合第三层GLM模型,计算并输出纯风险保费预测值。本发明结合了传统的GML模型与XGBoost模型,具有可解释性、可控性、预测性能更强的优点。预测性能更强的优点。预测性能更强的优点。


技术研发人员:赵昕
受保护的技术使用者:上海七炅信息科技有限公司
技术研发日:2022.09.22
技术公布日:2023/1/5
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1