本发明属于数据分析技术领域,涉及一种大数据分析技术,尤其涉及一种基于保险理赔数据分析方法和系统。
背景技术:
随着人们保险意识越来越高,保险事故频发保险理赔事件也持续增多,保险公司积累的数据量越来越大,原有的分析技术无法处理大数据量,分析耗时也很长,分析指标也很有限,同时需要非常专业数据分析人员去做数据处理、建立数据模型工作,对人员要求较高,而最终结果用户往往还不满意。
保险市场竞争越来越激烈,降本增效对于管理层来说指标也开始要求紧,为了提升整体运营水平,分析总结保险出险原因,理赔过程合理性,得出出险规律,能有效帮助保险公司提前介入,事前防预,分区个性运营设定,减低人们生命财产损失,减低险企赔付成本,所以急需一种基于大数据技术分析系统,根据内置数据挖算法,只需熟悉业务的人员就能做业务分析,减少业务理解沟通浪费,系统能对海量数据的支持,高效分析速度,自定义分析指标展现的保险理赔数据分析方法和系统。该方法分析各个主体不同时段业务指标及多主体关联关系变化情况,有效帮助保险公司保险理赔管控,调整运营方案,帮助保险公司经营战略规划。
技术实现要素:
本发明的主要目的是提供一种保险理赔数据分析方法和系统,以解决现有技术的上述以及其他潜在问题中任一问题。
为了达到上述目的,本发明提出了一种保险理赔数据分析方法,该方法包括以下步骤:
s1,接入平台,获取保险理赔数据,根据关联分析模型输入要求,对理赔数据根据关联分析模型输入要求进行处理,得到对象集合;
s2,将s1得到对象集合输入到关联分析模型中,关联分析模型对输入的对象集合进行分析计算,并根据规则阈值筛选得出符合关联对象集合;
s3,对符合关联对象集合进行定量分析,得出关联规则项集表。
根据本公开实施例,所述s1中的理赔数据为在车辆交通事故保险理赔过程中车损理赔数据和人伤理赔数据;其中,所述车损理赔数据包含车辆信息、报案信息、现场查勘信息、定损工时信息、定损配件信息、定损员信息、修理厂信息和保单信息;所述人伤理赔数据包含伤者信息、户籍信息、工作信息、医院信息、治疗手术信息、法院信息、伤残鉴定信息、律师信息和审决信息。
根据本公开实施例,所述s2中关联分析模型对输入对象集合进行分析计算的步骤为:
s2.1利用son算法将输入对象集合中的所有的理赔数据进行划分处理,分成p个文件块,每个文件块为1/p,p取值为大于0的正整数;
s2.2将经s2.1划分的每个文件块作为一个样本,并执行apriori算法,在一个或多个文件块中被选中的频繁项集收集起来做为候选频繁项集;
频繁项集是指支持度大于等于最小支持度(min_sup)的集合。其中支持度是指某个集合在所有事务中出现的频率。频繁项集的经典应用是购物篮模型。
s2.3将s2.2得到的候选频繁项集合并得到最终的频繁项集,计算每个频繁项集的支持度、置信度和提升度;
s2.4将得到的支持度、置信度、提升度值与预设的阈值进行比较,筛选得出符合关联对象集合。
firstmap:划分子集,根据apriori算法找出每个项集的频繁度,并输出该样本的频繁项集。
firstreduce:所有map任务输出的局部频繁项集汇总,输出全局候选频繁项集。
secondmap:计算每个候选频繁项集的出现次数,输出候选项集和其在该map任务中的支持度。
secondreduce:每个候选频繁项集相加,其结果为全局支持度,若支持度大于支持阈值,则保留,否则剔除。
根据本公开实施例,所述s2.3中的支持度、置信度和提升度的计算方法为:
根据对象集合中项集x在整个集合n中同时出现的概率,计算出项集x支持度,公式如下:
s(x)=σ(x)/n,n取值为大于0的正整数;
根据对象集合中在项集x中出现项集y的概率,计算出项集x的置信度,公式为:
c(x→y)=σ(x∪y)/σ(x),
项集x置信度除以项集y支持度称为项集x提升度,公式如下:
l(x→y)=c(x→y)/s(y)。
根据本公开实施例,所述s2.4中将支持度、置信度、提升度值与规则阈值进行比较的条件为:
若项集支持度大于0.17,置信度大于0.68,且提升度大于3为有效项集,否则为无效项集,裁剪掉无效项集。
本发明的另一目的提供上述保险理赔数据分析方法的系统,所述保险理赔数据分析系统:接入管理模块、源数据管理模块、源数据导入模块、关联分析报表模块和自定义报表模块;
其中,所述接入管理模块,用于将用户接入平台申请,接入密钥发放管理,接入有效期管理;
所述源数据导入模块,是将保险数据导入处理入口,模块对外提供数据导入集成接口,接入安全管控,接入鉴权处理;
所述源数据管理模块,用于将源数据建立管道导入自定义报表模块,
所述自定义报表模块,在数据提供方提供的源数据格式说明后,根据格式标注数据字段含义,建立大数据平台数据表结构,设定源数据字段与大数据平台表字段映射关系,字段类型设定,数据格式及分割方法;
所述关联分析报表模块,用于生成关联规则项集表,根据计算分析方法,最后计算得出最终分析数据报表,再将最终分析数据报表发送给自定义报表模块。
根据本公开实施例,所述系统还包括:报表管理模块、调度管理模块和报表推送模块;
所述报表管理模块,用于将接收到自定义报表模块发送的报表浏览用户权限分配,报表的生成,归档设定;
所述调度管理模块,用于按设置的调度周期调用执行各模块的任务,监控任务执行过程,任务异常处理,调度周期策略管理,主要对源数据周期性同步,报表周期性生成,报表生成后的消息通知;
所述报表推送模块,是把需分享图表生成短链接地址以短信息方式通知需要浏览用户,用户收到短信息后点击短链接地址浏览报表数据,浏览时存在密码验证,阅读时效设置处理功能。
本发明的有益效果是:由于采用上述技术方案,本发明基于大数据技术分析系统,根据内置数据挖算法,只需熟悉业务的人员就能做业务分析,减少业务理解沟通浪费,系统能对海量数据的支持,高效分析速度,自定义分析指标展现的保险理赔数据分析方法和系统。该方法分析各个主体不同时段业务指标及多主体关联关系变化情况,有效帮助保险公司保险理赔管控,调整运营方案,帮助保险公司经营战略规划。
附图说明
图1为本发明一种保险理赔数据分析方法的流程框图。
图2为本发明一种保险理赔数据分析系统的逻辑框图。
具体实施方式
下面将结合本发明实施例中附图对技术方案进一步详细说明。
如图1所示,本发明一种保险理赔数据分析方法,该方法包括以下步骤:
s1,获取保险理赔数据,根据关联分析模型输入要求,对理赔数据根据关联分析模型输入要求进行处理,得到对象集合;
s2,将s1得到对象集合输入到关联分析模型中,关联分析模型对输入的对象集合进行分析计算,并根据规则阈值筛选得出符合关联对象集合;
s3,对符合关联对象集合进行定量分析,得出关联规则项集表。
根据本公开实施例,所述s1中的理赔数据为在车辆交通事故保险理赔过程中车损理赔数据和人伤理赔数据;其中,所述车损理赔数据包含车辆信息、报案信息、现场查勘信息、定损工时信息、定损配件信息、定损员信息、修理厂信息和保单信息;所述人伤理赔数据包含伤者信息、户籍信息、工作信息、医院信息、治疗手术信息、法院信息、伤残鉴定信息、律师信息和审决信息。
根据本公开实施例,所述s2中关联分析模型对输入对象集合进行分析计算的步骤为:
s2.1利用son算法将输入对象集合中的所有的理赔数据进行划分处理,分成p个文件块,p的取值范围为大于0的正整数;
s2.2将经s2.1划分的每个文件块作为一个样本,并执行apriori算法,在一个或多个文件块中被选中的频繁项集收集起来做为候选频繁项集;
s2.3将s2.2得到的候选频繁项集合并得到最终的频繁项集,计算每个频繁项集的支持度、置信度和提升度;
s2.4将得到的支持度、置信度、提升度值与预设的阈值进行比较,筛选得出符合关联对象集合。
根据本公开实施例,所述s2.3中的支持度、置信度和提升度的计算方法为:
根据对象集合中项集x在整个集合n,中同时出现的概率,计算出项集x支持度,公式如下:s(x)=σ(x)/n,n的取值范围为大于0的正整数。
根据对象集合中在项集x中出现项集y的概率,计算出项集x的置信,公式为:
c(x→y)=σ(x∪y)/σ(x),
项集x置信度除以项集y支持度称为项集x提升度,公式如下:
l(x→y)=c(x→y)/s(y)。
根据本公开实施例,所述s2.4中将支持度、置信度、提升度值与预设的阈值进行比较的条件为:
若项集支持度大于0.17,置信度大于0.68,提升度大于3为有效项集,否则为无效项集,裁剪掉无效项集。
如图2所示为本发明一种保险理赔数据分析系统,所述保险理赔数据分析系统包括接入管理模块、源数据管理模块、源数据导入模块、关联分析报表模块和自定义报表模块;
其中,所述接入管理模块,用于将用户接入平台申请,接入密钥发放管理,接入有效期管理;
所述源数据导入模块,是将保险数据导入处理入口,模块对外提供数据导入集成接口,接入安全管控,接入鉴权处理;
所述源数据管理模块,用于将源数据建立管道导入自定义报表模块,
所述自定义报表模块,在数据提供方提供的源数据格式说明后,根据格式标注数据字段含义,建立大数据平台数据表结构,设定源数据字段与大数据平台表字段映射关系,字段类型设定,数据格式及分割方法;
所述关联分析报表模块,用于生成关联规则项集表,根据计算分析方法,最后计算得出最终分析数据报表,再将最终分析数据报表发送给自定义报表模块。
根据本公开实施例,所述系统还包括:报表管理模块、调度管理模块和报表推送模块;
所述报表管理模块,用于将接收到自定义报表模块发送的报表浏览用户权限分配,报表的生成,归档设定;
所述调度管理模块,用于按设置的调度周期调用执行各模块的任务,监控任务执行过程,任务异常处理,调度周期策略管理,主要对源数据周期性同步,报表周期性生成,报表生成后的消息通知;
所述报表推送模块,是把需分享图表生成短链接地址以短信息方式通知需要浏览用户,用户收到短信息后点击短链接地址浏览报表数据,浏览时存在密码验证,阅读时效设置处理功能。
实施例:当保险理赔数据需要接入大数据平台时,第三方接入方需要在平台注册用户帐号,并申请接入密钥,平台发放接入密钥后,系统提供的集成接口采用restfulapi,接入方需要按照api集成方法进行集成,接入管理平台管控接入授权,访问频率控制,接入密钥发放等;
所述源数据管理模块,在接收到第三方数据时,需要把第三方原始保险理赔数据进行格式化保存在平台中,第三方保险理赔数据的多样式,注定需要平台对多格式数据支持,并对数据进行解析,把解析数据映射到hive表结构对应字段上,源数据管理用于源字段与hive表目标字段映射管理作用,在映射时要对字段类型、长度、为空性等必要参数进行设置,系统数据接收接口采适配置器方式自定议接收到数据格式,支持xml、json,提供restfulapi接口,接收数据进行格式转换成流式文本json格式,对json数据进行格式化成hive表结构数据并保存,形成基础数据库。
所述源数据导入模块,用于接收用户原始保险理赔数据,对保险理赔数据容错处理,记录数据接收处理日志,同时对用户保险理赔数据进行限流处理,为防止大数据量及高并发对系统影响,对其他用户体验影响,导入采用kafka消息队列进行缓存,当数据导入影响到用户计算体验时,将限制数据接收速度,减低报错,有效提升数据导入成功几率,减低保险理赔数据错误率。
所述自定义报表模块,在基础数据上,根据分析指标所需,需要对基础保险理赔数据进行加工处理;
所述关联分析报表模块,根据计算分析方法,最后计算得出最终分析数据,在车险理赔中,主要涉及对象为,车主、修理厂、定损员,存在人员伤亡情况下,存在伤者、医院、律所、法院对象,为了更好分析各个对象之间关联关系,进行深度挖掘,把车损对象修理厂、定损员、车辆、驾驶员做为对象组,人伤案件的医院、伤者、鉴定所、律所、律师、法院对象组进行关联分析。
具体的关联分析方法是:通过理赔数据对象集合中去计算该项集出现的支持度,公式为s(x)=σ(x)/n,表示为项集x在整个集合n中同时出现的概率,称为项集x支持度;
根据对象集合中在项集x中出现项集y的概率,公式为c(x→y)=σ(x∪y)/σ(x),称为项集x的置信度;
项集x置信度除以项集y支持度计算项集x提升度,公式为l(x→y)=c(x→y)/s(y)。
判断条件为:项集支持度大于0.17,置信度大于0.68,提升度大于3为有效项集,否则为无效项集,裁剪掉无效项集,对有效项集进行定量分析,得出关联规则项集表。
所述报表管理模块,对已生成报表进行管理,对异常报表进行手动更新等,查看报表更新日志,计算逻辑变更历史,方便对报表变化过程追踪。
所述报表推送模块,对报表进行外网浏览管理,生成便于访问的短链接,发送浏览短信,设置浏览权限及浏览时效管理功能,记录访问日志。
方法中所述理赔数据对象,是理赔车损案件中修换过程中所记录的配件信息、工时信息或人伤案件中所记录的伤者、医院、法院、律师、用药、手术信息。
其中保险理赔数据分析系统,所述包含:接入管理模块、源数据管理模块、源数据导入模块、自定义报表模块、报表管理模块、调度管理模块、报表推送模块。完成保险多格式数据同步到大数据平台上,支持实时在线同步,离线批量同步方式,系统对数据进行格栅化,建立数据仓库按主题、维度的数据立方体,数据分析人员,根据源数据信息,根据报表指标需求,使用源数据加工,分层处理,建立数据集市;使用报表模块完成整个报表制作生成呈现过程,并可通过短信息分享报表给相关人员浏览、审核功能。
系统支持承载大数据量的分析、计算功能,整理数据对象标定挖掘,得到对应结果,并灵活使用各种展示图,让数据分析人员能一目了然理解数据含义及数据趋势。
系统中所述接入管理模块,是用户接入平台申请,接入密钥发放管理,接入有效期管理,接入方法,调用url登录,接入数据格式登记管理,用户接入安全、高效、可靠为原则,在接入时申请api需要鉴权,数据接收速度控制、数据缓存处理,在数据出现异常通知处理,是外部用户接入入口管理中心,用户请求响应反馈,全部由接入管理定义处理。
系统中所述源数据管理模块,是源数据建立管道导入数据字段管理定义模块,在数据提供方提供的源数据格式说明后,根据格式标注数据字段含义,建立大数据平台数据表结构,设定源数据字段与大数据平台表字段映射关系,字段类型设定,数据格式及分割方法。
系统支持保险行业多业务场景,多渠道数据,数据格式字段都是不一样,xml、txt、json、csv都有可能存在,大数平台兼容多格式,适配多数据源导入,让外部数据按二维表格试存储,便于后面数据查询、过滤及后期分层处理。
系统中所述源数据导入模块,是保险数据导入处理入口,模块对外提供数据导入集成接口,接入安全管控,接入鉴权处理,调用第三方接口配置处理,平台支持周期调度处理源数据导入,按时间周期设定增长字段,到达调度指定时间时,系统会主动发起数据导入处理,把外部系统数据导入到平台,并更新后续数据计算及报表数据更新系列操作,让报表数据更新及时,减低人工干预,提高系统智能化,增强了用户体验。
系统中所述自定义报表模块,是报表制作模块,数据、报表生成预览功能,用户可以根据源数据,按所述关联分析方法,分析出关联数据,同时进行在线表数据合并、关联、去重函数计算方式,生成按维度的雪花形数据立方体,在数据立方体上,设定数据呈现方式,可支持多样数据图表样式,可按折线、柱状、雷达、饼形、地图形呈现,报表来源回朔。
系统中所述报表管理模块,用于报表浏览用户权限分配,报表生成周期、归档处理设定。
系统中所述调度管理模块,用于各模块周期生成处理,调度过程,调度异常处理,调度策略管理,对源数据周期性调度同步,报表周期性生成,报表生成后消息通知。
系统中所述报表推送模块,是把需分享图表生成短链接地址以短信息方式通知需要浏览用户,用户收到短信息后点击短链接地址方式浏览报表数据,浏览时存在密码验证,阅读时效设置处理功能。
以上内容仅是对保险理赔数据分析方法和系统的构思所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的构思或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。