一种建立医保住院费用预测模型的方法及系统与流程

文档序号：14750357发布日期：2018-06-22 12:32阅读：622来源：国知局

本发明涉及大数据处理技术领域，具体涉及一种建立医保住院费用预测模型的方法及系统。

背景技术：

近年来，各种疾病发生率一直攀高，随之而来的就医费用成为人们一大沉重负担，受到了极大的关注，尤其是病况严重需要住院时，昂贵的就医费用有时可能成为积极治疗的巨大阻力。如果患者能够提前对后期治疗花销、自己所需承担费用、医保可报销费用等有一个了解，一方面可以对比多家医院作出最佳选择，另一方面能够心里有数，提前做好资金准备。平常生活中，人们往往会根据历史经验做出一个预判，寻找与自己情况相似，疾病相同、年龄相近的案例作为参考进行估算，不难发现，历史数据正是预测未来的重要依据。

医保医疗信息化快速发展的背景下，医保结算数据也在快速增长，目前已积累了较大规模的数据资源，与此同时，大数据、人工智能、互联网等信息技术快速发展，珍贵的数据资源与先进的技术为实现医保住院费用预测这一现实需求提供了双重保障。

然而国内医保工作开展较晚，目前鲜有针对医保住院费用预测模型方面的研究，未能将社保数据有效利用起来，未能通过分析整合形成建模数据，以及未能快速构建预测模型并且持续优化。现有医疗大数据分析方法，如中国专利号CN105117587A公开一种医保领域中基于医疗大数据的智能分析方法，通过对医院原始医疗数据抽取与清洗，然后再医院医疗业务的框架下建立不同的数据集市，以对医院的数据进行细粒度分析，并能够各家医院的差异做出相应的调整，以满足各个医院的不同需求，再由各个数据集市建立起数据仓库，最后利用多维分析语言进行数据的查询，并将数据可视化。即上述医疗数据的智能分析方法为静态数据分析，主要用于对医院医保业务数据进行细粒度的分类和划分。静态数据统计分析方法，无法适用及融合不断更新的医疗医保大数据，无法充分挖掘医保大数据中存在的规律，导致分析模型不完善，分析结果不精确。

技术实现要素：

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种建立医保住院费用预测模型的方法及系统，通过新增数据对预测模型进行持续优化，以提高对医保住院费用预测的可靠性和精确性。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：一种建立医保住院费用预测模型的方法，包括预测模型初始构建过程和预测模型持续优化过程,所述预测模型持续优化过程包括：

采集增量数据：定期采集社保数据的增量数据，并保存至训练数据库中；

优化训练模型：根据增量数据检验预前一版预测模型的模型预测效果，将得到的模型预测结果与真实值进行对比，根据对比值差距大小判定是否重新触发并启动模型训练任务，通过机器学习算法优化训练更新后样本数据，以构建效果更佳的预测模型并存储。

优选的，所述预测模型初始构建过程包括：

采集初始数据：抽取社保数据的初始数据，形成初始训练样本，并保存至训练数据库中；

训练模型：根据模型训练定义，调取训练数据库中初始训练样本，启动并执行模型训练任务，通过机器学习算法训练初始样本以初次构建预测模型并存储。

本发明同时公开一种建立医保住院费用预测模型的系统，所述系统包括：

数据采集模块102，用于完成从社保数据到训练数据的初始数据采集和增量数据采集；

训练数据存储模块103，用于将训练数据保存为模型训练所需的样本数据，以形成训练数据库；

模型训练模块104，用于对预分类后的样本数据进行监督学习，以构建预测模型；

预测效果跟踪模块106，基于增量数据检验预测模型的预测效果，若预测模型的预测效果在真实环境下欠佳，则触发模型训练任务，并基于更新后样本数据进行模型优化训练，以构建效果更佳的预测模型。

优选的，所述系统包括数据源模块101，用于保存社保业务数据库内各地市社保业务数据，以形成预测模型的初始数据。

优选的，所述数据采集模块102包括初始数据采集模块1021和增量数据采集模块1022；所述初始数据采集模块1021，用于首次将社保业务数据库中的初始数据一次性初始导入训练数据库中；增量数据采集模块1022，用于定期将数据源模块101中的增量数据抽取转换导入训练数据库中。

优选的，所述模型训练模块104包括：

模型训练定义模块1041，用于定义所建预测模型的训练任务；

模型构建任务调度模块1042，用于接收模型训练请求，并启动模型训练任务；

样本预分类模块1043，用于对训练样本进行预分类；

预测模型训练模块1044，对预分类后训练样本数据进行监督学习。

优选的，所述系统还包括预测模型存储模块105，用于存储构建的预测模型。

优选的，所述预测效果跟踪模块106包括：

预测跟踪配置模块1061，用于添加模型效果跟踪任务，启动增量数据采集任务，设置触发模型重构的规则；

预测结果计算模块(1062)，用于根据新产生的增量数据，调用预测模型存储模块(105)中的预测模型计算预测结果；

预测效果分析模块1063，用于将预测结果与真实值进行对比分析，检验模型在真实环境下的预测效果，在模型预测效果不稳定时，触发模型训练任务，重新优化训练预测模型。

优选的，所述系统还包括系统预测效果评估报告生成模块(107)，用于根据新产生的增量数据，验证预测模型效果，生成模型预测效果分析报告，以展示、分析和评价模型的真实预测能力。

(三)有益效果

本发明具备以下有益效果：

1)系统以各地市社保业务数据为数据源，通过数据抽取工具形成建模样本数据，通过机器学习算法训练样本数据得到住院费用预测模型，实现医保住院相关费用的预测，例如医保总费用、可报销费用、自负费用等的可能发生费用分布情况；

2)系统基于源源不断的真实数据，即新增数据，追踪预测效果，持续优化，实现最优的模型构建体系，为各地市、各种疾病快速构建医保住院费用预测模型，保证模型一直处于当前最优状态，解决患者住院治疗前渴望知晓未来可能发生费用情况的需求。

附图说明

图1为本发明预测模型的方法流程图；

图2为本发明预测模型的系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图2，本发明实施例公开一种建立医保住院费用预测模型的系统，包括数据源模块101和模型训练系统，其中，模型训练系统包括数据采集模块102、训练数据存储模块103、模型训练模块104、预测模型存储模块105、预测效果跟踪模块106和预测效果评估报告生成模块107。

数据源模块101，用于提供预测模型构建的初始数据；

数据采集模块102，用于完成从社保数据到训练数据的初始数据采集和增量数据采集；

训练数据存储模块103，用于将训练数据保存为模型训练所需的样本数据；

模型训练模块104，用于定义、启动和执行模型训练任务，即对预分类后的样本数据进行监督学习，以构建预测模型；

预测模型存储模块105，用于存储构建的预测模型；

预测效果跟踪模块106，基于增量数据检验模型预测效果，若模型预测效果在真实环境下欠佳，则触发模型训练任务，并基于更新后样本数据进行模型优化训练；

预测效果评估报告生成模块107，用于根据新产生的增量数据，验证预测模型效果，生成模型预测效果分析报告，以展示、分析和评价模型的真实预测能力。

以下，将对上述各模块进行逐一描述。

数据源模块101，包括社保业务数据库，社保业务数据库内保存各地市社保业务数据，即为预测模型构建的初始数据，为模型训练样本提供数据来源。各地市社保业务数据，如医保总费用、可报销费用、自负费用等。

数据采集模块102，负责初始数据采集和增量数据采集两项数据采集，其中，从社保业务数据库中采集初始数据，以及定时从社保业务数据库101中采集增量数据，初始数据和增量数据共同构建模型训练需要的训练样本数据库。数据采集模块102包括初始数据采集模块1021和增量数据采集模块1022。

初始数据采集模块1021，用于首次将社保业务数据库中的初始数据一次性初始导入训练数据库中；

增量数据采集模块1022，用于定期将数据源模块101中的增量数据抽取转换导入训练数据库中。

训练数据存储模块103，实现训练数据到样本数据的转换，以形成训练样本数据库。训练样本数据库所含数据至少包括：年龄、性别、参保人员类别、待遇人员类别、优抚对象类别、孤寡类别、人群类别、单位性质、医疗统筹类别、就医类别、治疗方式、个人医疗年度、本年住院次数、就医医院名称、医院级别、住院方式等与住院费用相关的特征信息，以及对应的住院天数、实际发生费用总额、报销金额、个人负担金额、药品费、诊疗费、服务设施费等费用信息及报销信息。

模型训练模块104，用于定义、启动和执行模型训练任务，即对预分类后的训练样本数据库中的训练样本数据进行监督学习，以构建预测模型。

模型训练模块104包括：

模型训练定义模块1041，用于定义所建预测模型的训练任务，包括预测模型地市、预测模型费用类别、样本预分类方法、模型准确率、模型拟合度、模型复杂度要求等。

模型构建任务调度模块1042，用于接收模型训练请求，以及启动模型训练任务。

样本预分类模块1043，用于对训练样本进行预分类，即对训练样本添加类别标签。预分类方法包括聚类算法分类，按费用区间分类，按费用分布分类等，但不限于上述方法。

预测模型训练模块1044，对预分类后训练样本数据进行监督学习，学习算法包括神经网络、多元逻辑回归、支持向量机，通过不断迭代学习，最终形成满足预先定义的拟合度、准确率要求的预测模型。

预测模型存储模块105，保存预测模型的建模结果，包括保存预测模型、预测模型参数、预测模型评估指标等信息。

预测效果跟踪模块106包括：

预测跟踪配置模块1061，用于添加模型效果跟踪任务，启动增量数据采集任务，设置触发模型重构的规则，规则包括模型预测错误个数判定与错误率阈值判定。

预测结果计算模块1062，用于调用预测模型存储模块105中的预测模型，计算增量数据的预测结果。其中，增量数据为存储于训练数据库中的增量数据。

预测效果分析模块1063，主要负责对预测结果与真实值进行对比分析，检验模型在真实环境下的预测效果，在模型预测效果不稳定时，触发模型构建任务调度模块的模型训练任务，进行模型优化，调整过拟合参数，基于更新后样本数据，重新优化训练预测模型。

预测效果评估报告生成模块107，根据上述101-106的持续优化步骤，定期生成模型预测效果分析报告，以评价医保住院费用预测模型的真实预测能力。

参见图1，本发明实施例同时公开一种建立医保住院费用预测模型的方法，利用前述的建立医保住院费用预测模型系统，上述方法包括预测模型初始构建过程和预测模型持续优化过程：

预测模型初始构建过程，基于社保数据的初始数据，作为初始样本数据，通过机器学习算法构建费用分布预测模型，其中，上述的机器学习算法包括聚类算法、神经网络算法、支持向量机、多元逻辑回归等。

预测模型持续优化过程，对新增数据，进行费用预测，对比预测结果与真实情况，得出模型预测效果，针对模型不稳定，预测效果不佳的情况，及时启动模型训练任务，调整过拟合参数，基于更新后样本数据进行模型优化训练。

预测模型初始构建过程包括：

采集初始数据：抽取社保数据的初始数据，形成初始训练样本，并保存至训练数据库中；

预测模型持续优化过程包括：

采集增量数据：定期采集社保数据的增量数据，并保存至训练数据库中；

优化训练模型：根据增量数据检验预测模型的模型预测效果，将得到的模型预测结果与真实值进行对比，根据对比值差距大小判定是否重新触发并启动模型训练任务，通过机器学习算法优化训练更新后样本数据，以构建效果更佳的预测模型并存储。

生成预测效果评估报告：基于新产生的增量数据预测效果，定期生成模型预测效果分析报告，以展示、分析和评价模型的真实预测能力。

上述系统以及方法基于源源不断的真实数据，即新增数据，追踪预测效果，持续优化，实现最优的模型构建体系，为各地市、各种疾病快速构建医保住院费用预测模型，保证模型一直处于当前最优状态，解决患者住院治疗前渴望知晓未来可能发生费用情况的需求。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王新军;洪晓光;刘征征;闫中敏;王敏虾
技术所有人：山大地纬软件股份有限公司
我是此专利的发明人

上一篇：盐碱地用苦咸水淡化阻垢剂及其使用方法与流程
上一篇：液体清洁组合物及其制备方法和用途与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。