专利名称:用于自动产生分层树网络并且使用对于所述分层树网络的每个叶子优化的两种互补学习 ...的制作方法
技术领域:
本发明涉及一种用于产生分层树网络并且使用线性加非线性学习算法来形成关于成员的未来健康状态的一致观点的系统和方法。在所述分层树网络中的每个叶子在临床特性、经历时段和可用数据资产上同质(homogeneous)。对于每个叶子执行优化,以便可以对于每个叶子专有的本地特性定制(tailor)特征和学习算法。
发明内容
本发明用于一种用于预测人的未来健康状态的方法。所述方法包括步骤一种用于预测人的未来健康状态的方法。所述方法包括步骤a.建立作为多个层化变量的函数的分层树网络,对于多个成员,所述分层树网络把每个成员分配到多个节点中的至多仅一个;b.对于所述多个成员和用于每个所述成员,向基于计算机的系统提供成员人口数据(demographic data)、可得的成员医疗索赔数据和可得的成员医药索赔数据;c.对于所述多个节点的每个执行特征选择,以对于每个节点标识来自包括下述项的至少一些的集合的特征的最佳子集针对于被分配到该所述节点的所有成员的所述成员人口数据、所述可得的成员医疗索赔数据、所述可得的成员医药索赔数据;d.使用下述项的至少一些来训练MVLR算法和BRN算法所述成员人口数据、所述可得的成员医疗索赔数据、所述可得的成员医药索赔数据,并且在数据库中存储所学习的参数以建立所学习的参数的数据库;e.使用所述所学习的参数的数据库,以及对于至少一个所述成员,使用该至少一个所述成员的成员人口数据、所述可得的成员医疗索赔数据和所述可得的成员医药索赔数据,使用所述MVLR算法来计算MVLR未来健康状态分数以及使用所述BRN算法来计算BRN未来健康状态分数,计算所述MVLR未来健康状态分数和所述BRN未来健康状态分数的算术平均值以确定最终分数。
所述层化变量可以包括成员的入会持续时间,例如小于6个月或至少6个月;灾难状况的存在与否;糖尿病的存在与否;医药触发或住院准入触发(trigger)的存在;医疗和医药索赔数据两者的存在、仅仅医药索赔数据的存在或仅仅医疗索赔数据的存在。
所述方法还可以包括报告步骤,其中,关于成员的信息与所计算的最终分数被提供。例如,成员信息可以包括入会/合格信息、临床状况信息——包括状态、触发类型和触发日期——以及医药索赔和/或医疗索赔的随着时间的成员成本的表示。
通过下面结合附图的说明,可以更好地理解本发明,其中图1示出了N维向量空间,它被处理和映射以支持特征优化和学习以及各种学习算法的相对优点和弱点的讨论。
图2示出了分层树网络生成、特征优化、学习和打分(scoring)的整体流程图。
图3A-3H示出了运转中的两个所选择的学习算法(多变量线性回归和贝叶斯正则化网络的组合)。
图4A-4B示出了对于多层感知器的记忆效果的一瞥。
图5示出了当两种学习算法贝叶斯正则化网络(BRN)和多变量线性回归(MVLR)总体上一致时,通过远离表示完美一致的直线的众多散点可以看出,在一些情况下,它们提供了不同的回答。
图6A-6F示出了一年未来成本的平方根对各种协变量(covariate)的绘图。这些简单的绘图提过了许多有用的视点。如果存在简单的线性关系,则可以看到直的单向增加的线。不幸的是,我们未看到具有这些特征的任何一个的这样的明显趋势,这指示没有简单的线性视点(insight)。
具体实施例方式
作为背景,健康保险业中所使用的预测模型视图预测成员的未来健康状态。它们可以被部署在精算核保和高风险成员的标识中以用于抢先的医疗干预。
构造预测模型包含两个阶段首先,将索赔数据(claims data)转换为一组临床特征,第二,使用历史索赔数据来学习在临床特征(x)和未来健康状态(y)之间的关系。典型的临床特征包括二进制临床标记。注意,IHCIS使用超过几百个二进制临床标记作为在预测模型中的协变量。二进制标记的示例是最后3个月期间的入院病人事件、过去一年的冠状动脉旁路移植术(coronaryartery bypass graft,CABG)过程、过去一年的心脏病、年龄、性别、过去的处方成本(Rx cost)、过去的医疗成本、住院时间长度、急诊室(ER)门诊的数量、处方与医疗(Rx-to-med)的成本比率等等。
现今采用的学习算法涵盖基于规则的专家系统(Active Health)、线性回归(IHCIS、Ingenix、DxCG、Active Health和Biosignia)、多层感知器(McKesson、分类和回归树(CART)(医学家))、各种基于实例的学习机,诸如k近邻或判别自适应最近邻(Hastie和Tibshirani,1996)(MedAI)。学习算法试图通过优化由各种形式的误差项——诸如L-1(绝对误差)、L-2(均方误差)和L-∞(最大误差)范数——支配的目标函数而找到输入和输出之间的关系。
在概念上,特征提取和优化通过找到可以充分捕获在原始数据中存在的所有有用信息的最小特征维数以便利学习。学习类似于找到在最佳特征和期望输出之间的映射函数。学习算法可以被大致分类为参数的、非参数的和边界确定类型(Kil和Shin,1996)。
参数算法关于数据分布进行强参数假设,诸如线性高斯分布。简单参数假设——相应地具有小数量的模型参数要调整——可以是双刃剑。如果实际数据分布比初始假设复杂得多,则参数学习者遭受巨大的模型不匹配,当学习算法不足以捕获x和y之间的高度非线性关系时发生这种情况。相矛盾地,在存在大数据不匹配——这频繁发生在真实数据与用于调整模型的训练数据相当不同时——的情况下,简单参数算法趋向于胜过它们的非参数对手。
非参数和边界确定学习算法试图从数据学习数据分布。一般,神经网络和非参数学习算法,在擅于最小化模型不匹配误差同时,趋向于是深奥和迟钝的。没有简单的方式来说明输入和输出之间的关系。人们不能断言说,较高的先前年份的医疗成本导致较高的未来成本,因为没有简单的线性关系。
这些学习算法具有大量的可调整的参数,它们可以帮助捕获复杂、非线性的关系。不幸的是,这样的精细调整也可以导致过拟和(overfit)或记忆,这在存在数据不匹配时是危险的。而且,众所周知,非线性算法当运行在训练空间之外时趋向于产生混乱结果。即,当人们预期现实数据和调整了所述模型的训练数据之间的大差异时,它们是不合适的。
隐马尔可夫(Markov)模型在对于时间过渡建模上有用。在现实应用中,频繁地观察到在计算代价高昂的Baum-Welch优化次于分段k均值(segmentalk-means,SKM),虽然前者具有更高的被宣传的精度。原因是在模型和数据不匹配之间的折中(trade off)。在我所看到的大多数现实问题中,数据不匹配远比模型不匹配重要。
从左到右,为了演示特征优化和学习的核心思想,图1示出了原始数据跨越的初始N维向量空间,随着大量重叠贝信号处理并且特征被排序(rank)而产生由特征优化后所确定的良好特征跨越的M维向量空间,其中M<<N,在右部的映射示出了由分类器建立的最后的一维决策空间。下面总结了各种学习算法的相对优点和弱点。参数学习算法的特性是它们对于潜在的类条件概率分布(class-conditional probability)进行强参数假设,非常易于训练,并且易于受到模型不匹配的影响。参数学习算法的示例是多变量高斯分类器、高斯混合模型和线性回归。非参数学习算法的特性是它们不进行参数假设,从数据学习分布,在大多数情况下训练昂贵,并且易于受到在训练和测试数据集之间的数据不匹配的影响。非参数学习算法的示例是核(心Kernel)估计器、直方图、函数形式和K-nearest。边界确定学习算法的特性是它们构造划分多个类的(非)线性边界函数,训练昂贵,并且在大多数情况下启发性地确定内部参数。边界确定学习算法的示例是多层感知器、判别神经网络、支持向量机。
线性回归的普及源于它的直观力量。设y表示未来成本,x表示N维实空间(∈RN)的临床特征或协变量。线性回归使用下面的方程来估计yy^=a0+Σn=1Nanxn,]]>其中,an表示在xn和y之间的相关(correlation)的方向和强度。下面说明线性回归的直观特性。如果先前年份医疗成本的回归系数a是+1.3,则可以推测在所有的其他输入变量相同的情况下,未来成本有可能是先前年份的医疗成本的1.3倍。
虽然易于理解,但是线性回归不能利用其简单数学公式来对于复杂、非线性关系建模,这可以导致大的模型不匹配误差。尽管如此,尚未回答的问题是,如何组合线性和非线性模型的优势,以便我们可以最小化数据和模型不匹配误差两者。
概括言之,建模的成功依赖于在模型不匹配和数据不匹配之间的折中。迫切需要找到一种在数据变换、所得到特征的提取、优化和鲁棒学习方面的集成的、互补的算法集。
对于本发明,不是试图以一个重击解决整体问题,我们依赖于明智的、分而治之(divide-and-conquer)的手段。首先,我们使用分层树网络将问题空间划分为多个逻辑子空间。所述分层树网络的每个叶子在临床特性、经历时段和可用数据资产上同质。而且,所述分层树结构方法很灵活足以容纳另外的维数,诸如用于表示成员的总体疾病负担的临床状况分数、先前经历特性(每个月的先前成本)、慢性病对总成本的比率和疾病轨迹(加重、减弱或随着时间不变)。接下来在每个叶子进行特征排序,以使用对预测有用的本地独特的特性。最后,多个学习算法使用其本身的思考研究最佳特征子集和输出之间的关系。图2示出了分而治之手段的一个实施例。
现在,我们详细说明每个步骤。
分层树网络产生设计分层树网络,其中,每个叶子包括共享类似Humana龄和数据标记的临床同质聚类。在x轴上的临床状况分数(Clinical ConditionScore,CCS)和在y轴上的每月先前成本的2维空间中执行聚类。具有多个共病态(co-morbid)状况的第m个成员的临床状况分数被定义如下CCS(m)=Σk=1Nchr+1bk(m)pppm(k),]]>其中,bk(m)是第m个成员的第k个状况存在/不存在标记,并且pppm(k)表示具有第k个共病态疾病集的所有成员的平均每个月成本。在这个二维向量空间中,第一象限表示严重病态的群体,其具有高的每个月每个成员(per-member-per-month,PMPM)的先前成本。第三象限表示较为健康的群体,其具有低的PMPM。第二象限包含具有较小数量的临界临床状况、但是具有大PMPM(也许行为问题)的成员。最后,第四象限表示具有众多临界临床状况、但是具有小的PMPM的成员,也许是因为他们更好地自我管理他们的状况。
a.树再分(subdivision)的指南前后的熵降低度量(即我们通过划分获得了什么东西吗?),数据不匹配的水平(在全数据集训练和10折的交叉验证之间的MVLR性能差别)、最小群体规模300和必要性(加入持续时间和数据可用性)。
b.分支重新组合根据类似性量度诸如被定义如下的Kullback-Leibler散度与不同分支节点的重新组合DKL(i,j)=∫p(y|leaf=i)ln(p(y|leaf=i)p(y|leaf=i))dy-∫p(y|leaf=i)ln(p(y|leaf=i)p(y|leaf=i))dy]]>其中,p(y|leaf=j)是与分层树叶子j相关联的所选输出的概率。
c.近似在给出我们的数据的实体的情况下,我使用下面的5个特征来建立分层树叶子1.Humana成员持续时间这指示成员已经加入Humana多长时间,并且确定可得的索赔历史的数量。这个字段对解释健康保险业中高周转率的商业实体是必要的。
2.灾难状况这个字段表示需要协调的健康管理和严格的临床干预的昂贵慢性病状态的存在。
3.糖尿病标记因为个人看护程序着重于具有其他慢性病状态的糖尿病患者的行为改变,因此独立地标记具有糖尿病但是没有灾难状况的成员。
4.触发类型这个字段表示成员被带入预测模型队列中的原因。对于住院事件的那些成员需要关于他们如何可以远离进一步的住院治疗的特殊劝告和提醒消息。而且,他们对于行为干预消息更易于接受。
5.数据可用性不必说,模型必须考虑可用的数据资产。
特征子集选择对于每个叶子,我们进行特征优化以在收益减小点选择最佳的特征子集。
a.特征相关为了最小化冗余和特征维数,我们使用主成分分析来组合高度相关的特征(ρ≥0.9),其中, b.特征排序特征排序的目的是研究每个特征对于整体的预测精度的贡献水平。如果特征完全正交(即ρij=0,i≠j),则特征排序蜕化为使用多个适当的量度——诸如Fisher的判定率、多模型重叠(multi-modal overlap,MOM)测量、散度、Bhattacharyya距离(Kil和Shin,1996)——边缘的或一维的特征排序。如果特征不是正交的,则我们可以使用随机或组合优化算法。
学习学习可以采用回归(连续因变量(dependent variable),诸如未来成本)或分类(离散因变量,诸如标识在未来成本中的前20%的用户)的形式。所述因变量可以临床或面向保险精算的。我们使用下面的学习算法a.多变量线性回归(MVLR)y=a0+Σn=1Nanxn]]>b.贝叶斯正则化网络(BRN)BRN可以用于回归和分类两者(Foresee和Hagan,1997)。
打分(scoring)使用所学习的参数数据库,我们现在使用多个学习算法来对于未知的一批群体打分。
现在,我们探讨如图2中所示的一个这样的实施例的学习和打分。对于图2,使用下面的附图标号1-融合的特征的输入,它们是所有可得的医疗和医药数据和人口数据;2-特征子集选择;3-学习或分数决定?;4-学习路径;5-MVLR学习;6-BRN学习;7-被学习的数据库;8-分数路径;9-MVLR打分;10-BRN打分;11-平均值运算符;12-临床状况总结;13-最后的分数和状况报告。
详细讨论之前,下面的表提供了关于分层树网络中的30个节点的细节。
在上面的表格中,由1-15标识的叶子形成入会少于6月的成员的第一节点集,叶子16-30形成入会大于等于6月的第二节点集。对于第一组节点1-15,叶子1-3形成第一子集,叶子4-15形成第二子集;叶子4-6形成第一子子集,叶子7-9形成第二子子集,叶子10-12形成第三子子集,叶子13-15形成第四子子集。对于第二节点集16-30,叶子16-18形成第一子集,叶子19-30形成第二子集;叶子19-21形成第一子子集,叶子22-24形成第二子子集,叶子25-27形成第三子子集,叶子28-30形成第四子子集。
1.为了所述预测模型处理每个可想象的情况,如上所示,我们建立了分层树网络作为下面5个层化(stratification)变量的函数,产生30个节点或叶子入会持续时间成员加入Humana多长时间。如上所示,成员被划分为已经加入Humana 0-0.5年的成员和已经加入Humana超过0.5年的成员。
灾难状况成员具有高度严重(high-severity)临床状况吗?如果成员具有下面的任何一个,则种类标记为是,否则为否。
癌症。
晚期疾病(肾或肺衰竭)。
移植。
罕见疾病。
艾滋病。
CAD+CHF+高血压。
糖尿病标记,是或否。如果成员具有在上述的b中的灾难状况,则它们在叶子1-3或16-18中,并且糖尿病标记不影响。
触发类型新的Rx索赔或住院准入。
可获得的数据仅仅Rx、仅仅医疗或两者。
作为示例,从30个节点的上面的表格和上面的说明,我们看到如果JonhSmith已经加入Humana 9个月并且具有灾难状况,则如果他具有医药和医疗受益,则他将落入叶子#16中。另一方面,如果Nancy Doe已经加入Humana12个月、没有任何灾难状况、但是是糖尿病患者并且具有住院触发,则假定她具有由Humana涵盖的医疗和医药受益计划,她将落入叶子#22中。也看出,只有那些具有灾难状况或具有住院准入触发或处方触发的成员才将被分配到所述30个节点之一。
对于每个叶子,我们使用附加组合优化执行特征优化以找到最佳的子集。
在学习期间,我们训练多变量线性回归(MVLR)和贝叶斯正则化网络(BRN)算法两者。所学习的参数被存储在本地数据库中。所述两种学习算法被选择来处理在现实情况中通常遇到的数据不匹配或模型不匹配误差两者。模型不匹配误差发生在当学习算法太简单以致不能适当地对于在输入和输出之间的复杂关系建模时。另一方面,数据不匹配误差发生在当过分调整(super-tuned)的学习算法不能处理在训练数据和测试数据之间在数据特性上的差别时。
在打分期间,这两个学习算法均提供了对于成员的未来健康状态它们的估计。
简单的算术平均值运算符输出最后的分数,然后将其与报告格式的成员临床状况总结组合。所述临床状况报告由前5个MCC条件构成触发类型、触发日期、打分日期、个人密钥、如果是糖尿病的胰岛素、口服或这两个代码、怀孕标记。
对于如上所述的每个叶子,对于属于那个叶子的结构上同质的群体分段发生独立的学习。例如,我们获得用于叶子16-18的下面的统计1.以R2=1-var(y-y^)var(y)]]>测量的性能,其中,y和 分别指的是实际和预测的输出,并且var(·)表示方差运算符;a.Rx+med0.41/0.39(BRN/MVLR)b.仅仅Rx0.24/0.18c.仅仅med0.36/0.352.前五个特征如下a.Rx+medi.总的预付数量的平方根ii.其他住院设施的平均利用iii.随着时间的预付数量上的趋势iv.支付数量上的波动——越一致,则越容易预测。
v.与罕见疾病诸如多发性脑脊髓硬化症、血友病等相关联的成本。
b.仅仅Rxi.非0Rx成本持续时间ii.服用的独特药的数量iii.Ace药的成本iv.Rx慢性病成本对Rx总的成本的比率,所述比率越高,则越容易预测。
v.GPI药分类IDc.仅仅medi.最近6月预付数量的平方根ii.其他住院设施的平均利用iii.在主要ICD-9中的独特诊断的数量iv.每个月的主要临床状况(MCC)成本的平均值v.针对住院医生的平均支付数量索赔3.在打分期间,我们计算每个成员的大量特征,找到她所属的叶子#,过滤我们对于所选择的叶子所需要的特征子集,加载与那个叶子的所述两个学习算法相关联的学习参数,并且生成来自MVLR和BRN的两个输出。为了所述两个学习算法之间的一致,我们采用算术平均值。对于MVLR,学习参数由标准化和回归系数构成。对于BRN,所述学习参数包括网络架构结构、优化函数和每个网络节点和连接的加权/偏差值。
4.作为输出,我们向所述平均分数附加每个人的临床状况、气象图(weather map)、触发信息和其他合格(eligibility)信息。成员气象图提供了对于该成员的医药和/或医疗索赔的特定时段上的成员成本的表示。通过映射ICD9代码到主要临床状况,可以对于不同的主要临床状况种类(诸如,例如,冠状动脉病、充血性心力衰竭、其他心脏病、血循环、癌症)及其子集和子子集(诸如,例如,主要临床状况冠状动脉疾病具有子类冠状动脉旁路移植术、经皮经管冠状动脉成形术、心肌梗塞、心绞痛、其他缺血性心脏病、冠状动脉粥样硬化和血脂过多)示出医疗成本信息。药代码叶子被映射到各种主要临床状况及其子集和子子集。成员气象图也可以示出在同一指定时段上取代治疗(诸如医院住院、医院急诊室、医生办公室访问)的成员利用和医疗索赔成本。
下面,我们提供另外的算法细节。
贝叶斯正则化网络传统的前向神经网络使用执行加权算术求和和非线性激活的多个前向连接的神经元来迭代地学习输入和输出之间的高度非线性关系。不幸的是,在存在数据不匹配——其有时被称为“新颖”输入——的情况下,已经发现性能缺少鲁棒性。这是正则化(regularization)扮演重要角色的机会。
正则化意味着找到有意义的逼近解决方案,而不是无意义的精确解决方案(Neumaier,1998)。线性代数中的著名正则化方法被称为对角安装(dialogonalloading)。它也被称为Tikhonov正则化。
如果我们感兴趣于找到在y=Ax中的解x,则公知的标准L-2解是x=(A′A)-1A′y。对于不适定(ill-posed)的问题——其中伪逆A+=(A′A)-1A′不存在(可以使用奇异值分解对此验证),有意义的、良好的、适当解是x=(A′A+σ2I)-1A′y,其中,我们向每个对角项加上小数量以正则化。这个特征被内置在我们的多变量高斯分类算法中。
类似地在学习中,取代使用最小化均方差(L-2范数)的传统目标函数,可以使用在概念上类似于贝叶斯信息标准(Bayesian Information Criterion,BIC)或最小描述长度(Rissanen,1989)的优化函数,它的形式是BIC≈logp(D|S,θ^s)-D/2logN,]]>其中,D和S分别指的是数据库和模型结构。N是数据的样本大小,而d是模型S的参数的数量, 表示与给定的模型结构相关联的一组参数。直观地,这个方程陈述了,可以通过最大化从数据学习的模型结构的说明力量并且同时最小化模型复杂性来最大化所述目标函数。
在BRN中,目标函数J=αE||y-y^||+βE||ω||,]]>其中,α+β=1。在J中的第一项是公知的均方预测误差,而第二项表示网络加权的平方的和。如果β>>α则学习将在损害最小化预测误差的情况下更多地着重于加权减少,结果产生的网络响应比其他更平滑。在高斯假设下,可以应用贝叶斯规则以得到α和β的封闭(closed-form)解(Foresee和Hagan,1997)。
简而言之,BRN依赖于使用贝叶斯正则化来避免在学习期间的过拟和,同时保留灵活性以学习和响应于新颖的模式,在这种情况下,我们在目标函数中使用三个因素——误差、网络加权、就实际特征维数而言的模型复杂度——以用于获得更大的鲁棒性。
线性回归函数y=a0+Σn=1Nanxn]]>可以被实现如下 a^=X\yora^=(X′X+σ2I)-1X′y]]>y^=Xa^]]>再一次,我们使用Tikhonov正则化来找到对于矩阵逆转问题的鲁棒解决方案。
我们接着总结我们如何处理鲁棒性问题。1.处理预测误差、模型复杂性和模型参数的目标函数。2.因变量的变换,以减少动态范围和定标不可容忍的在外(outlier),即成本的平方根而不是线性成本。3.性能分析,包括5折或10折(fold)的交叉验证和全数据集训练。4.多模型组合。
实现示例假设人类疾病进展的多样性的情况下,我们预期大量的数据不匹配,意味着学习算法对于在训练期间未遇到的状态必须鲁棒。而且,我们预期所述问题像在大多数现实问题中那样的非线性的。
在谨慎地考虑了多个学习算法后,我们选定多变量线性回归和贝叶斯正则化网络(BRN)的组合,以寻找两者之间的一致。线性回归被选择,因为其在存在数据不匹配的情况下的鲁棒性。基于L-1目标函数的非参数和边界判定学习算法在下列方面是很有名的,即当被强制在它们的适当区域之外运行时产生狂乱的猜测(即在工程中取代内插的外插)。
虽然有其相对于数据不匹配的鲁棒性,但是线性回归当对于复杂、非线性关系建立模型时力不从心。为了掩蔽这个缺陷,我们将线性回归与贝叶斯正则化网络(BRN)组合。而且,为平衡正则化和BIC的概念,我们引入了附加的惩罚项来作为模型复杂度的函数,以便我们折中在最小化在学习期间的预测误差的期望和对于通过泛化(generalization)而相对于新颖的、未看见的数据的鲁棒性的需要。
可以通过注意在随机交叉验证和全数据集训练之间在性能上的差别来确定学习的鲁棒性,全数据集训练一般在实时实现中优选,因为人们希望对于尽可能多的数据建模。图3A-H示出了对两个不同的数据集运行的两种所选择的学习算法。图3A-B示出了对于第一数据集的线性回归,图3C-D示出了对于该数据集的BRN。图3B和3D针对全数据集,图3A和3C是交叉验证。图3A图示了在Rsq=0.86358的情况下的预测(y轴)对实际(x轴)的输出。图3B图示了在Rsq=0.83052的情况下的预测(y轴)对实际(x轴)的输出。图3C图示了在Rsq=0.91497的情况下的预测(y轴)对实际(x轴)的输出。图3D图示了在Rsq=0.92077的情况下的预测(y轴)对实际(x轴)的输出。图3E-F示出了对于第二数据集的线性回归,图3G-H示出了对于该数据集的BRN。图3E图示了在Rsq=0.58165的情况下的预测(y轴)对实际(x轴)的输出。图3F图示了在Rsq=0.56736的情况下的预测(y轴)对实际(x轴)的输出。图3G图示了在Rsq=0.59826的情况下的预测(y轴)对实际(x轴)的输出。图3H图示了在Rsq=0.59819的情况下的预测(y轴)对实际(x轴)的输出。如预期的那样,在两个不同数据集上的全数据集训练和随机交叉验证训练之间的性能差别小,甚至在一些情况下是负的,这是学习鲁棒性的实证。图4A图示了在Rsq=0.90001的情况下的预测(y轴)对实际(x轴)的输出。图4B图示了在Rsq=0.96846的情况下的预测(y轴)对实际(x轴)的输出。在这种情况下,所述性能差别相当显著,并且如果使用鲁棒的学习算法来观察这种情况,则数据不匹配的水平很高。
如果学习算法仅仅记忆解决方案而不是泛化,则我们预期看到所述性能差别更大,如在图4A-B中所示。图4A-B示出了多层感知器的记忆效果。图4B是基于使用最小化L-2函数的神经网络的全数据集训练的,而图4A基于交叉验证。
图5图示了贝叶斯正则化网络(BRN)预测(y轴)对多变量线性回归(MVLR)预测(x轴),并且示出了在所述两种学习算法一致的同时,如远离代表完美一致的直线的多个散点所示,在一些情况下,它们提供不同的回答。在此,预测的变量等于使用先前9个月的索赔和人口数据的未来一年成本(医疗和医药两者)的平方根。
概括一下,我们依赖于下面的标准来保证我们的解决方案既准确又鲁棒误差最小化;模型复杂度最小化;模型加权最小化以获得平滑、泛化的响应;特征排序,以找到收益递减点;在全数据集训练和5折/10折交叉验证之间的差别最小化;以及多模型组合。
作为具有叶子特定特征优化的分层树网络的实现示例,我们现在探讨一些叶子如何表现不同。
对于具有灾难状况的成员,许多有用特征来自与慢性病状况——诸如晚期/慢性肾病、癌症和罕见疾病——相关联的成本趋势。另一个感兴趣的特征涉及近来的医院门诊病人趋势,其中,通常进行血液透析。而且,医疗与Rx成本的比率是重要的,因为在这个群体分段中较高Rx成本及对应的低医疗成本通常归于较好的健康管理。
有趣地,虽然对于具有医疗和Rx受益的那些成员不重要,但是对于那些对Humana仅仅具有Rx索赔的那些成员,医药索赔的数量和除以总的Rx成本的用于慢性病Rx药疗的成本的比率都是重要的。即,依赖于人们所具有的受益方案的类型,特征优化算法自动选择最佳的子集。
另一方面,糖尿病成员具有多个成本驱动器,诸如精神紊乱(近来被诊断慢性病的人们趋向于遭受抑郁和其他精神焦虑)、排泻(vent)、充血性心力衰竭、内分泌、消化和其他并发症。一种这样的指示是在过去9个月期间的不同的国际疾病分类(International Classification of Disease)代码、或ICD代码的编号。参见所述代码的第9版本,ICD代码经常被称为ICD9代码。
尽管如此,没有可以先验地用于猜测哪些特征将对于特定叶子更有效的明显经验法则。为了调查这个事项,如图6A-F中所示的,我们研究了一年未来成本的平方根对如下面的协变量的多个二维分散绘图所服用的独特药的数量(图6A);总的Rx成本(图6B);年龄(图6C);移植相关联的成本(图6D);慢性病成本(图6E);以及冠状动脉病(CAD)成本(图6F)。如果存在简单的线性关系,则可以看到直的、单调上升的线。不幸的是,我们没有看到关于这些特征的任何一个的这样的明显趋势,这指示没有简单的线性视点。
被证明错误的第一神话是人服用越多的药,则他或她越可能在未来花费更多。图6A没有示出这样的关系。在图6B中,总的Rx成本看起来更有可能,虽然我们看到在前半部分中的大点(超过90%的群体),其示出非结论性(less-than-conclusive)的画面。图6C示出了最有风险的年龄组看起来在年龄50-65附近。也可以在图6C中看到年龄在预测未来成本上并不有用。对于在图6E中的慢性病成本和在图6F中的CAD成本获得相同的观察结果。即,具有多个慢性病共病态状况不自动导致不愉快的未来结果。这个观察总结了在建立用于预测未来健康状态的预测模型中固有的困难。
因此,不是将我们频繁错误的直觉强加于在预测模型上或者将所有(包括许多无用的噪声)投入模型中,我们构造分层树网络,并且使得优化算法大量的特征排序,并且选择针对每个叶子的最佳子集。即,我们让数据告诉我们对于每个叶子实现什么。
本发明包括基于计算机的系统,用于预测人的未来健康状态,包括a.分层树网络,它作为5个层化变量的函数将每个成员分配到30个节点之一;b.使用多个随机的和组合优化算法对于每个节点选择特征子集;c.依赖于操作模式的独立学习和打分模块;d.算术平均运算器,用于从两个学习算法寻找一致;e.报告产生器,用于输出永久参数以有助于临床干预。在设计分层树网络使用5个有意义的层化变量,以便在数据和经历时段要求上提供全承包(turnkey)方案。即,我们不必担心仅仅处理具有至少6个月的索赔经历外加医疗和Rx数据的成员。而且,两种学习算法彼此互补,以便我们运行在包括模型不匹配对数据不匹配和模型灵活度对模型复杂度谱的向量空间的鲁棒子空间中。
上面的详细说明主要为了理解清楚而给出,不要理解为从其产生不必要的限制,因为本领域内的技术人员可以在读取本公开后进行修改,并且可以在不脱离本发明的精神的情况下进行修改。
本申请要求2004年4月27日提交的美国临时专利申请第60/565,579号——用于自动产生分层树网络并且使用对于所述分层树的每个叶子优化的两种互补学习算法的系统和方法——的权益,其通过引用被包含在此。
权利要求
1.一种用于预测人的未来健康状态的方法,所述方法包括步骤a.建立作为多个层化变量的函数的分层树网络,对于多个成员,所述分层树网络把每个成员分配到多个节点中的至多仅一个;b.对于所述多个成员和对于每个所述成员,向基于计算机的系统提供成员人口数据、可得的成员医疗索赔数据和可得的成员医药索赔数据;c.对于所述多个节点的每个执行特征选择,以对于每个所述节点标识来自包括下述项的至少一些的集合的特征的最佳子集针对于被分配到该所述节点的所有成员的所述成员人口数据、所述可得的成员医疗索赔数据、所述可得的成员医药索赔数据;d.使用下述项的至少一些来训练MVLR算法和BRN算法所述成员人口数据、所述可得的成员医疗索赔数据、所述可得的成员医药索赔数据,并且在数据库中存储所学习的参数以建立所学习的参数的数据库;e.使用所述所学习的参数的数据库,以及对于至少一个所述成员,使用该至少一个所述成员的成员人口数据、所述可得的成员医疗索赔数据和所述可得的成员医药索赔数据,使用所述MVLR算法来计算MVLR未来健康状态分数以及使用所述BRN算法来计算BRN未来健康状态分数,计算所述MVLR未来健康状态分数和所述BRN未来健康状态分数的算术平均值以确定最终分数。
2.按照权利要求1的用于预测人的未来健康状态的方法,其中,在确定该最终分数后,所述方法还包括步骤产生成员临床状况报告,所述成员临床状况报告包括成员标识信息和所述最终分数。
3.按照权利要求2的用于预测人的未来健康状态的方法,其中,所述成员临床状况报告还包括所述成员的临床状况数据以及所述成员的医疗索赔信息和医药索赔信息的任何一个的至少一部分。
4.按照权利要求1的用于预测人的未来健康状态的方法,其中,在所述建立分层树网络的步骤中,所述多个层化变量包括下述项的至少一些成员的入会持续时间、成员的存在或没有灾难状况、成员的存在或没有糖尿病标记、具有处方触发或住院准入触发的成员、成员索赔数据。
5.按照权利要求4的用于预测人的未来健康状态的方法,其中,如果所述成员的入会持续时间小于6个月,则所述成员将被分配到第一节点集之一;如果所述成员的入会持续时间是至少6个月,则所述成员将被分配到第二节点集之一。
6.按照权利要求5的用于预测人的未来健康状态的方法,其中,如果所述成员的入会持续时间小于6个月,并且如果所述成员存在灾难状况,则所述成员将被分配到所述第一节点集的第一子集;其中,如果所述成员的入会持续时间小于6个月,并且如果所述成员没有灾难状况,则所述成员将被分配到不在所述第一节点集的所述第一子集中的所述第一节点集之一,所述不在所述第一节点集的所述第一子集中的所述第一节点集的所述之一包括所述第一节点集的第二子集;其中,如果所述成员的入会持续时间是至少6个月,并且如果所述成员存在灾难条件,则所述成员将被分配到所述第二节点集的第一子集;其中,如果所述成员的入会持续时间是至少6个月,并且如果所述成员没有灾难状况,则所述成员将被分配到不在所述第二节点集的所述第一子集中的所述第二节点集之一,所述不在所述第二节点集的所述第一子集中的所述第二节点集之一包括所述第二节点集的第二子集。
7.按照权利要求6的用于预测人的未来健康状态的方法,其中,如果所述成员的入会持续时间小于6个月并且如果所述成员没有灾难状况,并且如果所述成员具有糖尿病标记,并且如果所述成员具有处方触发,则所述成员被分配到所述第一节点集的所述第二子集的第一子子集;其中,如果所述成员的入会持续时间小于6个月,并且如果所述成员没有灾难状况,并且如果所述成员具有糖尿病标记,并且如果所述成员具有住院准入触发,则所述成员被分配到所述第一节点集的所述第二子集的第二子子集;其中,如果所述成员的入会持续时间小于6个月,并且如果所述成员没有灾难状况,并且如果所述成员没有糖尿病标记,并且如果所述成员具有处方触发,则所述成员被分配到所述第一节点集的所述第二子集的第三子子集;其中,如果所述成员的入会持续时间小于6个月,并且如果所述成员没有灾难状况,并且如果所述成员没有糖尿病标记,并且如果所述成员具有住院准入触发,则所述成员被分配到所述第一节点集的所述第二子集的第四子子集;其中,如果所述成员的入会持续时间是至少6个月,并且如果所述成员没有灾难状况,并且如果所述成员具有糖尿病标记,并且如果所述成员具有处方触发,则所述成员被分配到所述第二节点集的所述第二子集的第一子子集;其中,如果所述成员的入会持续时间是至少6个月,并且如果所述成员没有灾难状况,并且如果所述成员具有糖尿病标记,并且如果所述成员具有住院准入触发,则所述成员被分配到所述第二节点集的所述第二子集的第二子子集;其中,如果所述成员的入会持续时间是至少6个月,并且如果所述成员没有灾难状况,并且如果所述成员没有糖尿病标记,并且如果所述成员具有处方触发,则所述成员被分配到所述第二节点集的所述第二子集的第三子子集;其中,如果所述成员的入会持续时间是至少6个月,并且如果所述成员没有灾难状况,并且如果所述成员没有糖尿病标记,并且如果所述成员具有住院准入触发,则所述成员被分配到所述第二节点集的所述第二子集的第四子子集。
8.按照权利要求7的用于预测人的未来健康状态的方法,其中,所述第一节点集的所述第一子集、所述第一节点集的所述第二子集的所述第一子子集、所述第一节点集的所述第二子集的所述第二子子集、所述第一节点集的所述第二子集的所述第三子子集、所述第一节点集的所述第二子集的所述第四子子集、所述第二节点集的所述第一子集、所述第二节点集的所述第二子集的所述第一子子集、所述第二节点集的所述第二子集的所述第二子子集、所述第二节点集的所述第二子集的所述第三子子集、所述第二节点集的所述第二子集的所述第四子子集每个包括第一节点,其中,所述成员具有医药和医疗索赔数据两者;第二节点,其中,所述成员仅仅具有医疗索赔数据;第三节点,其中,所述成员仅仅具有医药索赔数据。
9.按照权利要求4的用于预测人的未来健康状态的方法,其中,如果成员具有下述项的至少一个,则所述成员将存在灾难状况任何癌症、晚期疾病、移植、罕见疾病、艾滋病、冠状动脉病外加慢性心脏病外加高血压的组合。
10.按照权利要求1的用于预测人的未来健康状态的方法,其中,所述分层树网络的所述多个节点包括30个节点,a.第一节点,针对具有少于6个月的入会持续时间、存在灾难状况以及医药和医疗索赔数据两者的任何成员;b.第二节点,针对具有少于6个月的入会持续时间、存在灾难状况以及仅仅医药索赔数据的任何成员;c.第三节点,针对具有少于6个月的入会持续时间、存在灾难状况以及仅仅医疗索赔数据的任何成员;d.第四节点,针对具有少于6个月的入会持续时间、没有灾难状况、存在糖尿病触发、存在处方触发以及医药和医疗索赔数据两者的任何成员;e.第五节点,针对具有少于6个月的入会持续时间、没有灾难状况、存在糖尿病触发、存在处方触发以及仅仅医药索赔数据的任何成员;f.第六节点,针对具有少于6个月的入会持续时间、没有灾难状况、存在糖尿病触发、存在处方触发以及仅仅医疗索赔数据的任何成员;g.第七节点,针对具有少于6个月的入会持续时间、没有灾难状况、存在糖尿病触发、存在住院准入触发以及医药和医疗索赔数据两者的任何成员;h.第八节点,针对具有少于6个月的入会持续时间、没有灾难状况、存在糖尿病触发、存在住院准入触发以及仅仅医药索赔数据的任何成员;i.第九节点,针对具有少于6个月的入会持续时间、没有灾难状况、存在糖尿病触发、存在住院准入触发以及仅仅医疗索赔数据的任何成员;j.第十节点,针对具有少于6个月的入会持续时间、没有灾难状况、没有糖尿病触发、存在处方触发以及医药和医疗索赔数据两者的任何成员;k.第十一节点,针对具有少于6个月的入会持续时间、没有灾难状况、没有糖尿病触发、存在处方触发以及仅仅医药索赔数据的任何成员;l.第十二节点,针对具有少于6个月的入会持续时间、没有灾难状况、没有糖尿病触发、存在处方触发以及仅仅医疗索赔数据的任何成员;m.第十三节点,针对具有少于6个月的入会持续时间、没有灾难状况、没有糖尿病触发、存在住院准入触发以及医药和医疗索赔数据两者的任何成员;n.第十四节点,针对具有少于6个月的入会持续时间、没有灾难状况、没有糖尿病触发、存在住院准入触发以及仅仅医药索赔数据的任何成员;o.第十五节点,针对具有少于6个月的入会持续时间、没有灾难状况、没有糖尿病触发、存在住院准入触发以及仅仅医疗索赔数据的任何成员;p.第十六节点,针对具有至少6个月的入会持续时间、存在灾难状况以及医药和医疗索赔数据两者的任何成员;q.第十七节点,针对具有至少6个月的入会持续时间、存在灾难状况以及仅仅医药索赔数据的任何成员;r.第十八节点,针对具有至少6个月的入会持续时间、存在灾难状况以及仅仅医疗索赔数据的任何成员;s.第十九节点,针对具有至少6个月的入会持续时间、没有灾难状况、存在糖尿病触发、存在处方触发以及医药和医疗索赔数据两者的任何成员;t.第二十节点,针对具有至少6个月的入会持续时间、没有灾难状况、存在糖尿病触发、存在处方触发以及仅仅医药索赔数据的任何成员;u.第二十一节点,针对具有至少6个月的入会持续时间、没有灾难状况、存在糖尿病触发、存在处方触发以及仅仅医疗索赔数据的任何成员;v.第二十二节点,针对具有至少6个月的入会持续时间、没有灾难状况、存在糖尿病触发、存在住院准入触发以及医药和医疗索赔数据两者的任何成员;w.第二十三节点,针对具有至少6个月的入会持续时间、没有灾难状况、存在糖尿病触发、存在住院准入触发以及仅仅医药索赔数据的任何成员;x.第二十四节点,针对具有至少6个月的入会持续时间、没有灾难状况、存在糖尿病触发、存在住院准入触发以及仅仅医疗索赔数据的任何成员;y.第二十五节点,针对具有至少6个月的入会持续时间、没有灾难状况、没有糖尿病触发、存在处方触发以及医药和医疗索赔数据两者的任何成员;z.第二十六节点,针对具有至少6个月的入会持续时间、没有灾难状况、没有糖尿病触发、存在处方触发以及仅仅医药索赔数据的任何成员;aa.第二十七节点,针对具有至少6个月的入会持续时间、没有灾难状况、没有糖尿病触发、存在处方触发以及仅仅医疗索赔数据的任何成员;bb.第二十八节点,针对具有至少6个月的入会持续时间、没有灾难状况、没有糖尿病触发、存在住院准入触发以及医药和医疗索赔数据两者的任何成员;cc.第二十九节点,针对具有至少6个月的入会持续时间、没有灾难状况、没有糖尿病触发、存在住院准入触发以及仅仅医药索赔数据的任何成员;dd.第三十节点,针对具有至少6个月的入会持续时间、没有灾难状况、没有糖尿病触发、存在住院准入触发以及仅仅医疗索赔数据的任何成员。
11.按照权利要求10的用于预测人的未来健康状态的方法,其中,在确定最终分数后,所述方法还包括步骤产生成员临床状况报告,所述成员临床状况报告包括成员标识信息和所述最终分数。
12.按照权利要求11的用于预测人的未来健康状态的方法,其中,所述成员临床状况报告还包括所述成员的临床状况数据以及所述成员的医疗索赔信息和医药索赔信息的任何一个的至少一部分。
13.按照权利要求10的用于预测人的未来健康状态的方法,其中,如果所述成员具有下述项的至少一个,则所述成员将存在灾难状况任何癌症、晚期疾病、移植、罕见疾病、艾滋病、冠状动脉病外加慢性心脏病外加高血压的组合。
全文摘要
一种系统和方法,用于产生分层树网络,并且使用线性加非线性学习算法来形成关于成员的健康状态的一致视图。在所述分层树网络中的每个叶子在临床特点、经历时段和可用数据资产上同质。对于每个叶子执行优化,以便可以对于每个叶子特有的本地特点定制特征和学习算法。
文档编号G06Q40/00GK101076825SQ200580021215
公开日2007年11月21日 申请日期2005年4月27日 优先权日2004年4月27日
发明者戴维·H·基尔, 戴维·B·波特施米特 申请人:赫马纳股份有限公司