一种提高药物不良反应预测精度的方法及系统的制作方法
【专利摘要】本发明提供了一种提高药物不良反应预测精度的方法及系统,该方法包括S1:将已知病人的特征向量和与其对应的某一药品的不良反应类别组成数据样本集,并将数据样本集分成多组第一数据样本子集;S2:基于各组第一样本数据子集训练对应的基分类器,并生成表示该分类结果正确性的多组第二数据样本子集;S3:基于各组第二数据样本子集分别训练多组判断结果分类器;S4:向训练后的基分类器和判断结果分类器输入相同未知病人的特征向量,并获得第一分类结果集以及第二分类结果集;S5:对步骤S4中获得的各第一分类结果集和各第二分类结果集进行统计分析得到药物不良反应的预测结果。本发明使用集成分类器有效地提高了药物不良反应的预测精度。
【专利说明】
-种提高药物不良反应预测精度的方法及系统
技术领域
[0001] 本发明设及医学数据处理和机器学习领域,尤其设及一种使用集成分类器提高药 物不良反应预测精度的方法及系统。
【背景技术】
[0002] 药物不良反应指药品在预防、诊断、治病或调节生理功能的正常用法用量下,出现 的有害的和意料之外的反应。据统计,我国住院病人发生药物不良反应的比例为10%~ 30 %,每年约有超过500万人次因药物不良反应而住院,因药物不良反应而死亡人数约19.2 万人。目前,药物不良反应事件数目呈急剧上升趋势,为临床合理用药带来了困难。
[0003] 我国乃至世界各国已建立了基本的药物不良反应定期报告制度,所收集到的海量 药物不良反应报告包含了关于不良反应、药品和用药人群特征的海量数据。对于特定的某 类药品,可使用决策树、支持向量机、神经网络等众多的分类器的一种,根据输入的病人的 特征数据预测可能出现的药物不良反应,为临床合理用药提供指导或预警,但由于实际中 海量数据集中样本数量很大,使用其训练一个分类器易造成过拟合现象,使分类测试结果 与期望结果大相径庭,从而降低了药物不良反应的预测精度。
【发明内容】
[0004] 本发明所要解决的技术问题是提供一种能够提高药物不良反应预测精度的方法 及系统。
[0005] 为了解决上述技术问题,本发明提供了如下的技术方案:
[0006] -种提高药物不良反应预测精度的方法,包括W下步骤:
[0007] S1:将已知病人的特征向量和与其对应的某一药品的不良反应类别组成数据样本 集,并将所述数据样本集分成多组第一数据样本子集;
[000引S2:基于各组所述第一样本数据子集训练对应的基分类器,并基于所述基分类器 的分类结果生成表示该分类结果正确性的多组第二数据样本子集;
[0009] S3:基于各组所述第二数据样本子集分别训练多组判断结果分类器;
[0010] S4:向训练后的所述基分类器和所述判断结果分类器输入相同未知病人的特征向 量,并由各组所述基分类器输出第一分类结果集W及由所述判断结果分类器输出表示所述 基分类器分类正确性的第二分类结果集;
[0011] S5:对步骤S4中获得的各所述第一分类结果集和各第二分类结果集进行统计分 析,得到对应于输入的未知病人的特征向量的药物不良反应的预测结果。
[0012] 作为优选,所述步骤S2进一步包括:
[0013] S21:将各组所述第一数据样本子集分成两部分,并利用其中一部分第一数据样本 子集训练对应的所述基分类器;
[0014] S22:向训练后的所述基分类器中输入另一部分第一数据样本子集中的特征向量, 并输出通过所述基分类器分类后的药物不良反应类别;
[0015] S23:判断所述基分类器分类出的药物不良反应类别的正确性,w生成表示所述正 确性的第一标签,且所述第二数据样本子集由输入的所述特征向量和生成所述第一标签组 成的样本对构成。
[0016] 作为优选,所述步骤S23进一步包括:
[0017] S231:设置索引值为i,且i = l;
[0018] S232:构建空的训练样本集;
[0019] S233:针对当前索引值i,使用步骤S21中得到的另一部分第一数据样本子集中的 特征向量和与其存在已知确定关系的药物不良反应类别组成的样本对,判断向所述基分类 器中输入所述特征向量时,所述基分类器输出的药物不良反应类别与所述特征向量对应的 药物不良反应类别是否一致,W生成所述第一标签,并将所述特征向量和第一标签组成的 样本对添加到空的训练样本集中;
[0020] S234:对索引值加1,重复执行S232和S233直到索引值i>N,其中N表示另一部分第 一数据样本子集中的样本对的个数,且所述训练样本集构成第二数据样本子集。
[0021] 作为优选,步骤S23中,当所述基分类器输出的药物不良反应类别与所输入的特征 向量对应的药物不良反应类别一致,第一标签为1,否则,第一标签为0。
[0022] 作为优选:所述步骤S4中,所述第二分类结果集由输入的未知病人的特征向量W 及表示所述基分类器的分类结果的正确性的第二标签构成。
[0023] 作为优选,所述步骤S4进一步配置为当所述结果判决分类器判断为所述基分类器 的分类结果为正确时,则第二标签为1,否则第二标签为0。
[0024] 作为优选于,所述步骤S5包括:
[0025] S51:对于步骤S4得到的第二分类结果集,若其中不存在判断所述基分类器分类正 确的第二标签,则执行步骤S52,否则执行步骤S53;
[0026] S52:按出现频次数对步骤S4得到的各第一分类结果集中表示所述特征向量的不 良反应类别进行投票,并将得票数最多的不良反应类别表示的药物不良反应作为输入的未 知病人特征向量的药物不良反应预测结果;
[0027] S53:从第二分类结果中查询出表示所述基分类器分类错误的第二标签,并删除对 应于该第二标签的特征向量在所述第一分类结果集中的数据样本对,W形成新的第一分类 结果集,并按出现频次数对所述新的第一分类结果集中表示所述特征向量的不良反应类别 进行投票,并将得票数最多的不良反应类别表示的药物不良反应作为输入的未知病人特征 向量的药物不良反应预测结果。
[0028] 本发明还提供了一种提高药物不良反应预测精度的系统,应用如上所述的一种提 高药物不良反应预测精度的方法,且所述系统包括:
[0029] 数据预处理部,其配置为将已知病人的特征向量和与其对应的某一药品的不良反 应类别组成数据样本集,并将所述数据样本集分成多组第一数据样本子集;
[0030] 多个基分类器,其配置为分别通过对应的第一数据样本子集进行训练,并输出分 类后的对应于所述特征向量的不良反应类别,由所输入的特征向量W及输出的不良反应类 别构成第一分类结果集;
[0031] 训练样本生成器,其基于所述第一数据样本子集W及所述基分类器的输出结果, 生成表示所述基分类器分类正确性的第二数据样本;
[0032] 多个结果判断分类器,其配置为基于所述第二数据样本子集进行训练,且训练后 的结果判断分类器基于所输入的特征向量,生成表示所述基分类器分类正确性的第二分类 结果集;
[0033] 结果分析部,其配置为在向所述基分类器和结果判断分类器输入未知病人的特征 向量时,对获得的第一分类结果集和第二分类结果集进行统计分析,W得到对应于输入的 未知病人的特征向量的药物不良反应的预测结果。
[0034] 作为优选,所述基分类器配置为利用所述第一数据样本子集中的一部分数据样本 进行训练,且训练后的基分类器输出对应于另一部分数据样本中的特征向量的药物反应类 别;
[0035] 且所述训练样本生成器基于所述基分类器对所述另一部分数据样本的药物反应 类别的分类结果,生成表示所述正确性的第一标签,所述特征向量W及对应的第一标签构 成所述第二数据样本子集。
[0036] 作为优选,所述结果分析部进一步配置为基于所述第二分类结果集中是否存在表 示所述基分类器的分类结果正确的第二标签,对所述第一分类结果集进行统计分析,W得 到对应于输入的未知病人的特征向量的药物不良反应的预测结果。
[0037] 与现有技术相比,本发明的有益效果在于:
[0038] 1、本发明可W通过将基分类器和结果判决分类器集成的方式对输入的使用某类 药品的病人特征数据进行分类,相比于单个分类器其分类预测结果精度更高;
[0039] 2、本发明分类器集成方式采用并行结构,数据训练和测试运行可并行进行,与单 个分类器相比其适合处理海量的数据样本集,因此效率更高。
【附图说明】
[0040] 图1为本发明实施例中的一种提高药物不良反应预测精度的方法的原理流程图; [0041 ]图2为图1中步骤S2的原理流程图;
[0042] 图3为图2中的步骤S23的原理流程图;
[0043] 图4为图1中步骤S5的原理流程图;
[0044] 图5为本发明实施例中的一种提高药物不良反应预测精度的系统的原理框图。
[0045] 附图标记说明
[0046] 101-数据预处理部 102-基分类器
[0047] 103-训练样本生成器104-判断结果分类器 [004引105-结果分析部
【具体实施方式】
[0049] 下面,结合附图对本发明的实施例进行进一步的说明,但不作为本发明的限定。
[0050] 需要说明的是,在附图或说明书描述中,相似或相同的部分都使用相同的图号。附 图中未绘示或描述的实现方式,为所属技术领域中普通技术人员所知的形式。另外,虽然本 文可提供包含特定值的参数的示范,但应了解,参数无需确切等于相应的值,而是可在可接 受的误差容限或设计约束内近似于相应的值。
[0051] 本发明提供了一种能够提高药物不良反应预测精度的方法,该方法中采用集成分 类器的方式,如集成分类器和结果判断分类器的方式,通过对输入的使用某类药品的病人 特征数据进行分类,相比于单个分类器其分类预测结果精度更高;而且,本发明实施例中采 用的是并行集成的方式,数据训练和测试运行可并行进行,与单个分类器相比其适合处理 海量的数据样本集,因此数据处理的效率更高。
[0052] 如图1所示,为本发明实施例中的一种提高药物不良反应预测精度的方法的原理 流程图,其中可W包括W下步骤:
[0053] S1:将已知病人的特征向量和与其对应的某一药品的不良反应类别组成数据样本 集,并将所述数据样本集分成多组第一数据样本子集;如对某一类药品,将某个已知的病人 特征向量兩和与此病人特征存在已知确定关系的药物不良反应类别yj组成样本对(馬,少V), 将所有已知的样本对构成数据样本集D,并可W将D等分成N个第一数据样本子集化,..., Dn;
[0054] S2:基于各组第一样本数据子集训练对应的基分类器,并基于对应的基分类器的 分类结果生成表示该分类结果正确性的多组第二数据样本子集;例如,本实施例中可W分 别使用步骤S1得到的N个第一数据样本子集化,...,Dn对N个不同的基分类器进行训练, 每个基分类器的输入均为病人特征向量,输出均为药物不良反应类别预测结果,在训练过 程中,可W构建N个第二数据样本子集化/,化/,...,〇/ N,其中,第i个第二数据样本子集Di' 是第i个第一数据样本子集化中的病人特征样本与表征其被第i个基分类器Cl分类后结果是 否正确的标签所组成的样本对的集合;
[0055] S3:基于步骤S2中得到的各组所述第二数据样本子集化/,化/,. . .,Ο^Ν分别训练N 个不同的判断结果分类器Ει,Ε2, . . .,Εν;
[0056] 其中,结果判决分类器El,Ε2, . . .,Εν的输入均为病人特征向量,输出均为标签"Γ 或"0",其中标签"Γ表示的是判决正确的标签,标签"0"表示的是判决错误的标签。
[0化7] S4:向训练后的所述基分类器Ci,C2, . . .,Cn和所述判断结果分类器Ει,Ε2, . . .,Εν输 入相同未知病人的特征向量3Τ,并由各组基分类器Cl, C2, ...,Cn输出第一分类结果集 问;?),(;(?),..,(;,片)},从及由所述判断结果分类器输出表示所述基分类器。瓜,...向 分类正确性的第二分类结果集{6护),与护该第二分类结果集 5 {£;(λ:'),£·: 口 ),·..,£\.护)'[由输入的未知病人的特征向量W及表示所述基分类器的分类结 果的正确性的第二标签构成。并且当所述结果判决分类器判断为所述基分类器的分类结果 为正确时,则第二标签为1,否则第二标签为0。
[0化引S5:对步骤S4中获得的各所述第一分类结果集{qp),C巧,..,?,(方和各第二分 类结果集{写巧),馬提),...:?(劳)}进行统计分析,得到对应于输入的未知病人的特征向 量的药物不良反应的预测结果。
[0059] 本实施例中,对于基分类器的训练是利用第一数据样本子集化,...,Dn完成的, 如图2所示,为本发明实施例中的步骤S2的原理流程图;其中,所述步骤S2可W进一步包括:
[0060] S21:将生成的各组第一数据样本子集化,...,Dn分成两部分,并利用其中一部 分第一数据样本子集训练对应的所述基分类器;如,本实施例中可W将第一数据样本子集 化,〇2,. . .,Dn中的数据样本均分,但仍然是N组数据样本子集,只是每组中的数据样本被分 成两部分,并利用其中一部分对基分类器进行训练。
[0061] S22:向训练后的基分类器中输入剩余的另一部分第一数据样本子集中的特征向 量,并输出通过所述基分类器分类后的药物不良反应类别;
[0062] S23:判断所述基分类器分类出的药物不良反应类别的正确性,W生成表示所述正 确性的第一标签,且所述第二数据样本子集由输入的所述特征向量和生成所述第一标签组 成的样本对构成。其中,在通过基分类器分类后的药物不良反应类别正确时,生成的第一标 签为1,否则第一标签为0。
[0063] 另外,如图3所示,为上述步骤S23的原理流程图。其中,步骤S23进一步包括:
[0064] S231:设置索引值为i,且i = l;
[00化]S232:构建空的训练样本集化/ ;
[0066] S233:针对当前索引值i,使用步骤S21中得到的另一部分第一数据样本子集中的 特征向量采和与其存在已知确定关系的药物不良反应类别y组成的样本对(王,_>';),判断向基 分类器Cl中输入特征向量友时,基分类器输出Cl的药物不良反应类别Ci (X)与特征向量劳 对应的药物不良反应类别是否一致,W生成所述第一标签,并将所述特征向量和第一标签 组成的样本对添加到空的训练样本集D/中;若分类结果= ,则将一个新的样本对 片1)添加到训练样本集Di'中,若分类结果则将一个新的样本对片0)添加到 训练样本集化/中,其中,第一标签"Γ表示病人特征向量克被基分类器Cl分类后的结果与已 知类别一致,第一标签"0"表示病人特征向量文被基分类器Cl分类后的结果与已知类别不 同;
[0067] S234:对索引值加1,重复执行S232和S233直到索引值i>N,其中N表示另一部分第 一数据样本子集中的样本对的个数,且所述训练样本集化/,化/,...构成第二数据样本 子集。
[006引如图4所示,为图1中步骤S5的原理流程图。其中步骤S5可W包括:
[0069] S51:对于步骤S4得到的第二分类结果集Ει,Ε2, . . .,Εν,若其中不存在判断所述基 分类器分类正确的第二标签,则执行步骤S52,否则执行步骤S53;
[0070] S52:按出现频次数对步骤S4得到的各第一分类结果集{?巧,?巧,..爲巧}中 表示所述特征向量的不良反应类别y进行投票,并将得票数最多的不良反应类别表示的药 物不良反应作为输入的未知病人特征向量的药物不良反应预测结果;
[0071] S53:从第二分类结果中查询出表示所述基分类器分类错误的第二标签,并删除对 应于该第二标签的特征向量在所述第一分类结果集中的数据样本对,W形成新的第一分类 结果集,并按出现频次数对所述新的第一分类结果集中表示所述特征向量的不良反应类别 进行投票,并将得票数最多的不良反应类别表示的药物不良反应作为输入的未知病人特征 向量的药物不良反应预测结果。也就是说,如果第i个结果判决分类器分类结果马表示 的是判决错误的第二标签,则将步骤S4得到的对应索引的第i个基分类器分类结果?(万)从 、问巧片巧,..,C凤!中剔除,i = l,2,...,N,设共剔除了L个分类结果,最后将剩余的N-L 个基分类器分类结果表示的类别按出现频次进行投票,得票数最多的类别y表示的药物不 良反应即为对应于输入的未知病人特征向量r的药物不良反应预测结果。
[0072] 本发明还提供了一种能够提供药物不良反应预测精度的系统,该系统可W应用如 上所述的提供药物不良反应预测精度的,如图5所示,为本发明实施例一种能够提供药物不 良反应的预测精度的系统的原理框图,该系统中使用集成分类器的方式来提高药物不良反 应预测精度,其中,通过多个基分类器102和结果判决分类器104集成的方式,构成了本实施 例中的集成分类器,可有效提升药物不良反应分类预测的精度。
[0073] 本实施例中的所述系统可W包括:数据预处理部101、多个基分类器102、训练样本 生成器103、多个结果判断分类器104和结果分析部105,其中,数据预处理部101可W将已知 病人的特征向量和与其对应的某一药品的不良反应类别组成数据样本集,并将该数据样本 集分成多个第一数据样本子集;本实施例中可W采用均分的方式获得多个第一数据样本子 集,即多个第一数据样本子集中的数据样本对的个数是相同的。
[0074] 每个第一数据样本子集与一个基分类器102对应连接,并且可W通过第一数据样 本子集对基分类器102进行训练,并且训练后的基分类器还可W基于输入的病人的特征向 量输出通过基分类器102分类后的对应于所述特征向量的不良反应类别,并且,由所输入的 特征向量W及输出的不良反应类别构成第一分类结果集。优选的,数据预处理部101可W将 每组第一数据样本子集中的数据样本分为两部分,其中一部分用于训练基分类器,另一部 分用于生成用于训练结果判断分类器的第二数据样本。该另一部的第一数据样本子集中的 特征向量作为训练后的基分类器102的输入,经过学习优化后输出对应于该特征向量的药 物不良反应类别。
[0075] 训练样本生成器103则可W基于第一数据样本子集W及基分类器102输出的药物 不良反应类别,生成表示基分类器102分类正确性的第二数据样本集。该第二数据样本集可 W由输入基分类器102中的病人的特征向量W及表示输出的药物不良反应是否正确的第一 标签组成的样本对的集合构成。每个基分类器的输出都对应了一个第二数据样本子集,且 其中第一标签为1时,表示基分类器102的分类结果正确,第一标签为0时,表示基分类器的 分类结果错误。形成第二数据样本子集后,可W完成对结果判断分类器104的训练。
[0076] 其中,训练样本生成器103生成第二数据样本自己的过程可W包括:
[0077] 设置索引值为i,且i = l;
[007引构建空的训练样本集化/;
[0079] 针对当前索引值i,使用步骤S21中得到的另一部分第一数据样本子集中的特征向 量支和与其存在已知确定关系的药物不良反应类别y组成的样本对(^支,少'y,判断向基分类器 Cl中输入特征向量壬时,基分类器输出Cl的药物不良反应类别。(X)与特征向量无对应的 药物不良反应类别是否一致,W生成所述第一标签,并将所述特征向量和第一标签组成的 样本对添加到空的训练样本集化/中;若分类结果? 二y,则将一个新的样本对?ミ,リ添 加到训练样本集化/中,若分类结果?.?.?) * y,则将一个新的样本对添加到训练样本 集D/中,其中,第一标签"Γ表示病人特征向量支被基分类器Cl分类后的结果与已知类别一 致,第一标签"0"表示病人特征向量烹被基分类器Cl分类后的结果与已知类别不同;
[0080] 对索引值加1,重复执行S232和S233直到索引值i>N,其中N表示另一部分第一数 据样本子集中的样本对的个数,且所述训练样本集化/,化/,. . .,Ο^Ν构成第二数据样本子 集。
[0081] 结果判断分类器104可W基于第二数据样本子集进行训练,且训练后的结果判断 分类器104可W用于根据所输入的特征向量,生成表示对应于该特征向量基分类器102的分 类正确性的第二分类结果集;具体的,本实施例中第二分类集可W由输入的病人特征向量 W及通过结果判断分类器104分类输出的表示基分类器102的分类结果正确性的第二标签 构成,该第二标签为1时,即表示结果判断分类器104判断为基分类器102对应于该特征向量 的输出结果为正确,该第二标签为0时,即表示结果判断分类器104判断为基分类器102对应 于该特征向量的输出结果为错误。
[0082] 结果分析部105可W根据向基分类器102和结果判断分类器104输入未知病人的特 征向量,对获得的第一分类结果集和第二分类结果集进行统计分析,W得到对应于输入的 未知病人的特征向量的药物不良反应的预测结果。本实施例中的结果分析部105还可W基 于第二分类结果集中是否存在表示所述基分类器的分类结果正确的第二标签,对所述第一 分类结果集进行统计分析,W得到对应于输入的未知病人的特征向量的药物不良反应的预 测结果。
[0083] 其中,结果分析部105预测不良反应的过程可W包括:
[0084] 分析得到的第二分类结果集El,Ε2, ...,Εν,若其中不存在判断所述基分类器分类 正确的第二标签,则按出现频次数对得到的各第一分类结果集{?巧,?巧,..,旬巧}中表 示所述特征向量的不良反应类别y进行投票,并将得票数最多的不良反应类别表示的药物 不良反应作为输入的未知病人特征向量的药物不良反应预测结果;如果第二分类结果El, E2, ...,En中存在表示基分类器分类正确的第二标签,则从第二分类结果中查询出表示所述 基分类器分类错误的第二标签,并删除对应于该第二标签的特征向量在所述第一分类结果 集中的数据样本对,W形成新的第一分类结果集,并按出现频次数对所述新的第一分类结 果集中表示所述特征向量的不良反应类别进行投票,并将得票数最多的不良反应类别表示 的药物不良反应作为输入的未知病人特征向量的药物不良反应预测结果。也就是说,如果 第i个结果判决分类器分类结果£;?5':)表示的是判决错误的第二标签,则将步骤S4得到的 对应索引的第i个基分类器分类结果?例从[?巧,?巧,..,每巧}中剔除,i=1,2,..., N,设共剔除了 L个分类结果,最后将剩余的N-L个基分类器分类结果表示的类别按出现频次 进行投票,得票数最多的类别y表示的药物不良反应即为对应于输入的未知病人特征向量 若的药物不良反应预测结果。
[0085] W上实施例仅为本发明的示例性实施例,不用于限制本发明,本发明的保护范围 由权利要求书限定。本领域技术人员可W在本发明的实质和保护范围内,对本发明做出各 种修改或等同替换,运种修改或等同替换也应视为落在本发明的保护范围内。
【主权项】
1. 一种提高药物不良反应预测精度的方法,其特征在于,包括以下步骤: S1:将已知病人的特征向量和与其对应的某一药品的不良反应类别组成数据样本集, 并将所述数据样本集分成多组第一数据样本子集; S2:基于各组所述第一样本数据子集训练对应的基分类器,并基于所述基分类器的分 类结果生成表示该分类结果正确性的多组第二数据样本子集; S3:基于各组所述第二数据样本子集分别训练多组判断结果分类器; S4:向训练后的所述基分类器和所述判断结果分类器输入相同未知病人的特征向量, 并由各组所述基分类器输出第一分类结果集以及由所述判断结果分类器输出表示所述基 分类器分类正确性的第二分类结果集; S5:对步骤S4中获得的各所述第一分类结果集和各第二分类结果集进行统计分析,得 到对应于输入的未知病人的特征向量的药物不良反应的预测结果。2. 根据权利要求1所述的方法,其特征在于,所述步骤S2进一步包括: S21:将各组所述第一数据样本子集分成两部分,并利用其中一部分第一数据样本子集 训练对应的所述基分类器; S22:向训练后的所述基分类器中输入另一部分第一数据样本子集中的特征向量,并输 出通过所述基分类器分类后的药物不良反应类别; S23:判断所述基分类器分类出的药物不良反应类别的正确性,以生成表示所述正确性 的第一标签,且所述第二数据样本子集由输入的所述特征向量和生成所述第一标签组成的 样本对构成。3. 根据权利要求2所述的方法,其特征在于,所述步骤S23进一步包括: 3231:设置索引值为1且1 = 1; S232:构建空的训练样本集; S233:针对当前索引值i,使用步骤S21中得到的另一部分第一数据样本子集中的特征 向量和与其存在已知确定关系的药物不良反应类别组成的样本对,判断向所述基分类器中 输入所述特征向量时,所述基分类器输出的药物不良反应类别与所述特征向量对应的药物 不良反应类别是否一致,以生成所述第一标签,并将所述特征向量和第一标签组成的样本 对添加到空的训练样本集中; S234:对索引值加1,重复执行S232和S233直到索引值i >N,其中N表示另一部分第一数 据样本子集中的样本对的个数,且所述训练样本集构成第二数据样本子集。4. 根据权利要求2所述的方法,其特征在于,步骤S23中,当所述基分类器输出的药物不 良反应类别与所输入的特征向量对应的药物不良反应类别一致,第一标签为1,否则,第一 标签为0。5. 根据权利要求1所述的方法,其特征在于:所述步骤S4中,所述第二分类结果集由输 入的未知病人的特征向量以及表示所述基分类器的分类结果的正确性的第二标签构成。6. 根据权利要求5所述的方法,其特征在于,所述步骤S4进一步配置为当所述结果判决 分类器判断为所述基分类器的分类结果为正确时,则第二标签为1,否则第二标签为0。7. 根据权利要求1所述的方法,其特征在于,所述步骤S5包括: S51:对于步骤S4得到的第二分类结果集,若其中不存在判断所述基分类器分类正确的 第二标签,则执行步骤S52,否则执行步骤S53; S52:按出现频次数对步骤S4得到的各第一分类结果集中表示所述特征向量的不良反 应类别进行投票,并将得票数最多的不良反应类别表示的药物不良反应作为输入的未知病 人特征向量的药物不良反应预测结果; S53:从第二分类结果中查询出表示所述基分类器分类错误的第二标签,并删除对应于 该第二标签的特征向量在所述第一分类结果集中的数据样本对,以形成新的第一分类结果 集,并按出现频次数对所述新的第一分类结果集中表示所述特征向量的不良反应类别进行 投票,并将得票数最多的不良反应类别表示的药物不良反应作为输入的未知病人特征向量 的药物不良反应预测结果。8. -种提高药物不良反应预测精度的系统,其特征在于,应用如权利要求1-7中任意一 项所述的一种提高药物不良反应预测精度的方法,且所述系统包括: 数据预处理部,其配置为将已知病人的特征向量和与其对应的某一药品的不良反应类 别组成数据样本集,并将所述数据样本集分成多组第一数据样本子集; 多个基分类器,其配置为分别通过对应的第一数据样本子集进行训练,并输出分类后 的对应于所述特征向量的不良反应类别,由所输入的特征向量以及输出的不良反应类别构 成第一分类结果集; 训练样本生成器,其基于所述第一数据样本子集以及所述基分类器的输出结果,生成 表示所述基分类器分类正确性的第二数据样本; 多个结果判断分类器,其配置为基于所述第二数据样本子集进行训练,且训练后的结 果判断分类器基于所输入的特征向量,生成表示所述基分类器分类正确性的第二分类结果 集; 结果分析部,其配置为在向所述基分类器和结果判断分类器输入未知病人的特征向量 时,对获得的第一分类结果集和第二分类结果集进行统计分析,以得到对应于输入的未知 病人的特征向量的药物不良反应的预测结果。9. 根据权利要求8所述的系统,其特征在于,所述基分类器配置为利用所述第一数据样 本子集中的一部分数据样本进行训练,且训练后的基分类器输出对应于另一部分数据样本 中的特征向量的药物反应类别; 且所述训练样本生成器基于所述基分类器对所述另一部分数据样本的药物反应类别 的分类结果,生成表示所述正确性的第一标签,所述特征向量以及对应的第一标签构成所 述第二数据样本子集。10. 根据权利要求8所述的系统,其特征在于,所述结果分析部进一步配置为基于所述 第二分类结果集中是否存在表示所述基分类器的分类结果正确的第二标签,对所述第一分 类结果集进行统计分析,以得到对应于输入的未知病人的特征向量的药物不良反应的预测 结果。
【文档编号】G06K9/62GK106066936SQ201610371272
【公开日】2016年11月2日
【申请日】2016年5月30日 公开号201610371272.1, CN 106066936 A, CN 106066936A, CN 201610371272, CN-A-106066936, CN106066936 A, CN106066936A, CN201610371272, CN201610371272.1
【发明人】黄亦谦
【申请人】北京千安哲信息技术有限公司