1.本技术涉及计算机领域,尤其涉及一种利用血液蛋白标识训练神经网络模型诊断肺癌的方法。
背景技术:2.肺癌诊断是医学领域经常涉及的内容,目前医疗诊断多是通过检测癌细胞特有的物质(比如血液蛋白标记)的含量来诊断是否患有癌症,然而,目前诊断方式,多是设定一个固定的标准,来判断待诊断者是否患有癌病。
3.而这种诊断方式的准确率有待提升。这是因为,固定的标准只是个统计的平均结果,无法兼顾到不同患者的特点,不同人的体质不同,因此采用固定的标准较不科学,患者的生活习惯、生存环境也是癌症的影响因素,但是目前业内标准诊断为不患癌症的人的生活习惯、生存环境很有可能已经给其造成了持续恶化的影响,只是这这种影响尚在演化过程中因而无法识别出癌症,这也会导致癌症诊断准确率降低。
4.因此,有必要提供一种新的诊断方法,提高肺癌诊断准确率。
技术实现要素:5.本说明书实施例提供一种用血液蛋白标识训练神经网络模型诊断肺癌的方法、装置和电子设备,用以提高诊断准确率。
6.本说明书实施例提供一种用血液蛋白标识训练神经网络模型诊断肺癌的方法,包括:
7.获取样本用户的生存环境信息、生理状态信息及对所述样本用户进行血液蛋白检测得到的标识样本信息,确定所述样本用户的肺癌诊断结果信息,结合样本用户的生存环境信息、所述生理状态信息、所述肺癌诊断结果信息和所述标识样本信息构建肺癌诊断模型,所述肺癌诊断模型为神经网络模型;
8.获取待诊断用户的生存环境信息、生理状态信息及对所述待诊断用户进行血液蛋白检测得到的待诊断标识信息,输入到所述肺癌诊断模型中预测所述待诊断用户的肺癌状态,得到预测到结果。
9.可选地,所述结合样本用户的生存环境信息、所述生理状态信息、所述肺癌诊断结果信息和所述标识样本信息构建肺癌诊断模型,包括:
10.利用逻辑回归的方式,结合样本用户的生存环境信息、所述生理状态信息、所述肺癌诊断结果信息和所述标识样本信息构建肺癌诊断模型。
11.可选地,所述结合样本用户的生存环境信息、所述生理状态信息、所述肺癌诊断结果信息和所述标识样本信息构建肺癌诊断模型,包括:
12.根据肺癌诊断结果信息设置标签,以样本用户的生存环境信息、所述生理状态信息和所述标识样本信息作为训练样本,用监督学习的方式训练肺癌诊断模型。
13.可选地,所述生存环境信息,包括:
14.饮食信息和居住环境信息,所述生理状态信息包括生理体检信息和健身运动信息。
15.可选地,还包括:
16.训练治疗策略强化模型,将所述待诊断用户的历史饮食信息、历史居住环境信息、历史生理体检信息、历史健身运动信息和所述待诊断标识信息输入到所述治疗策略强化模型,所述治疗策略强化模型在治疗策略空间中搜索治疗策略计算其奖励值并根据奖励值进行迭代优化,输出优化后的治疗策略。
17.可选地,所述在治疗策略空间中搜索治疗策略计算其奖励值并根据奖励值进行迭代优化,输出优化后的治疗策略,包括:
18.在治疗策略空间随机生成多个粒子群,每个粒子群中的粒子按照预设的移动方向和距离进行移动,确定移动后坐标对应的治疗策略,利用治疗策略强化模型中的奖励值函数计算向所述历史饮食信息、历史居住环境信息、历史生理体检信息、历史健身运动信息和所述待诊断标识信息施加每个治疗策略后得到的奖励值,选取奖励值最大的动作策略,根据所述动作策略的坐标调整所述粒子群中粒子的移动方向和距离,进行迭代直至迭代次数满足阈值,输出最优的动作策略。
19.可选地,所述治疗策略包括:饮食策略、居住环境策略、生理体检策略和健身运动策略。
20.可选地,所述构建肺癌诊断模型包括:
21.获取聚类样本用户的遗传信息和地理区域信息并进行聚类,对每个聚类结果分别构建肺癌诊断模型;
22.所述输入到所述肺癌诊断模型中,包括:
23.获取所述待诊断用户的遗传信息和地理区域信息,对所述待诊断用户进行聚类,确定对应的类别,调用所述类别对应的肺癌诊断模型,将所述待诊断用户的生存环境信息、生理状态信息及对所述待诊断用户进行血液蛋白检测得到的待诊断标识信息输入到所述肺癌诊断模型中。
24.可选地,还包括:
25.构建并训练生物钟适应模型,获取所述待诊断用户在生物钟周期内的当前作息信息,所述生物钟适应模型预测出所述当前作息信息对肺癌状态的影响因子,并利用所述影响因子对预测出的所述肺癌状态进行修正。
26.可选地,所述构建并训练生物钟适应模型,包括:
27.对每个样本用户,获取同一样本用户生物钟周期内不同阶段的标识样本信息及对各阶段预测的肺癌状态,根据各阶段预测的肺癌状态计算中心状态,计算各阶段预测的肺癌状态距离所述中心状态的状态偏差,根据所述状态偏差设置样本标签;
28.利用多个样本用户的不同阶段的标识样本信息为样本训练生物钟适应模型。
29.本说明书实施例还提供一种电子设备,其中,该电子设备包括:
30.处理器;以及,
31.存储计算机可执行程序的存储器,所述可执行程序在被执行时使所述处理器执行上述任一项方法。
32.本说明书实施例还提供一种计算机可读存储介质,其中,所述计算机可读存储介
质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现上述任一项方法。
33.本说明书实施例提供的各种技术方案通过获取样本用户的生存环境信息、生理状态信息及进行血液蛋白检测得到的标识样本信息,确定样本用户的肺癌诊断结果信息,结合样本用户的生存环境信息、生理状态信息、肺癌诊断结果信息和标识样本信息构建肺癌诊断模型,肺癌诊断模型为神经网络模型,结合生存环境信息、生理状态信息及对待诊断用户进行血液蛋白检测得到的待诊断标识信息预测待诊断用户的肺癌状态,能够兼顾生存环境、生理状态的潜在影响,神经网络模型形成了动态的诊断标准,因而可与不同用户的身体状况相适应,提高了诊断准确率。
附图说明
34.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
35.图1为本说明书实施例提供的一种用血液蛋白标识训练神经网络模型诊断肺癌的方法的原理示意图;
36.图2为本说明书实施例提供的一种用血液蛋白标识训练神经网络模型诊断肺癌的装置的结构示意图;
37.图3为本说明书实施例提供的一种电子设备的结构示意图;
38.图4为本说明书实施例提供的一种计算机可读介质的原理示意图。
具体实施方式
39.现在将参考附图更全面地描述本发明的示例性实施例。然而,示例性实施例能够以多种形式实施,且不应被理解为本发明仅限于在此阐述的实施例。相反,提供这些示例性实施例能够使得本发明更加全面和完整,更加便于将发明构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的元件、组件或部分,因而将省略对它们的重复描述。
40.在符合本发明的技术构思的前提下,在某个特定的实施例中描述的特征、结构、特性或其他细节不排除可以以合适的方式结合在一个或更多其他的实施例中。
41.在对于具体实施例的描述中,本发明描述的特征、结构、特性或其他细节是为了使本领域的技术人员对实施例进行充分理解。但是,并不排除本领域技术人员可以实践本发明的技术方案而没有特定特征、结构、特性或其他细节的一个或更多。
42.附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
43.附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
44.术语“和/或”或者“及/或”包括相关联的列出项目中的任一个或多者的所有组合。
45.图1为本说明书实施例提供的一种用血液蛋白标识训练神经网络模型诊断肺癌的方法的原理示意图,该方法可以包括:
46.s101:获取样本用户的生存环境信息、生理状态信息及对所述样本用户进行血液蛋白检测得到的标识样本信息,确定所述样本用户的肺癌诊断结果信息,结合样本用户的生存环境信息、所述生理状态信息、所述肺癌诊断结果信息和所述标识样本信息构建肺癌诊断模型,所述肺癌诊断模型为神经网络模型;
47.s102:获取待诊断用户的生存环境信息、生理状态信息及对所述待诊断用户进行血液蛋白检测得到的待诊断标识信息,输入到所述肺癌诊断模型中预测所述待诊断用户的肺癌状态,得到预测到结果。
48.通过获取样本用户的生存环境信息、生理状态信息及进行血液蛋白检测得到的标识样本信息,确定样本用户的肺癌诊断结果信息,结合样本用户的生存环境信息、生理状态信息、肺癌诊断结果信息和标识样本信息构建肺癌诊断模型,肺癌诊断模型为神经网络模型,结合生存环境信息、生理状态信息及对待诊断用户进行血液蛋白检测得到的待诊断标识信息预测待诊断用户的肺癌状态,能够兼顾生存环境、生理状态的潜在影响,神经网络模型形成了动态的诊断标准,因而可与不同用户的身体状况相适应,提高了诊断准确率。
49.其中,标识样本信息可以包括多种标记蛋白的含量、聚集区、含量变化周期。
50.其中,血液标记蛋白的种类可以是蛋白包括alk、braf、egfr、her2、mek1、met、mtor、ros1、pd-l1、pik3ca、ntrk和ras等多种蛋白,在此不作具体限制。
51.样本用户包括肺癌患者、无癌症者和其他类型癌症的患者。
52.将肺癌患者设置为白样本,将无癌症者和其他类型癌症的患者设置为黑样本,这样,通过训练,能够通过提高对肺癌敏感的特定血液蛋白的权重,将肺癌与其他癌症区分开,提高了肺癌诊断的准确率。
53.通过聚集区,可以发现肺部是否是癌细胞产物的源头。
54.肺癌状态可以包括:癌变区域和癌变程度。
55.其中,在本说明书实施例中,所述生存环境信息,包括:
56.饮食信息和居住环境信息,所述生理状态信息包括生理体检信息和健身运动信息。
57.居住环境信息可以包括温、湿度,空气质量状况,房间装修后的甲醛含量。
58.生理体检信息可以包括:身高、体重、年龄和体脂率等。
59.健身运动信息可以包括:运动方式和运动量。
60.这样,诊断时能够兼顾已经产生潜在影响但尚未表现出癌症的各种因素,从而提高了诊断准确率。
61.在本说明书实施例中,所述结合样本用户的生存环境信息、所述生理状态信息、所述肺癌诊断结果信息和所述标识样本信息构建肺癌诊断模型,包括:
62.利用逻辑回归的方式,结合样本用户的生存环境信息、所述生理状态信息、所述肺癌诊断结果信息和所述标识样本信息构建肺癌诊断模型。
63.在本说明书实施例中,所述结合样本用户的生存环境信息、所述生理状态信息、所述肺癌诊断结果信息和所述标识样本信息构建肺癌诊断模型,包括:
64.根据肺癌诊断结果信息设置标签,以样本用户的生存环境信息、所述生理状态信息和所述标识样本信息作为训练样本,用监督学习的方式训练肺癌诊断模型。
65.监督学习是带标签的训练,具体训练过程现有技术已有公开,在此不做具体阐述。
66.诊断出癌症之后,往往还希望得到治疗策略,而治疗策略的疗效通常要等到治疗后才知道,这就容易导致错失时机,因此,如果能提前得到最优的治疗策略,就能避免这种情况。
67.可以用强化学习的方式训练模型,用来生成治疗策略、评价治疗策略以及输出最优的治疗策略,因此,在本说明书实施例中,还包括:
68.训练治疗策略强化模型,将所述待诊断用户的历史饮食信息、历史居住环境信息、历史生理体检信息、历史健身运动信息和所述待诊断标识信息输入到所述治疗策略强化模型,所述治疗策略强化模型在治疗策略空间中搜索治疗策略计算其奖励值并根据奖励值进行迭代优化,输出优化后的治疗策略。
69.在本说明书实施例中,所述在治疗策略空间中搜索治疗策略计算其奖励值并根据奖励值进行迭代优化,输出优化后的治疗策略,包括:
70.在治疗策略空间随机生成多个粒子群,每个粒子群中的粒子按照预设的移动方向和距离进行移动,确定移动后坐标对应的治疗策略,利用治疗策略强化模型中的奖励值函数计算向所述历史饮食信息、历史居住环境信息、历史生理体检信息、历史健身运动信息和所述待诊断标识信息施加每个治疗策略后得到的奖励值,选取奖励值最大的动作策略,根据所述动作策略的坐标调整所述粒子群中粒子的移动方向和距离,进行迭代直至迭代次数满足阈值,输出最优的动作策略。
71.在本说明书实施例中,所述治疗策略包括:饮食策略、居住环境策略、生理体检策略和健身运动策略。
72.考虑到不同人群的特殊性,因此,为了提高模型诊断的准确性,可以对不同人群分别训练肺癌诊断模型,进一步提高准确率。
73.因此,在本说明书实施例中,所述构建肺癌诊断模型,包括:
74.获取聚类样本用户的遗传信息和地理区域信息并进行聚类,对每个聚类结果分别构建肺癌诊断模型;
75.所述输入到所述肺癌诊断模型中,包括:
76.获取所述待诊断用户的遗传信息和地理区域信息,对所述待诊断用户进行聚类,确定对应的类别,调用所述类别对应的肺癌诊断模型,将所述待诊断用户的生存环境信息、生理状态信息及对所述待诊断用户进行血液蛋白检测得到的待诊断标识信息输入到所述肺癌诊断模型中。
77.这样,能够兼顾待诊断用户的遗传情况,以及所属地理区域人群对致癌因素的抵抗能力,比如经过长期的自然选择,山东沿海地区对腌制食品的致癌抗力较高。
78.这样,即兼顾了癌症指标(血液蛋白),又兼顾了致癌因素和用户对致癌因素的抵抗能力,因而能够精准地诊断癌症。
79.考虑到同一用户在不同时期的血液蛋白标识的检测结果会有波动,而这种波动会影响诊断结果,因此,如果能够考虑到这种波动的影响,对诊断结果进行调整,就能使诊断结果证准确,因此,在本说明书实施例中,还包括:
80.构建并训练生物钟适应模型,获取所述待诊断用户在生物钟周期内的当前作息信息,所述生物钟适应模型预测出所述当前作息信息对肺癌状态的影响因子,并利用所述影响因子对预测出的所述肺癌状态进行修正。
81.具体的,在本说明书实施例中,所述构建并训练生物钟适应模型,包括:
82.对每个样本用户,获取同一样本用户生物钟周期内不同阶段的标识样本信息及对各阶段预测的肺癌状态,根据各阶段预测的肺癌状态计算中心状态,计算各阶段预测的肺癌状态距离所述中心状态的状态偏差,根据所述状态偏差设置样本标签;
83.利用多个样本用户的不同阶段的标识样本信息为样本训练生物钟适应模型。
84.肺癌状态可以具有定性指标,可以具有定量指标,还可以具有变化趋势指标。
85.其中,中心状态可以是不同阶段检测的同一指标的平均数,不同指标可以进行归一化处理。状态偏差能够反映波动,用来设置标签后,后续训练的生物钟适应模型便能根据当前作息信息预测出当前波动的影响,进而进行修正,使肺癌状态的诊断结果与当前作息适应。
86.其中,生物钟周期可以是一天,一周,或者一个月,一年等,当前作息信息可以是一天中的早晨、中午,可以是一周中的周末、工作日,可以是一月中的月经期、非月经期,诸如此类,具体不做阐述。
87.图2为本说明书实施例提供的一种用血液蛋白标识训练神经网络模型诊断肺癌的装置的结构示意图,该装置可以包括:
88.建模模块201,获取样本用户的生存环境信息、生理状态信息及对所述样本用户进行血液蛋白检测得到的标识样本信息,确定所述样本用户的肺癌诊断结果信息,结合样本用户的生存环境信息、所述生理状态信息、所述肺癌诊断结果信息和所述标识样本信息构建肺癌诊断模型,所述肺癌诊断模型为神经网络模型;
89.诊断模块202,获取待诊断用户的生存环境信息、生理状态信息及对所述待诊断用户进行血液蛋白检测得到的待诊断标识信息,输入到所述肺癌诊断模型中预测所述待诊断用户的肺癌状态,得到预测到结果。
90.该装置通过获取样本用户的生存环境信息、生理状态信息及进行血液蛋白检测得到的标识样本信息,确定样本用户的肺癌诊断结果信息,结合样本用户的生存环境信息、生理状态信息、肺癌诊断结果信息和标识样本信息构建肺癌诊断模型,肺癌诊断模型为神经网络模型,结合生存环境信息、生理状态信息及对待诊断用户进行血液蛋白检测得到的待诊断标识信息预测待诊断用户的肺癌状态,能够兼顾生存环境、生理状态的潜在影响,神经网络模型形成了动态的诊断标准,因而可与不同用户的身体状况相适应,提高了诊断准确率。
91.基于同一发明构思,本说明书实施例还提供一种电子设备。
92.下面描述本发明的电子设备实施例,该电子设备可以视为对于上述本发明的方法和装置实施例的具体实体实施方式。对于本发明电子设备实施例中描述的细节,应视为对于上述方法或装置实施例的补充;对于在本发明电子设备实施例中未披露的细节,可以参照上述方法或装置实施例来实现。
93.图3为本说明书实施例提供的一种电子设备的结构示意图。下面参照图3来描述根据本发明该实施例的电子设备300。图3显示的电子设备300仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
94.如图3所示,电子设备300以通用计算设备的形式表现。电子设备300的组件可以包括但不限于:至少一个处理单元310、至少一个存储单元320、连接不同系统组件(包括存储
单元320和处理单元310)的总线330、显示单元340等。
95.其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元310执行,使得所述处理单元310执行本说明书上述处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元310可以执行如图1所示的步骤。
96.所述存储单元320可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(ram)3201和/或高速缓存存储单元3202,还可以进一步包括只读存储单元(rom)3203。
97.所述存储单元320还可以包括具有一组(至少一个)程序模块3205的程序/实用工具3204,这样的程序模块3205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
98.总线330可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
99.电子设备300也可以与一个或多个外部设备400(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备300交互的设备通信,和/或与使得该电子设备300能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口350进行。并且,电子设备300还可以通过网络适配器360与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。网络适配器360可以通过总线330与电子设备300的其它模块通信。应当明白,尽管图3中未示出,可以结合电子设备300使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
100.通过以上的实施方式的描述,本领域的技术人员易于理解,本发明描述的示例性实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个计算机可读的存储介质(可以是cd-rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本发明的上述方法。当所述计算机程序被一个数据处理设备执行时,使得该计算机可读介质能够实现本发明的上述方法,即:如图1所示的方法。
101.图4为本说明书实施例提供的一种计算机可读介质的原理示意图。
102.实现图1所示方法的计算机程序可以存储于一个或多个计算机可读介质上。计算机可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
103.所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何
可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、rf等等,或者上述的任意合适的组合。
104.可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言-诸如java、c++等,还包括常规的过程式程序设计语言-诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
105.综上所述,本发明可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(dsp)等通用数据处理设备来实现根据本发明实施例中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
106.以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,本发明不与任何特定计算机、虚拟装置或者电子设备固有相关,各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
107.本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
108.以上所述仅为本技术的实施例而已,并不用于限制本技术。对于本领域技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本技术的权利要求范围之内。