用于对医疗数据进行数据质控的方法和装置与流程

文档序号:33333401发布日期:2023-03-04 00:52阅读:221来源:国知局
用于对医疗数据进行数据质控的方法和装置与流程

1.本发明总体上涉及数据质控领域,更具体地,涉及用于对医疗数据进行数据质控的方法和装置。


背景技术:

2.随着国家对医疗健康领域的改革和政策引导及大力推进全民健康发展,人民健康水平得到很大提升,同时5g及信息技术的发展,医疗健康服务的模式也发生了很大变化,从传统的手工模式转变为信息化模式,又从信息化模式转变为智能化、数字化模式。新时期医疗健康服务领域出现很多新的创新场景,如诊前预测预警,诊中临床决策支持,诊后分析及挖掘,医疗与卫生互通融合,患者与医务人员信息共享,数字化精细化管理决策等,这些场景都对现代医疗卫生供需服务提出新的要求,都需要大数据的支撑。
3.然而,医疗健康贯穿人们的全生命周期,涉及的医疗健康信息庞大而繁杂,在进行大数据利用之前需要对数据进行质控、治理,只有质量符合要求的数据才能产生合理赋能,否则可能就会不可用,甚至导致错误的信息,进而引起不良事件,因此数据质控显得尤其重要。
4.然而,现有的信息系统大都只关注业务流程的可执行性,各种系统之间缺少互通,很少关注产生的数据是否合理、合规、完整、一致等情况,加之医务人员操作不规范、操作失误等原因,实际产生的数据存在很多问题。为满足新形势下新场景的要求,出现了很多数据平台、数据中台等对产生的数据进行质控、治理,进而为业务提供支撑,但现有的数据质控都是人工处理,其效率、结果等都不理想,有待于提高。
5.因此,为了解决上述问题,需要一种新型的用于对医疗数据进行数据质控的方法和装置,以解决现有的医疗数据质控中存在的问题。


技术实现要素:

6.在发明内容部分中引入了一系列简化形式的概念,这将在具体实施方式部分中进一步详细说明。本发明的发明内容部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征,更不意味着试图确定所要求保护的技术方案的保护范围。
7.根据本发明的一方面,提供了一种用于对医疗数据进行数据质控的方法,所述方法包括:构建医疗数据质控规则库;使用经训练的医疗实体识别网络对所获取的医疗数据进行实体识别,以识别出所述医疗数据对应的医疗实体;以及对所识别出的医疗实体自动配置所述医疗数据质控规则库中的医疗数据质控规则,以对所述医疗数据进行数据质控。
8.在一个实施例中,其中所述医疗数据包括在医疗数据表中,所述医疗数据包括字段数据,所述方法还包括:通过对所述字段数据进行实体识别,来对所述字段数据对应的医疗数据进行实体识别。
9.在一个实施例中,其中所述医疗实体识别网络包括预训练模型和实体识别模型。
10.在一个实施例中,其中所述预训练模型为albert模型。
11.在一个实施例中,所述实体识别模型包括wc-lstm模型和crf模型。
12.在一个实施例中,其中所述经训练的医疗实体识别网络通过以下步骤进行训练而得到:对从训练语料中获取的字段数据进行标注,得到所述字段数据对应的医疗实体标签;将所述字段数据和所述医疗实体标签作为训练数据对输入所述预训练模型,得到所述字段数据的字向量;将所述字向量输入所述实体识别模型,得到所述字段数据对应的预测医疗实体;将所述医疗实体标签与所述预测医疗实体进行比较,基于所述比较的结果调整所述预训练模型和所述实体识别模型的权重;进行多次训练迭代,得到所述经训练的医疗实体识别网络。
13.在一个实施例中,其中所述医疗数据质控规则包括所述字段数据的必填性、规范性、结构一致性、格式一致性、值域的合理性中的一个或更多个。
14.根据本发明的另一方面,提供了一种用于对医疗数据进行数据质控的装置,所述装置包括存储器和处理器,所述存储器上存储有由所述处理器运行的计算机程序,所述计算机程序在被所述处理器运行时,使得所述处理器执行如上所述的用于对医疗数据进行数据质控的方法。
15.根据本发明的又一方面,提供了一种计算机可读介质,所述计算机可读介质上存储有计算机可执行指令,所述计算机可执行指令在被执行时,执行如上所述的用于对医疗数据进行数据质控的方法。
16.根据本发明实施例的用于对医疗数据进行数据质控的方法和装置,采用神经网络模型自动学习医疗数据的特征,无需复杂的特征工程,并且能够自动进行质控规则的配置,无需工作人员花费大量的时间与精力进行质控规则配置,提升了大体量数据质控的效率和质量,从而可适用于大规模的数据质控。
附图说明
17.本发明的下列附图在此作为本发明的一部分用于理解本发明。附图中示出了本发明的实施例及其描述,用来解释本发明的原理。
18.附图中:
19.图1示出了根据本发明的一个实施例的用于对医疗数据进行数据质控的方法的示例性步骤流程图;
20.图2示出了根据本发明的一个实施例的示例性医疗实体识别网络的示意性结构框图;和
21.图3示出了根据本发明的一个实施例的用于对医疗数据进行数据质控的装置的示意性结构框图。
具体实施方式
22.为了使得本发明的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本发明的示例实施例。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例,本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。
23.现有的医疗数据质控模式主要有以下两种:
24.第一种模式,研发人员根据实际业务逻辑,手工编写大量数据处理程序,进而实现对数据进行质量检查,识别出数据质量问题。这种模式的主要处理流程如下:
25.1、梳理业务逻辑:对需要进行质控的数据信息进行业务梳理,先梳理需要质控的数据表,确定需要质控的数据表的范围,再梳理表之间的关联关系,确定业务之间的关联关系,最后梳理每张数据表各个字段的业务内涵,确认字段的质控逻辑,例如:字段是否必填、字段长度、字段是否为可编辑内容、字段是否为选项值(例如,民族)、是否有值域边界(例如,年龄)、是否有一定规则(例如,身份证号)等。
26.2、编写质控程序:根据上面梳理出的数据表的清单、每张表中各个字段的质控逻辑,编写质控处理程序,例如,非空校验、值域校验、规则校验等,具体技术实现有批处理程序、etl工具、java程序等。
27.3、数据质控处理:定期执行质控程序,对需要接入的数据进行数据质控,例如,手工执行、任务调度等。
28.此种模式需要根据大量的数据人工进行质控程序的编写,工作量大,且适应性和复用性较差,适用于小规模数据质控。
29.第二种模式,研发人员进行数据质控之前对业务数据进行分析、归纳,形成一定的数据质控规则,基于质控规则对接入的数据进行质控规则配置,最终开发出质控程序,调用这些质控规则进行数据质控。这种模式的主要处理流程如下:
30.1、梳理质控规则知识:基于国家数据质控标准、行业经验,梳理质控规则,形成质控规则知识,例如,字段是否必填、字段长度、字段是否为可编辑内容、字段是否为选项值(例如,民族)、是否有值域边界(例如,年龄)、是否有一定规则(例如,身份证号)等。
31.2、梳理质控范围:先梳理需要质控的数据表,确定需要质控的数据表的范围,再梳理表之间的关联关系,确定数据的关联关系,最后梳理每张数据表中各个字段的业务内涵,确认字段的质控逻辑。
32.3、编写质控程序:开发质控规则管理模块,对质控规则进行管理,以备后用。开发数据表质控逻辑配置,为需要质控的数据表及各个字段配置质控规则,形成具体的质控逻辑,选定具体的数据表,为具体字段配置质控规则,例如,非空校验、值域校验、规则校验等,具体实现技术为java程序等。
33.4、数据质控处理:定期执行质控程序,对需要接入的数据进行数据质控,例如,手工执行、任务调度等。
34.此种模式需要人工对质控数据的业务逻辑进行分析,整理质控规则,最后手动将质控规则配置给质控对象,虽然适应性及复用性得到一定改善,但需要人工花费大量精力梳理质控逻辑,并且需要手动配置质控规则,业务复杂度较高,工作量依然较大,适用中小规模数据质控。
35.因此,为了解决现有的医疗数据质控方法的上述问题,本发明提供了一种用于对医疗数据进行数据质控的方法,所述方法包括:构建医疗数据质控规则库;使用经训练的医疗实体识别网络对所获取的医疗数据进行实体识别,以识别出所述医疗数据对应的医疗实体;以及对所识别出的医疗实体自动配置所述医疗数据质控规则库中的医疗数据质控规则,以对所述医疗数据进行数据质控。
36.本发明的用于对医疗数据进行数据质控的方法,采用神经网络模型自动学习医疗数据的特征,无需复杂的特征工程,并且能够自动进行质控规则的配置,无需工作人员花费大量的时间与精力进行质控规则配置,提升了大体量数据质控的效率和质量,从而可适用于大规模的数据质控。
37.下面结合具体实施例详细描述根据本发明的用于对医疗数据进行数据质控的方法和装置。
38.首先,参考图1,图1示出了根据本发明的一个实施例的用于对医疗数据进行数据质控的方法100的示例性步骤流程图。如图1所示,用于对医疗数据进行数据质控的方法100可以包括如下步骤:
39.在步骤s110中,构建医疗数据质控规则库。其中,医疗数据质控规则库包含各种医疗数据质控规则。
40.在步骤s120中,使用经训练的医疗实体识别网络对所获取的医疗数据进行实体识别,以识别出该医疗数据对应的医疗实体。
41.在步骤s130中,对所识别出的医疗实体自动配置医疗数据质控规则库中的医疗数据质控规则,以对该医疗数据进行数据质控。
42.在一个实施例中,医疗数据可以包括在医疗数据表中。其中,医疗数据表中的医疗数据可以包括字段数据和字段值数据。其中,字段数据可以为医疗数据表的每一列或每一行的名称,其可以包括患者的姓名、性别、年龄、学历、职业、电话、证件类型、证件号码、诊断、药品名称、手术名称等,本发明对此不作限定。字段值数据可以为医疗数据表的每一列或每一行中的记录,例如患者的姓名字段的字段值可以为张三、李四、王五等,患者的性别字段的字段值可以为男、女,患者的诊断字段的字段值可以为急性呼吸道感染、阑尾炎、中耳炎等。
43.在一个实施例中,医疗数据质控规则是针对医疗数据配置的质控规则。在一个实施例中,医疗数据质控规则是针对医疗数据表中的字段数据配置的质控规则。
44.在一个实施例中,医疗数据质控规则可以为根据国家数据质控标准、行业经验等梳理的质控规则,例如字段是否必填、字段长度、字段是否为可编辑内容、字段是否为选项值(例如,民族)、是否有值域边界(例如,年龄)、是否有一定规则(例如,身份证号)等,本发明对此不作限定。
45.在一个实施例中,方法100还可以包括:通过对字段数据进行实体识别,来对字段数据对应的医疗数据进行实体识别。例如,通过对字段数据“患者姓名”进行实体识别,从而识别出字段数据“患者姓名”对应的医疗数据——张三、李四、王五等对应的医疗实体为患者姓名。
46.参考图2,图2示出了根据本发明的一个实施例的示例性医疗实体识别网络200的示意性结构框图。在一个实施例中,医疗实体识别网络可以包括预训练模型210和实体识别模型220。其中,预训练模型用于提取所获取的医疗数据的嵌入特征,获得该医疗数据的字向量;实体识别模型用于对该字向量进行命名实体识别。
47.在一个实施例中,预训练模型210可以为本领域公知的任何能够提取医疗实体的嵌入特征的神经网络模型,例如bert(基于转换器的双向编码器表示)模型、albert(轻量级基于转换器的双向编码器表示)模型、ernie(通过知识整合的增强表示)模型、distilbert
(bert的蒸馏版本)、roberta(鲁棒优化的bert预训练方法)模型等,本发明对此不作限定。在一个实施例中,预训练模型210为albert模型。
48.在一个实施例中,实体识别模型220可以包括wc-lstm(基于编码策略的字-字符lstm)模型222和crf(条件随机场)模型224。其中wc-lstm模型用于深度学习该字向量的上下文特征信息;crf模型用于对wc-lstm模型的输出序列进行处理,结合crf模型中的状态转移矩阵,根据相邻之间的标签得到一个全局最优序列。
49.本发明的医疗实体识别网络采用albert模型+wc-lstm模型+crf模型来实现,能够精简模型参数、降低调参难度,并且通过模型压缩减少了计算资源(例如,cpu、gpu等)的占用,通过特定层的压缩提升拟合效果,可降低因采样问题对模型精度或泛化性带来的影响。
50.应理解,本发明的医疗实体识别网络还可以采用idcnn模型+crf模型、bilstm模型+crf模型、bert模型+bilstm模型+crf模型来实现,本发明对此不作限定。
51.在一个实施例中,经训练的医疗实体识别网络200可以通过以下步骤进行训练而得到:
52.对从训练语料中获取的字段数据进行标注,得到该字段数据对应的医疗实体标签;
53.将该字段数据和该医疗实体标签作为训练数据对输入预训练模型210,得到该字段数据的字向量;
54.将该字向量输入实体识别模型220,得到该字段数据对应的预测医疗实体;
55.将该医疗实体标签与该预测医疗实体进行比较,基于比较的结果调整预训练模型和实体识别模型的权重;
56.进行多次训练迭代,得到经训练的医疗实体识别网络200。
57.在一个实施例中,医疗实体识别网络200的训练语料可以为来源于医院的电子病历、病案首页、手术记录等数据中的字段实体,例如,年龄、性别、诊断、药品名称、手术名称等。
58.在一个实施例中,对所获取的医疗数据进行标注可以通过对所获取的字段(例如,列)实体进行标注来实现,例如,对患者信息表进行标注时,将“name”标记为“患者姓名”、将“age”标记为“患者年龄”、将“diagnose_name”标记为“诊断”等,从而标注后的患者信息表中的“name”列对应的所有数据均为“患者姓名”实体。
59.在一个实施例中,可开发医疗数据表质控逻辑,为需要质控的医疗数据表及表中的各个数据字段积累并配置质控规则,从而形成具体的质控逻辑,用于对医疗数据进行数据质控。例如,对“诊断”字段进行数据质控时,可先判断该字段对应的数据记录是否为空,再判断数据是否属于icd-10内的数据,然后为“诊断”字段配置质控规则,例如,非空校验、值域校验、规则校验等。
60.在一个实施例中,除了对医疗数据进行数据质控外,还可以进行数据校验质控,例如,任务调度、手工执行等,从而提升数据质控规则配置的效率、数据质控的质量,使得可应对体量较大的数据质控场景。
61.本发明的用于对医疗数据进行数据质控的方法,采用神经网络模型自动学习医疗数据的特征,无需复杂的特征工程,并且能够自动进行质控规则的配置,无需工作人员花费大量的时间与精力进行质控规则配置,提升了大体量数据质控的效率和质量,从而可适用
于大规模的数据质控。
62.本发明还提供了一种用于对医疗数据进行数据质控的装置300。参考图3,图3示出了根据本发明的一个实施例的用于对医疗数据进行数据质控的装置300的示意性结构框图。如图3所示,用于对医疗数据进行数据质控的装置300可以包括存储器310和处理器320,存储器310存储有由处理器320运行的计算机程序,该计算机程序在被处理器320运行时,使得处理器320执行前文所述的根据本发明实施例的用于对医疗数据进行数据质控的方法100。本领域技术人员可以结合前文所述的内容理解根据本发明实施例的用于对医疗数据进行数据质控的装置300的具体操作,为了简洁,此处不再赘述。
63.本发明的用于对医疗数据进行数据质控的装置,采用神经网络模型自动学习医疗数据的特征,无需复杂的特征工程,并且能够自动进行质控规则的配置,无需工作人员花费大量的时间与精力进行质控规则配置,提升了大体量数据质控的效率和质量,从而可适用于大规模的数据质控。
64.本发明还提供了一种计算机可读介质,该计算机可读介质上存储有计算机可执行指令,该计算机可执行指令在被执行时,执行如上所述的用于对医疗数据进行数据质控的方法100的相应步骤。任何有形的、非暂时性的计算机可读介质皆可被使用,包括磁存储设备(硬盘、软盘等)、光存储设备(cd-rom、dvd、蓝光光盘等)、闪存和/或诸如此类。这些计算机可执行指令可被加载到通用计算机、专用计算机或其他可编程数据处理设备上以形成机器,使得这些在计算机上或其他可编程数据处理装置上执行的指令可以生成实现指定功能的装置。这些计算机可执行指令也可以存储在计算机可读存储器中,该计算机可读存储器可以指示计算机或其他可编程数据处理设备以特定的方式运行,这样存储在计算机可读存储器中的指令就可以形成一件制造品,包括实现指定功能的实现装置。计算机可执行指令也可以加载到计算机或其他可编程数据处理设备上,从而在计算机或其他可编程设备上执行一系列操作步骤以产生一个计算机实现的进程,使得在计算机或其他可编程设备上执行的指令可以提供用于实现指定功能的步骤。
65.此外,根据本发明的实施例,还提供了一种计算机程序,该计算机程序被计算机或处理器运行时用于执行本发明实施例的用于对医疗数据进行数据质控的方法100的相应步骤。
66.尽管这里已经参考附图描述了示例实施例,应理解上述示例实施例仅仅是示例性的,并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改,而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。
67.在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
68.类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该本发明的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如相应的权利要求书所反映的那样,其发明点在于可以用少于某个公开的单个实施例的所有特征的特
征来解决相应的技术问题。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
69.本领域的技术人员可以理解,除了特征之间相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
70.此外,本领域的技术人员能够理解,尽管本文所述的一些实施例包括其他实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
71.应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
72.以上该,仅为本发明的具体实施方式或对具体实施方式的说明,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1