一种医学影像数据的数据治理方法及系统与流程

文档序号：32672002发布日期：2022-12-24 02:53阅读：92来源：国知局

1.本技术涉及数据治理技术领域，特别涉及一种医学影像数据的数据治理方法及系统。

背景技术：

2.数据治理是提高科研产出、提高管理效率、支持医疗数据应用的关键，是提升医疗质量以及长期发展的重要保障。通过数据治理可以消除信息壁垒，畅通部门、区域、行业之间的数据共享通道，探索健康医疗大数据信息互联互通机制。
3.近年来，随着医疗条件的不断改善以及医院信息化程度的不断提高，医学影像数据呈现暴发式增长。医疗数据除具有传统大数据的数量大、种类多、产生速度快等特点之外，还具有复杂性、精确性、隐私性、异构性及封闭性等特点。现有的医学影像领域缺乏有效的数据治理方法，导致医学影像数据无法得到科学有效的管理，现有的医疗数据存在数据的完整性不高、数据的标准化程度不够、数据的准确度不够、数据的整合性欠缺、数据的一致性差以及数据的安全隐患的问题。

技术实现要素：

4.鉴于以上所述现有技术的缺点，本技术的目的在于提供一种医学影像数据的数据治理方法及系统，进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。
5.为实现上述目的及其他相关目的，本技术提供一种医学影像数据的数据治理方法，包括：获取医学影像学原始数据；按数据不同的类型对所述医学影像学原始数据进行分类，以将所述医学影像学原始数据归纳为图像数据类、结构化文本数据类以及非结构化文本数据类；按照预设的数据治理规则分别对图像数据类数据、结构化文本数据类数据以及非结构化文本数据类数据进行数据治理，以获得治理后的医学影像学数据。
6.在本技术的一可选实施例中，按数据不同的类型对所述医学影像学原始数据进行分类，以将所述医学影像学原始数据归纳为图像数据类、结构化文本数据类以及非结构化文本数据类，具体包括：将所述医学影像学原始数据中的图像数据归纳为所述图像数据类；将所述医学影像学原始数据中的日志数据归纳为所述结构化文本数据类；将所述医学影像学原始数据中的临床信息归纳为所述结构化文本数据类；将所述医学影像学原始数据中的检查印象和检查所见归纳为所述非结构化文本数据类。
7.在本技术的一可选实施例中，对所述图像数据类数据进行治理，包括：将所述图像数据类数据按照不同的检查模式进行归纳；
将相同检查模式的所述图像数据类数据按照不同的检查序列进行归纳；将相同检查序列的所述图像数据类数据按照不同的检查实例进行归纳；通过检查项目分类算法模型对所述图像数据类数据中检查实例进行识别，并按照所属的医学影像检查项目对所述图像数据类数据进行归纳。
8.在本技术的一可选实施例中，所述检查项目分类算法模型包括特征提取器和分类器，所述特征提取器采用深度残差网络，所述分类器采用残差注意力网络。
9.在本技术的一可选实施例中，对结构化文本数据类数据治理包括：将所述结构化文本数据类数据中的身份标识信息进行分拆、单向加密处理；对所述结构化文本数据类数据中的临床信息，按照类别和内容设置敏感组；为每个敏感组分配隐私保护级别及隐私保护要求；将所述结构化文本数据类数据中的临床信息按照敏感组的隐私保护级别进行脱敏处理。
10.在本技术的一可选实施例中，对非结构化文本数据类进行数据治理，包括：为所述非结构化文本数据类中的检查所见和检查印象设置关键词；使用预设报告标签化算法模型将所述非结构化文本数据类中的检查所见和检查印象按照所述关键词生成为标签数据；为标签数据设置敏感组，并为每个敏感组分配隐私保护级别及隐私保护要求；将所述标签数据，按照敏感组的隐私保护级别进行脱敏处理。
11.在本技术的一可选实施例中，使用预设报告标签化算法模型将所述非结构化文本数据类中的检查所见和检查印象按照所述关键词生成为标签数据，具体包括：建立医学影像报告词库；基于所述医学影像报告词库，使用分词模型，将所述非结构化文本数据类中的检查所见和检查印象文本转换为词组；计算所述词组和关键词之间的文本相似度，将文本相似度大于预设阈值的关键词，作为所述非结构化文本数据类中的检查所见和检查印象的标签数据。
12.在本技术的一可选实施例中，所述分词模型包括jieba分词工具、ltp分词工具或ir分词工具。
13.在本技术的一可选实施例中，计算所述词组和关键词之间的文本相似度，具体包括：将所述词组和所述关键词转换词向量；计算所述词组的词向量与所述关键词的词向量之间的相似度，以作为所述词组和关键词之间的文本相似度。
14.为实现上述目的及其他相关目的，本技术还提供一种医学影像数据的数据治理系统，包括：数据获取模块，用于获取医学影像学原始数据；数据分类模块，用于按数据不同的类型对所述医学影像学原始数据进行分类，以将所述医学影像学原始数据归纳为图像数据类、结构化文本数据类以及非结构化文本数据类；数据治理模块，用于按照预设的数据治理规则分别对图像数据类数据、结构化文
本数据类数据以及非结构化文本数据类数据进行数据治理，以获得治理后的医学影像学数据。
15.本技术的医学影像数据的数据治理方法及系统，通过获取医学影像学原始数据；按数据不同的类型对所述医学影像学原始数据进行分类，以将所述医学影像学原始数据归纳为图像数据类、结构化文本数据类以及非结构化文本数据类；按照预设的数据治理规则分别对图像数据类数据、结构化文本数据类数据以及非结构化文本数据类数据进行数据治理，以获得治理后的医学影像学数据。利用本技术，能够对医学影像大数据进行准确的归档，将多源异构的数据进行合理的融合处理。
附图说明
16.图1显示为本技术的医学影像数据的数据治理方法的流程示意图。
17.图2显示为本技术的对图像数据类数据进行治理的流程示意图。
18.图3显示为本技术的对结构化文本数据类数据治理的流程示意图。
19.图4显示为本技术的对非结构化文本数据类数据治理的流程示意图。
20.图5显示为本技术的医学影像数据的数据治理系统的功能模块图。
具体实施方式
21.以下通过特定的具体实例说明本技术的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本技术的其他优点与功效。本技术还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本技术的精神下进行各种修饰或改变。
22.请参阅图1至图5。需要说明的是，本实施例中所提供的图示仅以示意方式说明本技术的基本构想，遂图式中仅显示与本技术中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。
23.医疗数据除具有传统大数据的数量大、种类多、产生速度快等特点之外，还具有复杂性、精确性、隐私性、异构性及封闭性等特点。现有的医学影像领域缺乏有效的数据治理方法，导致医学影像数据无法得到科学有效的管理。
24.现有的医疗数据存在以下问题：（1）数据的完整性不高。由于医疗机构信息系统相对独立，及部分医疗机构的医疗信息系统使用不完全或业务未开展，从而造成数据的不完整。
25.（2）数据的标准化程度不够。标准化术语、名称等使用不规范。
26.（3）数据的准确度不够。医务人员手动录入数据时，可能出现原始数据错漏、不完整等问题。许多医疗智能化设施采集数据的偏差；数据采集设备容易受环境等其他因素的干扰，从而造成数据缺失、错误等。
27.（4）数据的精确度不够。医疗机构的放射科信息系统（ris）中，同一份检查中包含多种检查项目的图像，但是在系统中缺少单张图像的检查项目信息，从而导致无法精确的获取到图像相关信息。
28.（5）数据的整合性欠缺。由于缺乏统一的元数据标准，数据整合困难；另外，大量数
据以文本、图像、影像等非结构化的形式存储，使得数据后续整合与分析的难度增加。
29.（6）数据的一致性差。一是由于现有的医疗数据标准尚未完全统一，导致异构数据源产出的健康医疗数据标准不一致；二是医疗机构内部，各诊疗节点数据前后不一致，数据指标统计方法不一致。
30.（7）数据的安全隐患大。网上预约诊疗、健康检测设备的普及应用等加大了健康医疗数据泄露的风险，虽然业内已有相关的隐私保护条例，但仍需要系统化地建立健康医疗大数据安全防范措施。
31.为了能够获取更准确、及时、一致的高质量医疗数据数据，以便提供更有效、精准性高的智能化服务，本技术公开一种医学影像数据的数据治理方法。
32.图1示出了本技术的医学影像数据的数据治理方法的较佳实施例的流程图。请参阅图1所示，所述医学影像数据的数据治理方法包括如下步骤：s10：获取医学影像学原始数据；s20：按数据不同的类型对所述医学影像学原始数据进行分类，以将所述医学影像学原始数据归纳为图像数据类、结构化文本数据类以及非结构化文本数据类；s30：按照预设的数据治理规则分别对图像数据类数据、结构化文本数据类数据以及非结构化文本数据类数据进行数据治理，以获得治理后的医学影像学数据；s40：对请求者进行安全鉴权后，通过接口将治理后的所述医学影像学数据提供给请求者。
33.下面将结合具体应用实例来详细阐述本技术的技术方案。
34.首先，执行步骤s10：获取医学影像学原始数据。
35.可以从医学影像学原始数据库中直接获取相关的需要数据治理的医学影像学原始数据，也可以直接接收外部导入的需要数据治理的医学影像学原始数据。所述医学影像学原始数据中可以包括图像数据、日志数据、临床信息、检查印象及检查所见等数据。
36.作为示例，医学影像学原始数据例如可以是胸部后前位片医学影像数据。
37.接着，执行步骤s20：按数据不同的类型对所述医学影像学原始数据进行分类，以将所述医学影像学原始数据归纳为图像数据类、结构化文本数据类以及非结构化文本数据类。
38.如前文所述，在进行数据治理之前，需要先对所述医学影像学原始数据进行分类，以方便后续根据不同的数据类型执行相应的数据治理策略。
39.在一具体实施例中，按数据不同的类型对所述医学影像学原始数据进行分类，以将所述医学影像学原始数据归纳为图像数据类、结构化文本数据类以及非结构化文本数据类，可以包括：将所述医学影像学原始数据中的图像数据归纳为所述图像数据类；将所述医学影像学原始数据中的日志数据归纳为所述结构化文本数据类；将所述医学影像学原始数据中的临床信息归纳为所述结构化文本数据类；将所述医学影像学原始数据中的检查印象和检查所见归纳为所述非结构化文本数据类。
40.接着，执行步骤s30：按照预设的数据治理规则分别对图像数据类数据、结构化文本数据类数据以及非结构化文本数据类数据进行数据治理，以获得治理后的医学影像学数
据。
41.下面将分别对图像数据类数据、结构化文本数据类数据以及非结构化文本数据类数据的数据治理过程进行详细说明。
42.请参阅图2，在一具体实施例中，对图像数据类数据进行治理包括：步骤s311：将所述图像数据类数据按照不同的检查模式进行归纳。其中，检查模式包括x线检查、ct检查，mr（核磁共振）检查等等。作为示例，胸部后前位片医学影像数据属于“x线检查”，故而可其归纳为x线检查类。
43.步骤s312：将相同检查模式的所述图像数据类数据按照不同的检查序列进行归纳。作为示例，例如可将x线检查类的中的胸部检查归纳为胸部检查序列，每个胸部检查序列可包括至少一张图像。
44.步骤s313：将相同检查序列的所述图像数据类数据按照不同的检查实例进行归纳。作为示例，例如可将胸部检查序列的每张图像归纳为一个胸部检查实例。
45.步骤s314：通过检查项目分类算法模型对所述图像数据类数据中检查实例进行识别，并按照所属的医学影像检查项目对所述图像数据类数据进行归纳。作为示例，可通过检查项目分类算法模型识别出胸部检查实例所对应的检查项目是胸部后前位片，可将胸部后前位片归纳为胸部后前位片检查实例类。
46.在本实施例中，所述检查项目分类算法模型包括特征提取器和分类器。所述特征提取器可采用卷积神经网络，例如深度残差网络resnet-101；所述分类器采用残差注意力网络。可以理解的是，所述特征提取器也采用transformer编码器。
47.所述检查项目分类算法模型检训练时：首先，对样本集进行预处理：将样本集中的每张医学影像统一裁剪到固定大小的矩阵并进行矩阵值的正则化，并通过特征提取器得到每张医学影像的影像特征。
48.接着，将预处理后的每张医学影像按照所属的医学影像检查项目生成标签，并将标签转换成矩阵：其中，yi为第i张医学影像的检查项目分类标签，n为医学影像总样本数。
49.接着，将影像特征和标签矩阵输入到分类器中，得到分类概率预测矩阵，记为。
50.按照如下公式计算本次训练的平均损失值loss：其中，n为医学影像总样本数，yi为第i张医学影像的检查项目分类标签，pi为模型预测第i张医学影像为检查项目分类标签的概率值。将平均损失值loss反向传播用于更新模型参数。
51.不断重复上述训练步骤，直至平均损失值loss收敛到小于阈值时结束模型训练。
52.先依次通过检查模式-检查序列-检查实例对图像数据类数据进行归纳，然后利用对应的检查项目分类算法模型对图像数据类数据中检查实例进行识别，并按照所属的医学
影像检查项目对图像数据类数据进行归纳。由于本实施例的检查项目分类算法模型是根据医学影像质量管理规定对应的检查项目进行的分类识别，个人可以将医学影像数据中图像数据进行准确的归档，将多源异构的数据进行合理的融合处理。
53.请参阅图3，在一具体实施例中，对结构化文本数据类数据进行治理包括：步骤s311：将所述结构化文本数据类数据中的身份标识信息进行分拆、单向加密处理。
54.作为示例，身份标识信息为身份证号码，可将身份证号码按照归属地、出生日期、编号进行分拆，并对分拆后的数据进行单向加密处理。
55.步骤s312：对所述结构化文本数据类数据中的临床信息，按照类别和内容设置敏感组。
56.作为示例，临床信息例如可以包括性别、年龄、患病时间、主诉等，可为性别、年龄、患病时间、主诉等临床信息设置敏感组。
57.步骤s313：为每个敏感组分配隐私保护级别及隐私保护要求。具体地，可为每个敏感组分配隐私保护级别，并按照从高到低为隐私保护级别设置不同的隐私保护要求。
58.作为示例，为每个敏感组分配隐私保护级别，如主诉的保护级别为1，性别的保护级别为2，数字越大，保护级别越低，反之，数字越小，保护级别越高。
59.步骤s314：将所述结构化文本数据类数据中的临床信息按照敏感组的隐私保护级别进行脱敏处理。
60.保护级别为低的数据可采用分组的方式进行保护，如年龄中将不同年龄划分为0-1岁、1-3岁、3-7岁等。高保护级别数据采用双向加密的算法，将加密后内容与解密钥匙信息分开保存。
61.请参阅图4，在一具体实施例中，对非结构化文本数据类数据进行治理包括：步骤s321：为所述非结构化文本数据类中的检查所见和检查印象设置关键词。
62.作为示例，例如可为胸部后前位片医学影像数据中的检查所见和检查印象进行关键词设置时，可添加“团块状”、“异物”、“空洞影”、“阴影”等检查所见异常描述关键词和“肺结核”、“肺癌”等检查印象异常描述关键词。
63.步骤s322：使用预设报告标签化算法模型将所述非结构化文本数据类中的检查所见和检查印象按照所述关键词生成为标签数据。
64.在一具体实施例中，使用预设报告标签化算法模型将所述非结构化文本数据类中的检查所见和检查印象按照所述关键词生成为标签数据，具体包括：步骤s3321：建立医学影像报告词库。
65.步骤s3322：基于所述医学影像报告词库，使用分词模型，将所述非结构化文本数据类中的检查所见和检查印象文本转换为词组，其中，分词模型例如可以是jieba分词工具、ltp分词工具或ir分词工具。
66.作为示例，例如可以使用jieba分词模型将检查所见文本“左侧肺门模糊，肺门中上部见团块状阴影”分成“左侧”、“肺门”、“模糊”、“肺门”、“中上部”、“见团块”、“团块状”、“阴影”等词组；将检查印象文本“考虑左肺中央型肺癌并肺门淋巴结转移”分成“考虑”、“左肺”、“中央型”、“肺癌”“并”、“肺门”、
“ꢀ
淋巴结”、“转移”等词语。
67.步骤s3323：计算所述词组和关键词之间的文本相似度，将文本相似度大于预设阈
值的关键词，作为所述非结构化文本数据类中的检查所见和检查印象的标签数据。
68.在计算所述词组和关键词之间的文本相似度时，首先可使用word2vec将所述词组和所述关键词转换词向量；然后，可使用word2vec的相似度计算工具计算所述词组的词向量与所述关键词的词向量之间的相似度，以作为所述词组和关键词之间的文本相似度。
69.步骤s323：为标签数据设置敏感组，并为每个敏感组分配隐私保护级别及隐私保护要求。具体地，可为检查所见和检查印象的关键词标签设置敏感组，为每个敏感组分配隐私保护级别，并按照从高到低为隐私保护级别设置不同的隐私保护要求，步骤s324：将所述标签数据，按照敏感组的隐私保护级别采用匿名算法进行脱敏处理。
70.通过分别按照上述的数据治理规则对图像数据类数据、结构化文本数据类数据以及非结构化文本数据类数据进行数据治理，就能够获得更准确、及时、一致的高质量数据，作为治理后的医学影像学数据。
71.需要说明的是，在一可选实施例中，也可使用基于深度学习的自然语言处理算法获取所述非结构化文本数据类中的检查所见和检查印象。
72.最后，执行步骤s40：对请求者进行安全鉴权后，通过接口将治理后的所述医学影像学数据提供给请求者。
73.在一具体实施例中，安全鉴权的方式包括：数据请求者需从数据所属方申请有效的长期身份特征码；数据所属方将按照请求者的类别，授权请求者对应的身份特征码，并分配账号和密码；数据请求者需持有有效的身份特征码、账号、密码等信息通过接口申请数据获取鉴权码；数据所属方将验证请求者的身份特征码、账号、密码等信息，并根据请求者的类别，授权请求者数据获取权限。
74.如图5所示，图5示出了本技术的医学影像数据的数据治理系统11的较佳实施例的功能模块图。所述医学影像数据的数据治理系统11包括数据获取模块111、数据分类模块112、数据治理模块113及数据发送模块114。
75.其中，数据获取模块111用于获取医学影像学原始数据；数据分类模块112用于按数据不同的类型对所述医学影像学原始数据进行分类，以将所述医学影像学原始数据归纳为图像数据类、结构化文本数据类以及非结构化文本数据类；数据治理模块113用于按照预设的数据治理规则分别对图像数据类数据、结构化文本数据类数据以及非结构化文本数据类数据进行数据治理，以获得治理后的医学影像学数据；数据发送模块114用于对请求者进行安全鉴权后，通过接口将治理后的所述医学影像学数据提供给请求者。
76.需要说明的是，本技术的医学影像数据的数据治理系统11是与上述医学影像数据的数据治理方法相对应的虚拟系统，医学影像数据的数据治理系统11中的功能模块分别对应医学影像数据的数据治理方法中的相应步骤。本技术的医学影像数据的数据治理系统11可与医学影像数据的数据治理方法相互相配合实施。本技术的医学影像数据的数据治理方法中提到的相关技术细节在医学影像数据的数据治理系统11中依然有效，为了减少重复，这里不再赘述。相应地，本技术的医学影像数据的数据治理系统11中提到的相关技术细节
也可应用在上述医学影像数据的数据治理方法中。
77.需要说明的是，上述的各功能模块实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的部分或全部步骤，或以上的各功能模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
78.在本文的描述中，提供了许多特定细节，诸如部件和/或方法的实例，以提供对本技术实施例的完全理解。然而，本领域技术人员将认识到可以在没有一项或多项具体细节的情况下或通过其他设备、系统、组件、方法、部件、材料、零件等等来实践本技术的实施例。在其他情况下，未具体示出或详细描述公知的结构、材料或操作，以避免使本技术实施例的方面变模糊。
79.还应当理解还可以以更分离或更整合的方式实施附图所示元件中的一个或多个，或者甚至因为在某些情况下不能操作而被移除或因为可以根据特定应用是有用的而被提供。
80.另外，除非另外明确指明，附图中的任何标志箭头应当仅被视为示例性的，而并非限制。此外，除非另外指明，本文所用的术语“或”一般意在表示“和/或”。在术语因提供分离或组合能力是不清楚的而被预见的情况下，部件或步骤的组合也将视为已被指明。
81.本技术所示实施例的上述描述(包括在说明书摘要中所述的内容)并非意在详尽列举或将本技术限制到本文所公开的精确形式。尽管在本文仅为说明的目的而描述了本技术的具体实施例和本技术的实例，但是正如本领域技术人员将认识和理解的，各种等效修改是可以在本发明的精神和范围内的。如所指出的，可以按照本技术所述实施例的上述描述来对本技术进行这些修改，并且这些修改将在本技术的精神和范围内。
82.本文已经在总体上将系统和方法描述为有助于理解本技术的细节。此外，已经给出了各种具体细节以提供本技术实施例的总体理解。然而，相关领域的技术人员将会认识到，本技术的实施例可以在没有一个或多个具体细节的情况下进行实践，或者利用其它装置、系统、配件、方法、组件、材料、部分等进行实践。在其它情况下，并未特别示出或详细描述公知结构、材料和/或操作以避免对本技术实施例的各方面造成混淆。
83.因而，尽管本技术在本文已参照其具体实施例进行描述，但是修改自由、各种改变和替换亦在上述公开内，并且应当理解，在某些情况下，在未背离所提出发明的范围和精神的前提下，在没有对应使用其他特征的情况下将采用本技术的一些特征。因此，可以进行许多修改，以使特定环境或材料适应本技术的实质范围和精神。本技术并非意在限制到在下面权利要求书中使用的特定术语和/或作为设想用以执行本技术的最佳方式公开的具体实施例，但是本技术将包括落入所附权利要求书范围内的任何和所有实施例及等同物。因而，本技术的范围将只由所附的权利要求书进行确定。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李传富谷宗运赵海峰
技术所有人：合肥综合性国家科学中心人工智能研究院（安徽省人工智能实验室）
我是此专利的发明人

上一篇：一种管道成型机的送料角度调整装置的制作方法
上一篇：一种多屏系统同步测试设备的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、司老师：1.制浆造纸 2.植物资源精细化工与化学 3.生物质精炼 4.天然产物化学
2、薛老师：1.CRISPR-Cas系统 2.基因编辑 3.基因修复 4.天然产物合成 5.单分子技术开发与应用
3、戴老师：1.天然药物（中药）合成生物学研究 2.酵母生物学与工程化研究
4、孟老师：1. 基于糖类的抗肿瘤药物的合成和活性评价及糖类疫苗的研制 2.功能糖类的化学酶法合成及构效关系研究 3.多糖及仿生材料功能的开发及应用
5、满老师：1.天然产品的提取分离与活性研究 2.天然产物活性与安全性评价 3.中药组方配伍机制研究
如您是高校老师，可以点此联系我们加入专家库。