本公开的实施例总体上涉及数据处理,并且更具体地,涉及用于数据处理的方法、设备和介质。
背景技术:
1、在患者的诊断、治疗、手术等各种医疗过程中,会产生各种不同的医学报告,例如超声检查报告和生化报告等等。目前很多医院使用医学信息的电子系统来存储和管理各类医学报告。通常,医生会采用其惯用的自然语言来编写医学报告并将其保存为医学信息的电子系统中的纯文本文件,以供后续使用。例如,在中国,医生通常采用中文来编写医学报告。
2、目前使用的医学信息的电子系统难以从医生使用自然语言编写的医学报告中自动且准确地提取出医学发现。因此,期望能够有更智能的系统来更好地对由医生编写的纯文本医学报告进行自动化分析,以准确地获取医学报告中所体现的医学发现。
技术实现思路
1、根据本公开的实施例,提供一种用于数据处理的方案。
2、在本公开的第一方面,提供了一种数据处理的方法。该方法包括:提取医学报告中的分段中呈现的文本项。文本项与医学发现相关联。该方法还包括基于文本项,确定一组医学短语。一组医学短语对应于相应的实体类别。该方法还包括至少基于一组医学短语和一组预定的医学术语,确定一组预定的医学术语中与文本项相匹配的目标医学术语。一组预定的医学术语各自表示一项医学发现。目标医学术语表示与文本项相关联的医学发现。
3、根据一些可选实施例,为了确定目标医学术语,该方法包括基于文本项的标记和一组医学短语,确定文本项的文本项编码表示;确定一组医学术语各自的医学术语编码表示;以及基于文本项编码表示与一组医学术语各自的医学术语编码表示之间的相似度,将与具有最高相似度的医学术语编码表示相对应的医学术语确定为目标医学术语。
4、根据一些可选实施例,为了确定一组医学短语,该方法包括响应于确定文本项中所包括的第一短语与预定的语料库中的高频短语相匹配,将第一短语添加到一组医学短语。
5、根据一些可选实施例,该方法还包括基于预定的语料库,确定一组医学术语中所包括的标准医学短语集合。为了确定一组医学短语,该方法还包括响应于确定一组医学短语中的第一医学短语与标准医学短语集合中的第二医学短语具有相同的医学含义,将第一医学短语替换为第二医学短语。根据一些可选实施例,预定的语料库包括高频短语集合,高频短语集合中的高频短语在语料库中出现的频率高于阈值频率,高频短语集合中的高频短语是具有医学含义的最小短语,并且高频短语集合中的高频短语与相应的实体类别相对应。
6、根据一些可选实施例,该方法还包括至少基于目标医学术语和一组预定的医学标识,通过语义匹配确定一组预定的医学标识中的目标医学标识。一组预定的医学标识各自指示一个医学发现。目标医学标识指示与文本项相关联的所述医学发现。
7、根据一些可选实施例,为了确定目标医学标识,该方法包括基于目标医学术语、一组医学短语各自的实体类别、一组医学短语之间的关联关系以及一组预定的医学标识各自指示的医学发现,通过语义匹配确定目标医学标识。根据一些可选实施例,该方法还包括确定一组医学短语各自的实体类别。实体类别用于确定一组医学短语之间的关联关系以及用于确定目标医学标识。实体类别包括以下一项:解剖部位、解剖部位的子部位、疾病类型、形态以及测量信息。根据一些可选实施例,该方法还包括基于一组医学短语以及一组医学短语各自的实体类别,确定一组医学短语之间的关联关系。关联关系用于确定目标医学标识。关联关系包括位置关系或者归属关系。
8、根据一些可选实施例,该方法还包括将医学报告划分为多个分段。每个分段对应于医学报告中的一个语句。该方法还包括针对多个分段中的每个分段,执行提取文本项、确定一组医学短语以及确定目标医学术语的步骤。
9、在本公开的第二方面,提供了一种电子设备。该设备包括:处理单元;以及存储器,耦合至处理单元并且包含存储于其上的指令。指令在由处理单元执行时使电子设备执行以下动作:提取医学报告中的分段中呈现的文本项,文本项与医学发现相关联;基于文本项,确定一组医学短语,一组医学短语对应于相应的实体类别;以及至少基于一组医学短语和一组预定的医学术语,确定一组预定的医学术语中与文本项相匹配的目标医学术语,一组预定的医学术语各自表示一项医学发现,目标医学术语表示与所述文本项相关联的所述医学发现。
10、根据一些可选实施例,指令在由处理单元执行时还使电子设备执行根据第一方面的方法的各种可选实施例。
11、在本公开的第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现根据第一方面的方法的各种实施例。
12、提供
技术实现要素:
部分是为了以简化的形式来介绍对概念的选择,它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或必要特征,也无意限制本公开的范围。
1.一种数据处理方法,包括:
2.根据权利要求1所述的方法,其中确定所述目标医学术语包括:
3.根据权利要求1所述的方法,其中确定所述一组医学短语包括:
4.根据权利要求3所述的方法,还包括:
5.根据权利要求3所述的方法,其中所述预定的语料库包括高频短语集合,所述高频短语集合中的高频短语在所述语料库中出现的频率高于阈值频率,所述高频短语集合中的高频短语是具有医学含义的最小短语,并且所述高频短语集合中的高频短语与相应的实体类别相对应。
6.根据权利要求1所述的方法,还包括:
7.根据权利要求1所述的方法,其中确定所述目标医学标识包括:
8.根据权利要求7所述的方法,还包括:
9.根据权利要求7所述的方法,还包括:
10.根据权利要求1所述的方法,还包括:
11.一种电子设备,包括:
12.根据权利要求11所述的电子设备,其中确定所述目标医学术语包括:
13.根据权利要求11所述的电子设备,其中所述动作还包括:
14.根据权利要求11所述的电子设备,其中确定所述目标医学标识包括:
15.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现根据权利要求1至10中任一项所述的方法。