一种基于多网络融合的医疗影像报告生成方法与流程

文档序号:23503432发布日期:2021-01-01 18:10阅读:108来源:国知局
一种基于多网络融合的医疗影像报告生成方法与流程

本发明涉及影像报告处理领域,具体来讲是一种基于多网络融合的医疗影像报告生成方法。



背景技术:

从上个世纪八十年代开始,国外医生以及学者们就开始尝试使用计算机辅助的方式进行诊断报告生成,以代替简单繁琐的体力劳动,然而受限于这一时期计算机技术的发展,只能够采用比较简单的形式进行诊断报告书写或者计算机辅助录入。

进入21世纪后,随着计算机智能技术的发展,计算机辅助诊断报告生成越来越受到重视,典型的方式有语音辅助输入、基于医学影像分析的辅助输入等。限于当时的条件,早期的语音录入系统词汇量少,出错率高。随着语音识别技术的发展,语音识别的正确率逐渐提升,基于深度学习的语音识别技术也开始应用于医学领域,医生才开始更多地使用语音识别的方式进行计算机诊断报告的录入。基于医学影像的报告生成技术主要包括基于dicom(digitalimagingandcommunicationsinmedicine)的影像报告生成技术以及基于人工智能的影像分析和报告生成技术。dicom即医学数字成像和通信,是医学图像和相关信息的国际标准,是一类通过医学影像辅助系统的帮助,将影像中的病理信息进行量化和存储的医学影像专用格式。然而传统的基于dicom的报告生成方法往往只能对一种格式、包含一类病灶的医学影像进行处理,难以对病灶进行综合医学影像分析,且该方法只能处理小批量的数据,无法同时并行处理大量医学影像数据,其速度慢、智能化程度低的弊端已经影响到了医院的诊疗效率。因此,基于人工智能技术的影像分析和报告生成技术应运而生。由于图像和文本的异构属性,早期的医学影像报告生成技术中,关于医学图像和医学文本的研究是分离的。随着以深度学习为代表的新一代人工智能技术的发展,异构数据间语义鸿沟的部分问题得到解决,使得跨媒体数据的应用和相关研究成为可能,并快速成为当今计算机科学领域发展的趋势。当前基于人工智能的医疗影像分析和报告生成技术的研究还处于起步阶段,因此迫切需要一种能对海量异构医疗影像进行分析,并快速生成影像分析报告的实用方法。

与本发明有关的现有技术

基于dicom的影像报告生成技术:2006年,浙江大学的王冠在《基于ihe的影像诊断报告系统研究于实现》中基于ihe技术框架设计思想和结构化文档技术,结合dicomsr和xml技术,设计了结构化诊断报告文档,实现了诊断报告的跨科室共享和结构化诊断报告生成。

2017年,河北大学的李卫康在《基于健康体检的数字医学图像报告系统的设计与实现》中利用c725d视频采集卡采集医学图像设备上的医学图像,转换模块基于dicom3.0标准将采集的jpeg图像结合病人基本信息转换成标准dicom文件并通过传输及存储模块进行传输存储,实现了基于健康体检的数字医学图像报告系统。

此外,也有报道全身骨图像计算机智能诊断软件,该软件对dicom格式的全身骨图像经过处理后给出包括病变区域、数量的诊断报告。另有报道骨髓细胞形态学微机辅助诊断管理图文系统,可对骨髓细胞形态学特征做出自动报告,其自动诊断符合率达85%,医生平均修改报告字数3.2字,可节约骨髓细胞形态学诊断报告时间25分钟。

其存在以下缺点:

dicom技术存在着固有的弊端:每类医学影像所能提取的病灶信息各不相同,而传统的dicom技术往往只能对一种格式、包含一类病灶的医学影像进行处理,难以对病灶进行综合医学影像分析,所以当需要对mri、ct等异构医学影像进行联合分析时,单一的dicom报告生成工具将无法满足需求,而如果使用多个dicom工具同时进行工作,将大大降低处理速度,增加医院开销。此外,随着医疗科技的发展,医院每天都将产生海量的医学影像数据,传统的基于dicom医学影像分析的报告生成方法只能处理小批量的数据,无法同时并行地处理大量的医学影像数据,其速度慢、智能化程度低的弊端已经影响到了医院的诊疗效率。因此,上述基于dicom技术的医疗影像报告生成方法在面对海量异构医学影像时,一是无法做到海量数据的快速并发处理,二是需要针对异构医学影像分别进行系统研发,已经大大制约了我国医疗水平的发展。

基于人工智能的影像分析和报告生成技术:

2015年,shin等人在《interleavedtext/imagedeepminingonalarge-scaleradiologydatabaseforautomatedimageinterpretation》中基于隐含狄利克雷(lda)方法,提出了一种文本和图像交织的深度学习系统,用于从医院的图像存档和通信系统中提取和挖掘放射科图像和报告之间的语义交互。该系统在无监督学习和文档和句子级文本集合的有监督学习之间进行交错,以生成语义标签并根据图像预测它们。给定患者扫描图像,可以预测放射学级别的语义主题,并生成关联的关键字。

2016年,wang等人在《unsupervisedcategorydiscoveryvialoopeddeeppseudo-taskoptimizationusingalargescaleradiologyimagedatabase》中提出了一种循环深度伪任务的优化程序,用于视觉一致性和临床语义(概念)聚类的自动类别发现。该系统可以初始化为特定领域的(cnn接受放射学图像和文本报告派生标签的训练)或通用的(基于imagenet的)cnn模型。然后,通过循环深度图像特征聚类(细化图像标签)和深度cnn训练/分类(获取更多具有任务代表性的深度特征),得到一系列伪任务。该方法在概念上很简单,并且基于更好的标签“收敛”的假设以产生更好的训练有素的cnn模型,从而提供更有效的深层图像特征,以促进更有意义的聚类/标签。

此外,2016年,shin等人《learningtoreadchestx-rays:recurrentneuralcascademodelforautomatedimageannotation》中提出利用卷积神经网络(cnn)生成医学影像的标签,再利用标签通过循环神经网络(rnn)生成一系列关键词;kisilev等人在《medicalimagedescriptionusingmulti-task-losscnn》中针对胸部病变提出了一种描述符生成方法。2017年,卡耐基梅隆大学的petuum团队针对医学影像生成报告时存在的文本产生困难、关键词缺失等问题,在《ontheautomaticgenerationofmedicalimagingreports》提出了基于语义标签和单层cnn-lstm网络的方法,实现了一定准确度的医学影像报告生成。

其存在的缺点:当前基于人工智能的医疗影像分析和报告生成技术的研究还处于起步阶段,国际上发表的最新研究成果还很少。由于图像和文本的异构属性,解决异构数据间语义鸿沟的问题是该研究中的关键,上述部分方法只关注于医疗影像与影像报告之间的语义关联,或只生成部分关键词,无法直接生成医疗影像报告;而卡耐基梅隆大学的petuum团队提出的报告生成方法文本可读性较差,且仅支持英文,不适用于在中国推广。



技术实现要素:

因此,面对日益增加的病人数量,传统的通过人工读片进行医疗影像报告书写的方法存在速度慢、效率低下、人工成本高等问题,而基于dicom和既定模板的医疗影像报告生成技术过度依赖前序辅助诊断系统所获得的相关病理数据,这对设备提出了更高的要求,不利于基层医院推广,且基于模板的方式存在升级成本高、报告形式单一、智能化水平低等问题。同时,随着医疗领域信息化的推进,许多医院相继建立了专业的医疗影像信息系统,每天都会产生大量的医疗影像信息和医疗影像文字报告,但现有的医疗影像报告生成工具无法利用这些数据,使得海量珍贵的医疗数据只能被闲置或丢弃,得不到合理的利用。针对上述问题,本发明提供一种基于多网络融合的医疗影像报告生成方法,以医疗影像报告生成技术为切入点,利用深度人工神经网络,构建端到端的医疗影像报告生成架构,对医疗影像进行精确分析,实现智能快速的医疗影像分析报告生成,具有持续可升级、智能化水平高、价格低廉、适用场景广泛等诸多优势。本发明将医疗影像数据与文本数据引入到跨媒体研究中,拓展了跨媒体研究领域的同时,盘活了海量的历史医学影像与文本数据,填补了国内医学跨媒体研究的空缺。

本发明是这样实现的,构造一种基于多网络融合的医疗影像报告生成方法,其特征在于;采用多深度神经网络模型融合的并行训练技术,此外,提出影像信息自适应聚焦技术,基于自适应注意力机制实现多网络特征的融合,利用经过聚焦编码后的医疗影像病理信息,研究跨媒体信息编解码技术,结合基于seq2seq的循环神经网络解码模型以及基于模板的报告生成技术,构建医疗影像文本报告生成流程;具体执行过程如下;

步骤1,图像数据处理,包括步骤1.1调整图像大小;步骤1.2数据集增强;

步骤2,文本报告数据处理,包括步骤2.1造影报告预处理;步骤2.2眼科专用名词分词;步骤2.3医用专业名词清洗;步骤2.4标签生成;

步骤3,针对异构眼底造影图像的多cnn网络并行训练,包括步骤3.1多cnn网络并行训练;步骤3.2眼底造影图像自适应聚焦融合;

步骤4,初步眼底造影报告的生成,包括步骤4.1基于模板的报告生成;步骤4.2基于seq2seq的初步报告生成;

步骤5,最终眼底造影报告的生成;

步骤6,数据自迭代更新。

根据本发明所述一种基于多网络融合的医疗影像报告生成方法,其特征在于;步骤1图像数据处理;眼底造影图像包括fa、baf以及ir等不同格式,不同医疗设备采集的图像尺寸也各有不同,故需要对图像数据集进行统一的预处理;

步骤1.1调整图像大小;由于不同医疗设备采集的造影图像之间存在尺寸差异,同时为了平衡gpu的处理性能与造影图像特征的复杂性,将所有造影图像大小调整为256×256;

步骤1.2数据集增强;医疗图像数据集中的图像数量一般较少,同时为了防止训练过程中出现过拟合现象,在网络训练过程中采用以下方法进行数据增强:随机水平翻转、随机垂直翻转、在0-30度的范围内随机旋转。

根据本发明所述一种基于多网络融合的医疗影像报告生成方法,其特征在于;步骤2文本报告数据处理;预处理包括;

步骤2.1造影报告预处理;先对文本报告进行以下预处理:(1)删除文本报告中的空格;(2)删除或更正文本报告中乱用、无用的符号;(3)调用错别字检测接口对文本报告进行错别字检测并更正;

步骤2.2眼科专用名词分词;在文本报告格式基本统一,进行了错别字的纠正后,针对眼科设计医用专业名词库,在已有中文词库中加入该眼科专用名词库,并调用更新后的词库对文本进行分词;基于初次分词结果对结果中分割错误的词汇进行处理,将错误分割词汇更新至已有词库中,再次分词后得到较为准确的眼科专用名词分词结果;

步骤2.3医用专业名词清洗;将分词结果中的同义词汇和缩写词汇替换成一个统一的表达;此外,针对医疗领域设计特定的停用词表,并将分词结果中的停用词删除;

步骤2.4标签生成;调用word2vec模型对经过分词和清洗后的文本结果进行特征提取,将每一个词映射成一个向量,作为图像数据在分类网络中训练时的标签。

根据本发明所述一种基于多网络融合的医疗影像报告生成方法,其特征在于;步骤3针对异构眼底造影图像的多cnn网络并行训练;

步骤3.1多cnn网络并行训练;异构眼底影像数据来源多样、格式多样,基于此构建多网络融合的医疗影像分析框架;框架采用vgg-net、densenet和resnet等经过充分预训练的深度神经网络作为基础,基于迁移学习的思想,将经过预处理的图像数据及文本报告数据输入分类网络中进行fine-tuning并行训练调整,在保证准确性的同时增强模型鲁棒性,最大程度地提升模型提取影像各类特征信息的能力;

步骤3.2眼底造影图像自适应聚焦融合;对多源眼底影像信息所关注的病灶信息存在差异的问题,采用基于注意力机制的方法,通过引入可学习参数和批次非线性激活,实现眼底影像自适应聚焦融合,对影像特征信息进行筛选,提取出当前造影图像中需要重点关注的区域和病灶信息,再用于生成对应的医疗影像报告,提高信息的准确性和模型可用性。

根据本发明所述一种基于多网络融合的医疗影像报告生成方法,其特征在于;步骤4初步眼底造影报告的生成;

步骤4.1基于模板的报告生成;针对不同疾病设计不同造影报告模板,模板内容包括患者基本信息、病症描述、诊断结果;其中患者基本信息根据造影图像中的患者信息填入,就病症描述和诊断结果而言,不同的疾病报告模板中有相应疾病的可选词库;首先根据多cnn网络聚焦加权后的输出结果选择对应疾病的报告模板,再根据多cnn网络的不同输出结果选择该模板词库中的对应描述及诊断结果填入模板中,进行模板报告的生成;

步骤4.2基于seq2seq的初步报告生成;针对医疗影像信息与医学报告文本无法直接转换的问题,采用医疗跨媒体数据的编解码技术,在多cnn网络进行自适应的编码学习后,将医疗影像的加权编码结果作为文本生成网络(文本解码器)的输入,使用基于seq2seq的循环神经网络,进行初步报告的生成。

根据本发明所述一种基于多网络融合的医疗影像报告生成方法,其特征在于;步骤5最终眼底造影报告的生成;设计基于seq2seq的循环神经网络用于最终报告的生成,该网络的输入为步骤4.1中基于模板生成的报告以及步骤4.2中基于seq2seq生成的初步报告,经过网络训练,在每个时间步上生成一个词或字,并通过迭代,生成最终的文字性报告。

根据本发明所述一种基于多网络融合的医疗影像报告生成方法,其特征在于;步骤6数据自迭代更新;将医生认为参考价值高的影像报告及对应影像暂存数据库,以一个月为周期,同时结合该时段内医院产生的数据(包括医疗影像及报告文本),作为新数据对已有影像及文本数据库进行更新,充分利用医院海量数据及本发明方案生成的文本报告数据,不断丰富已有数据,提高框架生成报告的准确性及流畅性。

本发明具有如下优点:本发明提供一种基于多网络融合的医疗影像报告生成方法,以医疗影像报告生成技术为切入点,利用深度人工神经网络,构建端到端的医疗影像报告生成架构,对医疗影像进行精确分析,实现智能快速的医疗影像分析报告生成,具有持续可升级、智能化水平高、价格低廉、适用场景广泛等诸多优势。本发明将医疗影像数据与文本数据引入到跨媒体研究中,拓展了跨媒体研究领域的同时,盘活了海量的历史医学影像与文本数据,填补了国内医学跨媒体研究的空缺。

附图说明

图1基于多网络融合的医学影像报告生成流程示意图;

图2整体框架示意图;

图3本发明的应用具体流程示意图。

具体实施方式

下面将结合附图1-图3对本发明进行详细说明,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明通过改进在此提供一种基于多网络融合的医疗影像报告生成方法;

本发明对眼底医疗影像报告生成方法进行了研究,着重研究了病理信息抽取技术以及报告生成技术,并给出了详细的解决方案。

眼底造影图像存在baf、fa、ir等多种不同格式,本发明针对异构医疗影像数据存在的格式多样,来源多样的问题,采用多深度神经网络模型融合的并行训练技术。此外,提出影像信息自适应聚焦技术,基于自适应注意力机制实现多网络特征的融合,提升医疗影像病理信息抽取的精度和广度,减少漏诊、错诊事故的概率。利用经过聚焦编码后的医疗影像病理信息,研究跨媒体信息编解码技术,结合基于seq2seq的循环神经网络解码模型以及基于模板的报告生成技术,构建医疗影像文本报告生成流程,具体流程如下图1所示。在此流程的基础上,采用自迭代的医疗影像报告生成模型更新技术,构建多网络融合的医疗影像分析框架,整体框架示意图如下图2所示。本发明具体执行过程如下;

步骤1,图像数据处理;眼底造影图像包括fa、baf以及ir等不同格式,不同医疗设备采集的图像尺寸也各有不同,故需要对图像数据集进行统一的预处理。

步骤1.1调整图像大小;由于不同医疗设备采集的造影图像之间存在尺寸差异,同时为了平衡gpu的处理性能与造影图像特征的复杂性,将所有造影图像大小调整为256×256。

步骤1.2数据集增强;医疗图像数据集中的图像数量一般较少,同时为了防止训练过程中出现过拟合现象,在网络训练过程中采用以下方法进行数据增强:随机水平翻转、随机垂直翻转、在0-30度的范围内随机旋转。

步骤2,文本报告数据处理;眼底造影报告中一般包括以下内容:患者信息(姓名、年龄、性别等)、病症描述、诊断结果,但不同医院的眼底造影报告会存在一定的内容及格式差异,故需要对文本报告数据进行统一的预处理。

步骤2.1,造影报告预处理;眼底造影报告在录入过程中可能存在人为输入错误、格式未规范统一等问题,为了保证后续分词的准确性,先对文本报告进行以下预处理:(1)删除文本报告中的空格;(2)删除或更正文本报告中乱用、无用的符号;(3)调用错别字检测接口对文本报告进行错别字检测并更正。

步骤2.2眼科专用名词分词;在文本报告格式基本统一,进行了错别字的纠正后,针对眼科设计医用专业名词库,在已有中文词库中加入该眼科专用名词库,并调用更新后的词库对文本进行分词。基于初次分词结果对结果中分割错误的词汇进行处理,将错误分割词汇更新至已有词库中,再次分词后得到较为准确的眼科专用名词分词结果。

步骤2.3医用专业名词清洗;由于眼底造影报告文本中存在同义词汇不同表达,或用缩写进行表达的情况,故需将分词结果中的同义词汇和缩写词汇替换成一个统一的表达。此外,针对医疗领域设计特定的停用词表,并将分词结果中的停用词删除。

步骤2.4标签生成;调用word2vec模型对经过分词和清洗后的文本结果进行特征提取,将每一个词映射成一个向量,作为图像数据在分类网络中训练时的标签。

步骤3,针对异构眼底造影图像的多cnn网络并行训练;

步骤3.1多cnn网络并行训练;异构眼底影像数据来源多样、格式多样,基于此构建多网络融合的医疗影像分析框架。框架采用vgg-net、densenet和resnet等经过充分预训练的深度神经网络作为基础,基于迁移学习的思想,将经过预处理的图像数据及文本报告数据输入分类网络中进行fine-tuning并行训练调整,在保证准确性的同时增强模型鲁棒性,最大程度地提升模型提取影像各类特征信息的能力。

步骤3.2眼底造影图像自适应聚焦融合;对多源眼底影像信息所关注的病灶信息存在差异的问题,采用基于注意力机制的方法,通过引入可学习参数和批次非线性激活,实现眼底影像自适应聚焦融合,对影像特征信息进行筛选,提取出当前造影图像中需要重点关注的区域和病灶信息,再用于生成对应的医疗影像报告,提高信息的准确性和模型可用性。

步骤4初步眼底造影报告的生成;

步骤4.1基于模板的报告生成;常见的眼底疾病包括糖尿病性视网膜病变、近视、白内障、老年性黄斑变性等,且每一特定疾病都有其对应的病症描述。针对不同疾病设计不同造影报告模板,模板内容包括患者基本信息、病症描述、诊断结果。其中患者基本信息根据造影图像中的患者信息填入,就病症描述和诊断结果而言,不同的疾病报告模板中有相应疾病的可选词库。首先根据多cnn网络聚焦加权后的输出结果选择对应疾病的报告模板,再根据多cnn网络的不同输出结果选择该模板词库中的对应描述及诊断结果填入模板中,进行模板报告的生成。

步骤4.2基于seq2seq的初步报告生成;针对医疗影像信息与医学报告文本无法直接转换的问题,采用医疗跨媒体数据的编解码技术,在多cnn网络进行自适应的编码学习后,将医疗影像的加权编码结果作为文本生成网络(文本解码器)的输入,使用基于seq2seq的循环神经网络,进行初步报告的生成。

步骤5,最终眼底造影报告的生成;考虑到基于模板的报告灵活性较低、而基于seq2seq的初步报告准确性较低的问题,结合上述两份报告,设计基于seq2seq的循环神经网络用于最终报告的生成,该网络的输入为步骤4.1中基于模板生成的报告以及步骤4.2中基于seq2seq生成的初步报告,经过网络训练,在每个时间步上生成一个词或字,并通过迭代,生成最终的文字性报告。

步骤6,数据自迭代更新;将最终生成的影像报告反馈给医生,医生将该报告作为诊断的参考,同时对报告的准确性及流畅性做出评价。将医生认为参考价值高的影像报告及对应影像暂存数据库,以一个月为周期,同时结合该时段内医院产生的数据(包括医疗影像及报告文本),作为新数据对已有影像及文本数据库进行更新,充分利用医院海量数据及本发明方案生成的文本报告数据,不断丰富已有数据,提高框架生成报告的准确性及流畅性。

本发明的应用实施如下:医疗机构每天都伴随着大量医学影像数据的生成,面对海量的医学影像数据,人工读片进行医疗影像报告书写的方法存在速度慢、效率低以及人工成本高的问题,而传统基于dicom数据信息以及医疗辅助诊断系统的医学影像报告生成技术已经力不从心,其速度慢、智能化水平低、可维护性差的问题日益凸显,已经成为了制约医院医疗水平发展的瓶颈。本发明可应用于临床医学中辅助医生进行快速的医疗报告生成,节约人力和物力成本,具体流程如图3所示。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1