一种基于深度学习的药品说明书自动识别方法、系统及存储介质

文档序号:33322800发布日期:2023-03-03 21:33阅读:38来源:国知局
一种基于深度学习的药品说明书自动识别方法、系统及存储介质

1.本发明涉及图像识别技术领域,具体而言,尤其涉及一种基于深度学习的药品说明书自动识别方法、系统及存储介质。


背景技术:

2.光学文字识别(optical character recognition,ocr)指的是电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程。数码相机及平台式扫描仪的广泛应用大大推动了光学文字识别技术的发展。现有技术主要分成两类:一是基于传统图像处理方法,二是基于深度神经网络的学习策略。针对药品说明书自动管理系统,现有方法具有以下缺陷:
3.(1)功能缺陷:现有技术无法自动识别说明书中的标题、批准文号、批准日期和修订日期等关键特征信息,说明书的管理需要依赖人工审核;
4.(2)技术缺陷一:扫描件质量参差不齐:部分扫描件可能存在文字不清晰或发生形变、文档倾斜、扫描方向不定(横向、纵向)等问题,现有文字识别算法未对以上问题有针对性研究;
5.(3)技术缺陷二:药物的通用名称或有效成分多是由西文音译的,常用生僻字来进行区分,这类生僻字往往结构较为复杂,加大了正确识别的难度,这些生僻字往往与其他字合起来表达某一固定化学结构名称;另外,药品名称中通常包含固定词汇,如注射、氧氟、硅油、复合等等。对于这两类名称如果用单字识别往往因为忽略了字间固定的搭配而导致错误率偏高。


技术实现要素:

6.根据上述提出的技术问题,提供一种基于深度学习的药品说明书自动识别方法、系统及存储介质。本发明主要利用基于数据驱动思想和深度学习技术实现汉字及数字的高精度提取及识别。
7.本发明采用的技术手段如下:
8.一种基于深度学习的药品说明书自动识别方法,包括:
9.获取药品说明书图像,基于图像处理方法对获取的图像进行预处理,提取有效字体区域;
10.基于提取的有效字体区域,采用分段式识别法对文字信息进行初步识别;
11.联合高频词训练的文字信息,对初步识别的文字信息进行优化识别,得到字符的优化识别结果。
12.进一步地,所述基于图像处理方法对获取的图像进行预处理,具体包括:扫描图像增强处理、扫描件主方向矫正处理、图像倾斜方向校正处理、文字信息区域定位处理、字符区域分割处理、独立字符分割处理、以及字形矫正处理。
13.进一步地,所述扫描图像增强处理、扫描件主方向矫正处理、图像倾斜方向校正处理、图像倾斜方向校正处理、文字信息区域定位处理、字符区域分割处理、独立字符分割处理、以及字形矫正处理,具体包括:
14.所述扫描图像增强处理,包括:采用加权平均法对图像进行灰度化;采用均值滤波对图像进行线性滤波;
15.所述扫描件主方向矫正处理,包括:提取扫描件长宽特征,并将图像灰度值分别投影到两个方向上,获得投影特征,结合主方向先验特征,判断扫描件主方向;
16.所述图像倾斜方向校正处理,包括:利用radon变换估计图像的倾斜角,将图像空间利用如下公式投影到极坐标空间:
[0017][0018]
极坐标中的点相当于图像空间中对应两点的直线,通过极坐标空间中的点集的累加峰值确定图像空间的对应线条,由于极坐标本身包含倾斜角θ,因此根据点集累加峰值确定倾斜角度;
[0019]
所述文字信息区域定位处理,包括:将图像进行形态学膨胀运算,减小字符临近笔画和临近字符间的空隙;提取图像的连通域,将同类的区域进行合并;采用投影法,做横向投影直方图,获得投影特征;针对药品说明书药品名称部分字体最大且均处于深色背景区的特点,选取字码最大且色块投影值最大的区域为药品名称图像区域;针对药品说明书的核准日期和修改日期在文件顶部且文字稀疏的特点,选取图像顶部色块投影值小于在某一阈值内的为核准日期和修改日期图像区域;对中括号标记及括号内的关键词进行识别,从而对批准文号所在区域进行定位;
[0020]
所述字符区域分割处理,包括:对已选定的核准日期或批准文号图像区域做横向投影直方图,行字符在直方图上呈现波峰,行间隔在直方图上呈现明显的波谷状,按照波谷处进行分割,得到划分后的批准文号、核准日期和修改日期;
[0021]
所述独立字符分割处理,对核准日期和修改日期、批准文号的各行以及药品名称区域做纵向投影直方图,各字符点阵在直方图上呈现波峰,字符间隙在直方图上呈现明显的波谷状,按照波谷处进行分割,得到核准日期、修改日期、批准文号以及药品名称的数字、汉字及符号;
[0022]
所述字形矫正处理,包括:针对字体形变的局部性,对每行字符分别进行字形矫正;利用hough变换得到每行字的最小外接四边形,计算四边形到矩形的变换的仿射矩阵h,将每个分割的独立字符与仿射矩阵h相乘,得到矫正后的字符图像。
[0023]
进一步地,所述基于提取的有效字体区域,采用分段式识别法对文字信息进行初步识别,包括:利用单字符训练得到核准和修改日期、批准文号以及药品名称的初步识别结果,通过卷积循环神经网络模型提取词间相关搭配关系,对初步识别结果进一步优化。
[0024]
进一步地,所述利用单字符训练得到核准和修改日期、批准文号以及药品名称的初步识别结果,通过卷积循环神经网络模型提取词间相关搭配关系,对初步识别结果进一步优化,具体包括:
[0025]
构建字符训练库:根据国家药品目录,提取其中的符号,包括汉字、数字、百分号,生成常用字体的符号图片,对每张图片进行轻微扰动以增加噪声;
[0026]
划分训练集和验证集:将生成的字符训练库按照5:1的比例生成训练集和验证集,训练集用于训练得到最优的深度模型,验证集用于生成最优的深度模型超参数;
[0027]
构建卷积神经网络模型:输入字符图片,维度为32
×
32,用6个大小为5
×
5的卷积核进行卷积操作,得到尺寸为6@28
×
28的卷积特征图;以stride=2进行平均池化即下采样,得到6@14
×
14的池化特征图;以16个大小为5
×
5的卷积核进行卷积操作,得到尺寸为16@10
×
10的卷积特征图;以stride=2进行平均池化即下采样,得到16@5
×
5的池化特征图;分别利用一个核为5
×
5和两个核为1
×
1的卷积对特征进行缩放以获得丰富的特征组合,最后经非线性映射判定类别输出;
[0028]
优化深度模型:任意选取一个参照样本,在同类别字符库中随机选取一个样本作为正样本,从不同类别字符库中随机选取一个样本作为负样本;采用孪生机制,在一次迭代中,将参照样本输入支路1,将正样本和负样本轮流依次输入支路2,两个支路共享网络参数;分别对支路1和支路2的样本特征用softmax进行分类,采用交叉熵损失函数进行约束;联合支路1和支路2以对比损失函数进行约束,使参考样本和正样本特征尽量相似,同时使参考样本和负样本特征差异尽量大;对网络进行反向传播,更新网络;
[0029]
模型评估:更新网络超参,通过监测验证集选取最优网络超参;
[0030]
字符初步判别:将经图像处理后的字符图片输入训练得到的卷积神经网络中,获得每个单字符的初步判定结果,保留单字符分类概率。
[0031]
进一步地,所述联合高频词训练的文字信息,对初步识别的文字信息进行优化识别,得到字符的优化识别结果,具体包括:
[0032]
构建高频词库:采用jieba开源分词系统对国家药品目录中的药品名称进行自动分词,对于部分疑难词组进行人工筛选和更正;统计所有词组的出现概率,挑选高频词组构建高频词库,生成常用字体的高频词库图片,对每张图片进行轻微扰动以增加噪声;
[0033]
划分训练集和验证集:将生成的高频词库按照5:1的比例生成训练集和验证集,训练集用于训练得到最优的深度模型,验证集用于生成最优的深度模型超参数;
[0034]
构建卷积循环记忆模型:利用卷积神经子网络对高频词x={x
t
}的各个字符进行特征提取,获得各字符特征f={f
t
};循环神经子网络在时间步t上取一个输入x
t
,在时间步t-1上取一个隐藏状态h
t-1
以计算时间步t上的隐藏状态h
t
,并利用relu求得t时刻输出y
t
与输入的非线性关系:
[0035]ht
=tanh(w
hhht-1
+w
hx
x
t
)
[0036]yt
=w
hyht
[0037]
其中,w
hh
,w
hx
,w
hy
均为网络待学习权重;
[0038]
深度模型优化:各时间步损失函数为交叉熵损失函数,总体损失函数为各时间步损失函数之和,对网络进行反向传播,更新网络;
[0039]
高频词修正:将经卷积循环神经网络得到的各字符概率与字符初步判别中保留的单字符分类概率相乘,获得字符的优化识别结果。
[0040]
本发明还提供了一种基于上述基于深度学习的药品说明书自动识别方法的基于深度学习的药品说明书自动识别系统,包括:
[0041]
文字信息提取模块,用于获取药品说明书图像,基于图像处理方法对获取的图像进行预处理,提取有效字体区域;
[0042]
文字信息初步识别模块,用于基于提取的有效字体区域,采用分段式识别法对文字信息进行初步识别;
[0043]
文字信息优化识别模块,用于联合高频词训练的文字信息,对初步识别的文字信息进行优化识别,得到字符的优化识别结果。
[0044]
本发明还提供了一种存储介质,所述存储介质包括存储的程序,其中,所述程序运行时,执行上述基于深度学习的药品说明书自动识别方法。
[0045]
较现有技术相比,本发明具有以下优点:
[0046]
1、本发明提出了药品说明书一体化识别方法,能够降低人工成本,极大地提升药品说明书的管理效率和时效性;
[0047]
2、本发明提出了图像增强和文字识别的一系列方法,能够对文字不清晰或发生形变、文档倾斜、扫描方向不定(横向、纵向)等问题有较好的效果;
[0048]
3、本发明提出了分段式识别法,首先利用卷积神经网络对单字进行初步识别,然后利用卷积循环记忆网络联合高频词训练对文字信息进一步优化识别,从而利用药品说明书中经常出现的高频词提升名称检测的准确度。
[0049]
基于上述理由本发明可在药品说明书识别等领域广泛推广。
附图说明
[0050]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0051]
图1为本发明方法流程图。
[0052]
图2为本发明实施例提供的卷积神经网络模型示意图。
[0053]
图3为本发明实施例提供的卷积循环记忆模型示意图。
具体实施方式
[0054]
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
[0055]
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0056]
如图1所示,本发明提供了一种基于深度学习的药品说明书自动识别方法,包括:
[0057]
s1、获取药品说明书图像,基于图像处理方法对获取的图像进行预处理,提取有效字体区域;
[0058]
s2、基于提取的有效字体区域,采用分段式识别法对文字信息进行初步识别;
[0059]
s3、联合高频词训练的文字信息,对初步识别的文字信息进行优化识别,得到字符的优化识别结果。
[0060]
具体实施时,作为本发明优选的实施方式,所述步骤s1中,基于图像处理方法对获取的图像进行预处理,具体包括:扫描图像增强处理、扫描件主方向矫正处理、图像倾斜方向校正处理、文字信息区域定位处理、字符区域分割处理、独立字符分割处理、以及字形矫正处理。其目的是对关键区域进行定向和定位以提取清晰、端正的有效字体区域,为后续文字信息识别的准确率提升奠定基础。
[0061]
具体实施时,作为本发明优选的实施方式,所述扫描图像增强处理、扫描件主方向矫正处理、图像倾斜方向校正处理、图像倾斜方向校正处理、文字信息区域定位处理、字符区域分割处理、独立字符分割处理、以及字形矫正处理,具体包括:
[0062]
所述扫描图像增强处理,包括:采用加权平均法对图像进行灰度化;采用均值滤波对图像进行线性滤波;去除因扫描设备性能不佳导致的噪声;
[0063]
所述扫描件主方向矫正处理,包括:提取扫描件长宽特征,并将图像灰度值分别投影到两个方向上,获得投影特征,结合主方向先验特征,判断扫描件主方向;
[0064]
所述图像倾斜方向校正处理,包括:利用radon变换估计图像的倾斜角,将图像空间利用如下公式投影到极坐标空间:
[0065][0066]
极坐标中的点相当于图像空间中对应两点的直线,通过极坐标空间中的点集的累加峰值确定图像空间的对应线条,由于极坐标本身包含倾斜角θ,因此根据点集累加峰值确定倾斜角度;
[0067]
所述文字信息区域定位处理,包括:将图像进行形态学膨胀运算,减小字符临近笔画和临近字符间的空隙;提取图像的连通域,将同类的区域进行合并;采用投影法,做横向投影直方图,获得投影特征;针对药品说明书药品名称部分字体最大且均处于深色背景区的特点,选取字码最大且色块投影值最大的区域为药品名称图像区域;针对药品说明书的核准日期和修改日期在文件顶部且文字稀疏的特点,选取图像顶部色块投影值小于在某一阈值内的为核准日期和修改日期图像区域;对中括号标记及括号内的关键词进行识别,从而对批准文号所在区域进行定位;
[0068]
所述字符区域分割处理,包括:对已选定的核准日期或批准文号图像区域做横向投影直方图,行字符在直方图上呈现波峰,行间隔在直方图上呈现明显的波谷状,按照波谷处进行分割,得到划分后的批准文号、核准日期和修改日期;
[0069]
所述独立字符分割处理,对核准日期和修改日期、批准文号的各行以及药品名称区域做纵向投影直方图,各字符点阵在直方图上呈现波峰,字符间隙在直方图上呈现明显的波谷状,按照波谷处进行分割,得到核准日期、修改日期、批准文号以及药品名称的数字、汉字及符号;
[0070]
所述字形矫正处理,包括:针对字体形变的局部性,对每行字符分别进行字形矫
正;利用hough变换得到每行字的最小外接四边形,计算四边形到矩形的变换的仿射矩阵h,将每个分割的独立字符与仿射矩阵h相乘,得到矫正后的字符图像。
[0071]
具体实施时,作为本发明优选的实施方式,所述步骤s2中,基于提取的有效字体区域,采用分段式识别法对文字信息进行初步识别,包括:利用单字符训练得到核准和修改日期、批准文号以及药品名称的初步识别结果,通过卷积循环神经网络模型提取词间相关搭配关系,对初步识别结果进一步优化,具体包括:
[0072]
构建字符训练库:根据国家药品目录,提取其中的符号,包括汉字、数字、百分号,生成常用字体的符号图片,对每张图片进行轻微扰动以增加噪声,从而增强深度模型的识别鲁棒性,扰动操作包括剪裁、角度偏转。
[0073]
划分训练集和验证集:将生成的字符训练库按照5:1的比例生成训练集和验证集,训练集用于训练得到最优的深度模型,验证集用于生成最优的深度模型超参数,如batch尺寸,训练步长等。
[0074]
构建卷积神经网络模型:输入字符图片,维度为32
×
32,用6个大小为5
×
5的卷积核进行卷积操作,得到尺寸为6@28
×
28的卷积特征图;以stride=2进行平均池化即下采样,得到6@14
×
14的池化特征图;以16个大小为5
×
5的卷积核进行卷积操作,得到尺寸为16@10
×
10的卷积特征图;以stride=2进行平均池化即下采样,得到16@5
×
5的池化特征图;分别利用一个核为5
×
5和两个核为1
×
1的卷积对特征进行缩放以获得丰富的特征组合,最后经非线性映射判定类别输出;构建的卷积神经网络模型如图2所示。
[0075]
优化深度模型:其目的是训练网络使其能提取到能代表各个字符的判别性特征,网络以多分类与异同二分类的形式联合进行训练,以提升模型的准确度,具体步骤为:
[0076]
a、任意选取一个参照样本,在同类别字符库中随机选取一个样本作为正样本,从不同类别字符库中随机选取一个样本作为负样本;
[0077]
b、采用孪生机制,在一次迭代中,将参照样本输入支路1,将正样本和负样本轮流依次输入支路2,两个支路共享网络参数;
[0078]
c、分别对支路1和支路2的样本特征用softmax进行分类,采用交叉熵损失函数进行约束;
[0079]
d、联合支路1和支路2以对比损失函数进行约束,使参考样本和正样本特征尽量相似,同时使参考样本和负样本特征差异尽量大;
[0080]
e、对网络进行反向传播,更新网络;
[0081]
模型评估:更新网络超参,通过监测验证集选取最优网络超参;
[0082]
字符初步判别:将经图像处理后的字符图片输入训练得到的卷积神经网络中,获得每个单字符的初步判定结果,保留单字符分类概率。此处要保留单字符分类概率,对于某些字形相似易错词,在下一步中通过高频词训练进行概率更新。
[0083]
具体实施时,作为本发明优选的实施方式,所述步骤s3中,联合高频词训练的文字信息,对初步识别的文字信息进行优化识别,得到字符的优化识别结果,具体包括:
[0084]
构建高频词库:采用jieba开源分词系统对国家药品目录中的药品名称进行自动分词,对于部分疑难词组进行人工筛选和更正;统计所有词组的出现概率,挑选高频词组构建高频词库,生成常用字体的高频词库图片,对每张图片进行轻微扰动以增加噪声;从而增强高频词汇识别的鲁棒性,扰动操作包括剪裁、角度偏转等。
[0085]
划分训练集和验证集:将生成的高频词库按照5:1的比例生成训练集和验证集,训练集用于训练得到最优的深度模型,验证集用于生成最优的深度模型超参数;
[0086]
构建卷积循环记忆模型:高频词识别中采用卷积循环记忆模型,即利用卷积神经子网络提取高频词的空间信息,利用循环记忆子网络提取高频词的字符间相关信息,具体设置如下:
[0087]
a、利用卷积神经子网络对高频词x={x
t
}的各个字符进行特征提取,获得各字符特征f={f
t
};
[0088]
b、循环神经子网络在时间步t上取一个输入x
t
,在时间步t-1上取一个隐藏状态h
t-1
以计算时间步t上的隐藏状态h
t
,并利用relu求得t时刻输出y
t
与输入的非线性关系:
[0089]ht
=tanh(w
hhht-1
+w
hx
x
t
)
[0090]yt
=w
hyht
[0091]
其中,w
hh
,w
hx
,w
hy
均为网络待学习权重;构建的卷积循环记忆模型如图3所示。
[0092]
深度模型优化:各时间步损失函数为交叉熵损失函数,总体损失函数为各时间步损失函数之和,对网络进行反向传播,更新网络;
[0093]
高频词修正:将经卷积循环神经网络得到的各字符概率与字符初步判别中保留的单字符分类概率相乘,获得字符的优化识别结果。
[0094]
对应本技术中的基于深度学习的药品说明书自动识别方法,本技术还提供了一种基于深度学习的药品说明书自动识别系统,包括:文字信息提取模块、文字信息初步识别模块以及文字信息优化识别模块,其中:
[0095]
文字信息提取模块,用于获取药品说明书图像,基于图像处理方法对获取的图像进行预处理,提取有效字体区域;
[0096]
文字信息初步识别模块,用于基于提取的有效字体区域,采用分段式识别法对文字信息进行初步识别;在本实施例中,文字信息初步识别模块的作用是针对已提取的目标字块,基于数据驱动思想和深度学习技术,实现对于汉字及数字的高精度识别,核心原理是通过挖掘隐藏在汉字数据库中的潜在特征及映射规律形成高精度判别器。主要包括训练数据库构建、深度神经网络模型构建、深度模型优化等多个子模块。药物中化学元素多是由西文音译的,常用生僻字来进行区分,这类生僻字往往结构较为复杂,加大了正确识别的难度,这些生僻字往往与其他字合起来表达某一固定元素名称;另外,药品名称中通常包含固定词汇,如注射、氧氟、硅油、复合等等。对于这两类名称如果用单字识别往往因为忽略了字间固定的搭配而导致错误率偏高,因此本方法提出分段式识别法,既首先利用单字符训练得到核准和修改日期、批准文号以及药品名称的初步识别结果,然后通过卷积循环神经网络模型提取词间相关搭配关系,对初步识别结果进一步优化。
[0097]
文字信息优化识别模块,用于联合高频词训练的文字信息,对初步识别的文字信息进行优化识别,得到字符的优化识别结果。
[0098]
对于本发明实施例的而言,由于其与上面实施例中的相对应,所以描述的比较简单,相关相似之处请参见上面实施例中部分的说明即可,此处不再详述。
[0099]
本技术实施例还公开了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机指令集,计算机指令集被处理器执行时实现如上文任一实施例所提供的基于深度学习的药品说明书自动识别方法
[0100]
在本技术所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
[0101]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0102]
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0103]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0104]
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1