模型的训练方法及装置、定位方法及装置、设备与流程

文档序号：21268403发布日期：2020-06-26 22:48阅读：188来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本公开一般涉及图像搜索领域，尤其涉及药品包装文本的模型的训练方法及装置、定位方法及装置、设备。

背景技术：

在医药管理和医药配送等领域，需要录入医药的名称、类型、储存方式等信息，进而实现对药品的精确管理和管控。

现有的药品名称等文字信息一般是通过扫描药品包装上的二维码，再通过二维码信息去查询相关网站获得的，这种方法存在以下问题：

1.部分药品本身不存在二维码，特别是在部分进口药品上，或者是药品本身具有二维码，但是查询系统中并没有对应药品的备案信息，导致通过二维码查询失败。

2.通过二维码查询药品信息需要操作人员先找到二维码区域，才能进行二维码识别和码查询，耗时较长。

3.二维码识别抗干扰能力弱，如果条码存在污损的情况，识别准确率会大幅降低。

4.在医药配送领域，普通用户通常不会长时间保留药品包装，无法使用扫二维码方式。

因此，需要研发一种不依赖于药品包装二维码的识别药品包装文本的方法。

技术实现要素：

鉴于现有技术中的上述缺陷或不足，期望提供一种基于图像处理的药品包装文本的模型的训练方法及装置、定位方法及装置、设备。

第一方面，提供一种医药包装文本检测模型的训练方法，方法包括：

从样本图像中提取待标注文本区域；

利用标注高度为文本高度且标注宽度随标注高度变化的矩形，将若干个矩形首尾连接形成的矩形序列对待标注文本区域进行标注，其中，所述标注高度越高对应的所述标注宽度越宽，使得每个标注用矩形中存在文字部分；

将标注序列作为训练数据对文本检测模型进行训练，得到医药包装文本检测模型。

第二方面，提供一种医药包装文本定位模型的训练方法，医药包装文本定位模型包括医药包装角度检测模型和医药包装文本定位模型，医药包装文本检测模型的训练通过本申请各实施例所提供的训练方法训练，医药包装角度检测模型的训练方法包括：

将样本图像中的各样本图像分别旋转k个预设旋转角度，组成样本图像库，所述k为大于零的自然数；

将样本图像库和对应的旋转角度作为训练数据对角度检测模型进行训练，得到医药包装角度检测模型。

第三方面，提供一种医药包装文本定位方法，方法包括：

接收待定位医药包装图像；

待定位医药包装图像经医药包装角度检测模型确定旋转角度，医药包装角度检测模型是利用本申请各实施例所提供的任一训练方法训练后的医药包装角度检测模型；

根据旋转角度，将待检测医药包装图像进行旋转获得旋转角度为零的待检测医药包装图像；

旋转后的待定位医药包装图像经医药包装文本检测模型确定待定位医药包装图像中的文本区域，医药包装文本检测模型是利用本申请各实施例所提供的任一训练方法训练后的医药包装文本检测模型；

根据文本区域，确定该文本区域的大小和中心点的偏移量。

第四方面，提供一种医药包装文本检测模型的训练装置，装置包括：

标注文本区域提取单元，配置用于从样本图像中提取待标注文本区域；

标注数据生成单元，配置用于利用标注高度为文本高度且标注宽度随标注高度变化的矩形，将若干个矩形首尾连接形成的矩形序列对待标注文本区域进行标注，其中，所述标注高度越高对应的所述标注宽度越宽，使得每个标注用矩形中存在文字部分；

训练单元，配置用于将标注序列作为训练数据对医药包装文本检测模型进行训练，得到医药包装文本检测模型。

第五方面，提供一种医药包装文本定位模型的训练装置，医药包装文本定位模型的训练装置包括医药包装角度检测模型的训练装置和医药包装文本定位模型的训练装置，医药包装文本检测模型的训练装置为本申请各实施例所提供的医药包装文本检测模型的训练装置，医药包装角度检测模型的训练装置包括：

样本库生成单元，配置用于将样本图像中的各样本图像分别旋转k个预设旋转角度，组成样本图像库；

训练单元，配置用于将样本图像库和对应的旋转角度作为训练数据对医药包装角度检测模型进行训练，得到医药包装角度检测模型。

第六方面，提供一种医药包装文本定位装置，装置包括：

接收单元，配置用于接收待定位医药包装图像；

旋转角度确定单元，配置用于待定位医药包装图像经医药包装角度检测模型确定旋转角度，医药包装角度检测模型是利用各实施例所提供的任一训练方法训练后的医药包装角度检测模型；

旋转单元，配置用于根据旋转角度，将待检测医药包装图像进行旋转获得旋转角度为零的待检测医药包装图像；

文本区域确定单元，配置用于旋转后的待定位医药包装图像经医药包装文本检测模型确定待定位医药包装图像中的文本区域，医药包装文本检测模型是利用各实施例所提供的任一训练方法训练后的医药包装文本检测模型；

定位单元，配置用于根据文本区域，确定该文本区域的大小和中心点的偏移量。

第七方面，提供一种设备，设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器执行各实施例所提供的任一项医药包装文本检测模型的训练方法；或者

使得一个或多个处理器执行各实施例所提供的任一项医药包装文本定位模型的训练方法；或者

使得一个或多个处理器执行各实施例所提供的医药包装文本定位方法。

第八方面，提供一种存储有计算机程序的计算机可读存储介质，该程序被处理器执行时实现各实施例所提供的任一项医药包装文本检测模型的训练方法；或者

该程序被处理器执行时实现各实施例所提供的任一项医药包装文本定位模型的训练方法；或者

该程序被处理器执行时实现各实施例所提供的医药包装文本定位方法。

根据本申请实施例提供的技术方案，在医药包装文本检测模型的训练过程中，通过标注高度为文本高度且标注宽度随标注高度变化的矩形获得标注数据，且标注高度越高对应的标注宽度越宽，使得每个标注用矩形中存在文字部分，能够解决现有的标注宽度固定的标注方法带来的同一类的文本区域被错误地划分为多个的问题。进一步的，根据本申请的某些实施例，通过增加提取图像细微特征的1×1卷积核的比例，获得降维和减少计算量的效果。在医药包装角度检测模型的训练过程中，通过统计方法确定各旋转角度对应的图像样本数量比例，获得接近实际情况的角度检测效果。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出了根据本申请实施例的医药包装文本检测模型的训练方法的示例性流程图；

图2示出了根据本申请实施例的文本区域标注方法的示例性示意图；

图3示出了根据本申请实施例的第一网络模型的示例性结构示意图；

图4示出了根据本申请实施例的医药包装文本定位模型的训练方法的示例性流程图；

图5示出了根据本申请实施例的医药包装文本定位方法的示例性流程图；

图6示出了根据本申请实施例的医药包装文本检测模型的训练装置的示例性结构示意图；

图7示出了根据本申请实施例的医药包装文本定位模型的训练装置的示例性结构示意图；

图8示出了根据本申请实施例的医药包装文本定位装置的示例性结构示意图；

图9示出了根据本申请实施例提供的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

请参考图1、图2和图3说明医药包装文本检测模型的训练方法，其中图1示出了根据本申请实施例的医药包装文本检测模型的训练方法的示例性流程图；图2示出了根据本申请实施例的文本区域标注方法的示例性示意图；图3示出了根据本申请实施例的第一网络模型的示例性结构示意图。如图所示，该方法包括：

步骤s10：从样本图像中提取待标注文本区域；

步骤s20：利用标注高度为文本高度且标注宽度随标注高度变化的矩形，将若干个矩形首尾连接形成的矩形序列对待标注文本区域进行标注，其中，所述标注高度越高对应的所述标注宽度越宽，使得每个标注用矩形中存在文字部分；

步骤s30：将标注序列作为训练数据对文本检测模型进行训练，得到医药包装文本检测模型。

在本实施例中，首先从样本图像中提取待标注文本区域，如图2所示的文本区域10、文本区域20等。利用标注高度为文本高度且标注宽度随标注高度变化的矩形，如图2所示的矩形11、矩形21。将矩形首尾连接形成的矩形序列对待标注文本区域进行标注。例如对于文本区域10而言，标注序列包括根据文本顺序连续排列的矩形11、矩形12、矩形13、矩形14、矩形15、矩形16、矩形17等。需要说明的是，图中为了说明的便利放大了标注宽度，实际应用中只有几个像素的宽度。接着，将标注序列作为训练数据对文本检测模型进行训练，得到医药包装文本检测模型。

在一些实施例中，标注宽度的范围一般为几个或者几十个像素；标注高度越高对应的标注宽度越宽。在一张药品包装图片中存在不同字体的大小的文字。如图2所示，文本区域10的文本高度低些，而文本区域20的文本高度相对文本区域10的文本高度高些，此时，设置用于标注文本区域20的矩形的宽度大于标注文本区域10的矩形宽度。对于文本而言其字和字之间有一定距离的间隔，当用于标注的矩形宽度较小时，会出现有不包含文字部分的矩形，此时模型根据不包含文子部分的矩形的情况，将该文本区域会作为两个或者更多个文本区域进行处理。也就是说文本区域被无字体的矩形划分为多个文本区域。例如，在对文本区域20进行标注时，沿用标注文本区域10的标注宽度进行标注时，将在“用”和“丙”之间出现不包含文字部分的矩形，此时文本区域20被该矩形划分为两个文本区域。因此，为了避免出现文本区域被错误地划分的情况，标注宽度的设定应使文本区域的每个矩形中存在文字部分。本实施例中，根据统计的药品包装图片中文字的特点标注宽度的范围设定为10～18个像素，确定某一高度的文本区域的标注宽度时，可通过统计训练集中每个样本的属于该标注高度的文字之间的间隔距离来确定最合适的标注宽度。需要说明的是，实际应用中标注宽度的范围根据具体的应用场景来设定，这里不做限定。

在一些实施例中，增加第一网络模型的inception模块中提取图像细微特征的1×1卷积核的比例，医药包装文本检测模型包括用于图片特征提取的第一网络模型和基于图片特征判断是否属于文本的第二网络模型。具体地，第一网络模型可以采用googlenet模型，第二网络模型可采用gru神经网络模型。如图3所示，googlenet网络模型包括前两个inception模块30结构，该结构用于提取图像的卷积特征。其中，每个inception模块中的1×1卷积核的比例相对大些，所占百分比可以为60％～70％，具体而言，本实施例中1×1卷积核、3×3卷积核和5×5卷积核比例为4：1：1。1×1卷积核可用于降维，减少了计算量。1×1卷积核的百分比过大，有些图像特征将获取不到，1×1卷积核的百分比过小将增加计算量而使得效率低下。需要说明的是，该比例为本实施例的最优值，实际应用中根据训练集的特点，该比例将不同。

本申请还给出一种医药包装文本定位模型的训练方法。医药包装文本定位模型包括医药包装角度检测模型和医药包装文本定位模型，医药包装文本检测模型的训练通过本申请各实施例提供的训练方法训练。请参考图4，示出了根据本申请实施例的医药包装文本定位模型的训练方法的示例性流程图。如图所示，医药包装角度检测模型的训练方法包括：

步骤s110：将样本图像中的各样本图像分别旋转k个预设旋转角度，组成样本图像库，其中k为大于零的自然数；

步骤s120：将样本图像库和对应的旋转角度作为训练数据对角度检测模型进行训练，得到医药包装角度检测模型。

采集的药品包装图像的朝向不一致，因此为了后期文字识别的便利，需要旋转图像使得图像的朝向一致。本实施例中的医药包装角度检测模型就是用于检测药品包装图像朝向角度。

在训练该模型时，将采集的朝向一致的图像分别旋转k个预设旋转角度，组成具有不同朝向角度的样本图像库。为了能够识别任意朝向的图像，将360°划分为k个预设旋转角度，例如：0°、45°、90°、135°、180°、225°、270°和315°。k的范围可设定为：大于等于8且小于等于12。当k值过大即角度间隔过小，将增加训练的计算量从而降低训练效率；而当k值过小即角度间隔过大，将降低角度检测的准确度。需要说明的是，本实施例中旋转角度是指图像相对水平方向的夹角，旋转角度为0°是指图像与水平方向无夹角无需旋转，90°是指图像与水平方向的夹角为90°需旋转90°。可以理解的是旋转角度的基准可以是水平方向或者其他方向，这里不做限定。

另外，基于实际采集的大量图像，统计每个旋转角度上的图片数量比例，并以此来设定训练集中各旋转角度的图片数量比例，将提高训练的模型在实际应用中的准确率。例如，旋转角度0°、45°、90°、135°、180°、225°、270°和315°上的图片数量的该比例为：0.9:1:0.5:0.4:0.6:0.4:0.4:0.8。通过具有上述特点的样本图像库和对应的旋转角度作为训练数据对角度检测模型进行训练，得到医药包装角度检测模型。医药包装角度检测模型可采用残差神经网络。

本申请还提供一种医药包装文本定位方法。请参考图5，示出了根据本申请实施例的医药包装文本定位方法的示例性流程图。

步骤s210：接收待定位医药包装图像；

步骤s220：待定位医药包装图像经医药包装角度检测模型确定旋转角度，医药包装角度检测模型是利用本申请各实施例提供的任一训练方法训练后的医药包装角度检测模型；

步骤s230：根据旋转角度，将待检测医药包装图像进行旋转获得旋转角度为零的待检测医药包装图像；

步骤s240：旋转后的待定位医药包装图像经医药包装文本检测模型确定待定位医药包装图像中的文本区域，医药包装文本检测模型是利用申请各实施例提供的任一训练方法训练后的医药包装文本检测模型；

步骤s250：根据文本区域，确定该文本区域的大小和中心点的偏移量。

通过训练后获得的文本定位模型和角度模型进行药品包装上的文本的定位时，将接收到的待定位医药包装图像输入至医药包装角度检测模型确定旋转角度，并基于该旋转角度旋转至与水平方向无夹角。之后输入至医药包装文本检测模型确定医药包装图像中的文本区域。再基于图像中的文本区域计算每个文本区域的中心点偏移量和文本区域的大小。最终能够基于该定位信息通过字符识别方法，获得在计算机上应用的文本。

本申请还提供一种医药包装文本检测模型的训练装置。

请参考图6，示出了根据本申请实施例的医药包装文本检测模型的训练装置100的示例性结构示意图。如图所示，装置包括：

标注文本区域提取单元110，配置用于从样本图像中提取待标注文本区域；

标注数据生成单元120，配置用于利用标注高度为文本高度且标注宽度随标注高度变化的矩形，将若干个矩形首尾连接形成的矩形序列对待标注文本区域进行标注，其中，所述标注高度越高对应的所述标注宽度越宽，使得每个标注用矩形中存在文字部分；

训练单元130，配置用于将标注序列作为训练数据对医药包装文本检测模型进行训练，得到医药包装文本检测模型。

本申请还提供一种医药包装文本定位模型的训练装置。医药包装文本定位模型的训练装置包括医药包装角度检测模型的训练装置和医药包装文本定位模型的训练装置，医药包装文本检测模型的训练装置为本申请实施例提供的医药包装文本检测模型的训练装置。请参考图7，示出了根据本申请实施例的医药包装文本定位模型的训练装置的示例性结构示意图。如图所示，医药包装角度检测模型的训练装置200包括：

样本库生成单元210，配置用于将样本图像中的各样本图像分别旋转k个预设旋转角度，组成样本图像库；

训练单元220，配置用于将样本图像库和对应的旋转角度作为训练数据对医药包装角度检测模型进行训练，得到医药包装角度检测模型。

本申请还提供一种医药包装文本定位装置。请参考图8，示出了根据本申请实施例的医药包装文本定位装置300的示例性结构示意图。如图所示，装置包括：

接收单元310，配置用于接收待定位医药包装图像；

旋转角度确定单元320，配置用于待定位医药包装图像经医药包装角度检测模型确定旋转角度，医药包装角度检测模型是利用本申请实施例所提供的任一训练方法训练后的医药包装角度检测模型；

旋转单元330，配置用于根据旋转角度，将待检测医药包装图像进行旋转获得旋转角度为零的待检测医药包装图像；

文本区域确定单元340，配置用于旋转后的待定位医药包装图像经医药包装文本检测模型确定待定位医药包装图像中的文本区域，医药包装文本检测模型是利用本申请实施例所提供的任一训练方法训练后的医药包装文本检测模型；

定位单元350，配置用于根据文本区域，确定该文本区域的大小和中心点的偏移量。

图9示出了根据本申请实施例提供的一种设备的结构示意图。

如图9所示，作为另一方面，本申请还提供了一种设备400，包括一个或多个中央处理单元(cpu)401，其可以根据存储在只读存储器(rom)402中的程序或者从存储部分408加载到随机访问存储器(ram)403中的程序而执行各种适当的动作和处理。在ram403中，还存储有系统400操作所需的各种程序和数据。cpu401、rom402以及ram403通过总线404彼此相连。输入/输出(i/o)接口405也连接至总线404。

以下部件连接至i/o接口405：包括键盘、鼠标等的输入部分406；包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分407；包括硬盘等的存储部分408；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至i/o接口405。可拆卸介质411，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器410上，以便于从其上读出的计算机程序根据需要被安装入存储部分408。

特别地，根据本公开的实施例，上文参考流程图1描述的过程可以被实现为计算机软件程序。例如，本公开的实施例中包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行医药包装文本检测模型的训练方法的程序代码，或者，计算机程序包含用于执行医药包装文本定位模型的训练方法的程序代码，或者，计算机程序包含用于执行医药包装文本定位方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分409从网络上被下载和安装，和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(cpu)401执行时，执行本申请的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、rf等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。所描述的单元或模块也可以设置在处理器中，例如，可以描述为：一种处理器包括提取特征图单元、确定描述文本单元、训练单元。其中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定，例如，提取特征图单元还可以被描述为“用于利用第一网络模型提取图像样本的多个特征图的提取特征图单元”

作为又一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中所述装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本申请的医药包装文本检测模型的训练方法，或者，所述程序被一个或者一个以上的处理器用来执行描述于本申请的所述医药包装文本定位模型的训练方法，或者，所述程序被一个或者一个以上的处理器用来执行描述于本申请的医药包装文本定位方法。

例如，所述电子设备可以实现如图1所示的：步骤s10：从样本图像中提取待标注文本区域；步骤s20：利用标注高度为文本高度且标注宽度随标注高度变化的矩形，将若干个矩形首尾连接形成的矩形序列对待标注文本区域进行标注，其中，所述标注高度越高对应的所述标注宽度越宽，使得每个标注用矩形中存在文字部分；步骤s30：将标注序列作为训练数据对文本检测模型进行训练，得到医药包装文本检测模型。

例如，所述电子设备可以实现如图4所示的：步骤s110：将样本图像中的各样本图像分别旋转k个预设旋转角度，组成样本图像库，其中k为大于零的自然数；步骤s120：将样本图像库和对应的旋转角度作为训练数据对角度检测模型进行训练，得到医药包装角度检测模型。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吕朋伟;武晨
技术所有人：顺丰科技有限公司
我是此专利的发明人

上一篇：一种智能存储用物流终端的制作方法
上一篇：一种易于固定和拆卸的野外地理考察用标识装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。