一种化验报告单自动识别方法与流程

文档序号:22578392发布日期:2020-10-20 16:52阅读:230来源:国知局

本发明涉及文本识别技术领域,具体涉及一种化验报告单自动识别方法。



背景技术:

临床医学及临床试验中,化验报告单是临床原始数据的重要组成部分。特别是在很多临床实验中,化验报告单数据占60-80%的信息量。在目前的化验报告单数据收集中,与医院信息系统的数据对接是常见方式,但也面临着很多困难。出于对受试者信息保密性的考虑,国内几乎所有临床试验机构还不能直接分享化验报告单电子数据。在临床试验的执行中,所有临床协调员crc都需要通过医院信息系统把受试者的每一个化验报告单打印出来,再将化验报告单中的数据写入对应受试者的相关文件中。在这个过程中,存在几点缺陷:1、在誊写过程中,出错的概率为3%~10%;2、临床数据收集效率很低;3、由于目前普遍采用edc系统,当誊写数据出现错误后,系统会自动弹出对此数据的质疑,导致研究者或申办方误认为试验质量严重降低。为了准确收集化验报告单中数据,研究者/申办方不得不采用原数据核查的方法(即sdv)对每一张相关的化验报告单中的每一个数据逐项审核,而该操作将大大地增加相关费用,花费的时间也长。

目前,可以对化验报告单进行拍照,再运用ocr技术来采集化验报告单中的数据。但ocr技术对于要识别的照片要求很高,包括图片分辨率、颜色、字体,若图片质量不高,将严重影响识别效果。同时,由于化验报告单的格式多种多样,直接通过ocr技术进行数据采集的识别准确率很低,影响化验报告单数据收集效率。



技术实现要素:

本发明的目的在于:为解决直接通过ocr技术收集化验报告单中数据的识别准确率低的问题,提供一种化验报告单自动识别方法。本方法根据化验报告单的特征,对不同化验报告单建立相应的模板模型,利用建立的模板模型调整ocr识别区域,实现准确识别每一项不同格式的化验报告单数据,本方法既保证了化验报告单的识别准确率,又提高了化验报告单数据的收集效率。

本发明采用的技术方案如下:

一种化验报告单自动识别方法,包括以下步骤:

步骤1:获取受试者的化验报告单;

步骤2:将化验报告单扫描为pdf或图片格式的标准文本,并遮盖受试者个人信息;

步骤3:基于标准文本内容的文字及图形分布特征建立模板模型,根据化验报告单匹配的模板模型调整其对应的标准文本的待识别区域;

步骤4:利用ocr技术将待识别区域识别为可编辑内容,再基于受试者编号和医院编号对标准文本命名,根据标准文本名称将其存入对应的文件夹中。

进一步的,所述步骤1中,对于受试者个人信息的遮盖,直接将有敏感信息的部分使用胶纸或其他遮挡物遮盖,或者将受试者个人信息遮盖为该受试者对应的唯一编码,该编码包括受试者编号和医院编号信息。

本方法利用专业扫描仪进行扫描,扫描时直接遮挡受试者敏感信息部分,整个过程均不采集敏感信息,阻断一个敏感信息传递途径,为防止敏感信息泄露,无法根据受试者编号等信息反推受试者个人信息,做化验报告单扫描和标准文本命名的操作人员保留受试者编号等相关信息,设计合理,符合法规。

进一步的,标准文本名称包括项目编号、医院编号、受试者编号、访视名称、日期、检测项,标准文本名称中包含的内容均来源于临床方案定义。

进一步的,所述模板模型包括像素区域值、不同行列像素累积值、化验报告单类型值。其中,像素区域值、不同行列像素累积值经扫描化验报告单后获取,像素区域值为图片经去除其四周空白区域后的最大区域值,化验报告单类型值是通过ocr技术获取标准文本中具体的文字或图形的横向、纵向分布特征,利用十字交叉法进行模型的建立和验证求得。

进一步的,所述模板模型根据像素区域值和不同行列像素累积值自动计算以确定待识别区域,具体原理为:确定标准文本的像素区域值后,该标准文本的不同行列像素累积值中,若多个行或列的像素累积值相同,即恒定值,则对应的行或列中可能存在待识别的文字或图形的组成部分,该恒定值作为元素构成其所属标准文本对应的像素恒定值集合;若某行或某列的像素累积值变化,即该行或列的像素累积值与所属行列像素累积值中任一恒定值(即像素恒定值集合中某一元素的值)不等时,则该行或列中存在待识别的文字或图形的组成部分;包含有确定存在待识别的文字或图形的组成部分的行和列所交叉的区域所构成的区域集合即为待识别区域。对于前述区域集合,可通过人工判断是否舍弃区域集合中的某些元素,即标准文本中的某些局部区域不构成待识别区域,以进一步提高化验报告单数据的收集效率。

进一步的,确定标准文本所匹配的模板模型后,可知标准文本对应的化验报告单所应用的医院及类别,模板模型也可根据实际需求确定待识别区域,即根据院方或其他方对不同化验报告单所要识别的内容的要求,直接确定不同化验报告单的待识别区域。

对于已建立了相应的模板模型的化验报告单的识别方法即为:先是将化验报告单扫描为标准文本,并将化验报告单中受试者个人信息进行遮盖,然后根据该标准文本中的像素区域值、不同行列像素累积值预测其匹配的模板模型,接着利用ocr技术对该标准文本匹配的模板模型所确定的待识别区域(即化验报告单类型值)识别为可编辑内容,最后基于受试者编号和医院编号对标准文本命名,根据标准文本名称将其存入对应的文件夹中。对于已完成识别的化验报告单,可自动将识别到的数据输入到sas数据库或edc系统,以备临床统计分析。

综上所述,由于采用了上述技术方案,本发明的有益效果是:

本发明中,使用专业扫描仪生成的待识别文本,在标准化和识别准确率上显著优于利用拍照的方式得到的待识别文本。根据不同的化验报告单特征,建立相应模板模型进行管理识别项,利用ocr技术对标准文本匹配的模板模型所确定的待识别区域进行识别,能显著提高化验报告单的识别准确率和数据收集效率,其识别准确率可达100%。根据标准文本名称将标准文本存入对应的文件夹中、将完成识别的化验报告单中数据输入数据库或edc系统进行存储,便于临床统计分析,也便于各医院或临床试验机构分享化验报告单中数据。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。

实施例一

一种化验报告单自动识别方法,包括以下步骤:

步骤1:获取受试者的化验报告单。

步骤2:利用专业扫描仪将化验报告单扫描为jpeg图片格式的标准文本,同时将受试者个人信息遮盖为该受试者对应的唯一编码,该编码包括受试者编号和医院编号信息。

步骤3:基于标准文本内容的文字及图形分布特征建立模板模型,根据化验报告单匹配的模板模型调整其对应的标准文本的待识别区域。

其中,模板模型包括像素区域值、不同行列像素累积值、化验报告单类型值。像素区域值、不同行列像素累积值经扫描化验报告单后获取,像素区域值为图片经去除其四周空白区域后的最大区域值,化验报告单类型值是通过ocr技术获取标准文本中具体的文字或图形的横向、纵向分布特征,利用十字交叉法进行模型的建立和验证求得。十字交叉法的模型采用多元线性回归方法建立,多元线性回归方法中的自变量即为化验报告单经扫描后对应的像素区域值、不同行列像素累积值,通过结合十字交叉法和多元线性回归方法,以求得一个较优模型。

确定像素区域值后,不同行列像素累积值中,若多个行或列的像素累积值相同,即恒定值,则对应的行或列中可能存在待识别的文字或图形的组成部分;反之,若某行或某列的像素累积值变化,即该行或列的像素累积值与所属行列像素累积值中任一恒定值不等时,该行或列中存在待识别的文字或图形的组成部分。包含有确定存在待识别的文字或图形的组成部分的行和列所交叉的区域所构成的区域集合即为待识别区域。

步骤4:利用ocr技术将待识别区域识别为可编辑内容,再基于受试者编号和医院编号对标准文本命名,根据标准文本名称将其存入对应的文件夹中。其中,标准文本名称包括项目编号、医院编号、受试者编号、访视名称、日期、检测项。

在建立好相应的模板模型后,对还未进行识别提取数据的化验报告单的识别方法为:先是将化验报告单扫描为标准文本,并将化验报告单中受试者个人信息进行遮盖,然后根据该标准文本中的像素区域值、不同行列像素累积值预测其匹配的模板模型,接着利用ocr技术对该标准文本匹配的模板模型所确定的待识别区域识别为可编辑内容,最后基于受试者编号和医院编号对标准文本命名,根据标准文本名称将其存入对应的文件夹中。

步骤5:对于已完成识别的化验报告单,自动将识别到的数据输入到sas数据库或edc系统,以备临床统计分析。

实施例二

一种化验报告单自动识别方法,包括以下步骤:

步骤1:获取受试者的化验报告单。

步骤2:先利用胶纸遮盖化验报告单中受试者个人信息部分,再利用专业扫描仪将化验报告单扫描为pdf格式的标准文本。

步骤3:基于标准文本内容的文字及图形分布特征建立模板模型,根据化验报告单匹配的模板模型调整其对应的标准文本的待识别区域。

其中,模板模型包括像素区域值、不同行列像素累积值、化验报告单类型值。像素区域值、不同行列像素累积值经扫描化验报告单后获取,像素区域值为图片经去除其四周空白区域后的最大区域值。在确定标准文本所匹配的模板模型后,可知标准文本对应的化验报告单所应用的医院及类别,模板模型即可根据院方实际需求确定待识别区域,即确定化验报告单类型值。

步骤4:利用ocr技术将待识别区域识别为可编辑内容,再基于受试者编号和医院编号对标准文本命名,根据标准文本名称将其存入对应的文件夹中。其中,标准文本名称包括项目编号、医院编号、受试者编号、访视名称、日期、检测项。

在建立好相应的模板模型后,对还未进行识别提取数据的化验报告单的识别方法为:先是将化验报告单扫描为标准文本,并将化验报告单中受试者个人信息进行遮盖,然后根据该标准文本中的像素区域值、不同行列像素累积值预测其匹配的模板模型,接着利用ocr技术对该标准文本匹配的模板模型所确定的待识别区域识别为可编辑内容,最后基于受试者编号和医院编号对标准文本命名,根据标准文本名称将其存入对应的文件夹中。

步骤5:对于已完成识别的化验报告单,自动将识别到的数据输入到sas数据库或edc系统,以备临床统计分析。

实施例三

一种化验报告单自动识别方法,包括以下步骤:

步骤1:获取受试者的化验报告单。

步骤2:利用专业扫描仪将化验报告单扫描为pdf格式的标准文本,同时将受试者个人信息遮盖为该受试者对应的唯一编码,该编码包括受试者编号和医院编号信息。

步骤3:基于标准文本内容的文字及图形分布特征建立模板模型,根据化验报告单匹配的模板模型调整其对应的标准文本的待识别区域。

其中,模板模型包括像素区域值、不同行列像素累积值、化验报告单类型值。像素区域值、不同行列像素累积值经扫描化验报告单后获取,像素区域值为图片经去除其四周空白区域后的最大区域值,化验报告单类型值是通过ocr技术获取标准文本中具体的文字或图形的横向、纵向分布特征,利用十字交叉法进行模型的建立和验证求得。十字交叉法的模型采用多元线性回归方法建立,多元线性回归方法中的自变量即为化验报告单经扫描后对应的像素区域值、不同行列像素累积值,通过结合十字交叉法和多元线性回归方法,以求得一个较优模型。

确定像素区域值后,不同行列像素累积值中,若多个行或列的像素累积值相同,即恒定值,则对应的行或列中可能存在待识别的文字或图形的组成部分;反之,若某行或某列的像素累积值变化,即该行或列的像素累积值与所属行列像素累积值中任一恒定值不等时,该行或列中存在待识别的文字或图形的组成部分。人工控制是否舍弃某些包含有确定存在待识别的文字或图形的组成部分的行和列所交叉的区域,将保留的包含有确定存在待识别的文字或图形的组成部分的行和列所交叉的区域所构成的区域集合作为待识别区域。

步骤4:利用ocr技术将待识别区域识别为可编辑内容,再基于受试者编号和医院编号对标准文本命名,根据标准文本名称将其存入对应的文件夹中。其中,标准文本名称包括项目编号、医院编号、受试者编号、访视名称、日期、检测项。

在建立好相应的模板模型后,对还未进行识别提取数据的化验报告单的识别方法为:先是将化验报告单扫描为标准文本,并将化验报告单中受试者个人信息进行遮盖,然后根据该标准文本中的像素区域值、不同行列像素累积值预测其匹配的模板模型,接着利用ocr技术对该标准文本匹配的模板模型所确定的待识别区域识别为可编辑内容,最后基于受试者编号和医院编号对标准文本命名,根据标准文本名称将其存入对应的文件夹中。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1