一种基于云匹配的OCR模糊识别系统及方法与流程

文档序号:36042440发布日期:2023-11-17 17:59阅读:26来源:国知局
一种基于云匹配的OCR模糊识别系统及方法与流程

本发明涉及智能对象识别相关领域,具体是一种基于云匹配的ocr模糊识别系统及方法。


背景技术:

1、ocr识别技术,是一种通过电子设备扫描纸质文件字符进行图像电子化并对其进行内容图像进行识别,从而转化为字符的图像文件处理技术,其可以有效的替代人工方式的内容电子化输入存档,具有较高的效率及更低的成本消耗。

2、现有技术中的ocr识别方式多采用简单的形状特征识别翻译方式,因此多数的使用场景受限于特定的印刷字体的扫描识别,具有较高的使用局限性,无法应对更为复杂的字体扫描场景,且对于模糊、特征相似度过高或复杂的文字特征时,无法准确的对其进行内容的判定。


技术实现思路

1、本发明的目的在于提供一种基于云匹配的ocr模糊识别系统及方法,以解决上述背景技术中提出的问题。

2、为实现上述目的,本发明提供如下技术方案:

3、一种基于云匹配的ocr模糊识别系统,包含:

4、文件采集模块,用于调用ocr文件获取程序,通过所述ocr文件获取程序获取待识别文件内容及所述待识别文件内容的文件类别标记,所述文件类别标记用于表征文件内容的表达记录形式;

5、对象取样模块,用于对所述待识别文件内容进行对象区域划分,获取多个以确定空间顺序排列的特征对象,选取数个特征对象以分析获取相对应的结构特征,基于所述结构确定相对应的对象内容;

6、特征选库模块,用于获取所述对象内容的数个不同的匹配库的对象检索特征,并依次与所述结构特征进行比对分析,获取重合率顺序排列中最高的对象检索特征所对应的匹配库,不同的所述匹配库表征不同的内容对象表达记录形式;

7、模糊识别模块,用于基于所述匹配库对所述特征对象进行遍历检索,当所述特征对象的遍历检索结果为多个时,则调用模糊判断程序对多个结果进行拟合度判定,以生成所述待识别文件内容的文件识别内容。

8、作为本发明的进一步方案:所述模糊识别模块具体包括:

9、对象遍历单元,用于根据所述特征对象的结构特征对所述匹配库进行遍历,获取所述结构特征达到预设百分阈值的所述遍历检索结果,若所述遍历检索结果唯一,则所述对象内容唯一确定;

10、多结果释义单元,用于当所述遍历检索结果不唯一时,获取相对应的多个对象内容,并根据所述空间顺序排列的相邻特征对象所对应对象内容进行组合配对,获取多种对象组合结果及与所述对象组合结果相对应的内容释义;

11、模糊判断单元,用于进一步获取与所述对象组合结果相邻的对象内容,获取相邻对象内容的辅助判断释义,基于所述内容释义与所述辅助判断释义的相关度进行多个所述对象组合结果的顺序排列,并选定最高所述相关度相对应的所述对象内容,以生成所述文件识别内容。

12、作为本发明的再进一步方案:所述文件类别标记具体包括载体类型标记及内容类型标记;

13、所述载体类型标记,用于表征所述对象内容的语言文字类别,所述语言文字类别包括不同的语种文字及相同语种的多种表达方式,分别用于模糊判断程序进行多对象组合结果的释义判断;

14、所述内容类型标记,用于表征所述语言文字类别的年代表达方式,用于模糊判断程序进行多对象组合结果的释义判断,相同所述对象内容的不同年代表达方式具有不同的释义及使用关联场景。

15、作为本发明的再进一步方案:还包括跨库匹配模块;

16、所述跨库匹配模块,用于当所述特征对象在所述匹配库中无达到预设匹配重合率的对象内容时,基于多个所述匹配库间的特征相似性选取特征相似的匹配库进行跨库遍历匹配,所述特征相似性用于表征不同匹配库中相同对象内容的特征相似比。

17、作为本发明的再进一步方案:所述还包括符号判定模块;

18、所述符号判定模块,用于对特征对象进行空间分布及空间占用进行判断,若所述特征对象的空间分布非中心发散分布,且所述空间占用不大于预设空间区域,则所述特征对象所匹配对象内容为符号内容。

19、本发明实施例旨在提供一种基于云匹配的ocr模糊识别方法,包含:

20、调用ocr文件获取程序,通过所述ocr文件获取程序获取待识别文件内容及所述待识别文件内容的文件类别标记,所述文件类别标记用于表征文件内容的表达记录形式;

21、对所述待识别文件内容进行对象区域划分,获取多个以确定空间顺序排列的特征对象,选取数个特征对象以分析获取相对应的结构特征,基于所述结构确定相对应的对象内容;

22、获取所述对象内容的数个不同的匹配库的对象检索特征,并依次与所述结构特征进行比对分析,获取重合率顺序排列中最高的对象检索特征所对应的匹配库,不同的所述匹配库表征不同的内容对象表达记录形式;

23、基于所述匹配库对所述特征对象进行遍历检索,当所述特征对象的遍历检索结果为多个时,则调用模糊判断程序对多个结果进行拟合度判定,以生成所述待识别文件内容的文件识别内容。

24、作为本发明的进一步方案:所述基于所述匹配库对所述特征对象进行遍历检索,当所述特征对象的遍历检索结果为多个时,则调用模糊判断程序对多个结果进行拟合度判定,以生成所述待识别文件内容的文件识别内容的步骤具体包括:

25、根据所述特征对象的结构特征对所述匹配库进行遍历,获取所述结构特征达到预设百分阈值的所述遍历检索结果,若所述遍历检索结果唯一,则所述对象内容唯一确定;

26、当所述遍历检索结果不唯一时,获取相对应的多个对象内容,并根据所述空间顺序排列的相邻特征对象所对应对象内容进行组合配对,获取多种对象组合结果及与所述对象组合结果相对应的内容释义;

27、进一步获取与所述对象组合结果相邻的对象内容,获取相邻对象内容的辅助判断释义,基于所述内容释义与所述辅助判断释义的相关度进行多个所述对象组合结果的顺序排列,并选定最高所述相关度相对应的所述对象内容,以生成所述文件识别内容。

28、作为本发明的再进一步方案:所述文件类别标记具体包括载体类型标记及内容类型标记;

29、所述载体类型标记,用于表征所述对象内容的语言文字类别,所述语言文字类别包括不同的语种文字及相同语种的多种表达方式,分别用于模糊判断程序进行多对象组合结果的释义判断。

30、所述内容类型标记,用于表征所述语言文字类别的年代表达方式,用于模糊判断程序进行多对象组合结果的释义判断,相同所述对象内容的不同年代表达方式具有不同的释义及使用关联场景。

31、作为本发明的再进一步方案:还包括步骤:

32、当所述特征对象在所述匹配库中无达到预设匹配重合率的对象内容时,基于多个所述匹配库间的特征相似性选取特征相似的匹配库进行跨库遍历匹配,所述特征相似性用于表征不同匹配库中相同对象内容的特征相似比。

33、作为本发明的再进一步方案:还包括:

34、对特征对象进行空间分布及空间占用进行判断,若所述特征对象的空间分布非中心发散分布,且所述空间占用不大于预设空间区域,则所述特征对象所匹配对象内容为符号内容。

35、与现有技术相比,本发明的有益效果是:通过相关功能性结构的设置,在进行ocr识别过程中,通过将对象进行类型划分获得多个并列的匹配库,并通过对象取样的方式进行待识别文件的匹配库确定,进而可以对匹配过程进行优化,基于类型划分进行识别匹配的方式不仅识别结果更加精准,也能够一定程度降低识别过程中系统的检索算力消耗提升检索效率,进一步的,基于对模糊无法准确识别的内容进行释义的组合匹配以确定最终对象内容的方式,也能够进一步的降低识别过程中争议对象被错误匹配识别的概率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1