一种对样本进行碎片化标注的方法及装置与流程

文档序号:29039770发布日期:2022-02-25 20:18阅读:98来源:国知局
一种对样本进行碎片化标注的方法及装置与流程

1.本技术涉及一种机器学习(machine learning)算法,特别是涉及一种对样本进行标注(label,也称标记)以形成训练数据(training data)的方法。


背景技术:

2.监督学习(supervised learning)是机器学习算法的一个类别,是指从已标注的训练数据中学习出一个函数或模式,该函数或模式能够映射已标注的训练数据中的各个样本的输入和预期输出。训练数据也称训练数据集(training data set)或训练集,是指一组样本,每个样本有输入和人工标注的预期输出。监督学习算法得到的函数或模式可用于预测新的输入的输出。
3.在对样本进行标注以形成训练数据的过程中,数据安全与隐私保护越来越受关注。一方面,需要保证样本标注去隐私;另一方面,需要保证样本标注的精度与效率。现有的对样本进行标注的方法通常是基于单个样本的整体进行标注,无法满足去隐私的要求;同时,单个样本只能单个人进行标注,导致标注速度缓慢。


技术实现要素:

4.本技术所要解决的技术问题是提出一种对样本进行碎片化标注以形成训练数据的方法,能够有效达到样本标注去隐私的要求,同时显著提升样本标注的效率。
5.为解决上述技术问题,本技术提出的对样本进行碎片化标注的方法包括如下步骤。步骤s10:对监督式机器学习算法的训练数据中的单个样本的输入进行切片。步骤s20:将单个样本的输入的所有切片分发给多个人员并行独立地对每个切片进行标注。步骤s30:将单个样本的输入的所有切片的标注合并,形成单个样本的整体标注,即单个样本的预期输出。上述方法能够实现标注去隐私以及提升标注效率。
6.作为示例,所述步骤s10中,所述监督式机器学习算法用来从图片中识别出文本内容,所述单个样本的输入是包含文本内容的图片。所述步骤s30中,单个样本的整体标注是该图片对应的文本及其位置。
7.进一步地,所述步骤s10包括如下步骤。步骤s11:对每一样本的输入图片进行光学字符识别以得到该图片中的所有字符及坐标。步骤s12:对于横排文本的图片,利用光学字符识别的结果按照文本行进行分割,得到该图片的所有文本行;对于竖排文本的图片,利用光学字符识别的结果按照文本列进行分割,得到该图片的所有文本列。步骤s13:对于横排文本的图片,将每一文本行按照第一数量的字符进行切片,左右相邻的文本切片之间有第二数量的字符是重叠的;对于竖排文本的图片,将每一文本列按照第一数量的字符进行切片,上下相邻的文本切片之间有第二数量的字符是重叠的;第二数量小于第一数量;每个文本切片保存所属文本行的坐标、该文本切片的首字符的坐标、该文本切片的角度、该切片的类型为文本类型。步骤s14:对该图片根据光学字符识别的结果清除所有识别出的字符,该图片的剩余部分如有通过光学字符识别无法识别的内容,将无法识别的内容单独地或整体
生成一个印章切片;每个印章切片保存该印章切片的首字符的坐标、角度、该切片的类型为印章类型;该图片的剩余部分如有光学字符识别遗漏的字符,将遗漏的字符单独地或整体生成一个遗漏切片;每个遗漏切片保存该遗漏切片的首字符的坐标、角度、该切片的类型为遗漏类型。或者,所述步骤s14放在步骤s11之后的任意位置执行。这是步骤s10的一个具体示例。
8.优选地,所述第二数量不为零且尽可能小。不为零就能处理压线字符,尽可能小用来减少重复标注。
9.进一步地,所述步骤s30包括如下步骤。步骤s31:对每个切片的标注进行预处理,包括全半角字符标注统一、空字符过滤、三种切片类型解析、由每个切片的首字符的坐标与切片内坐标相结合得到全文坐标的任一种或多种。步骤s32:对于横排文本的图片,利用左右相邻的文本切片的重叠字符及坐标进行拼接以得到每一文本行的标注;对于竖排文本的图片,利用上下相邻的文本切片的重叠字符及坐标进行拼接以得到每一文本列的标注。步骤s33:对于横排文本的图片,利用每一文本行的标注的坐标将全部文本行的标注进行拼接以得到全部文本切片的标注;对于竖排文本的图片,利用每一文本列的标注的坐标将全部文本列的标注进行拼接以得到全部文本切片的标注。步骤s34:在全部文本切片的标注中,根据每一个印章切片的首字符的坐标加入每一个印章切片的标注;对于横排文本的图片,根据每一个遗漏切片的首字符的坐标在相应的文本行的标注中加入遗漏切片的标注;对于竖排文本的图片,根据每一个遗漏切片的首字符的坐标在相应的文本列的标注中加入遗漏切片的标注。这是步骤s30的一个具体示例。
10.进一步地,对于横排文本的图片,所述步骤s32具体包括:(1)对所有文本切片按所属文本行的坐标分组,每组文本切片按照文本切片的首字符的坐标沿水平方向排序,得到所有文本行的有序文本切片组;(2)对同一文本行的一组有序文本切片,利用左右相邻的文本切片的重叠字符及坐标进行拼接;拼接时去除重叠字符,得到一个文本行的标注,并调整拼接后的整行标注的坐标。对于竖排文本的图片,所述步骤s32具体包括:(1)对所有文本切片按所属文本列的坐标分组,每组文本切片按照文本切片的首字符的坐标沿竖直方向排序,得到所有文本列的有序文本切片组;(2)对同一文本列的一组有序文本切片,利用上下相邻的文本切片的重叠字符及坐标进行拼接;拼接时去除重叠字符,得到一个文本列的标注,并调整拼接后的整列标注的坐标。
11.优选地,所述步骤s32中,拼接时使用字符位移的方式对重叠字符区域的错误标注进行容错。这样就能够对压线字符正确标注。
12.进一步地,对于横排文本的图片,所述步骤s33具体包括:(1)对所有文本行的标注按照整行标注的坐标沿竖直方向排序,得到有序文本行标注列表;(2)对有序文本行标注列表进行相邻文本行标注之间的拼接,拼接过程中标记重复标注文本;(3)删除重复标记文本,得到全部文本切片的标注。对于竖排文本的图片,所述步骤s33具体包括:(1)对所有文本列的标注按照整列标注的坐标沿水平方向排序,得到有序文本列标注列表;(2)对有序文本列标注列表进行相邻文本列标注之间的拼接,拼接过程中标记重复标注文本;(3)删除重复标记文本,得到全部文本切片的标注。
13.进一步地,所述步骤s34中,对于横排文本的图片,如果遗漏切片的首字符的坐标不在任何文本行的标注中,则将该遗漏切片的标注作为单独行标注;对于竖排文本的图片,
如果遗漏切片的首字符的坐标不在任何文本列的标注中,则将该遗漏切片的标注作为单独列标注。
14.本技术还提出了一种对样本进行碎片化标注的装置,包括切片单元、分发标注单元和标注拼接单元。所述切片单元用来对监督式机器学习算法的训练数据中的单个样本的输入进行切片。所述分发标注单元用来将单个样本的输入的所有切片分发给多个人员并行独立地对每个切片进行标注。所述标注拼接单元用来将单个样本的输入的所有切片的标注合并,形成单个样本的整体标注,即单个样本的预期输出。上述装置能够实现标注去隐私以及提升标注效率。
15.本技术取得的技术效果是:通过对单个样本的输入切片、分发切片并行标注的方式,一方面极大地提升了标注效率,另一方面单个标注人员无法获得完整标注数据,实现标注去隐私的功能。
附图说明
16.图1是本技术提出的对样本进行碎片化标注的方法的流程示意图。
17.图2是图1中步骤s10的子流程示意图。
18.图3是图1中步骤s30的子流程示意图。
19.图4是本技术提出的对样本进行碎片化标注的装置的结构示意图。
20.图中附图标记说明:10为切片单元、20为分发标注单元、30为标注拼接单元。
具体实施方式
21.请参阅图1,本技术提出的对样本进行碎片化标注的方法包括如下步骤。
22.步骤s10:对监督式机器学习算法的训练数据中的单个样本的输入进行切片。
23.步骤s20:将单个样本的输入的所有切片分发给多个人员并行独立地对每个切片进行标注。分发标注时,需要注意均匀分发,并且及时整合汇总。
24.步骤s30:将单个样本的输入的所有切片的标注合并,形成单个样本的整体标注,即单个样本的预期输出。
25.下面将以从图片中识别出文本内容的监督式机器学习算法作为示例,对上述方法进行详细说明。这种算法的训练数据中,每一样本的输入是图片,图片中的主要内容是文本;每一样本的标注(即预期输出)是该图片对应的文本及其位置。因此样本标注工作就是对图片中的文本及其位置进行人工标注。
26.请参阅图2,所述步骤s10进一步包括如下步骤。
27.步骤s11:对每一样本的输入图片进行光学字符识别(optical character recognition,ocr)以得到该图片中的所有字符及坐标。
28.步骤s12:对于横排文本的图片,利用光学字符识别的结果按照文本行进行分割,得到该图片的所有文本行。
29.对于竖排文本的图片,利用光学字符识别的结果按照文本列进行分割,得到该图片的所有文本列。
30.步骤s13:对于横排文本的图片,将每一文本行按照第一数量的字符进行切片,左右相邻的文本切片之间有第二数量的字符是重叠的。每个文本切片保存所属文本行的坐
标、该文本切片的首字符的坐标、该文本切片的角度(由于图片不规范等原因可能导致切分角度不是横平竖直)、该切片的类型为文本类型。
31.对于竖排文本的图片,将每一文本列按照第一数量的字符进行切片,上下相邻的文本切片之间有第二数量的字符是重叠的。每个文本切片保存所属文本列的坐标、该文本切片的首字符的坐标、该文本切片的角度、该切片的类型为文本类型。
32.第二数量小于第一数量。例如,第一数量为4、5或6,第二数量为0、1、2或3。优选地,第二数量不为零且尽可能小,以使相邻文本切片的重叠字符尽可能小,减少重复标注。
33.所述步骤s12和步骤s13中,具体的切片位置可以通过光学字符识别的结果中的字符坐标计算得到,以保证切片位置尽可能准确。准确的切片位置应保证所有文本切片内的所有字符都是完整的,也就是不存在压线字符。压线字符是指有些左右结构的文字会因为系统误判而被切成两半,比如“的”字,可能被误判为“白”和“勺”。
34.所述步骤s13存在的意义在于:文本行或文本列仍然无法满足样本标注去隐私的需求,因此需要对整行或整列采用部分字符重叠的方式进一步分割,以得到更小的文本切片。如果相邻的文本切片之间有部分字符重叠(即第二数量不为零),则能更好地处理压线字符。
35.步骤s14:对该图片根据光学字符识别的结果清除所有识别出的字符,该图片的剩余部分可能包含两部分。第一部分是通过光学字符识别无法识别的内容,例如印章、公式等,将无法识别的内容单独地或整体生成一个印章切片。每个印章切片保存该印章切片的首字符的坐标、角度、该切片的类型为印章类型。第二部分是光学字符识别遗漏的字符,将遗漏的字符单独地或整体生成一个遗漏切片。每个遗漏切片保存该遗漏切片的首字符的坐标、角度、该切片的类型为遗漏类型。
36.所述步骤s14可以放在步骤s11之后的任意位置执行。
37.通过所述步骤s11至步骤s14之后,由每一样本的输入图片得到了最多三种类型的切片,分别是文本切片、印章切片、遗漏切片。三种类型的切片在后续统一进行字符及位置标注,不需要分开单独处理。
38.请参阅图3,所述步骤s30进一步包括如下步骤。
39.步骤s31:对每个切片的标注进行预处理,包括全半角字符标注统一、空字符过滤、三种切片类型解析、以及由每个切片的首字符的坐标与切片内坐标相结合得到全文坐标等。
40.步骤s32:对于横排文本的图片,利用左右相邻的文本切片的重叠字符及坐标进行拼接以得到每一文本行的标注。具体包括:(1)对所有文本切片按所属文本行的坐标分组,每组文本切片按照文本切片的首字符的坐标沿水平方向排序,得到所有文本行的有序文本切片组。(2)对同一文本行的一组有序文本切片,利用左右相邻的文本切片的重叠字符及坐标进行拼接。拼接时去除重叠字符,得到一个文本行的标注,并调整拼接后的整行标注的坐标。
41.对于竖排文本的图片,利用上下相邻的文本切片的重叠字符及坐标进行拼接以得到每一文本列的标注。具体包括:(1)对所有文本切片按所属文本列的坐标分组,每组文本切片按照文本切片的首字符的坐标沿竖直方向排序,得到所有文本列的有序文本切片组。(2)对同一文本列的一组有序文本切片,利用上下相邻的文本切片的重叠字符及坐标进行
拼接。拼接时去除重叠字符,得到一个文本列的标注,并调整拼接后的整列标注的坐标。
42.优选地,所述步骤s32中,拼接时使用字符位移的方式对重叠字符区域的错误标注进行容错,以解决压线字符错误标注的问题。
43.步骤s33:对于横排文本的图片,利用每一文本行的标注的坐标将全部文本行的标注进行拼接以得到全部文本切片的标注。具体包括:(1)对所有文本行的标注按照整行标注的坐标沿竖直方向排序,得到有序文本行标注列表。(2)对有序文本行标注列表进行相邻文本行标注之间的拼接,拼接过程中标记重复标注文本。(3)删除重复标记文本,得到已标注的全部文本(除印章切片、遗漏切片以外)。
44.对于竖排文本的图片,利用每一文本列的标注的坐标将全部文本列的标注进行拼接以得到全部文本切片的标注。具体包括:(1)对所有文本列的标注按照整列标注的坐标沿水平方向排序,得到有序文本列标注列表。(2)对有序文本列标注列表进行相邻文本列标注之间的拼接,拼接过程中标记重复标注文本。(3)删除重复标记文本,得到已标注的全部文本(除印章切片、遗漏切片以外)。
45.步骤s34:在全部文本切片的标注中,根据每一个印章切片的首字符的坐标加入每一个印章切片的标注,根据每一个遗漏切片的首字符的坐标在相应的文本行的标注(针对横排文本的图片)或相应的文本列的标注(针对竖排文本的图片)中加入遗漏切片的标注。如果遗漏切片的首字符的坐标不在任何文本行的标注(针对横排文本的图片)或任何文本列的标注(针对竖排文本的图片)中,则将该遗漏切片的标注作为单独行标注(针对横排文本的图片)或单独列标注(针对竖排文本的图片)处理。
46.请参阅图4,本技术提出的对样本进行碎片化标注的装置包括切片单元10、分发标注单元20和标注拼接单元30。
47.所述切片单元10用来对监督式机器学习算法的训练数据中的单个样本的输入进行切片。
48.所述分发标注单元20用来将单个样本的输入的所有切片分发给多个人员并行独立地对每个切片进行标注。
49.所述标注拼接单元30用来将单个样本的输入的所有切片的标注合并,形成单个样本的整体标注,即单个样本的预期输出。
50.以上仅为本技术的优选实施例,并不用于限定本技术。对于本领域的技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1