专利名称:自动确定读取系统的操作性能数据的方法
大多数目前所采用的用于对邮件(Sendung)进行自动分类的设备包含读取系统,借助这些读取系统可以自动读取诸如邮件的地址的姓名地址(Aufschrift),并且可以从中推导出分类所必需的分发信息。然后在视频编码系统中继续处理不能由读取系统以必要的安全性识别的姓名地址/地址。在此情况下,在显示屏工作岗位处显示邮件的电子图像。这些工作岗位的编码人员具有人工确定对于邮件的分发来说必要的信息的任务。在此不涉及地址的抄写。这样的方法过于费事,并且会导致完全不能令人满意的成本情况。更确切地说,在更准确地考虑各个地址结构的情况下制订确定的编码规则,按照这些编码规则只需输入地址的某些部分。应该如此来定义这种信息提取,使得在大多数情况下能够明确地从中获得必要的分发信息,并且只有在少数情况下才需要编码人员的进一步的判定。
实例地址Siemens DematicBuecklestrasse 1-578467 Konstanz在视频编码时被简写为78467 Buecl。
该方法是作为提取编码方法公开的。
在应用该技术时最重要的是,在监控和规划的操作运行中提供读取和视频编码系统的可靠的性能数据。在确定这些性能数据时重要的是,确定有代表性的、在较长时间间隔中有效的值,并且同时为有针对性的继续分析提供材料。
在过去只能以有很多缺陷的方式满足这些要求虽然测量自动读取的邮件和由视频编码系统所处理的邮件的比例是容易的,但是只要不能建立与邮件或装置的质量和文字图像的可读性的关系,这些数字就不太有说服力。由于手写的姓名地址的读取速率显著低于机写体(Maschinenschrift)的读取速率,因此手写地址的随着工作日或季节(例如圣诞节)而变化的比例导致读取速率的这种完全掩盖其它重要影响的波动。还更困难的是,在操作运行中连贯地确定系统的错误率通常最早在投递局中或大多由投递员才确定错误分发。在该时刻,不再能够以合理的工作量推断出引起的系统并且确定错误率的有代表性的令人信服的值。
根据经验,这总是又导致这些系统的制造商和这些系统的用户之间的误解从在投递员处出现错误分发的提高的比例的事实不能必然地得出一般超出合同保证的错误率的结论。在过去只能通过事后的大多很费事的测量来解决这种方式的意见分歧在所选择的局中,在某个时间间隔上从所有所处理的邮件中手动地选择样本。生成这些邮件的电子图像,收集到测试样本中,并且通过相当于操作读取系统的系统进行再次处理。通过各个读取结果与实际地址的视觉比较,在考虑包含在地址词典中的数据的情况下,由此确定读取系统的读取速率和错误率。显然,该方法当然只提供关于所选择的局和所选择的测量时间间隔的陈述,并且因此只要这些错误不是随机地重新出现在测试样本中,就不允许关于以前所确定的错误的陈述。在这种方法中,基本上不能实现关于编码人员的错误输入(打字错误和疏忽造成的错误)的陈述。
本发明所基于的任务是创造一种用于自动确定用于读取邮件姓名地址的读取和/或视频编码系统的操作性能数据的方法,利用该方法能够针对操作运行的每个时间段确定像读取速率和错误率那样的性能数据和错误原因。
根据本发明,该任务通过权利要求1的特征来解决。其中执行以下步骤-当编码深度对应于读取深度时,将每第n个邮件的具有要读取的邮件姓名地址的邮件表面的图像与相应OCR读取器的所属的读取结果和读取部分结果和存在的来自操作处理过程的编码结果一起以相应的邮件标识存储在性能数据存储器中,-由第二编码人员以对应于读取深度的编码深度对在性能数据存储器中以有关的邮件标识存储的图像的有关的邮件姓名地址进行视频编码,并且在性能数据存储器中以相应的邮件标识存储编码结果,-针对每个被包含在所述性能数据存储器中的邮件标识,将OCR读取器的读取结果和前一步骤的与此有关的视频编码结果自动进行比较,在不一致的情况下,由一个或多个其他的编码人员执行视频编码,并且附加地与这些编码结果自动进行比较,以便引起多数判定,-以相应的邮件标识存储所有的视频编码结果和评价结果,并且进行统计分析,以便确定涉及总系统和/或其部分和/或工作的编码人员的错误率或读取速率,和/或以便确定多义的、不可解释的、或不可读取的邮件姓名地址的频率。
以此方式可以提供用于这种系统的经济评价和规划的可靠的初始值。
在从属权利要求中论述了本发明的有利的扩展方案。因此也可以根据邮件类型或姓名地址类别进行读取速率和错误率的统计分析。
接着借助附图在实施例中阐述本发明。
其中
图1a-e示出方法流程的流程图。
对于统计分析来说,除了邮件的图像之外记录-图像的来源(分类机),-进行处理的读取系统和参与的视频编码人员,-读取系统的所有结果,-由OCR读取器进行的手写体和机写体之间的区分。
这些信息用于使所获得的质量陈述与确定的分类机、读取系统和视频编码人员、以及选择性地与手写体或机写体发生关联。
通过与视频编码结果的相关性来检验由OCR读取器所获得的读取结果的正确性。
将被存储在性能数据存储器中的、由OCR读取器成功地读取的邮件转交给视频编码系统,以便检验结果。将由视频编码产生的分发信息与OCR读取器的结果进行比较。
在相同的情况下,从两个结果的正确性出发。
在结果不同的情况下,请来第二编码人员,以便得出两个结果中的哪一个是正确的多数判定如果两个编码人员的视频编码输入一致,但是导致不同于OCR读取器的读取结果的分发信息,则将OCR读取器的读取结果视为错误的并且在统计中将其算作这样的读取结果。
如果两个编码人员将邮件姓名地址视为不可读取的并且不进行视频编码输入,读取结果则同样被视为错误的。于是可以假定,该邮件未载有可读取的姓名地址,然而OCR读取器错误地解释了邮件上的另外的信息。
如果第二编码人员的结果与读取结果一致,这则表明第一编码人员在操作运行中的编码错误,并且在统计中被算作这样的编码错误。
如果第二编码人员得出不同于第一编码人员并且不同于OCR读取器的结果,则以高的概率涉及一个多义地址。于是关于读取结果的正确性的陈述是不可能的。该邮件应经受另外的检查。
在比较结果时有重大意义的是,OCR读取器和视频编码系统的分发深度是相同的只允许输入邮政编码的视频编码系统不能识别有错误的、与地址不一致的邮政编码。如果在上述实例地址中采用有错误的邮政编码78462而不是78467,OCR读取器则将完全能够识别该错误并且提供正确的邮政编码作为结果。与此相反,只对邮政编码进行编码的视频编码系统在两种情况下提供结果78462并且因此假装有关的OCR读取器的错误。
也可能出现从两个编码人员的输入中不能确定分发信息的情况。这预示地址中的能够由OCR读取器自动纠正的笔误。
实例如果上述实例地址包含寄件人的笔误Siemens Dematic AGBoecklestr.1-578467 Konstanz则编码人员输入78467 boecl但是这不导致分发结果,因为在Konstanz不存在具有这些起始字母的街道。而读取系统能够补偿这样的微小的笔误。但是以这种方式不能获得关于读取结果的正确性的陈述。
在这种情况下,错误统计可能与单个OCR读取器有关,并且因此指明该系统的特殊的问题。可以存储被错误地读取的邮件的图像,用于以后的分析。
类似地,通过将从中得出的分发信息与另外的独立的编码人员的结果进行比较或通过与OCR读取器的结果的相关性来检验操作运行中的视频编码输入的正确性。
包含在性能数据存储器中的具有地址的图像被转交给独立的第二编码人员,以便进行视频编码,该地址不能由OCR读取器唯一地或完整地读取并且因此在操作运行中已由编码人员进行视频编码。
在结果相同的情况下,从两个视频编码输入的正确性出发。
在结果不同的情况下,请来第三编码人员,以便得出多数判定。将不同于多数的结果评价为输入错误。
如果所有的三个编码人员得出不同的结果,则以高的概率涉及不能唯一地解释的地址。于是关于视频编码的正确性的陈述是不可能的。
如果两个编码人员的输入是相同的,但是从中不能推导出分发信息,这则预示地址中的笔误或地址词典中的缺少的录入项。将输入视为正确的。将地址视为不可解释的。
如果两个编码人员不能进行视频编码输入并且拒绝该地址,则涉及不可读取的或不可辨认的地址。将该拒绝评价为正确的输入。
如果OCR读取器曾能够读取邮件姓名地址,则可以取消对第三编码人员的委托。于是像在上述段落中所描述的那样在与OCR读取结果的相关性方面确定视频编码输入的正确性。
在此情况下,错误统计可以选择性地涉及所有或单个编码人员。可以存储被错误地编码的邮件姓名地址的图像,用于以后的分析。
如上面已说明的那样,从OCR读取结果和视频编码结果的相关性也得出对多义的和不可解释的邮件姓名地址/地址的指示。
如果不能进行OCR读取器和两个或三个编码人员的结果之间的多数判定,则地址被视为多义的。
如果OCR读取器和编码人员的输入都不导致分发结果,则地址被视为不可解释的。
其原因要么是地址的缺陷,要么是所使用的地址词典的缺陷。不能自动地进行该判定。
以此方式指明的邮件地址可以用于有针对性地消除地址词典的缺陷。
不仅被OCR读取器而且被编码人员拒绝的地址被视为不可读取的。由于这样的邮件的进一步的处理需要很高的工作量,对它们的检测和对它们的比例的测量具有重大的意义。
本方法可被用于像收件人地址、寄件人地址、批注(Vorausverfuegung)、表格的内容那样的所有邮件姓名地址。
将相对于操作运行所需要的附加的视频编码步骤插入到正常的工作流程中,使得对于编码人员来说不存在正常邮件和测试邮件之间的区别。视频编码系统由于用于检验的附加步骤所产生的额外负担是很微小的,因为可以使样本的数量保持很低。如果例如检验每第500个邮件,则在80%的读取速率和1%的错误率的情况下产生在视频编码方面的1%的额外工作量。但是该额外工作量不导致工作岗位和所需要的编码人员的数量的增加,因为该额外工作量可以在机器吞吐量减少的时间中作为空隙填补和间歇填补被提供。
由此可以使用于确定性能数据的测量系统在整个操作运行中在后台一起运行,并且因此可以记录性能在整个运行时间上的变化。
所确定的性能数据的统计精度依赖于各个测量间隔的持续时间和吞吐量在上面的数字实例中,通过检验每第500个邮件,在30000个邮件/小时的平均机器吞吐量的情况下在50小时中收集具有3000个邮件的测试样本。根据统计标准偏差∑的计算,该样本允许以向两侧大约0.2%的偏差来确定1%的错误率。通过采样频率的提高,通过对较长的时间间隔和多个机器求积分,可以任意地提高该精度。
下面借助所示出的流程图来阐述本方法。
首先由OCR读取器处理测试样本的与邮件标识相关联的图像1。如果在此情况下OCR读取器是成功的,它则提供对应于地址的分发代码作为结果。应该检验该分发代码的正确性。为此目的,将邮件的图像转交给一个编码人员3。如果OCR读取器没有提供明确的或完整的结果,该编码人员则是正常操作运行的编码人员。由系统来分析由该编码人员输入的编码序列。在考察结果时,应该区分三种情况在正常情况下该结果同样是分发代码。但是也存在不能根据编码序列确定分发代码的情况,因为该编码序列或地址本身包含错误。如果编码人员最终在邮件的图像上根本不能识别出有意义的地址,他则必须将该地址作为不可读取的来拒绝。
现在将该第一视频编码的结果与OCR结果进行比较4。如果它们一致(在操作视频编码时情况不是如此),则将两者视为正确的5,并且相应地算在统计中/结束6。
如果它们不一致,则将邮件的图像转交给另一个编码人员以便进行视频编码7。现在又将所述另一个编码人员的结果与OCR结果进行比较8。如果相同,OCR结果和第二视频编码则是正确的,而第一视频编码是错误的9。
如果又不能确定一致性,则将两个视频编码结果互相进行比较10。如果它们是相同的,进一步的判定则取决于结果的类型如果涉及分发代码,则将两个编码结果视为正确的,将OCR结果视为错误的17。可以存储导致OCR错误的图像,以便进行更详细的分析18。
如果两个编码结果不导致分发代码,则也许涉及地址中的可由OCR读取器纠正的笔误。但是这是否正确地被实现不能以这种方式来确定。因此将OCR结果视为不可检验的(不确定的)。但是编码人员在所规定的编码规则的范围内正确地工作并且相应地被评价13。可以将邮件的图像作为笔误的实例进行存储14。如果两个编码人员将邮件地址视为不可读取的,OCR结果则也许是错误的。OCR读取器可能读取了寄件人地址而不是不可辨认的收件人地址。但是关于视频编码的正确性的陈述是不可能的15。可以将邮件的图像作为不可读取的邮件的实例进行存储16。
如果OCR读取器不能够确定分发代码,则将邮件评价为OCR拒绝2。于是由两个独立的编码人员来处理邮件图像19、20并且比较他们的结果21。如果它们是相同的,则类似于上述方法进行进一步的判定。如果已由第一编码人员从操作运行中确定分发代码,则将两个视频编码结果视为正确的26。如果两个编码人员将邮件地址视为不可读取的,关于视频编码的正确性的陈述则是不可能的24。可以将邮件的图像作为不可读取的邮件地址的实例进行存储25。如果不能确定有效的分发代码,则将这些视频编码视为正确的22,并且将图像作为笔误或词典错误的实例进行存储23。
如果两个编码人员的视频编码结果不是相同的,则请来第三编码人员以便进行判定27。如果他的结果与第一编码人员的结果一致,则第二视频编码也许是错误的。如果确定了分发代码,第一和第三视频编码则是正确的33,如果未确定有效的分发代码,则将两个视频编码视为正确的29并且可以将图像存储在笔误或词典错误的类别之下30。在视频编码结果“不可读取”的情况下,可以将有关的图像以不可读取的地址进行存储31、32。如果第一和第三编码人员的视频编码结果不相同,则将第二和第三编码人员的视频编码结果进行比较34。如果不能确定一致性,则将结果视为不确定的35并且可以将图像以“多义的地址”进行存储36。如果视频编码结果一致,第一编码人员的编码则是错误的。又类似于已经阐述的方法来进行其余的判定37至41。
如果在三个编码人员之间也不能建立一致性,则邮件显然是多义的。
应考虑的是,按照所述的大大简化的判定方法,多义的邮件也可能虚构错误如果例如在具有两种不同的解释可能性的地址的情况下两个编码人员赞成一种解释,而一个编码人员赞成另一种解释,则由于多数原则将一种视频编码视为错误的。如果大量地出现多义的地址,则本方法允许通过请来其他的编码人员并且通过扩展多数原则来扩展判定基础只有当所有其它的结果(数量>n=2)一致地与一个结果相矛盾时,才将该所考察的结果视为错误的。
权利要求
1.用于自动确定读取系统的操作性能数据的方法,这些读取系统由用于读取邮件姓名地址的OCR读取器和视频编码系统所组成,在这些读取系统中记录每个邮件的具有要读取的邮件姓名地址的邮件表面的图像,并且然后在所述OCR读取器中自动读取所述邮件姓名地址,其中在读取结果不存在或不明确时,由一个编码人员对所速邮件姓名地址进行视频编码,其特征在于以下步骤-当编码深度对应于读取深度时,将每第n个邮件的具有要读取的邮件姓名地址的邮件表面的图像与相应OCR读取器的所属的读取结果和读取部分结果和存在的来自操作运行的视频编码结果一起以相应的邮件标识存储在性能数据存储器中,-由另一个编码人员以对应于读取深度的编码深度对在所述性能数据存储器中以有关的邮件标识存储的图像的有关的邮件姓名地址进行视频编码,并且在所述性能数据存储器中以相应的邮件标识存储编码结果,-针对每个被包含在所述性能数据存储器中的邮件标识,将OCR读取器的读取结果和前一步骤的与此有关的视频编码结果自动进行比较,并且如果存在来自操作运行的视频编码结果,则和该来自操作运行的视频编码结果自动进行比较,在不一致的情况下,由一个或多个其他的编码人员执行视频编码,并且附加地与这些编码结果自动进行比较,以便引起多数判定,-以相应的邮件标识存储所有的视频编码结果和评价结果,并且进行统计分析,以便确定涉及总系统和/或其部分和/或工作的编码人员的错误率或读取速率,和/或以便确定多义的、不可解释的、或不可读取的邮件姓名地址的频率。
2.按照权利要求1的方法,其特征在于,也根据邮件类型或姓名地址类别来进行读取速率和错误率的统计分析。
全文摘要
本发明涉及一种用于自动确定读取系统的操作性能数据的方法,这些读取系统由用于读取邮件姓名地址的OCR读取器和视频编码系统组成,该方法具有以下步骤当编码深度对应于读取深度时,将每第n个邮件的具有要读取的邮件姓名地址的邮件表面的图像与相应OCR读取器的所属的读取结果和读取部分结果和来自操作运行的存在的视频编码结果一起以相应的邮件标识存储在性能数据存储器中;由其他的编码人员以对应于读取深度的编码深度对在性能数据存储器中以有关的邮件标识存储的图像的有关的邮件姓名地址进行视频编码并且在性能数据存储器中以相应的邮件标识存储编码结果;针对每个被包含在性能数据存储器中的邮件标识,将OCR读取器的读取结果和与此有关的视频编码结果自动进行比较,用于引起多数判定;以相应的邮件标识存储所有的视频编码结果和评价结果,并且进行统计分析,以便确定涉及总系统和/或其部分和/或工作的编码人员的错误率和读取速率,和/或以便确定多义的、不可解释的、或不可读取的邮件姓名地址的频率。
文档编号B07C99/00GK1972762SQ200580020944
公开日2007年5月30日 申请日期2005年5月27日 优先权日2004年6月24日
发明者W·豪茨奇 申请人:西门子公司