本申请涉及计算机视觉领域,特别涉及一种文件内容识别方法、装置、计算机设备及存储介质。
背景技术:
随着金融、保险等行业的不断发展,通过视频来记录合约签订过程,以实现合约签订行为的可验证性的销售方案的应用也越来越广泛。
在相关技术中,对于记录合约签订过程的视频,需要上传至后台进行审核。比如,以保险销售过程的视频审核为例,销售人员在保险销售过程中录制视频,且在录制视频时,将销售过程中每个文件对着摄像头进行展示;销售人员将录制的视频上传至后台服务器,审核人员在后台打开视频,并人工识别视频中展示的各个文件的文件内容,以审核文件的有效性。
然而,上述相关技术中的方案需要审核人员逐一打开视频并对文件内容进行人工识别,而人工识别需要耗费较长的识别时间,导致识别效率较低。
技术实现要素:
本申请实施例提供了一种文件内容识别方法、装置、计算机设备及存储介质,可以提高视频中文件内容的识别效率,该技术方案如下。
一方面,提供了一种文件内容识别方法,所述方法包括:
获取指定视频中的至少两帧视频画面;所述指定视频是对展示文件的场景进行视频采集得到的;所述至少两帧视频画面是所述指定视频中,对应目标文件展示时的视频画面;所述目标文件是指定文件类型的文件;
基于所述指定文件类型对应的各个候选文本,对所述至少两帧视频画面分别进行文本识别,获得所述至少两帧视频画面各自的文本识别结果;
基于所述至少两帧视频画面各自的文本识别结果,获取所述目标文件的文件内容。
另一方面,提供了一种文件内容识别装置,所述装置包括:
视频画面获取模块,用于获取指定视频中的至少两帧视频画面;所述指定视频是对展示文件的场景进行视频采集得到的;所述至少两帧视频画面是所述指定视频中,对应目标文件展示时的视频画面;所述目标文件是指定文件类型的文件;
文本识别模块,用于基于所述指定文件类型对应的各个候选文本,对所述至少两帧视频画面分别进行文本识别,获得所述至少两帧视频画面各自的文本识别结果;
文件内容获取模块,用于基于所述至少两帧视频画面各自的文本识别结果,获取所述目标文件的文件内容。
在一种可能的实现方式中,所述文本识别模块,包括:
字符识别单元,用于对目标视频画面进行字符识别,获得所述目标视频画面的字符识别结果;所述目标视频画面是所述至少两帧视频画面中的任意一帧视频画面;
文本匹配单元,用于将所述字符识别结果与该各个候选文本进行匹配,获得所述目标视频画面的文本识别结果。
在一种可能的实现方式中,所述字符识别单元,包括:
单字匹配子单元,用于响应于所述目标文件是身份证件或者签名文件,将所述字符识别结果与所述各个候选文本分别进行单字匹配,获得所述字符识别结果分别与所述各个候选文本的单字匹配结果;
第一文本识别获取子单元,用于根据所述字符识别结果分别与所述各个候选文本的单字匹配结果,获取所述目标视频画面的文本识别结果。
在一种可能的实现方式中,所述单字匹配结果包括所述字符识别结果相对于对应的候选文本的召回率,所述召回率是单字出现频次与对应的候选文本的字数的比值;所述单字出现频次是所述字符识别结果中的各个单字在对应的候选文本中的出现频次;
所述第一文本识别获取子单元,用于获取所述各个候选文本中,对应的召回率达到召回率阈值的文本的数量;
基于所述各个候选文本中,对应的召回率达到召回率阈值的文本的数量,获取所述目标视频画面的文本识别结果。
在一种可能的实现方式中,所述响应于所述目标文件是身份证件,所述字符识别结果中包含第一识别子结果,所述第一识别子结果包括性别、地址以及民族中的至少一项;
所述单字匹配子模块,用于,
将所述第一识别子结果与所述各个候选文本分别进行单字匹配,获得所述第一识别子结果分别与所述各个候选文本的单字匹配结果;
所述第一文本识别获取子单元,还包括:
响应于所述各个候选文本中,对应的召回率达到召回率阈值的文本的数量为0,将所述第一识别子结果添加至所述目标视频画面的文本识别结果;
响应于所述各个候选文本中,对应的召回率达到召回率阈值的文本的数量为1,将所述各个候选文本中,对应的召回率达到召回率阈值的文本添加至所述目标视频画面的文本识别结果;
响应于所述各个候选文本中,对应的召回率达到召回率阈值的文本的数量大于1,将所述各个候选文本中,对应的召回率最大的文本添加至所述目标视频画面的文本识别结果。
在一种可能的实现方式中,响应于所述目标文件是身份证件,所述字符识别结果中还包含第二识别子结果,所述第二识别子结果包括出生日期、身份证件标识以及姓名中的至少一项;
所述单字匹配子模块,还用于,
对所述第二识别子结果进行非法字符过滤;
将经过非法字符过滤之后的所述第二识别子结果添加至所述目标视频画面的文本识别结果。
在一种可能的实现方式中,响应于所述目标文件是签名文件,所述第一文本识别获取子单元,还用于,
响应于所述各个候选文本中,对应的召回率达到召回率阈值的文本的数量为0,将所述字符识别结果获取为所述目标视频画面的文本识别结果。
在一种可能的实现方式中,所述文本匹配单元,还包括:
子序列获取子单元,用于响应于所述目标文件是单证,获取所述字符识别结果与所述各个候选文本各自的最长公共子序列;
置信分值获取子单元,用于基于所述字符识别结果与所述各个候选文本各自的最长公共子序列,获取所述各个候选文本各自的置信分值;
第二文本识别获取子单元,用于基于所述各个候选文本各自的置信分值,获取所述目标视频画面的文本识别结果。
在一种可能的实现方式中,所述置信分值获取子单元,用于获取所述最长公共子序列的序列参数;
基于所述最长公共子序列的序列参数,获取所述各个候选文本各自的置信分值。
在一种可能的实现方式中,所述序列参数包括以下参数中的至少一项:
所述最长公共子序列与对应的候选文本的长度比值;
所述最长公共子序列在所述字符识别结果中的位置;
所述最长公共子序列中的负词数;
以及,所述最长公共子序列与序列长度阈值的大小关系。
在一种可能的实现方式中,所述文件内容获取模块,还用于,
将所述至少两帧视频画面各自的文本识别结果中,出现次数最多的结果作为所述目标文件的文件内容。
在一种可能的实现方式中,所述视频画面获取模块,还包括:
音频提取单元,用于提取所述视频中的音频文件;
语音识别单元,用于对所述视频中的音频文件进行语音识别,获得所述视频中的各个播放时间点上的语音识别结果;
时间段获取单元,用于根据所述视频中的各个播放时间点上的语音识别结果,获取所述目标文件在所述视频中的展示时间段;
视频画面提取单元,用于基于所述展示时间段,从所述视频中提取所述至少两帧视频画面。
再一方面,提供了一种计算机设备,所述计算机设备包含处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述的文件内容识别方法。
又一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述文件内容识别方法。
再一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备实现上述文件内容识别方法。
本申请提供的技术方案可以包括以下有益效果:
通过自动获取视频中对应指定文件类型的文件的多帧视频画面,并结合指定文件类型的候选文本,在多帧视频画面中分别识别得到该文件对应的文字识别结果,再结合从多帧视频画面中分别得到的文字识别结果得到文件内容;在上述过程中,一方面,不需要人工识别视频中的文件内容,而是通过自动对同一文件对应的多帧视频画面中的文件内容的识别结果综合得到该文件的文件内容,另一方面,由于文件的类型已知,相应的候选文本也能够确定,而结合确定的候选文本能够提高对视频画面的文字识别的准确性,进而提高后续综合多帧视频画面的识别结果对文件内容识别的准确性,因此,上述方案能够在保证对指定文件类型的文件的识别准确度的情况下,提高对视频中的文件内容的识别效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是根据一示例性实施例示出的一种文件内容识别系统的结构示意图;
图2是根据一示例性实施例示出的一种文件内容识别方法的流程示意图;
图3是根据一示例性实施例示出的一种文件内容识别方法的方法流程图;
图4是图3所示实施例涉及的一种身份证识别策略的识别方法图;
图5是图3所示实施例涉及的一种身份证单字匹配识别的方法流程图;
图6是图3所示实施例涉及的一种签名文件单字匹配方法图;
图7是图3所示实施例涉及的一种单证识别策略流程图;
图8是图3所示实施例涉及的一种根据文本识别结果获取文件内容的流程图;
图9示出了本申请实施例提供的一种文件内容识别方法的应用示意图;
图10是根据一示例性实施例示出的一种文件内容识别装置的结构方框图;
图11是根据一示例性实施例示出的计算机设备1100的结构框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种文件内容识别系统的结构示意图。该系统包括:服务器120以及用户终端140。
服务器120是一台服务器,或者包括若干台服务器,或者是一个虚拟化平台,或者是一个云计算服务中心等,本申请不做限制。
用户终端140可以是具有视频采集功能的终端设备,比如,用户终端可以是手机、平板电脑、电子书阅读器、智能眼镜、智能手表、智能电视、mp3播放器(movingpictureexpertsgroupaudiolayeriii,动态影像专家压缩标准音频层面3)、mp4(movingpictureexpertsgroupaudiolayeriv,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。用户终端140的数量不做限定。
其中,用户终端140中可以安装有客户端,该客户端可以是视频采集客户端、即时通信客户端、浏览器客户端等。本申请实施例不限定客户端的软件类型。
用户终端140与服务器120之间通过通信网络相连。可选的,通信网络是有线网络或无线网络。
在本申请实施例中,用户终端140可以采集视频,并将视频数据发送给服务器120,由服务器120根据视频数据进行文件内容识别。
可选的,上述视频数据可以是视频文件数据,或者,上述视频数据可以是视频流数据。
可选的,该系统还可以包括管理设备(图1未示出),该管理设备与服务器120之间通过通信网络相连。可选的,通信网络是有线网络或无线网络。
可选的,上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络,包括但不限于局域网(localareanetwork,lan)、城域网(metropolitanareanetwork,man)、广域网(wideareanetwork,wan)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。在一些实施例中,使用包括超文本标记语言(hypertextmark-uplanguage,html)、可扩展标记语言(extensiblemarkuplanguage,xml)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(securesocketlayer,ssl)、传输层安全(transportlayersecurity,tls)、虚拟专用网络(virtualprivatenetwork,vpn)、网际协议安全(internetprotocolsecurity,ipsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中,还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。
请参考图2,其是根据一示例性实施例示出的一种文件内容识别方法的流程示意图。该方法可以由计算机设备执行,该计算机设备可以是服务器,其中,该服务器可以是上述图1所示的实施例中的服务器120。如图2所示,该件内容识别方法的流程可以包括如下步骤。
步骤21,获取指定视频中的至少两帧视频画面;该指定视频是对展示文件的场景进行视频采集得到的;该至少两帧视频画面是该指定视频中,对应目标文件展示时的视频画面;该目标文件是指定文件类型的文件。
步骤22,基于该指定文件类型对应的各个候选文本,对该至少两帧视频画面分别进行文本识别,获得该至少两帧视频画面各自的文本识别结果。
在本申请实施例的一种可能的实现方式中,该文本识别是通过ocr(opticalcharacterrecognition,光学字符识别)进行识别的。
在本申请实施例中,计算机设备获取到至少两帧视频画面时,该至少两帧视频画面中展示的目标文件的文件类型,对于计算机设备是已知的,相应的,该已知的文件类型对应的候选文本也是可以确定的,而候选文本能够在一定程度上表示目标文件中的文件内容的范围,因此,基于候选文本对视频画面进行文本识别,能够提高文本识别的准确性。
步骤23,基于该至少两帧视频画面各自的文本识别结果,获取该目标文件的文件内容。
在一种可能的实现方式中,当至少两帧视频画面各自的文本识别结果不相同时,服务器通过该至少两帧视频画面各自的文本识别结果进行投票,并根据投票结果,确定目标文件的文件内容。
在另一种可能的实现方式中,当该至少两帧视频画面各自的文本识别结果是不同的文本识别结果时,选择ocr质量分更高的识别结果作为该目标文件的文件内容,该ocr质量分代表着视频画面ocr识别时的清晰程度。
综上所述,在本申请实施例所示的方案中,通过自动获取视频中对应指定文件类型的文件的多帧视频画面,并结合指定文件类型的候选文本,在多帧视频画面中分别识别得到该文件对应的文字识别结果,再结合从多帧视频画面中分别得到的文字识别结果得到文件内容;在上述过程中,一方面,不需要人工识别视频中的文件内容,而是通过自动对同一文件对应的多帧视频画面中的文件内容的识别结果综合得到该文件的文件内容,另一方面,由于文件的类型已知,相应的候选文本也能够确定,而结合确定的候选文本能够提高对视频画面的文字识别的准确性,进而提高后续综合多帧视频画面的识别结果对文件内容识别的准确性,因此,上述方案能够在保证对指定文件类型的文件的识别准确度的情况下,提高对视频中的文件内容的识别效率。
请参考图3,其是根据一示例性实施例示出的一种文件内容识别方法的方法流程图。该方法可以由计算机设备执行,该计算机设备可以是服务器,其中,该服务器可以是上述图1所示的实施例中的服务器120。如图3所示,该文件内容识别方法可以包括如下步骤。
步骤31,提取该视频中的音频文件。
在一种可能的实现方式中,上述视频是指双录视频。其中,以应用在保险销售场景下为例,双录视频是指保险公司、保险中介机构通过录音录像等技术手段采集视听资料、电子数据的方式,记录和保存保险销售过程关键环节,实现销售行为可回放、重要信息可查询、问题责任可确认,通常称为“双录”。
在一种可能的实现方式中,该视频中的音频文件是使用多媒体视频处理工具ffmpeg对该视频进行音视频分离操作得到的。
其中,服务器在利用ffmepeg对该视频进行音视频分离操作时,可以通过设置采样率、通道数、解码器等参数调整从该视频提取出的音频文件。
步骤32,对该视频中的音频文件进行语音识别,获得该视频中的各个播放时间点上的语音识别结果。
在一种可能的实现方式中,服务器可以通过自动语音识别(automaticspeechrecognition,asr)对该视频中的音频文件进行语音识别。
服务器通过asr对该视频中的音频文件进行语音识别,获得该视频中的各个播放时间点上的语音识别结果,其中,该语音识别结果中包括各个播放时间点对应的时间标识,该时间标识用于指示语音识别结果对应的播放时间点。
在本申请实施例中,上述音频文件中包含人声信息,服务器通过asr对视频中的音频文件进行语音识别,获得与该音频文件对应的文本文件,该文本文件中包含与该人声信息对应的文字信息。
在一种可能的实现方式中,服务器可以通过自然语言处理(naturallanguageprocessing,nlp)技术对文字信息进行自然语言理解,得到与该文字信息对应的文字语义,根据该文字语义,获得该视频中的各个播放时间点上的语音识别结果。
步骤33,根据该视频中的各个播放时间点上的语音识别结果,获取该目标文件在该视频中的展示时间段。
在本申请实施例的一种可能的实现方式中,该语音识别结果为人声信息对应的识别结果,该语音识别结果中包含该人声信息发出的第一时间点与下一段人声信息发出的第二时间点,根据该第一时间点与该第二时间点,获取该目标文件在该视频中的展示时间段。
例如,以目标文件是身份证件为例,在音频文件中,响应于人声信息“展示身份证”的时间点,将该时间点作为获取目标文件的起始时间点;响应于下一个人声信息“展示单证”的时间点,将该时间点作为获取目标文件的结束时间点,同时,将该时间点作为单证展示的起始时间点。其中,单证是指单据文件,比如保险合同文件等等。
或者,还是以目标文件是身份证件为例,在音频文件中,响应于人声信息“展示身份证”的时间点,将该时间点作为获取目标文件的起始时间点;响应于下一个人声信息“展示身份证结束”的时间点,将该时间点作为获取目标文件的结束时间点。
步骤34,基于该展示时间段,从该视频中提取该至少两帧视频画面。
该指定视频是对展示文件的场景进行视频采集得到的;该至少两帧视频画面是该指定视频中,对应目标文件展示时的视频画面;该目标文件是指定文件类型的文件。
其中,上述指定文件类型包括以下几大类中的至少一类:
1)身份证件类,包括身份证类型、驾驶证类型、行驶证类型、护照类型等等;
2)单证类型,包括保险单类型、基金合同类型、贷款合同类型等等;
3)签名文件类型,包括各类包含签名的文件类型。
在一种可能的实现方式中,该至少两帧视频画面是连续的两帧视频画面;
或者,该至少两帧视频画面是时间差小于阈值的两帧视频画面。
连续两帧画面或者时间差小于阈值的两帧视频画面通常是内容相对应的两帧视频画面,即两帧视频画面中展示的内容是相同或相近的,根据该两帧画面获取信息,可以减少某一帧画面由于拍摄过程出错所导致的误识别,同时两帧画面的画面内容相差不大,提高了对内容获取的准确度。
在本申请实施例的一种可能的实现方式中,该视频中具有音频文件,对该视频中的音频文件进行语音识别获得各个播放时间点上的语音识别结果,该语音识别结果中具有特定信息,响应于该特定信息,从该特定信息对应的时间段提取至少两帧视频画面。
例如,该特定信息可以是人声播报的命令,例如语音识别结果为“展示身份证”,且“展示身份证”该语音识别结果被预先设定为提取视频画面的触发操作,则响应于获取“展示身份证”的语音识别结果,提取“展示身份证”语音信息对应时间段的该至少两帧视频画面。
在另一种可能的实现方式中,上述至少两帧视频画面是按照指定帧率采样得到的画面帧。
步骤35,对目标视频画面进行字符识别,获得该目标视频画面的字符识别结果;该目标视频画面是该至少两帧视频画面中的任意一帧视频画面。
在一种可能的实现方式中,对目标视频画面进行字符识别,获得该目标视频画面的字符识别结果,还包括:
对目标视频画面进行字符识别,得到未检测识别结果;
对该未检测识别结果进行非法字符检测,获取该目标视频画面的字符识别结果。
在对目标视频画面进行字符识别后,可以对其字符识别后的结果进行非法字符检测,将不需要的字符例如“*”“/”作为非法字符剔除,将检测过的识别结果作为目标视频画面的字符识别结果。
步骤36,将该字符识别结果与各个候选文本进行匹配,获得该目标视频画面的文本识别结果。
在本申请实施例中,响应于目标文件的文件类型的不同,字符识别结果的类型的不同,相应的,将该字符识别结果与该各个候选文本进行匹配的过程也不同。
在一种可能的实现方式中,步骤36包括如下步骤。
步骤36a,响应于该目标文件是身份证件或者签名文件,将该字符识别结果与该各个候选文本分别进行单字匹配,获得该字符识别结果分别与该各个候选文本的单字匹配结果;
根据该字符识别结果分别与该各个候选文本的单字匹配结果,获取该目标视频画面的文本识别结果。
当该目标文件是身份证件(也就是上述指定文件类型是身份证)时,由于身份证件上的一些信息例如性别、民族具有固定的集合,此时的候选文本可以是预先设置的性别、民族、地址等文本集合。
当该目标文件是签名文件(也就是上述指定文件类型是签名文件类型)时,由于签名信息可以预先录入数据库中形成文本集合,因此在识别签名文件时,也可以通过预先形成的签名数据库对该目标文件进行匹配。
在一种可能的实现方式中,若该字符识别结果与该各个候选文本的单字匹配结果均为不匹配,则服务器直接输出该目标视频画面的字符识别结果,作为目标视频画面的文本识别结果。
当该字符识别结果与该各个候选文本的单字匹配过程可能出现匹配失败的情况,此时单字匹配结果为不匹配,即字符识别结果与该各个候选文本不一致,此时直接输出该目标视频画面的字符识别结果作为文本识别结果。
在一种可能的实现方式中,该单字匹配结果包括该字符识别结果相对于对应的候选文本的召回率,该召回率是单字出现频次与对应的候选文本的字数的比值;该单字出现频次是该字符识别结果中的各个单字在对应的候选文本中的出现频次;
该根据该字符识别结果分别与该各个候选文本的单字匹配结果,获取该目标视频画面的文本识别结果,包括:
获取该各个候选文本中,对应的召回率达到召回率阈值的文本的数量;
基于该各个候选文本中,对应的召回率达到召回率阈值的文本的数量,获取该目标视频画面的文本识别结果。
在本申请实施例中,单字匹配即为该字符识别结果与该候选文本的召回率,即将该字符识别结果与该候选文本拆分成单字,逐字比对该字符识别结果中的每一个字在该候选文本中是否存在,当该字符识别结果中的每一个字在该候选文本中存在时,将该字符识别结果的字数与对应的候选文本的字数的比值记为该对应文本的召回率,召回率越大则说明该字符识别结果与该对应的候选文本结果越相近。
在一种可能的实现方式中,响应于该目标文件是身份证件,该字符识别结果中包含第一识别子结果,该第一识别子结果包括性别、地址以及民族中的至少一项;
该将该识别结果与该各个候选文本分别进行单字匹配,获得该字符识别结果分别与该各个候选文本的单字匹配结果,包括:
将该第一识别子结果与该各个候选文本分别进行单字匹配,获得该第一识别子结果分别与该各个候选文本的单字匹配结果。
在本申请实施例中,该第一识别子结果包括性别、地址以及民族中的至少一项,即可以通过单字匹配识别对性别、地址以及民族中的至少一项进行单字匹配识别。在实际操作中,性别、地址以及民族可以找到与其对应的集合进行匹配,但对于身份证号、姓名等信息,难以找到相应的集合进行匹配,因此仅对性别、地址以及民族可以找到与其对应的集合进行单字匹配识别。
在一种可能的实现方式中,响应于该目标文件是身份证件,该字符识别结果中还包含第二识别子结果,该第二识别子结果包括出生日期、身份证件标识以及姓名中的至少一项;
该方法还包括:
对该第二识别子结果进行非法字符过滤;
将经过非法字符过滤之后的该第二识别子结果添加至该目标视频画面的文本识别结果。
在本申请实施例中,出生日期、身份证件标识以及姓名,较难找到对应的集合进行匹配或是匹配集合太大,因此直接通过非法字符过滤的方式,将识别错误得到的非法字符进行过滤后直接将该第二识别子结果添加至该目标视频画面的文本识别结果。
请参考图4,其示出了本申请实施例涉及的一种身份证识别策略的识别方法图。
如图4所示,该字符识别结果401中包含第一识别子结果402,该第一识别子结果包括性别、地址以及民族,将该第一识别子结果与该各个候选文本分别进行单字匹配,例如对于性别,匹配的集合是“男女”,匹配成功则输出男或女匹配失败则直接输出识别结果;对于地址,匹配的集合是全国34个省市自治区主要完成的省级别区域的匹配,匹配成功则输出省名称;匹配失败则直接输出识别结果;对于民族,匹配的集合是全国56个民族,匹配成功则输出民族名;匹配失败则直接输出识别结果;而对于id、出生和姓名由于不容易找到对应的匹配集合,因此无法生成匹配成功率较高的候选文本,因此主要通过非法字符过滤对id、出生和姓名进行处理后得到对应的文本识别结果。
在一种可能的实现方式中,该基于该各个候选文本中,对应的召回率达到召回率阈值的文本的数量,获取该目标视频画面的文本识别结果,包括:
响应于该各个候选文本中,对应的召回率达到召回率阈值的文本的数量为0,将该第一识别子结果添加至该目标视频画面的文本识别结果;
响应于该各个候选文本中,对应的召回率达到召回率阈值的文本的数量为1,将该各个候选文本中,对应的召回率达到召回率阈值的文本添加至该目标视频画面的文本识别结果;
响应于该各个候选文本中,对应的召回率达到召回率阈值的文本的数量大于1,将该各个候选文本中,对应的召回率最大的文本添加至该目标视频画面的文本识别结果。
请参考图5,其示出了本申请实施例涉及的一种身份证单字匹配识别的方法流程图。如图5所示,该方法包括如下步骤。
步骤501,读取待对比集合中的每个待对比结果(对应上述候选文本),并将识别结果与待对比集合中的待对比结果即候选文本拆分成单字,若识别结果中的每一个单字在待对比结果中没有全部出现,则读取待对比集合中的下一个结果。
步骤502,若识别结果中的每一个单字在待对比结果中全部出现,则统计识别结果的单字在待对比结果中出现的频次,并将该出现的频次与待对比结果总字数的比值作为召回率,当召回率小于阈值时,则说明待对比结果与识别结果不够相近,读取下一个待对比结果进行上述步骤;当待召回率大于等于阈值时,则将该待对比结果保留;当所有待对比结果都匹配完成后,统计过阈值的结果数目。
步骤503,当该待对比集合中,召回率过阈值的数目为0时,则代表待对比集合中没有文本与该识别结果相对应,此时将该识别结果直接作为该帧画面的文本识别结果输出;
当该对比集合中,召回率过阈值的数目恰好为1时,则直接将该待对比结果作为该帧画面的文本识别结果输出;
当该待对比集合中,召回率过阈值的数目大于1时,选取召回率最高的待对比结果作为该帧画面的文本识别结果输出。
在一种可能的实现方式中,该召回率最高的待对比结果可能有多个,此时服务器随机选择一个待对比结果作为该帧画面的文本识别结果输出。
在本申请实施例中,当该目标文件是身份证件时,可以将第一识别子结果与该候选文本分别进行单字匹配,由于性别、地址以及民族可以找到相对于的文字集合,因此可以将文字集合作为候选文本进行单字匹配,提高了识别的准确度。
在一种可能的实现方式中,响应于该目标文件是签名文件,该基于该各个候选文本中,对应的召回率达到召回率阈值的文本的数量,获取该目标视频画面的文本识别结果,包括:
响应于该各个候选文本中,对应的召回率达到召回率阈值的文本的数量为0,将该字符识别结果获取为该目标视频画面的文本识别结果。
在一种可能的实现方式中,响应于该各个候选文本中,对应的召回率达到召回率阈值的文本的数量为1,将该各个候选文本中,对应的召回率达到召回率阈值的文本获取为该目标文件的文件内容。
在一种可能的实现方式中,响应于检测到某一候选文本对应的召回率达到召回率阈值,将该候选文本直接作为目标视频的文本识别结果。
请参考图6,其示出了本申请实施例涉及的一种签名文件单字匹配方法图。如图6所示,该方法包括如下步骤。
步骤601和步骤602与图5对应的步骤501和步骤502类似,此处不再赘述。
步骤603,当过阈值的数目为1时,将该候选文本作为最终结果,保留其find标志位,该find标志位用于指示获取该候选文本的视频时间点。
步骤604,当过阈值的数目为0时,直接将识别结果获取为该目标视频画面的文本识别结果。
在本申请实施例的一种可能的实现方式中,当检测到某一候选文本对应的召回率达到召回率阈值,直接将该候选文本作为最终的文本识别结果输出,并获取该候选文本对应的find标志位以确定该候选文本对应的视频时间点后,不再进行其余签字识别过程。
在一种可能实现的方式中,步骤36还包括以下步骤。
步骤36b,响应于该目标文件是单证(也就是上述指定文件类型是单证类型),获取该字符识别结果与该各个候选文本各自的最长公共子序列;
基于该字符识别结果与该各个候选文本各自的最长公共子序列,获取该各个候选文本各自的置信分值;
基于该各个候选文本各自的置信分值,获取该目标视频画面的文本识别结果。
在一种可能的实现方式中,基于该字符识别结果与该各个候选文本各自的最长公共子序列,获取该各个候选文本各自的置信分值,包括:
获取该最长公共子序列的序列参数;
基于该最长公共子序列的序列参数,获取该各个候选文本各自的置信分值。
在一种可能的实现方式中,该序列参数包括以下参数中的至少一项:
该最长公共子序列与对应的候选文本的长度比值;
该最长公共子序列在该字符识别结果中的位置;
该最长公共子序列中的负词数;
以及,该最长公共子序列与序列长度阈值的大小关系。
在本申请实施例的一种可能的实现方式中,在单证识别策略中引入了lcs(thelongestcommonsubsequence,最长公共子序列)算法和多因子权重求和算法,即将上述序列参数作为因子,对lcs进行加权求和计算得到各个候选文本各自的置信分值。
在本申请实施例中,响应于该目标文件是单证,该候选文本可以为单证标题的关键词,且该字符识别结果与该各个候选文本各自的最长公共子序列,即为字符识别结果与该各个候选文本中去掉任意字后,所具有的相同的顺序性字符串。该字符识别结果与候选文本的最长公共子序列lcs越长,则代表其相似度越高。
在一种可能的实现方式中,该置信分数可以通过如下公式获得:
score=(w1*a+w2*b-w3*c-w4*d)*w5(1)
其中w1至w5为预设的系数,a为lcs长度与关键词长度比;b为lcs长度与识别结果长度比;c为lcs是否在长文中,当lcs在长文中则c为1,当lcs不在长文中,则c为0,lcs是否在长文中可以通过预设的条件判断,例如若c所在的段落字数大于50,则代表lcs在长文中;d为负词数,即标题所可能具有的书名号等符号,其中w5可以根据lcs的长度进行变化,例如若lcs长度大于某一阈值,则w5取0.85;若lcs长度小于某一阈值,w5取1。
上述公式直观的来看,当lcs长度与关键词长度比a越大,则说明lcs与关键词的重合度越高;lcs长度与识别结果长度比b越大,则说明lcs与识别结果的重合度越高;若lcs在长文中,则说明该lcs不是需要找寻的标题lcs,且判断lcs的置信度时,需要减去书名号等容易重复的符号,即公式(1)得出的置信分数越大,则说明关键词与识别结果的重合度越高,该关键词越有可能与该识别结果相同。
在一种可能的实现方式中,若最高的置信分值只对应一个候选文本,且最高的置信分值大于阈值,则该置信分值最高的候选文本作为文本识别结果,否则确定结果为未知。
请参考图7,其示出了本申请实施例涉及的一种单证识别策略流程图。如图7所示,s701为该单证识别结果流程的输入。s702为该单证识别策略的处理流程,先获取预先设置的单证标题列表、单证标题关键词列表、负词列表以及ocr单证识别结果。单证标题列表中包含预先设置的用于对比的单证标题,单证标题关键词列表中包含预先设置的与该单证标题对应的单证标题关键词,负词列表中包含预设的负词例如书名号等标点符号。从单证标题关键词列表中获取单证标题的关键词,计算该关键词与ocr单证识别结果每一行的最长公共子序列lcs。再通过上述公式(1)计算出单行识别结果在每一个单证标题上的得分,统计该单行识别结果置信分数,取最高得分对应的标题及其置信度,如果出现多个相同最高分,则单证识别结果为未知;若只有一个最高分,且最高分过阈值,则将该最高分对于的标题类型作为单证识别结果的输出;若最高分不过阈值,则单证识别结果也为未知。
步骤37,基于该至少两帧视频画面各自的文本识别结果,获取该目标文件的文件内容。
在本申请实施例的一种可能的实现方式中,基于该至少两帧视频画面各自的文本识别结果,获取该目标文件的文件内容,包括:
将该至少两帧视频画面各自的文本识别结果中,出现次数最多的结果作为该目标文件的文件内容。
在一种可能的实现方式中,该出现次数最多的结果数目多于1时,将该至少两帧视频画面中ocr识别质量分之和最高的视频帧对应的结果作为目标文件的文件内容。
请参考图8,其示出了本申请实施例涉及的一种根据文本识别结果获取文件内容的流程图。如图8所示,该方法包括以下步骤。
步骤801,根据至少两帧视频画面各自的文本识别结果,获取文本识别结果中出现最多的次数文本识别结果作为目标文件的文件内容。
步骤802,若出现多个出现次数最多的文本识别结果,则选取帧ocr质量分之和最高的视频帧对应的结果作为目标文件的文件内容。
综上所述,在本申请实施例所示的方案中,通过自动获取视频中对应指定文件类型的文件的多帧视频画面,并结合指定文件类型的候选文本,在多帧视频画面中分别识别得到该文件对应的文字识别结果,再结合从多帧视频画面中分别得到的文字识别结果得到文件内容;在上述过程中,一方面,不需要人工识别视频中的文件内容,而是通过自动对同一文件对应的多帧视频画面中的文件内容的识别结果综合得到该文件的文件内容,另一方面,由于文件的类型已知,相应的候选文本也能够确定,而结合确定的候选文本能够提高对视频画面的文字识别的准确性,进而提高后续综合多帧视频画面的识别结果对文件内容识别的准确性,因此,上述方案能够在保证对指定文件类型的文件的识别准确度的情况下,提高对视频中的文件内容的识别效率。
例如,请参考图9,其示出了本申请实施例提供的一种文件内容识别方法的应用示意图。在实际应用中,由于识别模块所需要的资源以及计算量较大,因此通常将识别部分放在服务器侧,用户通过web或客户端将数据输入后台服务器进行处理,后台服务器将处理后的结果返回至终端。
以保险行业的双录质检场景为例,在投保过程中,保险公司需要准确的记录投保人、被投保人什么时候展示身份证及展示的身份证内容、被投保人什么时候签字及签字是否正确、销售是否严格向投保人展示保险相关单证信息及其各单证展示的类型和时间,通常对该投保过程进行全程拍摄,获取投保过程的双录视频,再通过人工审核的方式获取身份证信息、单证信息和签字信息。在本申请实施例中,可以采用图9所示的文本识别方法,基于cv(computervision,计算机视觉)技术对投保过程中拍摄的双录视频进行文件内容识别。该双录质检场景的文件内容识别方案以ocr身份证、ocr单证、ocr手写体等cv技术为核心,包括基于连续帧识别结果的身份证识别策略、基于连续帧识别结果的单证识别策略以及基于连续帧识别结果的签字识别策略三大模块,该双录质检场景的文件内容识别方案包括以下步骤。
步骤91,用户通过终端登录web,并通过web将拍摄的离线视频上传至服务器。
在该离线视频中具有投保人和被投保人展示的身份证及展示的身份证内容、被投保人的签字信息以及销售向投保人展示保险相关单证的信息及其单证展示的类型。
在一种可能的实现方式中,该离线视频中可能具有语音信息,该语音信息用于指出当前时间段视频所播放的画面信息。
例如,当该投保人和被投保人将要向摄像头展示身份证时,此时可以人工播报语音“身份证展示环节”;当被投保人签字并展示签字信息时,可以语音人工播报“签字环节”。
步骤92,对该离线视频进行文本识别。其中,该步骤92包括步骤921至步骤929。
步骤921,音视频拆分。
首先对该离线视频进行音视频拆分,拆分出该离线视频对应的视频数据和音频数据。
步骤922,音频转文字。
通过语言识别技术asr,对该离线视频中的音频数据进行语言识别,将音频数据转化为音频文字信息。
在一种可能的实现方式中,服务器可以将该音频数据通过http请求发送至其他服务器,通过其他服务器中存储的asr识别模型对该音频数据进行识别得到对应的音频文字信息,再将该音频文字信息返回该服务器中。
在另一种可能的实现方式中,该音频数据可以通过服务器内预存储的asr识别模块进行语言识别,得到与该音频数据对应的音频文字信息,该预存储的asr识别模块是通过神经网络学习得到的。
步骤923,文字理解。
服务器通过自然语言识别模块,对该音频文字信息进行自然语言处理,得到音频文字含义。
在本申请实施例的一种可能的实现方式中,该音频文字信息含有语音信息该语音信息用于指出当前时间段视频所播放的画面信息。例如,该音频文字信息中可能含有“身份证展示环节”或者类似于“身份证展示环节”含义的其他常用口语,此时通过自然语言理解模块,对该文字信息进行自然语言理解,可以得出含义为“展示身份证”。
在一种可能的实现方式中,服务器可以将该音频文字信息通过http请求发送至其他服务器,通过其他服务器中存储自然语言理解模型对该音频文字信息进行自然语言处理得到对应的音频文字含义,再将该语言含义返回至该服务器中。
步骤924,根据文字出现时间段构造任务。
其中,服务器可以根据该音频文字含义获取与该音频文字对应的关键行为类型,再根据音频文字对应在音频中的时间段与该关键行为类型,构建与该音频文字含义对应的任务。
例如,在本申请实施例的一种可能的实现方式中,当该音频文字含义为“展示身份证”时,服务器响应于该音频文字含义,执行构建“身份证识别”的任务。
步骤925,通过接入层下发任务。
当对音频文字信息识别完成后,服务器的音频识别模块将构建的任务下发给视频识别模块。
步骤926,取流。
服务器对该离线视频的视频部分进行取流解码,并根据对应的识别任务进行视频帧筛选。
在保险行业中,需要审查的是投保人、被投保人什么时候展示身份证及展示的身份证内容、被投保人什么时候签字及签字是否正确、销售是否严格向投保人展示保险相关单证信息及其各单证展示的类型和时间,因此需要对视频中的身份证、单证和签字部分进行筛选取流。
响应于构造的身份证识别任务,该身份证识别任务中包含该身份证展示过程的时间标识,服务器根据该时间标识,取出视频对应的视频帧画面,将其作为原始帧进行身份证策略识别。签字识别过程的取流和单证识别过程的取流与上述过程相同,此处不再赘述。
在一种可能的实现方式中,在获取接入层下发的不同任务后,服务器将不同的任务放在不同的线程中同时进行处理。
步骤927,身份证识别策略。
身份证识别策略主要是对多帧ocr识别身份证结果采用单字匹配策略和多帧投票策略完成更加精准的身份证各内容输出及其出现时间输出。
服务器根据身份证识别策略对身份证识别过程对应的原始帧进行识别。
由于视频通常拍摄帧率较高,在文本识别时不需要如此多的视频帧画面,且相近的视频帧中对应的视频内容及其相似,因此通常采取跳帧的操作进行再取帧,即对于一连串的视频帧画面,每隔n帧画面取一帧画面作为识别画面,再将该识别画面进行识别,从而大幅度减少识别时间。
在该身份证识别策略中,首先对身份证展示阶段的所有待识别视频帧进行ocr检测识别,缓存所有待识别视频帧的合法的身份证待识别结果,对每一待识别视频帧的合法身份证待识别结果,可以采用单字匹配策略和非法字符过滤两种识别方式进行识别。
在一种可能的实现方式中,可以分别对性别、地址、民族进行单字匹配策略进行识别,对出生年月日、姓名和id号使用非法字符过滤进行识别。
由于性别、地址和民族信息具有范围,在身份证信息中可以通过预先设置的文字集合对其进行匹配。例如对于性别,匹配的集合是“男女”,匹配成功则输出男或女匹配失败则直接输出识别结果;对于地址,匹配的集合是全国34个省市自治区主要完成的省级别区域的匹配,匹配成功则输出省名称;匹配失败则直接输出识别结果;对于民族,匹配的集合是全国56个民族,匹配成功则输出民族名;匹配失败则直接输出识别结果。
而对于id、出生和姓名,无法采用某一文字集合对其进行匹配,因此一般只通过非法字符过滤进行处理,过滤到ocr识别中可能误识别出的非法字符,如标点符号等字符。
在一种可能的实现方式中,可以对所有缓存的合法身份证待识别结果,先进行非法字符识别,再对性别、地址、民族进行单字匹配策略。
在识别出多帧画面对应的识别结果后,对多帧画面对应的识别结果采用多帧投票策略选取最后的结果,即选取多帧识别结果中出现次数最多的身份证待识别结果作为最终的身份证识别结果,若出现多个最多的身份证识别结果,则取ocr质量分之和最高的结果作为最终的身份证识别结果。
步骤928,签字识别策略。
签字识别策略主要是对多帧签字ocr识别结果采用单字匹配策略和投票策略完成与候选客户名的快速匹配。
服务器根据签字识别策略对单证识别过程对应的原始帧进行识别。
与身份证识别策略类似,服务器可以对视频帧进行跳帧处理,此处不再赘述。
在该签字识别过程中,同样对该识别出的签字待识别结果进行单字匹配,将该签字待识别结果与预保存在服务器中的投保人姓名进行识别,一旦与候选的投保人姓名匹配则直接返回最终识别结果,并获取该候选文本对应的find标志位以确定该识别结果对应的视频时间点后,不再进行其余签字识别过程。
当该识别出的签字识别结果的单字匹配过程中,在预保存在服务器中的投保人姓名中没有找到与该签字待识别结果匹配的姓名时,则将该待识别结果直接输出作为该视频帧的签字识别结果,且当多帧视频的单字匹配过程都没有找到与预保存在服务器中的投保人姓名相匹配的结果时,将多帧视频画面对应的多个识别结果进行多帧投票得到最终的签字识别结果。
步骤929,单证识别策略。
单证识别策略主要是对多帧单证ocr识别结果通过lcs算法和多因子权重求和及多帧投票完成更加精准的单证标题输出和时间输出。
服务器根据签字识别策略对签字识别过程对应的原始帧进行识别。
跳帧过程和ocr识别过程与上述身份证识别策略相同,此处不再赘述。
在该单证识别策略中,首先对单证展示阶段的所有待识别视频帧进行ocr检测识别,缓存所有待识别视频帧的合法的单证待识别结果,对每一待识别视频帧的合法单证待识别结果,采用图5所示实施例中的单证处理流程进行处理。
在一种可能的实现方式中,上述签字识别结果、身份证识别结果与单证识别结果都是单帧画面的识别结果,即通过上述三种策略得到的识别结果,都具有对于的多个单帧画面的识别结果;因此对该多个单帧画面识别结果进行多帧投票,将出现最多的识别结果作为最终结果输出;当出现多个最多的识别结果时,将ocr质量分之和最好,即识别最清晰的识别结果作为最终识别结果输出。例如签字识别结果中有4个“张二”和4个“张三”,此时则获取识别出4个“张二”对应的视频的ocr质量分,与识别出4个“张三”的ocr质量分,选取两者更大的,最为最终识别结果。
步骤93,终端获取识别结果。
服务器对所有视频帧识别完成后,终端获取该识别结果并将其显示给用户。
通过该文件内容识别流程可以显著提高双录视频在身份证、单证和签字等文字识别的召回准确率,并且不需要人工对该双录视频进行审核,引入此高效的、可落地应用的基于ocr技术的双录质检场景下关键性文字识别方案后将为整个视频质检系统提供更加精细化、数字化的文字信息和出现时段,以便保险从业人员面对大量双录视频时可以轻松快速定位到单证、证件、签字等关键行为出现的时段和内容,进而可用快速检查出视频流程是否合法,大大提高从业人员双录视频审核效率、保证了质检效果,解决了人工审核带来的速度低下问题,尽量避免不必要的人为误差。
图9所示方案是本申请实施例所示方案以保险行业为应用场景的一种举例说明。除了保险行业之外,本申请还可以应用在其他领域,比如商务合同、金融质检等,本申请对此不设限制。
图10是根据一示例性实施例示出的一种文件内容识别装置的结构方框图。该文件内容识别装置可以实现图2或图3所示实施例提供的方法中的全部或者部分步骤。该文件内容识别装置可以包括以下部分。
视频画面获取模块1001,用于获取指定视频中的至少两帧视频画面;所述指定视频是对展示文件的场景进行视频采集得到的;所述至少两帧视频画面是所述指定视频中,对应目标文件展示时的视频画面;所述目标文件是指定文件类型的文件。
文本识别模块1002,用于基于所述指定文件类型对应的各个候选文本,对所述至少两帧视频画面分别进行文本识别,获得所述至少两帧视频画面各自的文本识别结果。
文件内容获取模块1003,用于基于所述至少两帧视频画面各自的文本识别结果,获取所述目标文件的文件内容。
在一种可能的实现方式中,所述文本识别模块1002,包括:
字符识别单元,用于对目标视频画面进行字符识别,获得所述目标视频画面的字符识别结果;所述目标视频画面是所述至少两帧视频画面中的任意一帧视频画面;
文本匹配单元,用于将所述字符识别结果与该各个候选文本进行匹配,获得所述目标视频画面的文本识别结果。
在一种可能的实现方式中,所述字符识别单元,包括:
单字匹配子单元,用于响应于所述目标文件是身份证件或者签名文件,将所述字符识别结果与所述各个候选文本分别进行单字匹配,获得所述字符识别结果分别与所述各个候选文本的单字匹配结果;
第一文本识别获取子单元,用于根据所述字符识别结果分别与所述各个候选文本的单字匹配结果,获取所述目标视频画面的文本识别结果。
在一种可能的实现方式中,所述单字匹配结果包括所述字符识别结果相对于对应的候选文本的召回率,所述召回率是单字出现频次与对应的候选文本的字数的比值;所述单字出现频次是所述字符识别结果中的各个单字在对应的候选文本中的出现频次;
所述第一文本识别获取子单元,用于获取所述各个候选文本中,对应的召回率达到召回率阈值的文本的数量;
基于所述各个候选文本中,对应的召回率达到召回率阈值的文本的数量,获取所述目标视频画面的文本识别结果。
在一种可能的实现方式中,所述响应于所述目标文件是身份证件,所述字符识别结果中包含第一识别子结果,所述第一识别子结果包括性别、地址以及民族中的至少一项;
所述单字匹配子模块,用于,
将所述第一识别子结果与所述各个候选文本分别进行单字匹配,获得所述第一识别子结果分别与所述各个候选文本的单字匹配结果;
所述第一文本识别获取子单元,还包括:
响应于所述各个候选文本中,对应的召回率达到召回率阈值的文本的数量为0,将所述第一识别子结果添加至所述目标视频画面的文本识别结果;
响应于所述各个候选文本中,对应的召回率达到召回率阈值的文本的数量为1,将所述各个候选文本中,对应的召回率达到召回率阈值的文本添加至所述目标视频画面的文本识别结果;
响应于所述各个候选文本中,对应的召回率达到召回率阈值的文本的数量大于1,将所述各个候选文本中,对应的召回率最大的文本添加至所述目标视频画面的文本识别结果。
在一种可能的实现方式中,响应于所述目标文件是身份证件,所述字符识别结果中还包含第二识别子结果,所述第二识别子结果包括出生日期、身份证件标识以及姓名中的至少一项;
所述单字匹配子模块,还用于,
对所述第二识别子结果进行非法字符过滤;
将经过非法字符过滤之后的所述第二识别子结果添加至所述目标视频画面的文本识别结果。
在一种可能的实现方式中,响应于所述目标文件是签名文件,所述第一文本识别获取子单元,还用于,
响应于所述各个候选文本中,对应的召回率达到召回率阈值的文本的数量为0,将所述字符识别结果获取为所述目标视频画面的文本识别结果。
在一种可能的实现方式中,所述文本匹配单元,还包括:
子序列获取子单元,用于响应于所述目标文件是单证,获取所述字符识别结果与所述各个候选文本各自的最长公共子序列;
置信分值获取子单元,用于基于所述字符识别结果与所述各个候选文本各自的最长公共子序列,获取所述各个候选文本各自的置信分值;
第二文本识别获取子单元,用于基于所述各个候选文本各自的置信分值,获取所述目标视频画面的文本识别结果。
在一种可能的实现方式中,所述置信分值获取子单元,用于获取所述最长公共子序列的序列参数;
基于所述最长公共子序列的序列参数,获取所述各个候选文本各自的置信分值。
在一种可能的实现方式中,所述序列参数包括以下参数中的至少一项:
所述最长公共子序列与对应的候选文本的长度比值;
所述最长公共子序列在所述字符识别结果中的位置;
所述最长公共子序列中的负词数;
以及,所述最长公共子序列与序列长度阈值的大小关系。
在一种可能的实现方式中,所述文件内容获取模块1003,还用于,
将所述至少两帧视频画面各自的文本识别结果中,出现次数最多的结果作为所述目标文件的文件内容。
在一种可能的实现方式中,所述视频画面获取模块1001,还包括:
音频提取单元,用于提取所述视频中的音频文件;
语音识别单元,用于对所述视频中的音频文件进行语音识别,获得所述视频中的各个播放时间点上的语音识别结果;
时间段获取单元,用于根据所述视频中的各个播放时间点上的语音识别结果,获取所述目标文件在所述视频中的展示时间段;
视频画面提取单元,用于基于所述展示时间段,从所述视频中提取所述至少两帧视频画面。
综上所述,在本申请实施例所示的方案中,通过自动获取视频中对应指定文件类型的文件的多帧视频画面,并结合指定文件类型的候选文本,在多帧视频画面中分别识别得到该文件对应的文字识别结果,再结合从多帧视频画面中分别得到的文字识别结果得到文件内容;在上述过程中,一方面,不需要人工识别视频中的文件内容,而是通过自动对同一文件对应的多帧视频画面中的文件内容的识别结果综合得到该文件的文件内容,另一方面,由于文件的类型已知,相应的候选文本也能够确定,而结合确定的候选文本能够提高对视频画面的文字识别的准确性,进而提高后续综合多帧视频画面的识别结果对文件内容识别的准确性,因此,上述方案能够在保证对指定文件类型的文件的识别准确度的情况下,提高对视频中的文件内容的识别效率。
图11是根据本申请一示例性实施例示出的计算机设备1100的结构框图。该计算机设备1100可以是图1所示系统中的用户终端或者服务器。
通常,计算机设备1100包括有:处理器1101和存储器1102。
处理器1101可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1101可以采用dsp(digitalsignalprocessing,数字信号处理)、fpga(field-programmablegatearray,现场可编程门阵列)、pla(programmablelogicarray,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1101也可以包括主处理器和协处理器。在一些实施例中,处理器1101可以在集成有gpu(graphicsprocessingunit,图像处理器),处理器1101还可以包括ai(artificialintelligence,人工智能)处理器,该ai处理器用于处理有关机器学习的计算操作。
存储器1102可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1102还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1102中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器1101所执行以实现本申请上述方法实施例中的全部或者部分步骤。
在一些实施例中,计算机设备实现为用户终端时,该计算机设备1100还可选包括有:外围设备接口1103和至少一个外围设备。处理器1101、存储器1102和外围设备接口1103之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1103相连。可选的,外围设备包括:射频电路1104、显示屏1105、图像采集组件1106、音频电路1107、定位组件1108和电源1109中的至少一种。
外围设备接口1103可被用于将i/o(input/output,输入/输出)相关的至少一个外围设备连接到处理器1101和存储器1102。
射频电路1104用于接收和发射rf(radiofrequency,射频)信号,也称电磁信号。可选地,射频电路1104包括:天线系统、rf收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1104可以通过至少一种无线通信协议来与其它计算机设备进行通信。在一些实施例中,射频电路1104还可以包括nfc(nearfieldcommunication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏1105用于显示ui(userinterface,用户界面)。当显示屏1105是触摸显示屏时,显示屏1105还具有采集在显示屏1105的表面或表面上方的触摸信号的能力。
图像采集组件1106用于采集图像或视频。在一些实施例中,图像采集组件1106还可以包括闪光灯。
音频电路1107可以包括麦克风和扬声器。在一些实施例中,音频电路1107还可以包括耳机插孔。
定位组件1108用于定位计算机设备1100的当前地理位置,以实现导航或lbs(locationbasedservice,基于位置的服务)。
电源1109用于为计算机设备1100中的各个组件进行供电。
在一些实施例中,计算机设备1100还包括有一个或多个传感器1110。该一个或多个传感器1110包括但不限于:加速度传感器1111、陀螺仪传感器1112、压力传感器1113、指纹传感器1114、光学传感器1115以及接近传感器1116。
本领域技术人员可以理解,图11中示出的结构并不构成对计算机设备1100的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括计算机程序(指令)的存储器,上述程序(指令)可由计算机设备的处理器执行以完成本申请各个实施例所示的方法。例如,所述非临时性计算机可读存储介质可以是只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、只读光盘(compactdiscread-onlymemory,cd-rom)、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各个实施例所示的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。