本发明涉及教育信息化技术领域,具体涉及一种关联书本与电子资源的系统。
背景技术:
随着信息技术的发展和普及,越来越多的书本配套了电子资源(包含音频、视频、游戏、增强现实和其他应用软件等)。这些电子资源以其呈现形式多样、图文并茂、形声并举的优点来提升传统纸质书本的表现力和感染力。然而,在书本与电子资源未建立自动化关联的情况下,要访问与书本内容对应的电子资源并非不方便。以访问书本配套视频为例,用户需要首先找到与书本对应的光盘或视频文件,使用媒体播放器打开该光盘或视频文件,然后使用快进或快退来定位与书本页面内容相对应的视频位置。访问书本配套视频通常需要花费数分钟的操作时间,对于幼儿和老人来说甚至难以完成该操作。
现阶段主要有两种技术来建立书本与电子资源的关联:(1)使用文字关联;(2)使用“点读笔”技术关联。使用文字关联要求使用者具备使用键盘或语音输入文字的能力。然而大多数幼儿或老人不具备这一能力。即使能熟练输入文字,若使用者用文字描述的书本内容与数据库中标注的文字存在语义差异,也会导致关联失败。使用“点读笔”技术可以克服文字关联方法的上述的缺点,用“点读笔”点击书本即可快速访问对应内容的音频资源。然而,要使用“点读笔”,对应的书本需要事先使用特殊底纹的纸来印刷。这使得已经印刷的书本无法使用这一关联技术。此外,“点读笔”技术目前主要的产品形态为硬件,一方面成本较高,不利于普及;另一方面,也不利于扩展其应用范围。
技术实现要素:
针对现有技术的缺陷,本发明提供一种关联书本与电子资源的系统,其目的在于,使用摄像头拍摄书本页面图像,利用计算机视觉技术将其与电子资源样例图像进行匹配,完成纸质书本与电子资源的关联和自动访问,以方便电子资源的使用。
一种书本与电子资源关联系统,包括:图像采集单元、书本页面识别单元和电子资源映射单元,其中,
图像采集单元用于利用摄像头拍摄书本页面图像;书本页面识别单元用于将图像采集单元拍摄的书本页面图像与电子资源所关联的样例图像进行匹配,以识别书本页面;电子资源映射单元提供样例图像与电子资源的映射关系,并提供对电子资源对应内容的自动访问;
所述书本页面识别单元包括:图像分割模块,用于对图像采集单元采集的图像进行分割,剔除背景部分,保留图像中的书本页面部分;图像矫正模块,用于对分割后的图像进行几何畸变和颜色失真的矫正;特征码提取模块,用于从矫正后的图像中提取图像识别特征码;特征码压缩模块,用于采用降维算法压缩特征码的长度,以降低存储空间和提高运算效率;样例图像特征码库,用于保存电子资源样例图像的压缩特征码;特征码匹配模块,用于计算采集图像的压缩特征码与样例图像特征码库中的各个特征码的相似度,并取相似度排序前N名的特征码所对应的样例图像作为书本页面识别结果。
进一步地,所述图像分割模块包括粗略分割子模块和精细分割子模块;
粗略分割子模块用于使用预设的目标包围框作为输入,采用分类规则来对图像进行预先分割:如果则将坐标为(x,y)的像素点分类为目标,其中,HO表示由预设目标包围中的像素统计得到的未归一化的图像直方图,HB表示由预设目标包围外的像素统计得到的未归一化的图像直方图,b(x,y)表示坐标为(x,y)的像素在直方图中的bin,τs为阈值;
精细分割子模块用于在对图像进行粗略分割后,使用最小二乘法求取一个新的目标包围框,使用新的目标包围框作为输入,并采用GrabCut或DenseCut算法对粗略分割后的图像进行精细分割。
进一步地,所述预设目标包围框使用下面两种方式之一确定:
方式1)使用固定的目标包围框:将拍摄图像正中与上下边界距离为n1h、与左右边界距离为n2w的矩形区域作为目标包围框,其中w、h分别为图像的宽和高,n1、n2为参数;
方式2)通过交互界面来预设:在交互界面上显示一目标包围框,要求用户通过移送摄像头将书本页面置于包围框之中。
进一步地,所述图像矫正模块包括几何畸变矫正参数求解子模块、颜色矫参数求解正子模块和矫正子模块;
几何畸变矫正参数求解子模块用于首先通过最小二乘拟合法从图像分割模块的分割结果轮廓上拟合一个四边形,四边形的四个顶点记为并预设几何矫正后的图像为宽为ws、高为hs的矩形,其四个顶点为然后分别将四组点对代入下式中:
解上述方程组得到几何畸变矫正的参数{a11,a12,a13;a21,a22,a23;a31,a32};
颜色矫正参数求解子模块用于从原图像中估计环境光照,并记为[Re,Ge,Be]T:
其中[Rq,Gq,Bq]T和[Rs,Gs,Bs]T分别为像素点矫正前和矫正后的颜色值;
矫正子模块,用于生成一幅宽为ws、高为hs的图像Is;然后逐个扫描图像Is的像素,将其坐标(xs,ys)代入(1)式中求得其在原图像对应的像素点坐标(xq,yq),取原图像上坐标为(xq,yq)的像素点颜色值[Rq,Gq,Bq]T代入(2)式中求得颜色矫正后的颜色值[Rs,Gs,Bs]T,将颜色值[Rs,Gs,Bs]T赋值给图像Is坐标为(xs,ys)的像素。
进一步地,所述特征码提取模块采用卷积神经网络从矫正后的图像中提取图像识别特征码。
进一步地,所述卷积神经网络为一个8层的卷积神经网络,其中,第一层为输入层,输入大小为224×224像素的三通道彩色图像;第二层为卷积层,拥有64个大小为11×11×3的卷积核;第三层为卷积层,拥有256个大小为5×5×64的卷积核;第四层为卷基层,拥有256个3×3×256的卷积核;第五层为卷基层,拥有256个3×3×256的卷积核;第六层为卷基层,拥有256个3×3×256的卷积核;第七层为全连接层,拥有4096个神经元,并与第六层的输出神经元进行全连接;第八层为输出层,与第七层全连接,并输出4096维的特征向量。
进一步地,所述特征码压缩模块按下式来压缩从特征码提取模块提取的特征码Xi:
其中,为压缩后的特征码,矩阵采用下面的方法离线计算得到:
首先将所有从样例图像上提取的特征码组成一个矩阵M=[X1 X2 … Xm],其中m为图像的个数;计算M的协方差矩阵其中为图像特征码的均值;将Σ进行奇异值分解得到M的特征向量矩阵U;取U前d个列向量组成矩阵Ud,经过转置得到
进一步地,所述特征码匹配模块逐一计算图像采集单元所采集图像的压缩特征码与样例图像特征码库中的各个特征码的相似度,并取相似度排序前N名的特征码所对应的样例图像作为书本页面识别结果;所述相似度的计算方式为:
设为从采集图像提取并经过压缩后的特征码,为样例图像特征码库中的一个特征码,与的相似度采用下式来计算:
其中,离线计算得到并保存在样例图像特征码库中。
进一步地,所述样例图像-电子资源映射表保存样例图像到电子资源的映射关系,其中的每条记录至少包括下列信息:{样例图像ID、电子资源类别、电子资源文件路径、电子资源附加信息、电子资源启动程序名称或路径}。
进一步地,电子资源类别包含于电子书、办公文档、音频、视频、游戏、增强现实软件中的一种或多种;当电子资源类别为电子书或办公文档时,电子资源附加信息至少包含页码信息;当电子资源类别为音频或视频时,电子资源附加信息至少包含起止时间;当电子资源类别为游戏或增强现实软件时,电子资源附加信息至少包含可由游戏或增强现实软件识别的代码,供游戏或增强现实软件跳转至相应的情景或界面。
本发明的有益技术效果体现在:
本发明提供了一种关联书本与电子资源的系统,使得用户使用手机、平板电脑或智能电视机上的摄像头拍摄书本页面的图像即访问与书本页面相关的电子资源并自动跳转至相应的内容,极大地方便了用户对电子资源的使用。此外,本发明提出的书本页面识别方法具备极高的识别准确率,也使得一种关联书本与电子资源的系统具备良好的用户体验。本发明提供的一种关联书本与电子资源的系统可以方便地集成到智能手机、平板电脑或智能电视机上,容易推广。
附图说明
图1是本发明一较佳实施例结构组成示意图;
图2是本发明一较佳实施例书本页面识别单元组成示意图;
图3是本发明一较佳实施例样例图像特征码库离线建立流程图;
图4是本发明一较佳实施例书面页面识别流程图;
图5是本发明一较佳实施例图像分割模块组成示意图;
图6是本发明一较佳实施例图像矫正流程图;
图7是本发明一较佳实施例特征码提取模块卷积神经网络结构示意图;
图8是本发明一较佳实施例特征码压缩模块压缩矩阵UdT的计算流程图;
图9是本发明一较佳实施例特征码匹配模块匹配流程图;
图10是本发明一较佳实施例电子资源映射单元组成示意图
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
图1示出了本发明一个较佳实施例。一种书本与电子资源关联系统,包括:图像采集单元10、书本页面识别单元11和电子资源映射单元12,其中,
图像采集单元10利用手机、平板电脑或智能电视上的摄像头拍摄书本页面图像;书本页面识别单元11利用计算机视觉技术将图像采集单元拍摄的书本页面图像与电子资源所关联的样例图像进行匹配,以识别书本页面;电子资源映射单元12提供样例图像与电子资源的映射关系,并提供对电子资源对应内容的自动访问。
如图2所示,所述书本页面识别单元11包括:图像分割模块110,利用图像分割算法对图像采集单元采集的图像进行分割,剔除背景部分,保留图像中的书本页面部分;图像矫正模块111,对分割后的图像进行几何畸变和颜色失真的矫正;特征码提取模块112,采用卷积神经网络对从矫正后的图像中提取图像识别特征码;特征码压缩模块113,采用降维算法压缩特征码的长度,以降低存储空间和提高运算效率;样例图像特征码库1,保存电子资源样例图像的压缩特征码;特征码匹配模块114,逐一计算图像采集单元所采集图像的压缩特征码与样例图像特征码库中的各个特征码的相似度,并取相似度排序前N名的特征码所对应的样例图像作为书本页面识别结果。在本实施例中,取相似度排序前6名的特征码所对应的样例图像作为书本页面识别结果。
如图3所示,样例图像特征码库离线建立,建立过程为:
S11:将各样例图像输入特征码提取模块112提取特征码;
S12:将提取的特征码输入特征码压缩模块113压缩其长度,得到压缩特征码;
S13:将样例图像压缩特征码存储到样例图像特征码库1。
如图4所示,书本页面识别为在线过程:
S21:将图像采集单元10采集的书本页面图像输入图像分割模块110进行分割;
S22:将分割后的图像输入图像矫正模块111进行几何畸变和颜色失真的矫正;
S23:将矫正后的图像输入特征码提取模块112提取特征码;
S24:将提取的特征码输入特征码压缩模块113压缩其长度,得到压缩特征码;
S25:将压缩特征码114输入特征码匹配模块与样例图像特征码库1中的各压缩特征码进行匹配,并取匹配相似度排序前N名的特征码所对应的样例图像作为书本页面识别结果。
如图5所示,所述图像分割模块110包括粗略分割子模块1100和精细分割子模块1101。粗略分割子模块1100使用预设的目标包围框作为输入。可以使用下面两种方法之一来预设目标包围框:1)使用固定的2目标包围框,优选地,将拍摄图像正中与上下边界距离为n1h、与左右边界距离为n2w的矩形区域作为目标包围框,其中w、h分别为图像的宽和高,n1、n2为参数。2)通过交互界面来预设,优选地,可以在交互界面上显示一目标包围框,要求用户通过移送摄像头将书本页面置于包围框之中。在本实施例中采用固定的目标包围框,并设置n1=0.15,n2=0.15。使用固定目标包围框可以省去用户交互步骤,使得用户的操作更为简便化。
在预设目标包围框之后,粗略分割子模块1100采用下面的分类规则来对图像进行预先分割:
如果则将坐标为(x,y)的像素点分类为目标
其中,HO表示由预设目标包围中的像素统计得到的未归一化的图像直方图,HB表示由预设目标包围外的像素统计得到的未归一化的图像直方图,b(x,y)表示坐标为(x,y)的像素在直方图中的bin,τs为阈值。在本实施例中,从RGB图像上直接统计直方图,各个颜色通道分为16个bin,即直方图的维数为16×16×16;τs取值为0.5。在对图像进行粗略分割后,使用最小二乘法求取一个新目标包围框3。精细分割子模块使用新目标包围框3作为输入,并采用GrabCut或DenseCut算法对原图像进行精细分割,得到分割结果4。由于具备较好的分割精度和较快的运行速度,在本实施例选取了DenseCut算法来进行分割。
所述图像矫正模块111包括几何畸变矫正参数求解子模块、颜色矫正参数求解子模块和和矫正子模块。几何畸变矫正参数求解子模块首先通过最小二乘拟合法从图像分割模块的分割结果4的轮廓上拟合一个四边形,四边形的四个顶点记为并预设几何矫正后的图像为宽为ws、高为hs的矩形,其四个顶点为然后分别将四组点对代入下式中:
解方程组得到几何畸变矫正的参数{a11,a12,a13;a21,a22,a23;a31,a32}。在本实施例中,ws和hs均设置为224像素。
颜色矫正参数求解子模块采用计算颜色恒常性算法从原图像中估计环境光照,并记为[Re,Ge,Be]T;颜色矫正按下式进行:
其中[Rq,Gq,Bq]T和[Rs,Gs,Bs]T分别为像素点矫正前和矫正后的颜色值。在本实施例中,采用灰色边缘假设来估计环境光照:
其中,▽Rq(x,y)、▽Gq(x,y)和▽Bq(x,y)分别为原图像R、G、B通道的梯度图像,C为归一化系数。
如图6所示,图像矫正子模块一次性完成图像的几何畸变矫正和颜色矫正,步骤为:
S31:几何畸变矫正子模块1110计算几何畸变矫正参数;颜色畸变矫正子模块1111估计环境光照;
S32:生成一幅宽为ws、高为hs的图像Is;
S33:逐个扫描图像Is的像素,将其坐标(xs,ys)代入(1)式中求得其在原图像对应的像素点坐标(xq,yq),取原图像上坐标为(xq,yq)的像素点颜色值[Rq,Gq,Bq]T代入(2)式中求得颜色矫正后的颜色值[Rs,Gs,Bs]T,将颜色值[Rs,Gs,Bs]T赋值给图像Is坐标为(xs,ys)的像素。
如图7所示,所述特征码提取模块112为一个8层的卷积神经网络,其中,第一层为输入层,输入大小为224×224像素的三通道彩色图像;第二层为卷积层,拥有64个大小为11×11×3的卷积核;第三层为卷积层,拥有256个大小为5×5×64的卷积核;第四层为卷基层,拥有256个3×3×256的卷积核;第五层为卷基层,拥有256个3×3×256的卷积核;第六层为卷基层,拥有256个3×3×256的卷积核;第七层为全连接层,拥有4096个神经元,并与第六层的输出神经元进行全连接;第八层为输出层,与第七层全连接,并输出4096维的特征向量。
所述特征码压缩模块113按下式来压缩从特征码提取模块提取的特征码Xi:
其中为一个d×4096的矩阵。采用下面的方法离线计算得到:首先将所有样例图像输入特征码提取模块提取特征码,并将这些特征码组成一个矩阵M=[X1X2…Xm],其中m为样例图像的个数;计算M的协方差矩阵其中为样例图像特征码的均值;将Σ进行奇异值分解得到M的特征向量矩阵U;取U前d个列向量组成矩阵Ud;经过转置得到所有从样例图像输提取的特征码都通过(3)式进行压缩并存储在样例图像特征码库。
如图8所示,特征码压缩模块113的压缩矩阵的计算过程为:
S41:将所有样例图像输入特征提取模块提取特征码,并将这些特征码组成一个矩形M;
S42:计算M的协方差矩阵Σ,然后将Σ进行奇异值分解得到M的特征向量矩阵U;
S43:取U前d个列向量组成矩阵Ud;经过转置得到压缩矩阵
所述特征码匹配模块114逐一计算图像采集单元所采集图像的压缩特征码与样例图像特征码库中的各个特征码的相似度,并取相似度排序前N名的特征码所对应的样例图像作为书本页面识别结果。设为从采集图像提取并经过压缩后的特征码,为样例图像特征码库中的一个特征码,与的相似度采用下式来计算:
其中,离线计算得到并保存在样例图像特征码库中。
如图9所示,特征码匹配模块114的匹配过程为:
S51:逐一计算图像采集单元所采集图像的压缩特征码与样例图像特征码库中的各个特征码的相似度;
S52:取相似度排序前N名的特征码所对应的样例图像作为书本页面识别结果。
书本页面识别结果中的N张样例图像显示到智能设备交互界面,并供用户做出最终的选择;若用户不进行选择,则经过m秒后将第一张样例图像作为最终结果。在本实施例中,m设置为5。
如图10所示,所述电子资源映射单元12包含样例图像-电子资源映射表120和外部程序启动器121,其中,
样例图像-电子资源映射表120保存样例图像与电子资源的映射关系,其中的每条记录至少包括下列信息:{样例图像ID、电子资源类别、电子资源文件路径、电子资源附加信息、电子资源启动程序名称或路径}。电子资源类别包含但不限于电子书、办公文档、音频、视频、游戏、增强现实软件等。当电子资源类别为电子书或办公文档时,电子资源附加信息至少包含页码信息;当电子资源类别为音频或视频时,电子资源附加信息至少包含起止时间;当电子资源类别为游戏或增强现实软件时,电子资源附加信息至少包含可由游戏或增强现实软件识别的代码,供游戏或增强现实软件跳转至相应的情景或界面。以书本配套视频文件为例,样例图像-电子资源映射表中的一条记录实例为:{03629,v,“/sdcard/myvideo/charpt1.mp4”、(0:32:54,0:35:26),“com.nercel.videoplayer”},其中03629为书本页面样例图像ID,v表示电子资源类别为视频,“/sdcard/myvideo/charpt1.mp4”是书本页面样例图像所对应的视频文件路径,(0:32:54,0:35:26)分别为书本页面对应视频的起始时间,“com.nercel.videoplayer”为启动播放视频文件的视频播放器名称。
当书本页面识别单元11将识别结果,即样例图像ID,输入电子资源映射单元12后,输入电子资源映射单元12从样例图像-电子资源映射表120中查找出与样例图像ID相符的记录,并将该记录传送给外部程序启动器121。所述外部程序启动器121负责启动图像-电子资源映射表120中指定名称或路径的外部程序,并向外部程序传递电子资源文件路径和电子资源附加信息。之后,由外部程序打开与书本相关的电子资源,并跳转至相应的内容。这里,以在Android设备上播放书本配套视频实力对外部程序启动器121做进一步的说明。当电子资源映射单元12将样例图像-电子资源映射表120中查找到的与样例图像ID相符的一条记录{03629,v,“/sdcard/myvideo/charpt1.mp4”、(0:32:54,0:35:26),“com.nercel.videoplayer”}传入外部程序启动器121后,外部程序启动器121可通过下面的程序片段来启动视频播放器、打开视频文件、并跳转至于本页面对应的时间上:
Intent LaunchIntent=getPackageManager().getLaunchIntentForPackage("com.nercel.videoplayer");
intent.putExtra("FileName","/sdcard/myvideo/charpt1.mp4");
intent.putExtra("StartTime","0:32:54");
intent.putExtra("EndTime","0:35:26");
startActivity(LaunchIntent);
在windows和IOS设备上也可以通过类似的程序片段来实现外部程序启动器121的功能。
实例:
下面以一个具体的例子对本发明做进一步的说明:
(1)当幼儿在看动画书并对书本上某一页面的内容感兴趣,想要观看跟该页面主题相关的动画视频时,幼儿或家长就可以通过安装了本发明对应APP的智能手机或平板摄像头拍摄一张该书本页面图像。
(2)本发明对应的APP完成书本页面识别完成后,在界面上显示出识别结果中的前6张样例图像作为候选。
(3)若幼儿或家长通过点击样例图像做出最终选择,APP自动打开并跳转到与所选书本页面对应的视频内容进行播放;若幼儿或家长不点击样例图像,则在5秒后自动打开并跳转到与第一张样例图像对应的视频内容进行播放。
在整个过程中,用户只需拍摄书本页面的图像即访问与书本页面相关的电子资源并自动跳转至相应的内容,极大地方便了用户对电子资源的使用。
本实例可在包括但不限于智能手机、平板电脑、智能电视、计算机等硬件上实施。本实施例中所包含的单元或模块可以部署在同一硬件上,也可以部署在多个硬件上并通过网络通信组成一个完整的系统。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。