一种文本图像中的水印嵌入方法和装置与流程

文档序号：16393219发布日期：2018-12-25 19:31阅读：202来源：国知局

本发明属于文档保护和图像处理技术领域，涉及一种数字水印的嵌入方法和装置，具体涉及一种文本图像中的水印嵌入方法和装置。

背景技术

在信息科学高速发展的今天，作为最重要数据记录的载体的普通纸张依然存在，还会通过打印、扫描、复印等方法以纸张的形式进行传播，在某些情况下，纸质文档更具有不可替代性。

而随着自动化办公程度的不断提高，打印机和复印机成为最不可缺少的辅助设备，但同时，文档的保密防范面临了新问题。例如，涉密文件在传递过程中很容易被复印而造成失控，复印机成为了泄、窃密的方便工具。但对于打印的纸质文件，泄、窃密的责任人却无从追溯，因此要解决这个问题，除了要加强对涉密文件的管理和控制外，针对打印、复印后的纸质文档的内容加密、解密以及溯源追踪的技术手段显得尤为重要。利用文本数字水印技术在打印输出的纸质文档嵌入不可见的水印信息，当文档被非法获取或复制时，通过特定的装置提取的隐藏在文档中的信息用于追踪文本的源头可以达到版权保护及泄密溯源的目的。

考虑到水印信息容量和算法的鲁棒性能，目前有两类主流的文本水印技术：1)基于矢量字库的文本水印技术。通过专用字库，在公文交换或者打印过程中，自动加密电子公文或文档，使接收单位打印的每份电子公文或文档彼此在部分字形上有细微差别，形成电子公文或文档的特殊编码。对于这种特殊编码，可以通过手工或者ocr技术来识别，从而鉴别公文或者文档的出处与真伪。该方法的信息容量大，鲁棒性能高，可以抵抗诸如复印、拍照以及污损等操作攻击。但是主要缺陷是依赖于水印字库，只支持矢量文字稿的电子文档输出。2)二值文本图像水印技术。将二值文本图像进行字符切分，通过修改字符图像轮廓的边界像素点来嵌入水印信息。比如：通过对二值图像s1(或其子集)分组并计算每个分组中黑色像素点的个数得到数字信号s2；再对数字信号s2分组并对每个分组中的数据作hadamard变换；最后利用hadamard变换的ac系数进行水印嵌入，同时调节其dc系数以控制空域数字信号s2和s1的变化幅度。在嵌入水印信息的同时可以灵活控制载体数字信号的改变幅度以达到视觉上的不可感知性，并且能够抵抗打印复印和扫描攻击。该方法的优点是不依赖于字库文件，适用性较广，但缺点是水印信息容量低，文本图像修改的视觉效果较差，鲁棒性能相对基于矢量字库的文本水印算法较低，尤其不能抵抗手机或者相机拍照攻击。

但是在日常办公过程中，有很多的文本图像数据需要进行打印输出管控，比如：1)纸质文档扫描稿的流转。单位内部的纸质文档扫描后纳入电子文档管控系统进行流转。2)纸质收文文档复印再分发。收文单位接收纸质文档后，需要再次复印(相当于扫描加打印过程)分发给下级所属单位，为了防止信息泄密后进行快速准确溯源，需要在扫描的文本图像中再次嵌入水印信息。3)部分软件系统转换输出后的电子文档格式文件中缺少了字体信息，所有的字体描述变为了矢量的轮廓曲线或者点阵图像数据，因此无法应用基于矢量字库的文本水印算法，比如使用运行adobepdfreader打开pdf文件，再经过虚拟打印转换后，所有的字体已经进行转曲处理。因此，针对此类问题如何进行改进，使得在打印输出的文本图像中使用更鲁棒的文本水印算法嵌入水印信息，成为一个亟待解决的难题。

技术实现要素：

本发明提供一种利用矢量字库水印技术在文本图像中嵌入水印信息的方法和装置，在缺少字体信息的前提下，用以解决现有技术中文本图像中水印信息嵌入量小、视觉效果差以及抵抗复印、拍照和污损等攻击能力差的技术难题。

本发明的构思在于，首先，对输入的文本图像进行ocr(opticalcharacterrecognition，光学字符识别)识别后得到所有字符的编码信息、字符图像块i1以及该图像块所对应的外接矩形区域{dleft,dtop,dright,dbottom}；根据每一个字符编码信息，分别自动从标准字库(操作系统中安装的原始字库文件)和相应水印字库(根据标准字库修改后的水印字库文件)中读取相应字符图像i2和i3，并缩放至字符图像块i1大小；分别对图像i1、i2和i3进行细线化处理后得到相应的骨架曲线c1、c2和c3，并在c1、c2和c3上寻找特征点；将c2和c3上特征点进行比较，得到特征点差异集合根据中记录的特征点、骨架曲线c2和c3以及原始的图像i2和i3，记录c3上相对于c2上的所有需要修改的特征点以及相对应的修改轨迹；将修改的特征点按位置关系对应至c1，并在c1上搜索相应的修改轨迹；最后，按照c1上待修改的特征点位置和修改轨迹对图像i1进行自动修改，从而嵌入水印信息。从而得到了一种文本图像中的水印嵌入方法和装置。

本发明中一种文本图像中的水印嵌入方法，技术方案中包括如下步骤：

步骤一，对文本图像进行ocr识别，得到所有字符的编码信息和字符图像i1的点阵数据；

步骤二，根据字符的编码信息，分别从标准字库和水印字库中读取相应的字符图像i2和i3的点阵数据；

步骤三，通过比较字符图像i2和i3的不同计算得到字符图像的差异象素点集合；

步骤四，将差异象素点集合映射到字符图像i1，并对字符图像i1进行自动修改从而嵌入水印信息。

较佳地，所述的文本图像，包括两类：1)由纸质文档进行数字化后得到的文本图像；2)由电子文档格式文件经过虚拟转换或者输出保存为点阵图像数据；

较佳地，所述的由纸质文档数字化后得到文本图像，在进行ocr识别之前需要进行预处理，包括图像纠偏、图像去噪、图像二值化和图像美化中的一种或多种；

较佳地，所述的图像美化，是指对二值化后的字符图像边缘进行平滑处理，去除二值图像中经常出现的笔画变粗、粘接、光滑性变差、断笔画、带有毛刺和污点现象；

较佳地，所述的平滑处理，是指将二值化后的字符图像进行数学形态学图像处理，包括腐蚀、膨胀、开运算和闭运算中的一种或者多种。

较佳地，所述的比较字符图像i2和i3的不同，具体过程为：

1)将读取的字符图像i2和i3的点阵数据缩放至字符图像i1的大小；

2)分别对图像i1、i2和i3进行细线化处理后得到相应的字符骨架曲线c1、c2和c3；

3)分别在字符骨架曲线c1、c2和c3上搜索字符结构特征点集合；

4)将字符骨架曲线c2和c3上的特征点集合进行比较得到特征点差异集合此处的特征点差异集合是为了计算前文步骤三所述差异象素点集合的一个中间步骤，有了特征点差异集合，通过从每个特征点位置出发，沿着骨架曲线的方向依次确定所有笔画上的差异象素点集合；

5)根据中记录的特征点位置、字符骨架曲线c2和c3以及原始的图像i2和i3，搜寻c3上相对于c2上的所有待修改的特征点以及相对应的修改轨迹。

较佳地，所述的搜寻待修改的特征点和修改轨迹，包括两种情况：

1)图像i3相对i2需要进行字符笔画断开操作。将字符图像骨架曲线c2与图像i3进行对齐操作，针对中记录的每个特征点，从特征点位置处出发依次沿着c2遍历该特征点所有的分支，并判断穿过笔画断开位置的分支方向，最后分别记录断开的起始点在相应分支上点的索引位置n1和n2。

2)图像i3相对i2需要进行字符笔画粘连操作。将字符图像骨架曲线c3与图像i2进行对齐操作，针对中记录的每个特征点，从特征点位置处出发依次沿着c3遍历该特征点所有的分支，并判断穿过笔画断开位置的分支方向，最后分别记录断开的起始点在相应分支上点的索引位置n1和n2。

较佳地，将差异象素点集合映射到图像i1，具体过程为：

1)首先，将中记录的每个特征点映射到字符图像骨架曲线c1上，并记录搜寻到的特征点位置o；

2)根据记录的修改分支方向，确定c1上待修改的分支方向；

3)从特征点位置o出发沿着c1上待修改的分支方向，确定第n1和n2个象素点的位置。

较佳地，所述的对图像i1进行自动修改，具体方法为：

1)计算待修改的分支方向上的第n1和n2个象素点之间的向量

2)计算向量的法向量

3)从特征点位置o出发沿着c1上待修改的分支方向，依次枚举第n1至第n2个像素点，以每个像素点的位置为基准点，以法向量做切线段；

4)将切线段上所示位置的象素值修改为255，即将所有的黑色像素点变为白色像素点。

基于同一发明构思，本发明还提供了一种文本图像中的水印嵌入装置，包括：

ocr识别模块，负责对文本图像进行ocr识别，得到所有字符的编码信息和字符图像i1的点阵数据；

字符图像读取模块，负责根据ocr识别模块识别的字符的编码信息，分别从标准字库和水印字库中读取相应的字符图像i2和i3的点阵数据；

图像比较模块，负责通过比较字符图像读取模块读取的字符图像i2和i3的不同计算得到字符图像的差异象素点集合；

字符图像修改模块，负责将图像比较模块计算得到的差异象素点集合映射到字符图像i1，并对字符图像i1进行自动修改从而嵌入水印信息。

本发明的有益效果如下：

由于本发明中，通过对文本图像进行ocr识别后获取原始的字符编码信息，再通过标准字库和水印字库的字符图像比较，获得了水印字库中的字符图像相对于标准字库中相应字符图像的差异，将图像差异映射到原始的文本图像中，达到对扫描图像中字符图像的动态修改，从而嵌入了水印信息。该方法相当于在文本图像中按照矢量字库水印的方式嵌入了水印信息，进而有效克服了二值文本图像水印算法中信息容量小、文档视觉效果差以及抵抗复印、拍照和污损等攻击的鲁棒性差的缺点。

附图说明

图1为实施例中所述的一种文本图像中的水印嵌入方法的实施流程示意图；

图2为字符图像示意图；

图3为图2所示的字符图像细线化后的骨架曲线图；

图4为图3所示的字符图像骨架曲线的特征点示意图；

图5为图4比较后的差异集合效果示意图；

图6为图2中的(a)图采用本发明所述方法自动修改后的效果示意图；

图7为实施例中所述的一种文本图像中的水印嵌入装置结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面通过具体实施例和附图，对本发明做进一步详细说明。

图1为实施例中所述的一种文本图像中的水印嵌入方法的实施流程示意图。

s101，对文本图像进行ocr识别得到所有字符的编码信息和字符图像i1的点阵数据。

本发明所述的方法主要处理文本图像中的水印嵌入问题，其中文本图像包括两类：1)由纸质文档进行数字化后得到的文本图像，如图2(a)上面的“买”和“且”是打印扫描后的字符图像；2)由电子文档格式文件经过虚拟转换或者输出保存为点阵图像数据。也包括另外一种情况：部分软件系统转换输出后的电子文档格式文件中缺少了字体信息，所有的字体描述变为了矢量的轮廓曲线或者点阵图像数据，因此无法应用基于矢量字库的文本水印算法。比如使用运行adobepdfreader打开pdf文件，再经过虚拟打印转换后，所有的字体已经进行转曲处理。为了嵌入水印信息，这里，将转曲后的pdf文件中每一个页面都转换为一幅点阵图像。

为了提高ocr识别的准确率，由纸质文档数字化后得到文本图像，在进行ocr识别之前需要进行预处理，包括图像纠偏、图像去噪、图像二值化和图像美化一种或多种。如图2(a)中下面的“买”和“且”为打印扫描图像经过上述预处理后得到的二值化后的图像。

另外，很多时候经过打印扫描的文本图像嵌入水印后还需要打印输出，比如纸质收文文档复印再分发。但是由于打印扫描的质量问题，预处理后二值文本图像的效果不是很美观，往往边界变粗且不平滑、物体区域有小孔、背影区域散布有小噪声等现象。因此，为了提高再次打印输出后的文本文档的显示效果，需要针对预处理的文本图像进行图像美化操作：即对二值化后的字符图像边缘进行平滑处理，去除二值图像中经常出现的笔画变粗、粘接、光滑性变差、断笔画、带有毛刺和污点现象。

其中上述过程中的字符图像平滑处理，是指将二值化后的字符图像进行数学形态学图像处理，包括腐蚀、膨胀、开运算和闭运算中的一种或者多种。

形态学操作就是基于形状的一系列图像处理操作，通过将结构元素作用于输入图像来产生输出图像。基本的形态学操作有腐蚀与膨胀，所谓膨胀腐蚀是指将图像区域a与特定的内核b做卷积操作，内核b的形状通常为正方形、矩形、菱形或空心圆形的一种，这里，内核b的半径r设置为2。内核有一个可定义的锚点，通常定义为内核中心点。

所谓膨胀操作，是指将内核b划过图像，将内核b覆盖区域的最大像素值提取，并代替锚点位置的像素。显然这一最大化操作会导致图像中的亮区开始“扩展”。

先腐蚀再膨胀的复合运算称为开运算，一般来说，通过开运算能除掉孤立的小点、毛刺和小桥即连接两块区域的小点，而总的位置不变。先膨胀后腐蚀的复合运算称为闭运算，闭运算能够填平小孔，弥合小裂缝，而总的位置和形状不变。

由于原始图像质量千差万别，扫描后得到的二值图像也各有不同。到底使用哪一种方法能够最好地提高图像质量，这就要对原始图像细心观察。有时候使用一种方法就能得到较好效果，有时候则需要几种方法联合应用。方法的使用顺序甚为重要，顺序错了，会使图像质量越来越差。甚至对一幅图像，一部分图像应该用开运算，另一部分则要用闭运算。

经过预处理和美化处理的文本图像进行ocr识别后，需要得到如下信息：字符的编码信息、字符图像块i1以及该图像块所对应的外接矩形区域{dleft,dtop,dright,dbottom}，其中dleft,dtop,dright,dbottom分别表示外接矩形区域的左边界、上边界、右边界和下边界的位置，通过字符图像的外接矩形区域可以得到字符图像的位置和大小。

s102，根据字符编码信息，分别从标准字库和水印字库中读取相应的字符图像i2和i3的点阵数据。

如图2(b)和(c)为按照从图2(a)中的图像中识别的字符编码信息，分别从标准字库和水印字库中读取的字符图像效果示意图。

s103，通过比较字符图像i2和i3的不同计算得到字符图像的差异象素点集合。

在基于矢量字库的文本水印算法中，通过替换事先设计的水印字库中的字符图像来实现水印信息嵌入，表现在最终打印输出的结果中，还是标准字库和水印字库中的字符图像的差异。因此，可以通过比较字符图像i2和i3的不同，并把差异图像反映在扫描的文本图像中，即可在文本图像中实现相同的水印嵌入效果。比较字符图像i2和i3的具体过程为：

1)将读取的字符图像i2和i3点阵数据缩放至字符图像i1的大小。

为了确定字符图像修改的位置和幅度，需要将参考的字符图像i2和i3缩放至字符图像i1的大小，即分别将字符图像i2和i3的最小外接矩形变换为i1的外接矩形区域{dleft,dtop,dright,dbottom}。

2)分别对图像i1、i2和i3进行细线化处理后得到相应的骨架曲线c1、c2和c3。

如图3分别为图2所示的字符图像细线化后的骨架曲线效果示意图。

3)分别在字符骨架曲线c1、c2和c3上搜索字符结构特征点集合。

图4为图3所示的字符图像骨架曲线的特征点示意图，其中矩形框标识的是搜寻出的所有特征点位置。

4)将字符骨架曲线c2和c3上特征点集合进行比较得到特征点差异集合

图5为图4(b)和图4(c)进行比较后得到特征点差异集合的效果示意图，具体不同的特征点由实心圆圈标识。

5)根据中记录的特征点位置、骨架曲线c2和c3以及原始的图像i2和i3，搜寻c3上相对于c2上的所有待修改的特征点以及相对应的修改轨迹。

如前所述，我们需要知道字符图像i1中哪个位置(对应骨架曲线上的哪个特征点)、哪个笔画(对应骨架曲线上待修改的分支)以及修改的幅度(对应骨架曲线上待修改轨迹，用骨架曲线上修改起始点在所有曲线点集中的索引来表示)。相应地，所述的搜寻待修改的特征点和修改轨迹，包括两种情况：

s104，将差异象素点集合映射到图像i1，并对图像i1进行自动修改后嵌入水印信息。

所述的将差异象素点集合映射到图像i1，具体过程为：

1)首先，将中记录的每个特征点映射到字符图像骨架曲线c1上，并记录搜寻到的特征点位置o；

2)根据记录的修改分支方向，确定c1上待修改的分支方向；

3)从特征点位置o出发沿着c1上待修改的分支方向，确定第n1和n2个象素点的位置。

对图像i1进行自动修改的具体方法为：

1)计算待修改的分支方向上的第n1和n2个象素点之间的向量

2)计算向量的法向量

3)从特征点位置o出发沿着c1上待修改的分支方向，依次枚举第n1至第n2个像素点，以每个像素点的位置为基准点，以法向量做切线段；

4)将切线段上所示位置的象素值修改为255，即将所有的黑色像素点变成白色像素点。当需要将笔画进行粘连操作时，比如将图2(b)中的“买”变为图2(c)中的“买”时，像素值的修改方式为将白色的像素点变成黑色像素点。

图6为图2(a)采用本发明所述方法自动修改后的效果示意图。由该图示效果可以看出，修改后的文本图像可以实现跟通过矢量字库替换方式相同的水印嵌入效果。

如图7所示，基于同一发明构思，本实施例还提供了一种文本图像中的水印嵌入装置，包括：

ocr识别模块1，负责对文本图像进行ocr识别得到所有字符的编码信息和字符图像i1的点阵数据；

字符图像读取模块2，负责根据ocr识别模块识别的字符编码信息，分别从标准字库和水印字库中读取相应的字符图像i2和i3的点阵数据；

图像比较模块3，负责通过比较字符图像读取模块读取的字符图像i2和i3的不同计算得到字符图像的差异象素点集合；

字符图像修改模块4，负责将图像比较模块计算得到的差异象素点集合映射到图像i1，并对图像i1进行自动修改后嵌入水印信息。

实施例2：

步骤一，对文本图像进行ocr识别，得到所有字符的编码信息和字符图像i1的点阵数据。

步骤二，根据字符的编码信息，从水印字库中读取相应的字符图像i2。

根据文本图像中字符的字体属性，读取相应的字符图像i2，并将字符图像i2的大小调整为字符图像i1的大小从而得到字符图像i3。

步骤三，在字符图像i1的位置处，将字符图像i3直接替换字符图像i1从而得到嵌入水印信息的文本图像。

实施例3：

步骤一，对文本图像进行ocr识别，得到所有字符的编码信息和字符图像i1的点阵数据。

步骤二，根据字符的编码信息，分别从标准字库和水印字库中读取相应的字符图像i2和i3的点阵数据。

步骤三，通过比较字符图像i2和i3的不同计算得到字符图像的差异象素点集合。

计算字符图像的差异像素点集合时，不是通过遍历字符图像的骨架曲线而搜索得到，而是直接计算字符图像i2和i3的差值，从而得到由差异象素点集合组成的图像差异区域θ。

步骤四，将差异象素点集合映射到字符图像i1，并对字符图像i1进行自动修改从而嵌入水印信息。

将图像差异区域θ中的每个象素位置映射至图像字符图像i1中，并进行象素值替换，从而嵌入水印信息。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李晓妮
技术所有人：李晓妮
我是此专利的发明人

上一篇：一种真空冷冻干燥制备椒盐生芒果干的方法与流程
上一篇：一种牵引机构及方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。