一种文档加密方法

文档序号：7622578阅读：234来源：国知局

专利名称：一种文档加密方法
技术领域：
本发明涉及加密和防伪的技术领域，尤其涉及一种文档加密方法。
背景技术：
电子公文或文档交换是一种通过计算机信息网络，在不同单位之间传递电子公文的技术。随着信息技术尤其是互联网络技术的发展，各个单位或单位内部的各个部门都可以通过局域网或万维网互相联结。同时，各单位或部门也普遍采用计算机文字编辑软件起草公文或文档。电子公文或文档交换技术就是以此为基础，通过规范电子公文格式，统一传递流程和记录，提供网上安全传输手段的一种技术和系统，使公文就能够以电子形式，从发布单位通过网络快速地传递到接收单位，不再需要专人在各个单位之间进行投递，从而，减轻工作量，提高工作效率。随着信息技术的不断发展，公文或文档交换特别是电子公文或文档交换日益频繁，无论是在党政机关管理国家事务的过程中，还是企事业单位的日常行政管理中，公文或文档是传递重要信息、贯彻上级精神的重要载体。因此，加强对公文或文档特别是电子公文或文档的管理，使电子公文或文档具有一定的保密性和防伪性就显得尤为重要，而对于某些特殊机关部门的特殊文档，文档的保密性和防伪具有更为重要的意义。现有技术中，大部分公文或文档不具有防伪的功能，通常是通过公文或文档上的序号或公章判断公文的出处及真伪。但是，公文或文档上的序号可以被轻易遮挡或复制，而现在的彩色扫描、复印和打印技术使得公文或文档上的公章也很容得被复制。
虽然，申请人较先申请的发明专利申请031536840公开了一种“输出设备加密和识别的方法及系统”，但是该方法主要是通过在输入设备与具有唯一序列号的输出设备中安装安全字库来实现对某些特殊输出设备的监控，而不是对电子公文或文档进行加密或鉴别。
要实现加密和识别，需要使用到文本的数字水印技术，它是信息隐藏技术领域内的重要技术，比较常见的是图像数字水印。而现实中存在大量的文本(如电子公文)需要保密，电子公文系统内部可以限制电子格式的文本流出，另外这类系统往往通过限制打印次数等方式限制转为纸质的文件，但一旦转为纸质以后，系统无法限制复印，往往也无法追踪纸质文件的原始来源。
现有技术中，通过对文本版面进行字距和行距的变化隐藏信息，如文献“文本数字水印”[中文信息学报，第15卷，第五期，作者黄华等]采用调整字距和行距来隐藏信息，其主要缺点是1、导致版面变化较大，影响整体的视觉效果；2、信息隐藏量小；3、对于表格、或文字较少的版面不能适用。还有的技术是通过标点信息编码来隐藏信息，存在信息量少的问题。

发明内容
针对现有技术中存在的不足，本发明的目的在于提供一种文档加密方法，该方法能有效地对各种文件进行添加水印信息，并且还原所述的水印信息。
本发明方法包括一种文档加密方法，其特征在于，包括以下步骤A、选定标准字进行变体操作形成变体字；B、对所述变体字进行编码，并按照所述编码将所述变体字添加至文件中，以所述的变体字携带水印信息；C、接收方对所述文件中的变体字进行解码，获取所述加密信息。
所述的步骤B中，根据需要加密的信息对所述变体字进行编码，并按照所述编码将所述变体字添加至文件中，以所述的变体字携带水印信息。
所述的步骤A中，所述的选定字体，可以为汉字、字母或者其它种类文字或符号。
所述的方法，当选定标准字为汉字时，所述的变体操作，包括以下内容之一或者组合笔画连断、笔画移动、笔画旋转和笔画长度变化。
所述的步骤A中，可以只使用一种变体操作，或者同时使用几种变体操作。
所述的步骤A中，对于一个标准字制作多个不同的变体字或不同字体的变体字。
所述的步骤A还包括对各标准字的不同变体字进行编号。
所述的方法，对各标准字的变体字按顺序进行一一编号。
所述的步骤A中，还包括将所述的变体字存入普通字库制作成专用字库。
所述的专用字库，选用TrueType字库或Postscript字库。
所述的步骤B中，将所述变体字添加至文件中，是将所述的变体字替换文件中该变体字对应的标准字。
所述的步骤B中，所述的将所述的变体字替换文件中该变体字对应的标准字，是根据文件编号确定使用的变体字，用不同字的变体字组合形成编号，与文件编号保持对应关系。
所述的步骤B中，所述的编码方法，按照文件内容顺序编码。
所述的步骤B中，所述的编码方法，每个标准字对应的变体字选用，依赖于或不依赖于当前所在标准字在文件中的位置。
所述的步骤B中，所述的编码方法，按照标准字顺序或非顺序编码。
所述的编码方法，文件中相同标准字对应的变体字的选用，选用相同的变体，或者不同的变体。
所述的步骤B中，将所述变体字添加至文件中还包括添加冗余信息。
所述的步骤B中，所述的冗余信息，设置在文件的不同区域；所述冗余信息携带于同一标准字所对应的同一或不同变体字中，所述冗余信息还携带于不同标准字所对应的同一或不同变体字中。
所述的步骤B中，所述的编码还包含自校验信息。
所述的步骤B中，还包括输出所述文件，所述的文件包括电子公文或者文档。
所述的步骤C中，还包括将所述的文件在接收方计算机屏幕上显示或者以纸件形式打印出来，以供接收方阅读。
所述的步骤C中，所述的接收方进行解码，采用人工方式或使用计算机文字识别系统对所述的文件进行识别，以提取所述变体字携带的水印信息。
所述的方法，还包括对所述的计算机文字识别系统进行所使用变体字识别的训练，以提高对变体字的识别能力。
所述的步骤C中，所述的接收方进行解码，采用光学字符识别技术自动判断。
一种鉴别电子公文或文档真伪的方法，其特征在于，包括以下步骤A将电子公文或文档中选定的标准字进行变体操作形成变体字集，并进行编号；B将专用字库安装在电子公文或文档交换系统中，根据电子公文或文档的编号确定使用的变体字，替换公文或文档中的标准字；C通过电子公文或文档交换系统将替换后的电子公文或文档传输给接收者；D识别出变体字，并根据识别出的变体字的编号判断电子公文或文档的真伪。
所述的步骤D中，通过人工方式或比较变体字来判断或通过光学字符识别技术自动判断公文或文档的真伪。
所述的步骤A中，用不同变体字的组合进行的编号，与公文或文档编号保持一一对应关系。
所述的方法，还包括训练识别系统，使其可以识别所述变体字的步骤。
所述的方法，替换后的电子公文或文档通过电子公文或文档交换系统传输并在计算机屏幕上显示或以书面的形式打印出来供接收者阅读。
所述的电子公文或文档交换系统为一个或多个装有计算机文字处理软件及字库的计算机系统，它通过连接各个单位的基础计算机网络设施，实现多个单位或部门之间电子公文或文档的传输和管理。
一种文档加密的方法，其特征在于，包括以下步骤A选取足够多个汉字进行变体操作形成专用字库，并进行编号；B将专用字库安装在电子公文或文档交换系统中，根据电子公文或文档的编号确定使用的变体字，替换公文或文档中的标准字；C通过电子公文或文档交换系统将替换后的电子公文或文档传输给接受者；D识别出变体字，并根据识别出的变体字的编号判断电子公文或文档的真伪。
一种专用字库的制作方法，其特征在于，包括以下步骤选取足够多个字符进行变体操作形成专用字库。
所述变体操作包括以下内容之一或者组合笔画连断、笔画移动、笔画旋转和笔画长度变化。
本发明有益效果如下本发明通过制作的专用变体字字库，在文件交换或打印过程中，在文件中添加水印信息，使接收方的每份文件彼此在部分变体字字形上，有细微差别，形成文件上的特殊编码，对于这种特殊编码，可以通过手工或OCR技术识别，从而解码得出所述水印信息。
采用本发明的水印信息携带方法，所携带的水印信息量可以是非常大的，根据不同的变体字的选用，可以形成大量水印信息，为使用者带来非常大的方便。
采用专有字库的加密方法，由于编码依靠的变体字分散在整篇文件中，使这些变体字很难被识别，即便被识别，也很难遮盖或伪造，所以，使得文件的可鉴别性得到本质提高，同时，本发明的突出效果还在于识别技术上，除人工识别外，采用了变体字识别技术，使文件鉴别更为容易，而且，由于特殊编码的解码也可以是由机器完成，知道解码规则的人很少，所以提高了系统的安全性。采用本发明所述的方法，生成的带水印信息的文件具有视觉效果好、隐藏的信息量大、可靠性高、生成和鉴别效率高的特点，同时，通过采用冗余编码和自校验编码，可以进一步提高可靠性，并有效抵抗复印、照相、污染、破损、折痕等多种干扰情况。整个生成、训练、编码、解码是一个完整的、自动程度较高的过程，可快速生成大量的水印信息的文本并准确地加以解码。

图1为本发明的主流程图示意图；图2为本发明实施例1的流程示意图；图3为本发明实施例中变体字的示意图；图4为本发明实施例中，采用笔划连断变体形成的变体字示意图；图5为本发明实施例中，采用笔划移动变体形成的变体字示意图；图6为本发明实施例中，采用笔划旋转变体形成的变体字示意图；图7为本发明实施例中，采用笔划长度变化变体形成的变体字示意图；图8为本发明实施例中电子公文或文档交换系统发文收文示意图；图9为本发明实施例中电子公文或文档交换系统的另一个示意图。
具体实施例方式
下面结合说明书附图来说明本发明的具体实施方式
。
如图1所示，是本发明的一个主工作流程示意图，从图中可见，本发明采用变体字携带水印信息，需要进行如下处理S1、选定可以应用的标准字，对其进行变体操作，以形成变体字，这些变体字，可以形成专用字库。
上述步骤中，所述的选定字体，可以为汉字、字母、其它种类文字或者符号。
当选定标准字为汉字时，所述的变体操作，包括以下内容之一或者组合笔画连断、笔画移动、笔画旋转和笔画长度变化。
当选定字体为字母时，也可对其进行变体操作。
上述步骤中，对于所述选定的标准字的变体操作，可以只使用一种变体操作，也可以同时使用几种变体操作。
上述步骤中，对于变体字的形成，一个标准字可以制作5-10个不同的变体字。如果形成一个标准字多于一个的变体字，则还包括对同一标准字的不同变体字进行编号，对各标准字的变体字按顺序进行一一编号。
上述步骤中，所述的制作变体字的标准字，可以为全部标准字或者部分标准字。如果选用部分标准字制作变体字，可以选择为5-20个标准字。
上述步骤中，所述的不同的标准字的变体字个数可以是相同的，也可以是不同的。
上述的步骤中，还包括将所述的变体字存入普通字库制作成专用字库。所述的专用字库，可以为TrueType字库，也可以为Postscript字库。
以上步骤形成了具有一定规律的变体字，本发明方案采用该变体字来携带水印信息。
S2、对以上步骤产生的变体字进行编码，并按照所述编码将所述变体字添加至文件中，以所述的变体字携带水印信息。
上述步骤中，根据需要加密的信息对所述变体字进行编码，并按照所述编码将所述变体字添加至文件中，以所述的变体字携带水印信息。
上述步骤中，将所述的变体字替换文件中该变体字对应的标准字，是根据文件编号确定使用的变体字，用不同字的变体字组合形成编号，与文件编号保持对应关系。或者将所述变体字添加至文件中，是将所述的变体字直接加入所述文件。
上述步骤中，所述的文件包括电子公文或者文档。
上述步骤中，所述的编码方法，可以按照文件内容顺序编码，对每个标准字对应的变体字选用，依赖于或不依赖于当前所在标准字在文件中的位置。
上述步骤中，所述的编码方法，可以按照标准字编码，文件中相同标准字对应的变体字的选用，可以选用相同的变体，也可以是不同的变体。
上述步骤中，将所述变体字添加至文件中还包括添加冗余信息，所述的冗余信息，可以设置在文件的不同区域；所述冗余信息携带于同一标准字所对应的同一或不同变体字中，所述冗余信息还携带于不同标准字所对应的同一或不同变体字中。
上述步骤中，所述的编码还包含自校验信息。
按照上述内容进行编码，并添加水印信息后，可以输出所述的文件。在每篇公文中，用多组变体字表示想要携带的编码，例如，公文1想要携带的加密信息可用码“1234322”表示，则可分别用7组变体字表示它，每一组中的变体字分别选用编号为1、2、3、4、3、2、2的变体。解码时，识别出每组变体字的变体号分别为1、2、3、4、3、2、2，也就还原了加密信息。
S3、接收方对文件中的变体字进行解码，获取所述的水印信息。
上述步骤中，所述的接收方采用计算机文字识别系统对所述的变体字进行识别，以提取所述变体字携带的水印信息。也可以采用人工方式对变体字进行识别，以提取所述变体字携带的水印信息。
上述步骤中，还包括将所述的文件在接收方计算机屏幕上显示或者以纸件形式打印出来，以供接收方阅读。
上述步骤中，使用计算机文字识别系统对所述的文件进行识别。如果使用计算机文字识别系统对所述的文件进行识别，则还包括对所述的计算机文字识别系统进行所使用变体字识别的训练，以提高对变体字的识别能力。
上述步骤中，所述的接收方进行解码，采用光学字符识别技术自动判断。
上述各步骤所形成的水印信息携带方法，可以应用于文件加密及鉴别真伪，也可以应用于保密信息的传递。
本发明还可以采用如下方案A选取足够多个字符进行变体操作形成专用字库，并进行编号；B将专用字库安装在电子公文或文档交换系统中，根据电子公文或文档的编号确定使用的变体字，替换公文或文档中的标准字；C通过电子公文或文档交换系统将替换后的电子公文或文档传输给接受者；D识别出变体字，并根据识别出的变体字的编号判断电子公文或文档的真伪。
本发明还包括一种专用字库的制作方法，包括步骤选取足够多个字符进行变体操作形成专用字库.所述变体操作包括以下内容之一或者组合笔画连断、笔画移动、笔画旋转和笔画长度变化。
下面结合一个具体的实施例来说明本发明的实现方式。在该例子中，使用变体字携带水印信息的方式，对电子公文或文档进行加密并鉴别接收到的电子公文或文档，识别该电子公文或文件的真伪。该方法应用于电子公文交换系统中，使用一套自动识别系统来对输出的电子公文或文档进行识别，提取变体字所携带的水印信息，如图2所示，是该实施例的流程示意图，从图中可见，具体可以采用以下步骤S11、选定要携带水印信息的标准字，并对这些标准字进行变体操作形成变体字，并制作成专用字库。
将电子公文或文档中选定的标准字制作变体字存入普通字库制作成专用字库，对同一个汉字或字母的不同变体字进行编号(或编码)。所述专用字库是装有变体字的特殊字库。可以根据需要，做成TrueType字库，也可以做成Postscript字库，如果使用TrueType字库，字库可以直接安装到电子公文交换系统中；如果是用Postscript字库，字库可以安装在与电子公文交换系统连接的特定打印输出设备上。前面所述的TrueType字库最先由苹果公司提出，有丰富的指令，在字形缩小到很小时，也能保证一定的质量，现在TrueType字库已经广泛应用于前端显示，使前端用户不用输出，就能知道版面效果。所述的Postscript字库是1984年由Adobe公司发布，采用曲线轮廓描述字型，广泛应用于照排机和中、高档打印机等后端高质量输出。
本实施例中，我们首先挑选在公文或文档中经常出现的一些汉字，如“党、政、姓”，对这三个不同字体的汉字进行变体，每个字分别做5、8、10种变体字，变体字在结构上与正常字有细微差别(有差别的地方，我们称为信息点)，如图3所示，是对标准字“姓”字的变体。对每个变体字，我们从0开始进行编号，如果有n个变体字，最后一个字的编号就是n-1(n大于或等于2)。通常，同一个汉字或字母的不同变体字为5至10个就足够用了。而制作变体字的字母或汉字的个数最好在20个以内，当然这根据具体需要而定，可以不限于上述方案。
确定好变体字后，将变体字组装到正常字库的补字编码区，产生变体字的编码表，从而完成专用字库的制作，可供公文或文档交换系统查找使用，本实施例所用的字库为TrueType字库，直接安装到电子公文或文档交换系统中。
图3是变体字“姓”字的示意图，图中左侧的汉字1为加信息点之前的字，图中右侧的汉字2为加信息点之后的字，通过对比左右两个字可以发现两个宇有四部分明显不同，其它几个变体字与此类似，彼此之间都有不同，当三个变体字排列在一起时，它们的编号就形成一个三位数的数字串，如“028”等，不同变体字串形成不同编号。当然，如果选用四个不同的汉字制作变体字，每个汉字有10个变体字体，则可以组合成0000到9999的编号。
图3是对采用不同方法产生变体的详细示意图在字符集中1000个汉字，对选中的每个字符制作4个变体字模，对各变体按顺序编号(0，1，2，3)，在本实施例中，不使用正常体作为编码，即最左边为正常体，后面为4个不同的变体。分别举例如下A、笔划连断变体的例子如图4所示，是“俭”字的最后一个变体依靠最下端的一横与上面的点断开产生变体。“谨”字的最后一个变体依靠右上部与下面断开产生变体。“吏”字的最后一个变体依靠下边一捺与上部断开产生变体。
B、笔划移动变体的例子如图5所示，“浇”字的第三个变体右边中部的一横下移产生变体。“街”字的第四个变体右边的第二横下移产生变体。“靖”字的第三个变体，其“立”字的左边点向左发生移动，从而产生变体。
C、笔划旋转变体的例子如图6所示，“饺”字的最后一个变体，对其右边的一点进行了逆时针方向旋转。“浸”字的第二个变体，对其“又”字的一撇进行了顺时针方向的旋转。“疚”字的最后一个变体，对其右下的一捺进行了逆时针方向的旋转。
D、笔划长度变化的例子如图7所示，“径”字的第二个变体，其右下的“工”字中的一竖进行了缩短。“粮”字的第三个变体，其右上的三横都进行了拉长操作。“卢”字的第三个变体，其右上的一横被缩短。
以上列举的都是笔化的单种变体，实际上，对每个变体字，只要满足变体不显著，人眼不易察觉的原则，其变体的方式是可以任意自由组合的。例如图7中的“卢”字，其第三个变体同时发生了右上的一横被缩短，中间的“口”部被压扁这两种变化。图4中“俭”字的最后一个变体同时发生了右下的一横与其上部的点断开，右边中间一横向上移动的两种变体。
考虑到后期对变体字的识别需要进行归一化处理，在挑选变体特征时，不宜将字的外轮廓整体移动，因为这样的变体会被归一化操作抹掉。
S12、训练识别系统，使其可以识别所述变体字。
利用上述变体字，将之排列好打印、扫描出来作为标准样张(图片)，可以由计算机程序对标准样张进行分析、切分、二值化、归一化、提取字符特征生成原始的识别字典。一般而言，使用不同的打印机打印出的纸张，其上面的字符笔划会有细微的差别，甚至同一台打印机在不同的时间进行打印(例如打印时间过长机器较热)，都会产生这种差别。此外，扫描仪也存在同样的问题不同的扫描仪、同一台扫描仪在不同的时间扫描、设置不同的扫描精度、扫描仪上的灰尘在扫描图上形成污点等，都会导致字符的变体现象。这些变体都是对设定好的字符变体的一种干扰，因此应该对生成好的原始识别字典进行训练，以同时提高其区分性与稳定性。
该具体的训练方案，可以是使用制作好字模，使用不同的输出设备(例如打印机)输出成多个纸质样张，对每个纸质样张使用不同扫描仪进行多次扫描，用以模拟实际中发生的各种干扰。对获得的样张进行二值化，对字符进行归一化处理后，生成若干组训练样张。每组训练样张都对应一个描述文件，指明该组训练样张上的每个变体的编码。计算程序输入这些训练样和描述文件，进行自动学习和训练。
稳定性训练训练首先要是要保证稳定性，即对同一个变体字，在前述的各种干扰因素下，其提取的特征仍然必须是可识别出来的，否则在有干扰的情况下进行识别时，就可能发生拒识(指待识别的字符特征不符合任何一个已知字符的特征)的情况。为了保证稳定性，对输入的同组训练样张进行提取公共特征的处理，即将这组样张中的每个变体的不同来源(不同输出设备、不同扫描仪等、不同扫描遍数等)进行比对，将其特征的公共部分提取出来作为这个变体字的标准特征，并计算出该字符的分级稳定性区域，将此数据记入识别字典中。级别越高的区域越稳定，该变体的特征必须至少落入最低可接受的稳定区域内，否则不能满足稳定性的需要。由于该特征是若干不同来源的公共部分，因此它具有良好的稳定性，也就是抗干扰性的能力强，当实际的样张遇到类似的干扰时，只要此干扰的幅度未超过训练时同类干扰的最大幅度，都可准确地用此特征来描述被识别的字符。
区分性训练在稳定性的基础上，又必须保证足够的区分性，即在干扰下，不同的变体间不能发生误识别的情况，例如当扫描仪的感光元件行程速度不均匀时，字符的笔划会发生拉伸或压缩现象，当图7中“径”字被这种因素干扰时，不能将它的第二个变体误识别为第一个字体(标准的未变体字体)，因为这两个变体的主要差别就在后者的右下部，“工”的竖较短。当某个干扰足够大时，甚至可能发生不同的字符间发生误识的情况，如可能将“官”字的某个变体误识别为“管”字的某个变体，因此，区分性训练不仅需要在相同字符的不同变体间进行，对不同字符的各个变体间同样需要进行这种训练。区分性训练的过程主要分为两步1)遍历识别字典中的每一个变体，自动找出该变体与其它变体的差异区域，并对差异区域分级，级别越高的区域，其差异度的可靠性越高，由所有域计算出它与对比变体特征的差异度。然后对此差异度进行评估，可预先规定一个阈值，当差异度大于设定的阈值时，可不进行下面的步骤。
2)对前一步骤中找出的差异特征进行逐步加权处理，直到对应的差异度大于前述的阈值为止。
需要强调的是，这种加权处理不能超越前面稳定性学习时获得的稳定性区域，因此逐步加权的过程是先对同时属于最高稳定域和最大差异域的特征加权，若没有这样的区域或在此区域加权后仍不满足区分性的要求，则退到下一个稳定域和差异域加权。直到满足区分性为止。当这组待区分变体的所有稳定域和差异域都加过权，但仍然无法满足区分性的变体，训练程序将之自动挑选出来，返回到字符生成的步骤，重新调整字符的变体，再次训练。
训练后的识别字典，还要用大量来源不同的测试样张进行测试，测试效果不好的，需要重新修改字模。反复修改和训练、测试后，最后生成最终的识别字典。
S13、对电子公文或文档加密，使变体字携带加密信息。
把专用字库安装在电子公文或文档交换系统中，在公文或文档制作及交换或打印过程中，根据公文或文档编号确定使用的变体字，替换公文或文档中标准字电子公文或文档。交换系统是一个计算机软件系统，它通过连接各个单位的基础网络设施，实现单位之间电子公文或文档的传输和管理。在这个系统中，起草或制作公文或文档的单位称为发文单位，接收公文或文档的单位称为收文单位。一篇公文可以从发文单位同时传递到多个收文单位。发文单位将定稿后的电子公文或文档提交给交换系统，并指定收文单位及每个收文单位的打印份数，公文或文档交换系统根据这些信息确定该公文需要打印的总份数，根据公文或文档编号规则确定电子公文中的各个变体字。
电子公文或文档交换系统根据最大编号及所发公文，选择适当的字数目K，如每个字有N个变体字，最大编号是M，使NK＞M(N的K次方大于M)，以保证所有编号都在表示范围内。对于每份公文或文档，根据编号，用这K个字的变体字代替正常字，并且，变体字的编号排列在一起，与公文或文档编号一一对应。如每个字有10个变体字(N)，公文或文档最大编号是678(M)，10的3次方是1000，大于678，则选择K＝3，即选择3个字。
在本实施例中，编码方法采用按字符编码，即文章中每个相同字符的变体选用是相同的，与当前所在的字符顺序位置无关。此外，考虑到实际需要解码的文章有时会来源于纸张，而纸张容易发生折叠、撕碎、污损、受潮、日久发黄等情况，为了保证解码时能高可靠地还原原始信息，编码时采用了分组冗余编码的算法编码中的每一位，都用一组变体字来表示，同一组变体字中的变体编号(指第几种变体)相同。解码时，对每个鉴别出所有的变体字，将相同变体编号的字分为一组，并对每个变体字，按提取特征计的符合程度计算其可信度。当出现组中变体表示的编码值不一致时，由每个变体字的可信度和该编号的变体字个数计算出编码的可信度，共同表决出该位的编码值。在这种冗余中，每个分组内的字符个数不限，每个字符重复的次数也不限，同组内的所有相同字符(指同一个字符在文章中重复出现多次)和不同的字符都选用相同编号的变体，因此选用字符时应考虑以下两个因素1)该编码位是否是重要的编码位，若是重要的编码位，则应选用较多的变体字构成冗余。显然，表示某位编码的变体字越多，该位编码就越可靠。本编码方法充分灵活，可在可靠性和携带信息容量的多少方面进行选择。对可靠性要求很高的运用，则用足够多的变体字进行冗余，保证每位编码的表决结果正确。对要求携带大量信息，但可靠性要求不很高的运用，可用较多的编码位携带较多的信息，而减少每个编码位使用的变体数量。
2)选用的字符在该电子公文或文档中是否是高频字(出现的次数较多)，若选用了高频字，则可用较少的字符表示该组。
3)组内字符在文章中的分布情况当纸质的样张发生折叠、撕碎、污损等损伤时，可能会另某一区域内的变体字受到严重的干扰甚至丢失(如被撕掉)时，若在文章的其它区域内仍保存有属于同一组的变体字，就仍然可以被识别出来，获得正确的结果。由此可见，变体字在文章中分布得越均匀，对抗这些损伤的能力就越强。
在本实施例中，使用了自动选字技术由给定可靠性的要求和需携带的信息量的多少，结合不同编码位的重要等级，计算出每个编码位需要使用多少个变体字来表示。再统计出该页中所有出现的变体字的频率，及其出现的行列位置。将之按每位需要的变体字个数，兼顾个数和均匀性的原则分配入不同的组。
另外，为了充分保证解码的可靠性，在总体文本编码中包含了自校验编码位，以进一步提高可靠性。该校验位可以不携带原始信息，在编码时，它通过其它所有编码位的值按某种运算规则运算而获得，再根据此值选择相应变体编号的变体表示此编码位，即该组变体字的变体编号与上述按某种运算规则运算出的值是对应的。在解码时，当所有编码位被识别模块识别解码后，就可按同样的运算规则计算出验证位的计算值，用计算值与校验位的解码值比对，若不一致则说明中间的环节出现的错误，识别结果不再可信。
上面这些手段的综合利用，可充分保证识别的可靠性。
S14、电子公文或文档的传输和阅读。
将加密后的电子公文或文档通过电子公文或文档交换系统传输并在计算机屏幕上显示或以书面的形式打印出来供接收者阅读。如图8所示，该图为电子公文或文档交换系统发文收文示意图，左侧是发文过程，右侧是收文过程，把电子公文或文档根据编号传送到指定接收方，接收方收到电子公文或文档后，将电子公文或文档在计算机屏幕上显示出来或打印输出。如图9所示，是电子公文或文档交换系统的另一个示意图。该系统在电子公文或文档接收端，设置鉴别装置，对所述电子公文或文档进行相应的鉴别操作。由于个别文字已经被替换，所以，在计算机屏幕上显示出来或在打印输出的电子公文或文档会有细微的不同。
S15、电子公文或文档接收方鉴别电子公文或文档的真伪。
本实施例可以通过人工方式比较变体字来判断或通过计算机系统光学字符识别技术自动判断电子公文或文档的真伪。
当需要鉴别公文时，把公文或文档扫描到鉴别系统，通过与原始公文或文档比对，识别出变体字，确定出公文或文档的真伪，并根据变体字编号和发文时的记录，从而得出该公文或文档是发送到哪个单位的第几份公文。当然，也可以通过人工的方式，通过比较加密后的电子公文或文档中的变体字来初步判断公文或文档的真伪，在对公文或文档进行自动鉴别时，涉及到光学文字识别技术(Optical Character Recognition)又称OCR技术，它的工作原理是通过扫描仪或数码相机等光学输入设备获取纸张上的文字图片信息，利用各种模式识别算法分析文字形态特征，判断出汉字的标准编码。这项技术，目前在资源数字化等领域已经有广泛的应用，在本实施例中，利用OCR的技术原理，对文件进行自动鉴别，使文件鉴别不再需要人工比对，提高了准确性和安全性。
本实施例中，采用对样张进行复印，扫描，再进行二值化的步骤，最终得到符合OCR标准的样张。然后按普通OCR的方式对样张进行版面纠斜、版面分析、行/字切分、归一化处理，获得待识别字符的归一化点阵。剩下的识别过程是一个从识别字典中查找最佳变体的过程，该变体的特征应该与待识别点阵的特征差异最小。在此过程中，除了运用通常OCR中的分类器对字符统一分类，缩小查找范围外，还可充分利用同一个字符的不同变体间差异很小的特点，在识别字典制作时，为属于同一个字符的不同变体提取公共特征数据。当识别中需要使用到某个变体的特征进行识别时，可先使用公共特征数据进行预识别，若预识别失败就可直接跳过属于该共特征的所有变体数据。
变体的确认当某个公共特征预识别成功后，需要遍历该公共特征包含的所有变体，进行细节的特征比对，计算识别字典中变体的的特征与代识别点阵特征的距离，距离越小表征其匹配程度越高。对识别字典中每个进行比对的变体，找出距离最小的一个作为待识别点阵代表的变体，同时还必须计算出该识别结论的可信度，作为后面解码时，对冗余编码进行表决的依据。单个变体的识别的可信度取决于两个因素被确认变体的最小识别别距离；与其它变体的识别距离。前者越小可信度越高，后者越大可信度越高，一个合理的可信度判别必须能同时表征这两种趋势。本实施例中，采用最小距离与次小距离之差与最小距离取反的加权和表示，值越大可信度越高。
得到各变体字的变体编号后，再反向计算隐藏的信息编码。若表示某位编码的一组变体编号不同，则需要该组中的所有变体共同表决，决定取某个编号(该编号直接对应该编码位的编码)。表决的过程就是计算每个变体编号可信度的过程，影响某个编号的信度的因素有两个每个变体的可信度和该编号包含的变体个数，这两个值都是越大可信度越高。本实施例中，采用每个变体的平均可信度与变体个数的加权和表示。
获得每个编码位的编码后，按与编码相反的步骤进行解码，可还原原始的隐藏信息。
通过上述实施例，可以看出本发明具有以下明显效果1、操作简单在电子公文或文档交换过程中自动增加特征标记，无须人工操作；2、隐蔽性强变体字隐藏在整篇文字中，保密对象无法察觉；3、鉴别容易除人工比较外，还可以通过OCR软件自动对比，自动对比时人工工作量大大减少；4、保密性强由于每次使用的变体字可以变化，识别使用OCR自动识别，破译者很难获得完整的编码规则；
5、编码能力强由于文字数量大，可选择编码数量多。
6、字形美观此类字库对字形控制能力较强，可以很好地保持字形美观。
7、识别结果非常可靠。在我们的实施例中，对4万个变体字进行个体，识别正确率高达99.9％，而按冗余方案进行的编码样张，在一定的污损等干扰存在的情况下，提取的编码仍完全正确。
本方法涵盖了一个完备的文件水印信息携带方法，除了能大批量生成特征变体字外、还包括特征的自动训练、根据具体情况进行不同冗余等级的编码、自动提取特征、解码等，可应用在任何需要通过文件进行隐蔽信息传输的情况。
本发明可以有很多方面的运用，例如运用公文传输方面，可大大提高电子公文传输的安全性和防伪性。在携带水印信息时，具体的携带方法是通过对文字字形的微小改变来生成多种变体，并通过对变体统一编码来隐藏信息，并通过人工或计算机文字识别技术自动识别变体的编号来提取水印信息。采用本发明所述的水印信息携带方法，具有视觉效果好、信息量大、生成和鉴别的自动化程度和效率高的特点。同时，本发明的方法可以有效抵抗复印、照相、污染、破损、折痕等多种干扰情况、具有相当好的可靠性。
显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。
权利要求
1.一种文档加密方法，其特征在于，包括以下步骤A、选定标准字进行变体操作形成变体字；B、对所述变体字进行编码，并按照所述编码将所述变体字添加至文件中，以所述的变体字携带水印信息；C、接收方对所述文件中的变体字进行解码，获取所述加密信息。
2.如权利要求1所述的方法，其特征在于，步骤B中，根据需要加密的信息对所述变体字进行编码，并按照所述编码将所述变体字添加至文件中，以所述的变体字携带水印信息。
3.如权利要求1所述的方法，其特征在于，所述的步骤A中，所述的选定字体，可以为汉字、字母或者其它种类文字或符号。
4.如权利要求3所述的方法，其特征在于，当选定标准字为汉字时，所述的变体操作，包括以下内容之一或者组合笔画连断、笔画移动、笔画旋转和笔画长度变化。
5.如权利要求4所述的方法，其特征在于，所述的步骤A中，可以只使用一种变体操作，或者同时使用几种变体操作。
6.如权利要求1所述的方法，其特征在于，所述的步骤A中，对于一个标准字制作多个不同的变体字或不同字体的变体字。
7.如权利要求1-6任意一项所述的方法，其特征在于，步骤A还包括对各标准字的不同变体字进行编号。
8.如权利要求7所述的方法，其特征在于，对各标准字的变体字按顺序进行一一编号。
9.如权利要求1所述的方法，其特征在于，所述的步骤A中，还包括将所述的变体字存入普通字库制作成专用字库。
10.如权利要求9所述的方法，其特征在于，所述的专用字库，选用TrueType字库或Postscript字库。
11.如权利要求1所述的方法，其特征在于，所述的步骤B中，将所述变体字添加至文件中，是将所述的变体字替换文件中该变体字对应的标准字。
12.如权利要求1所述的方法，其特征在于，所述的步骤B中，所述的将所述的变体字替换文件中该变体字对应的标准字，是根据文件编号确定使用的变体字，用不同字的变体字组合形成编号，与文件编号保持对应关系。
13.如权利要求1所述的方法，其特征在于，所述的步骤B中，所述的编码方法，按照文件内容顺序编码。
14.如权利要求1所述的方法，其特征在于，所述的步骤B中，所述的编码方法，每个标准字对应的变体字选用，依赖于或不依赖于当前所在标准字在文件中的位置。
15.如权利要求14所述的方法，其特征在于，所述的步骤B中，所述的编码方法，按照标准字顺序或非顺序编码。
16.如权利要求14所述的方法，其特征在于，所述的编码方法，文件中相同标准字对应的变体字的选用，选用相同的变体，或者不同的变体。
17.如权利要求14、15或16所述的方法，其特征在于，所述的步骤B中，将所述变体字添加至文件中还包括添加冗余信息。
18.如权利要求17所述的方法，其特征在于，所述的步骤B中，所述的冗余信息，设置在文件的不同区域；所述冗余信息携带于同一标准字所对应的同一或不同变体字中，所述冗余信息还携带于不同标准字所对应的同一或不同变体字中。
19.如权利要求14、15或16所述的方法，其特征在于，所述的步骤B中，将所述变体字添加至文件中还包括添加自校验信息。
20.如权利要求1所述的方法，其特征在于，所述的步骤B中，还包括输出所述文件，所述的文件包括电子公文或者文档。
21.如权利要求1所述的方法，其特征在于，所述的步骤C中，还包括将所述的文件在接收方计算机屏幕上显示或者以纸件形式打印出来，以供接收方阅读。
22.如权利要求1所述的方法，其特征在于，所述的步骤C中，所述的接收方进行解码，采用人工方式或使用计算机文字识别系统对所述的文件进行识别，以提取所述变体字携带的水印信息。
23.如权利要求1所述的方法，其特征在于，还包括对所述的计算机文字识别系统进行所使用变体字识别的训练，以提高对变体字的识别能力。
24.如权利要求23所述的方法，其特征在于，所述的步骤C中，所述的接收方进行解码，采用光学字符识别技术对图像格式文件自动判断。
25.一种鉴别电子公文或文档真伪的方法，其特征在于，包括以下步骤A将电子公文或文档中选定的标准字进行变体操作形成变体字集，并进行编号；B将专用字库安装在电子公文或文档交换系统中，根据电子公文或文档的编号确定使用的变体字，替换公文或文档中的标准字；C通过电子公文或文档交换系统将替换后的电子公文或文档传输给接收者；D识别出变体字，并根据识别出的变体字的编号判断电子公文或文档的真伪。
26.如权利要求25所述的方法，其特征在于所述的步骤D中，通过人工方式或比较变体字来判断或通过光学字符识别技术自动判断公文或文档的真伪。
27.如权利要求26所述的方法，其特征在于所述的步骤A中，用不同变体字的组合进行的编号，与公文或文档编号保持一一对应关系。
28.如权利要求25所述的方法，其特征在于还包括训练识别系统，使其可以识别所述变体字的步骤。
29.如权利要求25-28任意一项所述的方法，其特征在于替换后的电子公文或文档通过电子公文或文档交换系统传输并在计算机屏幕上显示或以书面的形式打印出来供接收者阅读。
30.如权利要求29所述的方法，其特征在于所述的电子公文或文档交换系统为一个或多个装有计算机文字处理软件及字库的计算机系统，它通过连接各个单位的基础计算机网络设施，实现多个单位或部门之间电子公文或文档的传输和管理。
31.一种文档加密的方法，其特征在于，包括以下步骤A选取足够多个字符进行变体操作形成专用字库，并进行编号；B将专用字库安装在电子公文或文档交换系统中，根据电子公文或文档的编号确定使用的变体字，替换公文或文档中的标准字；C通过电子公文或文档交换系统将替换后的电子公文或文档传输给接受者；D识别出变体字，并根据识别出的变体字的编号判断电子公文或文档的真伪。
32.一种专用字库的制作方法，其特征在于，包括以下步骤选取足够多个字符进行变体操作形成专用字库。
33.如权利要求32所述的一种文档加密的方法，其特征在于，所述变体操作包括以下内容之一或者组合笔画连断、笔画移动、笔画旋转和笔画长度变化。
全文摘要
本发明公开了一种文档加密方法。解决了现有技术中水印信息隐藏受限，存在信息量少的问题。包括A、对选定标准字进行变体操作形成变体字；B、对所述变体字进行编码，并按照所述编码将所述变体字添加至文件中，形成携带水印信息的文件；C、接收方对文件中的变体字进行解码，获取所述的水印信息。采用本发明的水印信息携带方法，所携带的水印信息量可以是非常大的，根据不同的变体字的选用，可以形成大量水印信息，为使用者带来非常大的方便。
文档编号H04L9/00GK1740943SQ20051009336
公开日2006年3月1日申请日期2005年8月26日优先权日2004年8月27日
发明者张力, 袁灯山, 尹树田, 徐剑波, 蒋建平, 卢怀平, 高志青, 周劲, 董瑛, 王剑申请人:北京北大方正电子有限公司, 北京大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张力;袁灯山;尹树田;徐剑波;蒋建平;卢怀平;张云明;高志青;周劲;董瑛;王剑
技术所有人：北京北大方正电子有限公司;北京大学;北京北大方正技术研究院有限公司
我是此专利的发明人

上一篇：实现ims和cs业务并发时的终端能力交互和路由控制的方法
上一篇：一种用户面协议栈和一种无损迁移实现方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。