专利名称:一种基于字符打印特征的打印机取证方法
技术领域:
本发明属于信号与信息处理技术领域,涉及到文档的安全,特别涉及到一种基于字符打印特征的打印机取证方法。
背景技术:
激光打印机已成为政府、公司和个人等组织和机构广泛使用的日常办公设备,而且打印文件是公文、票据和各种凭证的主要形式。为了达到各种利益目的,利用打印机进行违法犯罪活动呈逐年上升趋势,例如制作假合同、假发票、假税票、假证件,发表反动言论文章等等。这些犯罪活动不仅可能会引起公司之间的经济纠纷,而且可能会影响到政府部门正常的安全事务,甚至是国家的安全等一系列问题。此外,在日常生活中,普通用户也同样需要真实的打印文件,因为由伪造的打印文件引起的民事案件和纠纷也屡屡发生。诸如此类问题都需要从司法角度对打印文件进行检验,使之成为有效的法律证据。但是利用现代化的设备伪造的打印文件不仅具有一定的隐蔽性,发现难度大;而且对伪造文件的检验需要进行综合性、系统性分析,检验难度大。因此,研究打印机识别的文件检验技术具有非常重要的现实意义。
传统的文件检验主要是采用人工借助仪器的手段,存在分析仪器价格高,操作专业性,人工操作凭经验,有一定的主观性等特点,已严重滞后于当前形势的发展。已有的利用计算机等常用电子设备进行打印机取证的研究主要是利用数字水印的主动取证技术。国外已有文献利用数字图像处理技术进行打印机的被动取证研究,但目前尚处于实验阶段,尤其是对于打印输出相对较多的文本文件的被动取证工作才刚刚开始。美国的普度大学是现在打印机取证技术的主要研究机构之一,发表文献中有很好的实验结果。
文献(G.N.Ali,P.-J.Chiang,A.K.Mikkilineni,G.T.-C.Chiu,E.J.Delp,and J.P.Allebach,“Application of principal components analysis and gaussian mixturemodels to printer identification,”Proceedings of the IS&T’s NIP20InternationalConference on Digital Printing Technologies,vol.20,Salt Lake City,UT,October/November 2004,pp.301-305.)认为打印机分类与各种模式识别技术相近,基本思想都是从打印文件中找到每台打印机特有的特征,然后进行分类。于是作者利用PCA技术把从字符得到的特征进行降维,然后用混合高斯模型和树型分类的方法来区分打印机,但是实验结果表明5台打印机判决正确4台,而且字符识别正确率较低。文献(Mikkilineni AK,Chiang P-J,Ali GN,Chiu GT-C,Allebach JP Delp EJ.Printer identification based on graylevel co-occurrence featuresfor security and forensic applications.InProceedings of the SPIE InternationalConference on Security,Steganography,and Watermarking of Multimedia ContentsVII,vol.5681.San Jose,CA;March 2005.p.430-40;A.K.Mikkilineni,O.Arslan,P.-J.Chiang,R.M.Kumontoy,J.P.Allebach,G.T.-C.Chiu,and E.J.Delp,“Printerforensics using svm techniques,”Proceedings of the IS&T’s NIP21InternationalConference on Digital Printing Technologies,vol.21,Baltimore,MD,October 2005,pp.223-226.)利用共生矩阵对字符“e”进行纹理描述,提取其统计特征作为分类的依据。作者尝试用纹理描述的手段抓住每台打印机独有的“条带”频率特性,从而区分不同的打印机。实验结果表明,10台打印机都能判决正确,平均字符识别正确率为93.2%。
但是上述文献所提方法特征提取计算复杂度高,而且只能针对特定的字符,比如对于英文文档只能对字符“e”进行特征提取,作为判决的依据;如果扩展到中文,就只能针对汉字“的”这样频率出现高的字符。所以当待测打印文件所含字符较少或没有原先训练所用的高频字符(比如字符“e”)时,这种方法就会失效。以上不足制约了其实用性和扩展性。
发明内容
本发明的目的是针对现有技术的不足,提供了一种基于字符打印特征的打印机取证方法。该方法通过对待测打印文本文件,分割提取单个字符,并对每一个字符提取特征,然后用支持向量机分类识别得到混淆矩阵,最后采用投票的原则判定测试文档的源打印机,即追查到此打印文本文件的来源。本方法把待测文档中的任意字符都作为判决单元,解决了目前基于特定字符的打印机取证方法在文档字符较少或没有训练的字符时会失效的问题。
为了达到以上目的,本发明采用的技术方案是一种基于字符打印特征的打印机取证方法,包括以下步骤 步骤1对需要取证的每台打印机打印相同的样本一页由50个一级常用汉字组成的约1400个字符的文档,用于训练;7页由所有一级常用汉字组成的约10000个字符的文档,用于测试计算每台打印机的平均字符分类正确率。
步骤2对每一个样本扫描,提取单个字符所有样本都是用同一台扫描仪扫描成数字图像,分辨率为600dpi,保存为灰度BMP图;提取的字符尽量没有倾斜,边框边缘尽量与字符边缘相切。
步骤3对每一个字符提取特征量字符打印区域平均能量、字符打印区域的灰度值熵、字符打印区域的灰度值方差、字符噪声图像的一阶矩均值、字符噪声图像的二阶矩均值、字符模糊度。
步骤4用支持向量机(SVM)训练得到最优模型对一页由50个一级常用汉字组成的约1400个字符的文档进行训练;通过网格搜索和交叉校验得到SVM最优分类参数C和γ,利用最优分类参数得到最优模型。
步骤5对设计的样本进行测试,得到每台打印机的平均字符分类正确率对7页由所有一级常用汉字组成的约10000个字符的文档进行测试;测试得到混淆矩阵后计算每台打印机的平均字符分类正确率。
步骤6计算每台打印机取证需要的最少字符数用需要取证的每台打印机平均字符分类正确率计算每台打印机取证需要的最少字符数。具体计算过程为设一张纸上有n个字符,每个字符的平均判断正确的概率为p,当一张纸上有一半以上的字符判断正确时,我们认为这张纸就是判断正确的,这样一张纸 最终判断正确的概率为这样得到每一张纸正确判断需要的 理想最少字符数,即当时,m的最小值。
步骤7对待测文档提取最少字符数,用SVM进行预测,判定此文档的来源测试文档提取的字符中有一半以上判断为训练集合中的A打印机打印,则认为此文档来源于A打印机。
本发明的效果和益处是,采用本发明所述的方法,只要对待测文档提取少量任意中文字符就能正确判决此文档的源打印机,可以大大减少取证时间;而且本发明所提字符特征使每台打印机的字符分类正确率非常高,从而增强了取证的可靠性。
本发明所述方法可以应用于司法部门在特定范围内追查打印文本文档的来源,具有较高的实用价值。
图1是中文字符打印扫描图。
图2是中文字符由二值化阈值限定的ROI图。
图3是中文字符由二值化阈值限定的ROB图。
图4是打印机取证的系统框图。
具体实施例方式 以下结合技术方案和附图,详细叙述本发明的具体实施方式
。
如图4所示,一种基于字符打印特征的打印机取证方法,包括以下步骤 1.对需要取证的每台打印机打印相同的样本 每台打印机打印一页由50个一级常用汉字均匀分布组成的约1400个字符的文档用于训练,这50个汉字可以从3375个一级常用汉字中随机挑选得到;7页由所有一级常用汉字组成的约10000个字符的文档,用于测试计算每台打印机的平均字符分类正确率。7页测试文档中3375个一级常用字符平均分布,每个字出现频率为3次。这8页设计的样本需要每台打印机相同设置模式下一次正常打印输出,中间没有其他打印输出。样本的字体,字号需要与待测文本文档一样,比如都是宋体,小四。每台打印机采用相同类型的纸张用于样本打印,而且尽量与待测文档质量相近的纸张类型。
2.对每一个样本扫描,提取单个字符 所有的样本和待测文档都是用同一台扫描仪扫描生成数字图像,分辨率设置为600dpi,保存为灰度BMP图。扫描时尽量保证纸张没有倾斜,提取的单个字符边框尽量与字符边缘相切。
3.对每一个字符提取特征量 图1给出的是打印扫描后一个中文字符例子。图2为图1经过处理得到的图像,其中灰色部分为感兴趣区域ROI,也即为提取特征的区域,由自适应二值化阈值限定,注意对原始图像进行二值化是为找到理想字符的打印边界,得到的图2是图1的一部分,而不是二值化后的图像。这里定义图2为图像I,ROI区域像素总数为N。图3为图1去掉图2以后剩余部分,其中灰色区域为模糊区域ROB。
a.字符打印区域平均能量 b.字符打印区域的灰度值熵 其中m为像素灰度值。
c.字符打印区域的灰度值方差 其中μ为ROI区域灰度的均值, d.对字符图像进行3×3高斯滤波,计算噪声图像的一阶矩均值和二阶矩均值。Iorig表示原始图像(图1),If表示滤波后的图像,此时字符图像中的感兴趣区域ROI′为Iorigij<255像素集合,则噪声图像的一阶矩均值为 同理噪声图像的二阶矩均值为 其中 e.字符模糊度 4.用支持向量机(SVM)训练得到最优模型 针对由50个一级常用汉字组成的约1400字符的文档,以支持向量机(SVM)为分类器,输入每一个字符的特征向量进行训练。这里我们使用的是LIBSVM,选择C-SVC,非线性的径向基函数(RBF)作为核函数,通过网格搜索和交叉校验得到最优分类参数C和γ,利用最优分类参数得到最优模型,其中参数C的网格搜索范围为{2-5,2-4,…,25},参数γ的网格搜索范围为{2-5,2-4,…,23},交叉校验的v=5。
5.对设计的样本进行测试,得到每台打印机的平均字符分类正确率 用上一步得到的SVM最优模型对7页由所有一级常用汉字组成的约10000个字符的文档进行测试,测试得到混淆矩阵后计算每台打印机的平均字符分类正确率。在用SVM训练和测试时,需要对特征向量数据进行归一化。
6.计算每台打印机取证需要的最少字符数 具体计算过程为设一张纸上有n个字符,每个字符的平均判断正确的概率为p,当一张纸上有一半以上的字符判断正确时,我们认为这张纸就是判断正确的,这样一张纸最终判断正确的概率为这样得到每一张纸正确判断需要的理想最少字符数,即当时,m的最小值。
7.对待测文档提取最少字符数,用SVM进行预测,判定此文档的来源 经过步骤(6)每台打印机部可以计算得到一个m值,即正确判断一张纸需要的理想最少字符数。设这些m值中,最大的m值为mmax,对待测文档提取mmax个字符用于SVM预测。依据投票原则,这些预测的字符中有一半以上判决为A打印机,则我们认为此待测文档为A打印机所打印。理想情况下对待测文档提取mmax个字符就能判断正确,但是为了取证的可靠性,一般情况下还是提取尽可能多的字符作为判决的依据,这是取证可靠性和取证效率的一个折中。我们提出的mmax,是在尽可能保证取证可靠性的前提下,减少取证的时间。
上述步骤只是一个优选的实施方案。本领域技术人员不难得出其他的实施方法而不违背本发明的总体思想。
其中,对于训练样本可以选择更多的汉字等。
权利要求
1.一种基于字符打印特征的打印机取证方法,其特征是对需要取证的每台打印机打印相同的样本;对每一个样本扫描,提取单个字符;对每一个字符提取特征量;用支持向量机(SVM)训练得到最优模型;对设计的样本进行测试,得到每台打印机的平均字符分类正确率;计算每台打印机取证需要的最少字符数;对待测文档提取最少字符数,用SVM进行预测,判定此文档的来源。
2.根据权利要求1所述的一种基于字符打印特征的打印机取证方法,其特征是每台打印机打印相同的训练样本一页由50个一级常用汉字组成的约1400个字符的文档,用于训练;7页由所有一级常用汉字组成的约10000个字符的文档,用于测试计算每台打印机的平均字符分类正确率;7页测试文档中3375个一级常用字符平均分布,每个字出现频率为3次;样本文档都是相同字体,相同字号;而且是一次正常打印输出。
3.根据权利要求1所述的一种基于字符打印特征的打印机取证方法,其特征是所有的样本和待测文档都是用同一台扫描仪扫描生成数字图像,分辨率设置为600dpi,保存为灰度BMP图。
4.根据权利要求1所述的一种基于字符打印特征的打印机取证方法,其特征是对每个字符提取以下6个特征量
S4-1.字符打印区域的平均能量N为图像I(图2)ROI区域像素总数;
S4-2.字符打印区域的灰度熵其中m为像素灰度值;
S4-3.字符打印区域的灰度值方差其中μ为均值,
S4-4.对字符图像进行高斯滤波,计算噪声图像的一阶矩均值和二阶矩均值I表示原始图像,If表示滤波后的图像,此时字符图像中感兴趣区域ROI′为Iij<255像素集合,则噪声图像的一阶矩均值为同理噪声图像的二阶矩均值为其中
S4-5.字符模糊度即非正常打印区域像素个数占打印像素的比率,ROB为图3中灰色区域。
5.根据权利要求1所述的一种基于字符打印特征的打印机取证方法,其特征是针对由50个一级常用汉字组成的约1400字符的文档,以SVM为分类器,输入每一个字符的特征向量进行训练,通过网格搜索和交叉校验得到最优分类参数C和γ,利用最优分类参数得到最优模型。
6.根据权利要求1所述的一种基于字符打印特征的打印机取证方法,其特征是用权利要求5得到的SVM最优模型对7页由所有一级常用汉字组成的约10000个字符的文档进行测试,测试得到混淆矩阵后计算每台打印机的平均字符分类正确率。
7.根据权利要求1所述的一种基于字符打印特征的打印机取证方法,其特征是计算每台打印机取证需要的最少字符数,具体计算过程为设一张纸上有n个字符,每个字符的平均判断正确的概率为p,当一张纸上有一半以上的字符判断正确时,则这张纸就是判断正确的,这样一张纸最终判断正确的概率为这样得到每一张纸正确判断需要的理想最少字符数,即
当时,m的最小值。
8.根据权利要求1所述的一种基于字符打印特征的打印机取证方法,其特征是对待测文档提取最少字符数,用SVM进行预测,判定此文档的来源;由权利要求7所述,每台打印机都可以计算得到一个m值,即正确判断一张纸需要的理想最少字符数;设这些m值中,最大的m值为mmax,对待测文档提取mmax个字符用于SVM预测,依据投票原则,这些预测的字符中有一半以上判决为A打印机,则此待测文档为A打印机所打印。
全文摘要
本发明属于信号与信息处理技术领域,涉及到一种基于字符打印特征的打印机取证方法。其特征在于通过对待测文档提取计算得到的一页纸判断正确时需要的最少字符数,并对字符提取特征,用支持向量机进行分类识别,最终用投票的方法判决此文档的来源。本发明的效果和益处是只要对待测文档提取少量任意中文字符就能正确判决此文档的源打印机,可以大大减少取证时间;而且本发明所提字符特征使每台打印机的字符分类正确率非常高,从而增强了取证的可靠性,可以有效地追查打印文本文档的来源。本发明适用于信息安全领域。
文档编号G06K9/46GK101118592SQ20071001258
公开日2008年2月6日 申请日期2007年8月22日 优先权日2007年8月22日
发明者孔祥维, 沈林杰 申请人:大连理工大学