一种基于三层可信网页取证模型的可信网页取证系统及其取证方法
【专利摘要】本发明公开了一种基于三层可信网页取证模型的可信网页取证系统及其取证方法,其特征是系统组成包括:证据取证服务器、证据存储服务器和证据呈现服务器;证据取证服务器负责证据的提取和固定,证据存储服务器负责证据的存储,证据呈现服务器负责验证证据的可靠性和生成证据文档。本发明能对网页信息进行取证与固定,并对获得的证据进行可靠的存储,从而生成法庭证据文档用于辅助案件侦破。
【专利说明】
—种基于三层可信网页取证模型的可信网页取证系统及其取证方法
【技术领域】
[0001]本发明属于电子取证领域,特别是涉及一种针对网页数据取证和侦察方法。
【背景技术】
[0002]目前现有的电子取证技术主要集中在主机电子取证,其中属于主机证据获取技术有:用于避免对原始介质进行破坏和干扰的对计算机系统文件的安全获取技术、对磁盘或其他存储介质的安全无损坏备份技术等。现有的主机电子取证技术存在很大的局限性:大部分方法针对性比较强,缺乏面向不同组织机构的适用性等。特别在直接用于对互联网网页内容进行取证时存在如下问题:
[0003]1.无法直接获得互联网内容提供商的数据存储介质。很多网站难以获取直接获服务器的存储设备(如有些服务器存放在境外),难以直接在数据存储介质上获取证据并进行取证。
[0004]2.网页内容动态易变,同时用户可以随时修改或者删除网页内容(如BBS论坛、博客等)。难以对服务器的存储设备进行固定,也就意味着犯罪分子对于网络上的数据可以随时进行修改或者删除,造成犯罪证据的丢失。
[0005]3.网页电子证据具有脆弱性。电子证据表示为二进制数据,以数字信号的方式存在,而数字信号是非连续的,因此故意或因差错对电子证据进行的变更、删除、删节、剪接、截收和监听等从技术上难以认定。
【发明内容】
[0006]本发明为克服上述现有技术存在的不足之处,提出一种基于三层可信网页取证模型的可信网页取证系统及其取证方法,能对网页信息进行取证与固定,并对获得的证据进行可靠的存储,从而生成法庭证据文档用于辅助案件侦破。
[0007]本发明为解决技术问题采用如下技术方案:
[0008]本发明一种基于三层可信网页取证模型的可信网页取证系统的特点是组成包括:证据取证服务器、证据存储服务器和证据呈现服务器;
[0009]所述证据取证服务器用于对用户提交的网页URL地址进行取证或对监视目标网站的URL地址进行取证和监视,并对所获得的证据进行分类和固定,形成由二进制数据、原始网页文件和原始网页截图构成的三层电子证据;
[0010]所述证据存储服务器自底向上分为第一层的网络数据层存储服务器、第二层的内容爬取层存储服务器和第三层的截图取证层存储服务器,分别用于存储所述三层电子证据的二进制数据、原始网页文件和原始网页截图,从而形成三层可信网页取证模型;
[0011]所述证据呈现服务器用于对所述三层电子证据进行防篡改验证并生成法庭证据文档。
[0012]本发明基于三层可信网页取证模型的可信网页取证系统的取证方法的特点是按如下步骤进行:
[0013]步骤I,所述取证服务器对所接收到的网页URL地址或监视目标网站的URL地址进行DNS解析,获得DNS解析结果;并对所述DNS解析结果进行哈希计算,获得哈希值后进行存储;
[0014]步骤2,所述取证服务器利用网络爬虫对所述网页URL地址或监视目标网站的URL地址进行爬取,分别获得二进制数据、原始网页文件和原始网页截图并依次存储到所述证据存储服务器的网络数据层存储服务器、内容爬取层存储服务器和截图取证层存储服务器中,从而在所述证据存储服务器中形成三层可信网页取证模型;
[0015]步骤3,所述证据呈现服务器根据用户提交的证据呈现请求,分别从所述证据存储服务器中获取所述二进制数据、原始网页文件和原始网页截图后按交叉验证原则进行防篡改验证;
[0016]所述交叉验证原则为:
[0017]步骤a、将所述二进制数据进行还原,获得网页文件后与所述原始网页文件进行比对;若比对结果一致,则执行步骤b ;否则执行步骤c ;
[0018]步骤b、将所述原始网页文件进行还原,获得网页截图后并与所述原始网页截图进行比对;若比对结果一致,则表示所述电子证据未被篡改并执行步骤4 ;否则表示所述原始网页截图被篡改,将所述网页截图替代所述原始网页截图后执行步骤4 ;
[0019]步骤C、将所述网页文件进行还原,获得验证网页截图后与所述原始网页截图进行比对;若比对结果一致,表示原始网页文件被篡改;丢弃所述原始网页文件后执行步骤4 ;否则则表示所述二进制数据被篡改,丢弃所述二进制数据后执行步骤4 ;
[0020]步骤4、所述用户向证据呈现服务器根据所述原始网页截图生成法庭证据文档。
[0021]本发明采用基于三层可信网页取证模型的可信网页取证系统,针对特定网页进行取证。本发明在取证过程中,只需要提供需要取证网页的URL,而无需获得存储该网页文件的存储介质,与现有技术相比,本发明的有益效果在于:
[0022]1.方案的整体效果:本发明提供的一种基于三层可信网页取证模型的网页取证方法,在安全性、鲁棒性、敏感性等方面做到很好的平衡,适合在实际网页犯罪取证中的应用,具有较好的实用性,能提供高可信的网页内容取证服务。
[0023]2.本发明针对以往技术缺乏面向不同组织机构的适用性,面向不同组织结构提供了两种取证服务,一种是面向普通用户的一次性网页取证服务,另一种是面向企业级用户的持续性网页监视和取证服务。
[0024]3.本发明针对互联网无法直接获得内容提供商数据存储介质的问题,采用将网页内容通过网络爬虫爬取到本地证据服务器上进行存储,从而无需从内容提供商处获得该网页文件的存储介质,即可获取需要的证据。
[0025]4.本发明针对网页内容易变性,同时用户可以随时修改或者删除网页内容(如BBS论坛、博客),采用版本控制功能,将不同时刻的网页内容加上时间戳保存在本地证据服务器上,即使之后用户删除网页内容也能根据时间戳还原之前的网页内容并将此作为证据。
[0026]5.本发明针对证据具有的脆弱性,在证据存储服务器中采用将不同三层证据分别存储在物理上相互隔离的服务器上,保证证据存储期间的安全性,确保三份证据无法同时遭到篡改,最终即使一份证据遭遇篡改仍能通过另外两份证据还原出遭到篡改的证据。
【专利附图】
【附图说明】
[0027]图1是基于三层可信网页取证模型的可信网页取证系统简要流程;
[0028]图2是三层证据进行相互校验流程图;
[0029]图3是爬取系统结构图网络爬虫取证过程;
[0030]图4是网络爬虫取证过程。
【具体实施方式】
[0031]本实施例中,一种基于三层可信网页取证模型的可信网页取证系统中的三层可信网页取证模型特征是将网页取证过程设计为三层,自底向上分别是网络数据层、内容爬取层和截图取证层,在不同层次上进行数据获取,对保存的证据可以在不同层次间进行交叉验证;同时,对所获取的网页组件重新还原出原来的网页,并在本地浏览器中真实的显示出来。最底层网络数据层负责记录网络通信数据,这些数据均为原始二进制;内容爬取层负责保存网页相关文件;截图取证层对爬取获得的网页进行截图并保存为图片。如图4所示,通过本系统的三层取证模型,证据经由第一层二进制文件,到第二层网页文件,直到第三层的截图文件,证据变得更加直观、可视,通过三层的取证,使得证据更加具有说服力(believable)。另外三层取证模型还为证据在不同层次之间交叉验证提供了框架。
[0032]如图1所示,可信网页取证系统的组成包括:证据取证服务器、证据存储服务器和证据呈现服务器;
[0033]证据取证服务器用于对用户提交的网页URL地址进行取证或对监视目标网站的URL地址进行取证和监视,并对所获得的证据进行分类和固定,形成由二进制数据、原始网页文件和原始网页截图构成的三层电子证据;
[0034]如图3所示,其中取证服务器包含如下三部分:
[0035]1、网络爬虫。网络爬虫能够模仿用户浏览网页过程,将服务器提供的信息爬取下来并固定成为电子证据,网络爬虫是按照一定规则自动抓取网络信息的脚本或程序,利用网络爬虫,能够进行定向、有选择的网络数据抓取。本网络爬虫使用Scrapy爬虫框架,Scrapy是通过Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。诉述取证系统所有三层证据均通过此爬虫框架获得。
[0036]2、版本控制。网页会实时快速变化,因此需要对网页每个版本根据时间来保存。通过版本控制,对每次保存的文件均做记录。通过设置HTTPHeader中的Last-Modified字段,来实现文件的缓存技术,对于返回为304则表示当前全球的文件未发生变化的文件,无需再次保存。在节省数据存储空间的同时,也能随时记录服务器上文件的变化情况。
[0037]3、DNS缓存记录。记录DNS查询结果,使得即使取证服务器已经遭受了恶意DNS欺骗攻击,也能够正确追溯错误结果,避免提供错误的信息。
[0038]证据存储服务器自底向上分为第一层的网络数据层存储服务器、第二层的内容爬取层存储服务器和第三层的截图取证层存储服务器,分别用于存储三层电子证据的二进制数据、原始网页文件和原始网页截图,从而形成三层可信网页取证模型;
[0039]对证据存储服务器中第一层的网络数据层存储服务器、第二层的内容爬取层存储服务器和第三层的截图取证层存储服务器进行物理上隔绝,保证证据存储期间的安全性,确保三份证据无法同时遭到篡改,最终即使一份证据遭遇篡改仍能通过另外两份证据还原出遭到篡改的证据。
[0040]证据存储服务器证据存储按如下步骤进行:
[0041]1、证据取证服务器利用WinpCap工具将收集到的目标网页二进制数据包存放到第一层网络数据层存储服务器上,同时网络数据层存储服务器对存储的二进制数据包进行哈希计算,并存储获得后的哈希值。
[0042]2、证据取证服务器利用网络爬虫将爬取获得的目标网页文件存放到第二层内容爬取层存储服务器上,同时内容爬取层存储服务器对存储的网页文件进行哈希计算,并存储获得后的哈希值。
[0043]3、证据取证服务器利用CutyCapt工具将生成的目标网页截图存放到第三层截图取证层存储服务器上,同时截图取证层存储服务器对存储的截图进行哈希计算,并存储获得后的哈希值。
[0044]证据呈现服务器用于对三层电子证据进行防篡改验证并生成法庭证据文档。
[0045]诉述证据呈现服务器的证据呈现是按如下步骤进行:
[0046]1、用户向证据呈现服务器提交某个已固定网址的URL ;
[0047]2、证据呈现服务器向证据存储服务器发送证据读取请求;
[0048]3、证据存储服务器对比自身存储的证据和相应的哈希值,确认证据无误后将各自证据发送到证据呈现服务器。
[0049]4、证据呈现服务器对汇总的三层证据按交叉验证原则进行防篡改验证,确认无误后生成法院证据文档,并将此文档返回给用户。
[0050]一种基于三层可信网页取证模型的可信网页取证系统的取证方法是按如下步骤进行:
[0051]步骤1,取证服务器对所接收到的网页URL地址或监视目标网站的URL地址进行DNS解析,获得DNS解析结果;并对DNS解析结果进行哈希计算,获得哈希值后进行存储;记录DNS查询结果,使得即使取证服务器已经遭受了恶意DNS欺骗攻击,也能够正确追溯错误结果,避免提供错误的信息。
[0052]步骤2,取证服务器利用网络爬虫对网页URL地址或监视目标网站的URL地址进行爬取,分别获得二进制数据、原始网页文件和原始网页截图并依次存储到证据存储服务器的网络数据层存储服务器、内容爬取层存储服务器和截图取证层存储服务器中,从而在证据存储服务器中形成三层可信网页取证模型;
[0053]三层可信网页取证模型通过三层内容固定,同时能够得到三份证据:二进制数据,原始网页文件,原始网页截图,并具有如下特征:
[0054]1、对于三份证据副本,均进行哈希计算,保存了获得的哈希值,保证不被篡改,能够进行交叉印证,确保证据的可信,即使其中一份被篡改时,也仍然可以依靠三者之间的交叉校验确保相关数据的真确性。
[0055]2、对于三种同时存在的取证固定方式,可以根据不同层次形式同时记录来保证取证数据的正确性以及不可被篡改性。一旦其中一份被篡改,可以使用其他两份通过各自方法检验其正确性,甚至恢复被篡改的证据。
[0056]3、第一层二进制数据包中的所包含具体数据内容可以通过各种解析得到第二层网页文件证据内容,但由于各种原因网关对数据包的分割方式可能存在不同,无法从第二层网页文件证据获得第一层二进制数据,所以第一层向第二层的提取过程是不可逆的。
[0057]4,HTTP文件、CSS样式、Javascript脚本等文件与网页截图是多对一的关系,而由于代码编写习惯等因素存在,不同的HTTP文件、CSS样式、Javascript脚本可能存在渲染后得到同一个页面的效果,并且当初网页渲染截图仅仅包含图像信息,因此第二层网页文件向第三层网页截图的数据提取过程也是不可逆的。
[0058]5、由于两层信息提取不可逆关系的存在,导致只有低层次证据能恢复高层次的证据,而无法从高层次的信息恢复低层次数据。
[0059]步骤3,证据呈现服务器根据用户提交的证据呈现请求,分别从证据存储服务器中获取二进制数据、原始网页文件和原始网页截图后按交叉验证原则进行防篡改验证;
[0060]如图2所示,交叉验证原则为:
[0061]步骤a、将步骤3的二进制数据进行还原,获得网页文件后与原始网页文件进行比对;若比对结果一致,则执行步骤b ;否则执行步骤c ;
[0062]步骤b、将步骤3的原始网页文件进行还原,获得网页截图后并与原始网页截图进行比对;若比对结果一致,则表示电子证据未被篡改并执行步骤4 ;否则表示原始网页截图被篡改,将网页截图替代原始网页截图后执行步骤4 ;
[0063]步骤C、将步骤a的网页文件进行还原,获得验证网页截图后与原始网页截图进行比对;若比对结果一致,表示原始网页文件被篡改;丢弃原始网页文件后执行步骤4 ;否则则表示二进制数据被篡改,丢弃二进制数据后执行步骤4 ;
[0064]防篡改验证包括以下内容:
[0065]1、假设只有第三层网页截图证据被篡改,可以使用第一层二进制证据通过模拟数据包的解析与爬虫框架爬取重新得到第二层网页文件证据,再与原始第二层网页文件证据进行比对。如果两者内容完全一样,则证明证据依旧有效。也可以经过被还原的第二层网页文件证据或原始第二层网页文件证据来恢复被篡改的第三层网页截图证据。
[0066]2、假设只有第二层网页文件证据被篡改,可以使用第一层二进制证据先恢复出第二层网页文件证据再由恢复出的证据提取出第三层网页截图证据,之后与原始第三层网页截图证据进行对比。如果两者内容一致则证明证据有效。
[0067]3、假设只有第一层二进制证据被篡改,由于第一层二进制证据提取的不可逆性导致不能完全恢复第一层二进制证据。只能使用第二层网页文件证据提取后与第三层网页截图证据进行比对,如果内容一致,则证明证据依旧有效。
[0068]步骤4、用户向证据呈现服务器根据原始网页截图生成法庭证据文档。
【权利要求】
1.一种基于三层可信网页取证模型的可信网页取证系统,其特征是组成包括:证据取证服务器、证据存储服务器和证据呈现服务器; 所述证据取证服务器用于对用户提交的网页URL地址进行取证或对监视目标网站的URL地址进行取证和监视,并对所获得的证据进行分类和固定,形成由二进制数据、原始网页文件和原始网页截图构成的三层电子证据; 所述证据存储服务器自底向上分为第一层的网络数据层存储服务器、第二层的内容爬取层存储服务器和第三层的截图取证层存储服务器,分别用于存储所述三层电子证据的二进制数据、原始网页文件和原始网页截图,从而形成三层可信网页取证模型; 所述证据呈现服务器用于对所述三层电子证据进行防篡改验证并生成法庭证据文档。
2.一种利用权利要求1所述的基于三层可信网页取证模型的可信网页取证系统的取证方法,其特征是按如下步骤进行: 步骤I,所述取证服务器对所接收到的网页URL地址或监视目标网站的URL地址进行DNS解析,获得DNS解析结果;并对所述DNS解析结果进行哈希计算,获得哈希值后进行存储; 步骤2,所述取证服务器利用网络爬虫对所述网页URL地址或监视目标网站的URL地址进行爬取,分别获得二进制数据、原始网页文件和原始网页截图并依次存储到所述证据存储服务器的网络数据层存储服务器、内容爬取层存储服务器和截图取证层存储服务器中,从而在所述证据存储服务器中形成三层可信网页取证模型; 步骤3,所述证据呈现服务器根据用户提交的证据呈现请求,分别从所述证据存储服务器中获取所述二进制数据、原始网页文件和原始网页截图后按交叉验证原则进行防篡改验证; 所述交叉验证原则为: 步骤a、将所述二进制数据进行还原,获得网页文件后与所述原始网页文件进行比对;若比对结果一致,则执行步骤b ;否则执行步骤c ; 步骤b、将所述原始网页文件进行还原,获得网页截图后并与所述原始网页截图进行比对;若比对结果一致,则表示所述电子证据未被篡改并执行步骤4 ;否则表示所述原始网页截图被篡改,将所述网页截图替代所述原始网页截图后执行步骤4 ; 步骤C、将所述网页文件进行还原,获得验证网页截图后与所述原始网页截图进行比对;若比对结果一致,表示原始网页文件被篡改;丢弃所述原始网页文件后执行步骤4 ;否则则表示所述二进制数据被篡改,丢弃所述二进制数据后执行步骤4 ; 步骤4、所述用户向证据呈现服务器根据所述原始网页截图生成法庭证据文档。
【文档编号】G06F17/30GK104199962SQ201410482826
【公开日】2014年12月10日 申请日期:2014年9月19日 优先权日:2014年9月19日
【发明者】胡东辉, 夏东冉, 李亚东, 樊玉琦, 吴信东 申请人:合肥工业大学