本发明涉及电子文件管理,尤其涉及一种电子文件格式识别方法。
背景技术:
1、随着信息技术的更迭和各种应用的展开,数据存储的类型和格式逐渐变得庞杂,多种不同类型的存储规则和文件格式使得数据处理过程变得复杂而繁琐,影响了电子数据的统一管理和存储,增加了有关部门和管理人员的工作难度,严重降低了工作效率。
2、例如:随着法院电子卷宗随案同步生成的应用范围越来越广泛,最高人民法院对电子卷宗随案同步生成提出了基本要求,其中对电子文件的应用格式及存储格式都提出了基本要求。在现实的法院电子卷宗系统应用中,采集的电子文件的格式繁杂,管理及存储都极为不易,缺乏必要的手段来检查采集的电子文件的格式是否符合规范,因而对于电子卷宗采集系统,需要一种格式检查手段来检查所采集的电子文件格式,以规范法院电子卷宗应用中电子文件的格式。
3、现有方案仅通过电子文件的后缀名来判断电子文件的格式,而不检测电子文件真实的封装格式,这种检测方法可能会误判电子文件的真实格式,导致电子文件在存储、应用处理方面出现异常。如果这一漏洞被恶意利用,还可能进一步导致电子文件应用系统损坏,电子卷宗数据的泄露的问题。
技术实现思路
1、本发明提供一种电子文件格式识别方法,用以解决现有技术中无法有效地识别出电子文件的真实格式的问题。
2、本发明提供一种电子文件格式识别方法,包括:
3、获取电子文件的字节数据流;
4、从所述字节数据流第一位开始按照预设位数段将第i段字节数据流转换为第i源格式字符;
5、将第i源格式字符与预设标准格式库中储存的预设文件格式的目标格式字符串的第i位字符进行字符匹配,其中,i=1,2,…,nmax,nmax为预设文件格式中最长的目标格式字符串的位数;
6、在多个源格式字符匹配出目标格式字符串的情况下,将匹配出的目标格式字符串对应的预设文件格式确定为所述电子文件的真实格式。
7、根据本发明提供的一种电子文件格式识别方法,所述预设标准格式库中,对每个预设文件格式的目标格式字符串中的字符按层存储,第i层存储节点存储预设文件格式的目标格式字符串的第i位字符,根据各预设文件格式的目标格式字符串中字符相邻关系,设置有第i层存储节点到第i+1层存储节点的指针,且每个预设文件格式的目标格式字符串中最后一个字符指向的下一层存储节点的存储内容标定为对应的预设文件格式。
8、根据本发明提供的一种电子文件格式识别方法,将第i源格式字符与预设标准格式库中储存的预设文件格式的目标格式字符串的第i位字符进行字符匹配,包括:
9、在i=1的情况下,将第i段字节数据流转换成的源格式字符与第i层中各存储节点存储的字符匹配;
10、在i>1的情况下,将第i段字节数据流转换成的源格式字符与第i-1层存储节点指向的第i层的存储节点存储的字符匹配。
11、根据本发明提供的一种电子文件格式识别方法,在多个源格式字符匹配出目标格式字符串的情况下,将匹配出的目标格式字符串对应的预设文件格式确定为所述电子文件的真实格式,包括:
12、在i=1,且第一段字节数据流转换成的源格式字符与第一层中各存储节点存储的字符匹配失败的情况下,输出所述电子文件格式无法识别的信息;
13、在i=1,且第一段字节数据流转换成的源格式字符与第一层中存储节点存储的字符匹配成功的情况下,将第i+k段字节数据流转换成的源格式字符与第i+k-1层存储节点指向的第i+k层的存储节点存储的字符进行第i+k次匹配,k=1,2,…,nmax-i;
14、在第任一i+k次匹配失败且第i+k-1层存储节点指向的第i+k层的存储节点存储的内容为预设文件格式的情况下,将预设文件格式确定为所述电子文件的真实格式,否则,输出所述电子文件格式无法识别的信息。
15、根据本发明提供的一种电子文件格式识别方法,所述预设位数段为四位一段。
16、根据本发明提供的一种电子文件格式识别方法,在确定电子文件的真实格式之后,还包括:将真实格式与预设的规范格式不匹配的电子文件转换为规范格式的电子文件。
17、根据本发明提供的一种电子文件格式识别方法,在获取电子文件的字节数据流之前,还包括:校验电子文件的完整性。
18、本发明还提供一种电子文件格式识别装置,包括:
19、字节数据流获取模块,用于获取电子文件的字节数据流;
20、字符转换模块,用于从所述字节数据流第一位开始按照预设位数段将第i段字节数据流转换为第i源格式字符;
21、字符匹配模块,用于将第i源格式字符与预设标准格式库中储存的预设文件格式的目标格式字符串的第i位字符进行字符匹配,其中,i=1,2,…,nmax,nmax为预设文件格式中最长的目标格式字符串的位数;
22、真实格式确定模块,用于在多个源格式字符匹配出目标格式字符串的情况下,将匹配出的目标格式字符串对应的预设文件格式确定为所述电子文件的真实格式。
23、本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的电子文件格式识别方法。
24、本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的电子文件格式识别方法。
25、本发明提供的一种电子文件格式识别方法,通过将电子文件的字节数据流中头几个字节按预设位数段逐段转换成源格式字符,将每个源格式字符分别于标准格式库中储存的预设文件格式的目标格式字符串的相应位字符进行字符匹配,在多个源格式字符匹配出目标格式字符串的情况下,将匹配出的目标格式字符串对应的预设文件格式确定为所述电子文件的真实格式,若未匹配出预设文件格式的目标格式字符串,则认为该电子文件格式为未知格式。因此,本实施例的方法通过解析电子文件的字节数据流封装格式,来确定所述电子文件的真实格式,确保所述电子文件的数据真实性,防止法院电子卷宗系统等文件应用系统被格式伪装的恶意文件破坏,提高了系统的安全性。
1.一种电子文件格式识别方法,其特征在于,包括:
2.根据权利要求1所述的电子文件格式识别方法,其特征在于,所述预设标准格式库中,对每个预设文件格式的目标格式字符串中的字符按层存储,第i层存储节点存储预设文件格式的目标格式字符串的第i位字符,根据各预设文件格式的目标格式字符串中字符相邻关系,设置有第i层存储节点到第i+1层存储节点的指针,且每个预设文件格式的目标格式字符串中最后一个字符指向的下一层存储节点的存储内容标定为对应的预设文件格式。
3.根据权利要求2所述的电子文件格式识别方法,其特征在于,将第i源格式字符与预设标准格式库中储存的预设文件格式的目标格式字符串的第i位字符进行字符匹配,包括:
4.根据权利要求3所述的电子文件格式识别方法,其特征在于,在多个源格式字符匹配出目标格式字符串的情况下,将匹配出的目标格式字符串对应的预设文件格式确定为所述电子文件的真实格式,包括:
5.根据权利要求1所述的电子文件格式识别方法,其特征在于,所述预设位数段为四位一段。
6.根据权利要求1所述的电子文件格式识别方法,其特征在于,在确定电子文件的真实格式之后,还包括:将真实格式与预设的规范格式不匹配的电子文件转换为规范格式的电子文件。
7.根据权利要求1~6中任一项所述的电子文件格式识别方法,其特征在于,在获取电子文件的字节数据流之前,还包括:校验电子文件的完整性。
8.一种电子文件格式识别装置,其特征在于,包括:
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~7中任一项所述的电子文件格式识别方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1~7中任一项所述的电子文件格式识别方法。