LZSS压缩数据误码检测方法及装置与流程

文档序号:20060832发布日期:2020-03-06 07:57阅读:464来源:国知局
LZSS压缩数据误码检测方法及装置与流程

本发明属于数据压缩存储技术领域,特别涉及一种lzss压缩数据误码检测方法及装置。



背景技术:

对于任何形式的通信来说,只有当信息的发送方和接受方都能够理解编码机制的时候压缩数据通信才能够工作。在压缩过程中,在不丢失有用信息的前提下,缩减数据量以减少存储空间,提高其传输、存储和处理效率,或按照一定的算法对数据进行重新组织,减少数据的冗余和存储的空间的一种技术方法。数据压缩包括有损压缩和无损压缩。典型的无损压缩算法lzss压缩文件在错误检测与纠正过程中,可通过对标志位和匹配长度作为错误敏感部分采用一元编码并插入同步序列,移至压缩编码开头的位置;还有采用不等错误保护方案,通过使用rs编码来进行错误检测,但是插入了额外比特来检错,降低了压缩率,改变了lzss标准算法;或根据lzss压缩准则进行错误检测,不需要插入额外比特,提高压缩比,但有三个缺点:一是只使用了lzss编码规则进行检测,错误检测率低,二是没有提出可行的纠正损坏文件错误比特的方案,三是采用的检测方法基于一种修改过的lzss压缩算法,不适用标准算法,不具有通用性,无法适用于其他类型的压缩文件;基于lzw的容错解压算法中,采用0阶马尔可夫模型作为语法模型检测压缩数据,通过源文件和压缩文件两种先验信息,但0阶马尔可夫模型对英文字母的错误检测以及纠正来说不够精确,其容错解压结果的性能无法达到一般要求。



技术实现要素:

为此,本发明提供一种lzss压缩数据误码检测方法及方法,不需要添加任何的附加位实现压缩数据中误码的检测,完全不会影响压缩性能,提高压缩数据检测的处理效率和准确度,降低存储设备的能耗。

按照本发明所提供的设计方案,提供一种lzss压缩数据误码检测方法,用于对lzss压缩数据进行误码检测,包含:

针对待检测的lzss压缩数据,获取压缩数据单元结构,无损数据压缩过程中前视窗口和搜索窗口两者长度,及码字(d,l)中d和l的二进制编码长度,d为搜索窗口中匹配字符串的起始位置到搜索窗口结束位置的距离,l为搜索到的最长匹配字符串的长度;

依据前视窗口、搜索窗口、码字中二进制编码及压缩数据单元结构,对压缩数据错误编码进行检测。

作为本发明的lzss压缩数据误码检测方法,进一步地,无损数据压缩过程中,依据最小匹配长度确定编码结果的码字类型,使用1比特标志位对码字类型进行指示。

作为本发明的lzss压缩数据误码检测方法,进一步地,无损数据压缩过程中,通过寻找存储在前视窗口和搜索窗口中的最长匹配字符串,如果最长匹配字符串的长度不小于最小匹配长度l,则输出类型为码字(d,l),前视窗口和搜索窗口分别向后滑动l个字符;如果最长匹配字符串的长度小于l,则输出类型为存储在前视窗口中的第一个字符c,前视窗口和搜索窗口分别向后滑动1个字符;重复执行,直到前视窗口变为空为止。

作为本发明的lzss压缩数据误码检测方法,进一步地,压缩数据被分割若干单元结构,每个单元结构包含标志子单元和存放编码数据子单元,其中,标志子单元中的每个比特位用于指示存放编码数据子单元存放编码数据的码字类型。

作为本发明的lzss压缩数据误码检测方法,进一步地,对压缩数据错误编码进行检测中,依次依据前视窗口和搜索窗口长度是否满足比特被充分利用的条件,单元结构中标志子单元获取的数据单元长度与存放编码数据子单元获取的数据单元长度是否一致,及搜索窗口、前视窗口是否均不小于码字中d和l的二进制编码长度的大小关系,若均满足,则判定压缩数据无错误,结束检测,若依次执行中有其中一项不满足,则直接判定压缩数据有错并结束检测。

作为本发明的lzss压缩数据误码检测方法,进一步地,比特被充分利用的条件表示为:2m-1<q≤2m,2n-1<w≤2n,其中,m、n分别表示码字(d,l)中d、l的二进制编码长度,w、q分别表示前视窗口、搜索窗口长度。

作为本发明的lzss压缩数据误码检测方法,进一步地,单元结构中,设定标志子单元长度为8比特,则获取的数据单元长度一致性判定条件表示为:其中,fi(1≤i≤8)表示标志子单元中的第i个标志位的取值,li(1≤i≤8)表示fi对应的第i个存放编码数据子单元的长度。

作为本发明的lzss压缩数据误码检测方法,进一步地,搜索窗口、前视窗口及码字中二进制编码长度大小关系判定中,依次判定是否满足:

l≤w、d≤q及l≤d

若均满足,则判定压缩数据无错误,结束检测,若依次执行中有其中一项不满足,则直接判定压缩数据有错并结束检测,其中,w、q分别表示前视窗口、搜索窗口长度

进一步地,本发明还提供一种基于lzss压缩数据误码检测装置,用于对lzss压缩数据进行误码检测,包含:数据获取模块和编码检测模块,其中,

数据获取模块,用于针对待检测的lzss压缩数据,获取压缩数据单元结构,无损数据压缩过程中前视窗口和搜索窗口两者长度,及码字(d,l)中d和l的二进制编码长度,d为搜索窗口中匹配字符串的起始位置到搜索窗口结束位置的距离,l为搜索到的最长匹配字符串的长度;

编码检测模块,用于依据前视窗口、搜索窗口、码字中二进制编码及压缩数据单元结构,对压缩数据错误编码进行检测。

进一步地,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述的lzss压缩数据误码检测方法。

本发明的有益效果:

本发明利用直接从压缩数据中获取的单元结构及窗口码字长度,不添加任何的附加位来检测压缩数据中的误码,完全不会影响压缩性能,解决传统编码数据检错方法需要插入额外比特、降低压缩效率等的问题,进一步提高误码检测效率和检错性能,对数据压缩误码检测技术具有重要的指导意义。

附图说明:

图1为本发明实施例中误码检测方法流程示意图;

图2为本发明实施例中比特分配示意图;

图3为本发明实施例中lzss压缩数据的单元结构示意图;

图4为本发明实施例中编码结果示意;

图5为本发明实施例中编码检测算法示意图;

图6为本发明实施例中误码检测装置示意图;

图7为本发明实施例压缩性能验证中不同编码方式下压缩率大小折线图;

图8为本发明实施例检错性能验证中错误检出率与比特数关系示意图;

图9为本发明实施例运行时间分析中方案对比折线图。

具体实施方式:

为使本发明的目的、技术方案和优点更加清楚、明白,下面结合附图和技术方案对本发明作进一步详细的说明。

lz77通过输出实际字符解决了在窗口中没有找到匹配字符串的问题,但是这种压缩算法仍然有冗余存在,它的压缩率也可以进一步地提高。lz77的冗余主要体现在两个方面,一是空指针的情况,另一个是编码器可能输出额外的字符,由于lz77算法匹配到字符串后输出匹配后前向缓冲区中的第一个字符,该字符可能包含在下一个匹配串中。lzss有效解决了这个问题,降低了这种冗余,如果匹配串的长度比最小匹配长度长,就输出指针,否则输出真实的字符。针对现有压缩编码错误检测中存在的问题,本发明实施例中,提供一种lzss压缩数据误码检测方法,用于对lzss压缩数据进行误码检测,参见图1所示,包含:

s101、针对待检测的lzss压缩数据,获取压缩数据单元结构,无损数据压缩过程中前视窗口和搜索窗口两者长度,及码字(d,l)中d和l的二进制编码长度,d为搜索窗口中匹配字符串的起始位置到搜索窗口结束位置的距离,l为搜索到的最长匹配字符串的长度;

s102、依据前视窗口、搜索窗口、码字中二进制编码及压缩数据单元结构,对压缩数据错误编码进行检测。

为了不降低压缩性能和编码效率,通过直接从压缩数据中获取的单元结构及窗口码字长度,不添加任何的附加位来检测压缩数据中的误码,在不影响压缩性能的前提下完成编码误码检测。

lzss无损数据压缩中输出的数据流包含指针和真实字符,需要额外的标志位进行区分,即flag位。当在前向缓冲区和搜索窗中找到匹配串,标志位flag置0,输出匹配串第一位字符在前向缓冲区和搜索窗中的距离d以及匹配串的长度m;当没有找到匹配串时,标志位置1,输出真实字符。为将lzss实用化,定义其标准算法的参数,搜索窗的大小为4078字节,前向缓冲区的大小为18字节,最小匹配长度为3。标志位为1bit,输出指针和匹配长度为2个字节计16bits,其对应比特如图2所示,其中,以第二个字节的低四位表示匹配长度,由于当匹配长度大于等于3时,才会输出匹配长度这一参数,因此输出m-3,m的范围由0~15改变为3~18,匹配长度的范围扩大。编码时以8个标志位为一组,构成一个字节,后跟8个单元,标志位flag=0,对应单元的数据为(di,mi),i∈z+占2个字节;标志位flag=1,对应单元数据为真实字符,占1个字节或2个字节。

在lzss压缩算法中使用了两个滑动窗口,分别是前视窗口和搜索窗口。当进行压缩时,lzss算法会寻找存储在前视窗口和搜索窗口中的最长匹配字符串。如果最长匹配字符串的长度不小于规定的最小匹配长度l,则算法输出码字(d,l),前视窗口和搜索窗口分别向后滑动l个字符,其中d为搜索窗口中匹配字符串的起始位置到搜索窗口结束位置的距离,l为搜索到的最长匹配字符串的长度。如果最长匹配字符串的长度小于l,则算法输出存储在前视窗口中的第一个字符c,前视窗口和搜索窗口分别向后滑动1个字符。上述压缩过程会重复执行,直到前视窗口变为空为止。由于lzss算法依据最小匹配长度确定编码结果的类型是(d,l)还是c,因此需要使用1比特标志位指示对应的码字代表(d,l)还是c。

lzss算法把编码数据分成若干单元结构,每个单元结构由9个子单元构成,第1子单元为1个字节的标志子单元f,其余8个子单元存放编码数据,标志子单元的8位比特依次分别指示随后8个子单元存放的是(d,l)还是c。当标志比特为0,相应子单元为码字(d,l),当标志比特为1,相应子单元为单字符c。lzss压缩数据按照图3所示的单元结构进行存储和传输,根据编码规则和数据格式可知,单元结构的长度是不固定的。当输入数据流为“abcacbabcaccac”时,前视窗口和搜索窗口的大小分别设置为9和12,最小匹配长度设为3,使用lzss算法进行无损数据压缩,图4给出了编码结果,其对应的十六进制数据为“fc61626361636236353333”。

进一步,采用lzss算法压缩编码的过程可表示为如下内容:

搜索窗口

原始数据区域

第一步:在搜索窗口中未找到匹配的字符串,输出字符“a”对应ascii码0x65h,flag=1。

第二步:未找到匹配的字符串,输出字符“b”,0x66h,flag=1。

第三步:在搜索窗口中找到匹配的字符串“ab”,但匹配长度小于3,不符合要求,输出字符“a”,flag=1。

第四步:未找到匹配的字符串,输出字符“b”,flag=1。

第五步:未找到匹配的字符串,输出字符“c”,flag=1。

第六步:在搜索窗口中找到匹配的字符串“bab”,距离为4,匹配长度等于3,输出(d1,m1)=0x0400h,flag=0。

第七步:在搜索窗口中找到匹配的字符串“abc”,距离为6,匹配长度等于3,输出(d1,m1)=0x0600h,flag=0。

第八步:同前面过程,在搜索窗口中未找到匹配的字符串,输出字符“a”“d”对应ascii码,flag=1。

进一步地,本发明实施例中,对压缩数据错误编码进行检测中,依次依据前视窗口和搜索窗口长度是否满足比特被充分利用的条件,单元结构中标志子单元获取的数据单元长度与存放编码数据子单元获取的数据单元长度是否一致,及搜索窗口、前视窗口是否均不小于码字中d和l的二进制编码长度的大小关系,若均满足,则判定压缩数据无错误,结束检测,若依次执行中有其中一项不满足,则直接判定压缩数据有错并结束检测。

在lzss压缩算法中,可分别用m比特和n比特表示码字(d,l)中d和l的二进制编码的长度,则(d,l)的总长度为(m+n)比特,采用美国信息交换标准码(americanstandardcodeforinformationinterchange:ascii)的c用8比特表示。根据lzss的压缩机制,以及通过分析lzss压缩数据的结构可以发现,lzss压缩数据中的码字存在5种关系模式,即需要满足5个条件:

①设前视窗口和搜索窗口的长度分别为w和q,为了充分利用每个比特,m、n与w、q之间需要满足下式给定的条件:

2m-1<q≤2m,2n-1<w≤2n(1)

②在lzss压缩数据的单元结构中,通过标志子单元f的8位比特计算得到的数据单元长度,需要与其余8个子单元的总长度一致,这种情况可表示为:

其中,fi(1≤i≤8)表示标志子单元中的第i个标志位的取值,li(1≤i≤8)表示fi对应的第i个压缩数据子单元的长度。

③匹配字符的数量l的上限是前视窗口的起始位置与结束位置之间的距离,即前视窗口的长度。所以,l应当不大于前视窗口w的大小,如下式所示:

l≤w(3)

④匹配字符的距离d的上限是搜索窗口的起始位置与结束位置之间的距离,即搜索窗口的长度。所以,d应当不大于搜索窗口q的大小,如下式所示:

d≤q(4)

⑤为了实现有效压缩,压缩过程中前视窗口的长度必定小于搜索窗口的长度,因此l应当不大于d,这种情况可表示为:

l≤d(5)

如果没有出现错误,则lzss压缩数据必定满足式(1)-式(5)所示的5种关系模式。5种关系中只要有1个未满足,则lzss压缩数据中一定存在错误。因此,这5个表达式可作为发现误码的条件,用于检测lzss压缩数据中是否存在错误。图5显示了本发明实施例中所提出的错误检测算法的流程图,lzss算法把压缩数据分成若干单元结构,每个单元结构由标志子单元和数据子单元组成,进一步地,实施例中,首先判断前视窗口的长度和搜索窗口的长度是否满足式(1),然后从lzss压缩数据中获取标志子单元和数据子单元的相关信息,检测标志子单元所指示的数据单元长度与数据子单元的总长度是否满足式(2),若不满足则确定数据中有误码,若满足则依次获取表示二进制编码码字c=(d,l)的(m+n)个比特,m比特是d的二进制编码,n比特是l的二进制编码。然后检查d和l是否满足式(3)-式(5)规定的关系模式。重复执行这些过程,直到所有单元结构中的压缩数据全部处理完毕。在错误检测期间,5种关系模式中只要有1种不满足,则确定lzss压缩数据中存在误码。

基于上述的方法,本发明实施例还提供一种lzss压缩数据误码检测装置,用于对lzss压缩数据进行误码检测,参见图6所示,包含:数据获取模块和编码检测模块,其中,

数据获取模块,用于针对待检测的lzss压缩数据,获取压缩数据单元结构,无损数据压缩过程中前视窗口和搜索窗口两者长度,及码字(d,l)中d和l的二进制编码长度,d为搜索窗口中匹配字符串的起始位置到搜索窗口结束位置的距离,l为搜索到的最长匹配字符串的长度;

编码检测模块,用于依据前视窗口、搜索窗口、码字中二进制编码及压缩数据单元结构,对压缩数据错误编码进行检测。

为验证本发明技术方案的有效性,下面通过具体实验数据做进一步解释说明:

设置相同条件下,lzss压缩文件分别采用本发明实施例中提出的检错方法和重复码、偶校验、汉明码的方法进行比较。lzss采用标准算法参数,最小长度选择最优值3,重复码重复次数为2,偶校验码为每4bits添加一位偶校验位。汉明码采用(7,4)汉明码。表7-4和表7-5分别列出了calgary语料库、canterbury语料库四种校验码的压缩率。压缩率为压缩后文件大小比未压缩文件大小。

表7-4calgary语料库压缩率分析

表7-5canterbury语料库压缩率分析

图7表示了calgary语料库和canterbury语料库中各文件lzss编码与重复码、偶校验码三种编码方式下文件压缩率大小关系的折线图,其中纵坐标表示压缩率,横坐标依次表示语料库中的文件,四条折线表示了四种不同的编码方式。

根据两个语料库的实验结果,均可以说明,在利用压缩编码规则得到的检错条件是压缩效果最好的,无论是重复码,还是偶校验码、汉明码,都不可避免的增加了额外比特,使得本身就不高的压缩比再次降低。

为了评估每个lzss压缩编码检错和重复码、偶校验码、汉明码三种方案的检错性能,定义错误检测率为rate=nd/nt*100%。nd是所有正确检测到的损坏数据的数量,nt是损坏数据的总数。图8中,(a)和(b)表示了在最小匹配长度为3的条件下,以calgary语料库和canterbury语料库中的文件为样本进行实验得到的错误检测率与错误比特数的关系。图中,省略了每个语料库r=2的重复码、n=4的偶校验位以及k=4的汉明码传统校验方案的实验结果。所有语料库的传统校验方案错误检测率均为100%。在r=2的重复码中,如果一个比特及其相应的重复位都发生错误,则错误检测失败。但是,这两位很少同时出错,因为错误不是顺序发生的,而是在仿真中随机且独立地发生的。在n=4的偶校验位中,当由于错误导致出现偶数个错误比特时,该方案不能检测是否出错。在实验中发现每五个比特执行的偶校验几乎总是检测到错误比特,这是因为在五个比特中很少同时出现偶数个错误比特。另外,使用k=4,3个校验位的汉明码也几乎总是检测到比特流中是否存在错误。当错误比特数小于等于6时,本发明实施例中所提出的方案落后于传统方案。当错误比特数较小,可能误码后的数据仍然符合三个条件,则无法发现错误。当错误比特数大于等于7时,所提出的错误检测模型几乎总能检测到比特流中的错误。但是,传统校验方案都需要利用额外比特,本发明实施例中的检测方案不需要额外比特,当错误比特数大于等于7时,该方案的性能优于传统校验方案。

为了评估本发明实施例中所提的检测方法与重复码、偶校验码、汉明码的运行时间性能,分别统计用四种方案进行校验所需的时间,统计时间从读取压缩文件开始,到检错完成结束,时间单位为秒。为保证数据的准确性,降低偶然性因素的影响,将记录100次实验的运行时间并取均值,以下表格7-7和7-8中的数据均为取均值的结果。

表7-7calgary语料库实验结果

表7-8canterbury语料库实验结果

折线图参见图9中,(a)所示calgary语料库实验结果,(b)所示canterbury语料库实验结果。根据实验结果,可以得出运用本发明实施例中所提的错误检测方案运行时间最短。根据编码规则分析得到的三个条件进行检错,相比较重复两次的重复码、每4比特添加一位校验位的偶校验码和(7,4)汉明码,具有最短的运行时间,算法性能明显由于传统的校验方案。

通过以上实验数据,可进一步验证本发明实施例中技术方案相比较于传统的检错方法,如重复码,汉明码等,最大的优势是不添加额外比特,不会降低压缩率,在解决传统检错方法面临的插入额外比特、降低压缩效率等的问题时,并进一步提高检错性能。

除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。

基于上述的方法,本发明实施例还提供一种服务器,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述的方法。

基于上述的方法,本发明实施例还提供一种计算机可读介质,其上存储有计算机程序,其中,该程序被处理器执行时实现上述的方法。

本发明实施例所提供的系统/装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,系统/装置实施例部分未提及之处,可参考前述方法实施例中相应内容。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统/装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在这里示出和描述的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制,因此,示例性实施例的其他示例可以具有不同的值。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1