数据压缩方法及设备的制造方法

文档序号:8319189阅读:305来源:国知局
数据压缩方法及设备的制造方法
【技术领域】
[0001] 本发明实施例涉及通信技术,尤其涉及一种数据压缩方法及设备。
【背景技术】
[0002] 在无线通信网络中,当用户设备(User Equipment,简称为UE)需要通信的时候,会 和基站完成认证、鉴权等流程,之后UE所发送的信令消息通过基站,在无线通信网络中的 承载网上传输到接收方。在该过程中,UE随时与基站保持通信,会产生大量的呼叫历史记录 (Call History Record,简称为 CHR)和测量报告(Measurement Report,简称为 MR)数据, 这些CHR/MR数据保存在基站控制器上。根据需要,基站控制器会将CHR/MR数据传输到数 据采集服务器上,之后数据采集服务器将CHR/MR数据上传到云数据中心,使得在云数据中 心能够基于CHR/MR数据提供运维增值服务。
[0003] 随着无线通信网络的快速发展,UE数量激增,CHR/MR数据大幅增长,海量CHR/MR 数据的产生与云数据中心的有限网络带宽之间矛盾日趋凸显,过长的CHR/MR数据上传时 间已成为制约云数据中心处理效率的瓶颈。将海量CHR/MR数据进行压缩编码以提升传输 效率,是应对这一难题的一条有效途径。其中,算术编码是目前用于对海量CHR/MR数据进 行压缩编码的一种有效方法,主要是将被编码的一条消息或字符串表不成0与1之间的一 段间隔,即对一串符号直接编码成[0,1)区间上的一个浮点小数,从而避开了用一个特定 码字代替一个输入符号的思想,而是用一个单独的浮点数来代替一串输入符号,克服了霍 夫曼(Huffman)编码中比特数必须取整的缺点,有效地提高了数据的压缩比。
[0004] 目前,基于算术编码的数据压缩过程是:以被压缩数据中连续的多个字节数据建 立上下文,获得被压缩数据的概率分布情况,在得到被压缩数据的概率分布情况下获取接 近信息熵,这种方法适用于各种通用数据,但是用于对CHR/MR数据进行压缩时,压缩后的 数据仍存在数据冗余,压缩比有待进一步提高。

【发明内容】

[0005] 本发明实施例提供一种数据压缩方法及设备,用以进一步提高对CHR/MR数据的 压缩比。
[0006] 第一方面提供一种数据压缩方法,包括:
[0007] 按照预定格式,对呼叫历史记录/测量报告CHR/MR数据文件包含的多个CHR/MR 数据包进行统计分析,获取所述多个CHR/MR数据包包含的相同定长字段在所述CHR/MR数 据文件中出现的概率;
[0008] 根据所述多个CHR/MR数据包包含的相同定长字段在所述CHR/MR数据文件中出现 的概率,从所述多个CHR/MR数据包包含的相同定长字段中确定至少一个关键字段,并按照 所述至少一个关键字段,对所述多个CHR/MR数据包进行排序;
[0009] 按照排序后的多个CHR/MR数据包的先后顺序,依次对每个CHR/MR数据包包含的 每个定长字段进行哈希运算,将所述定长字段的哈希值与所述定长字段对应的哈希表中的 哈希值进行匹配,如果匹配中,将所述定长字段对应的哈希表中匹配中的哈希值对应的编 码符号的概率增大,以增大后的概率作为算术编码的输入参数,对所述定长字段进行算术 编码并输出所述定长字段对应的编码符号;如果未匹配中,将所述定长字段的哈希值添加 到所述定长字段对应的哈希表中,以所述定长字段的哈希值对应的编码符号的默认概率作 为算术编码的输入参数,对所述定长字段进行算术编码输出所述定长字段对应的编码符 号;其中,所述多个CHR/MR数据包包含的相同定长字段对应同一哈希表。
[0010] 结合第一方面,在第一方面的第一种可能的实现方式中,所述按照所述至少一个 关键字段,对所述多个CHR/MR数据包进行排序之前,包括:
[0011] 检查每个所述CHR/MR数据包包含的所有字段是否均按字节对齐方式进行存储;
[0012] 如果存在未按字节对齐方式进行存储的字段,将所述未按字节对齐方式进行存储 的字段扩充为以字节对齐方式进行存储。
[0013] 结合第一方面或第一方面的第一种可能的实现方式,在第一方面的第二种可能的 实现方式中,所述按照所述至少一个关键字段,对所述多个CHR/MR数据包进行排序,包括 :
[0014] 按照所述至少一个关键字段的优先级,依次根据每个关键字段对所述多个CHR/MR 数据包进行排序。
[0015] 结合第一方面或第一方面的第一种可能的实现方式或第一方面的第二种可能的 实现方式,在第一方面的第三种可能的实现方式中,所述CHR/MR数据包包含的定长字段中 至少一个定长字段包括至少一个逻辑域,所述包括至少一个逻辑域的定长字段对应的哈希 表包括至少一个哈希表项,每个哈希表项对应所述至少一个逻辑域中的一个逻辑域,且相 同定长字段中相同逻辑域对应同一哈希表中的同一哈希表项;
[0016] 对包括至少一个逻辑域的定长字段,所述对所述定长字段进行哈希运算,将所述 定长字段的哈希值与所述定长字段对应的哈希表中的哈希值进行匹配,如果匹配中,将所 述定长字段对应的哈希表中匹配中的哈希值对应的编码符号的概率增大,以增大后的概率 作为算术编码的输入参数,对所述定长字段进行算术编码输出所述定长字段对应的编码符 号;如果未匹配中,将所述定长字段的哈希值添加到所述定长字段对应的哈希表中,以所述 定长字段的哈希值对应的编码符号的默认概率作为算术编码的输入参数,对所述定长字段 进行算术编码输出所述定长字段对应的编码符号,包括:
[0017] 对所述包括至少一个逻辑域的定长字段包括的每个逻辑域进行哈希运算,将所述 逻辑域的哈希值与所述包括至少一个逻辑域的定长字段对应的哈希表中所述逻辑域对应 的哈希表项中的哈希值进行匹配,如果匹配中,将所述逻辑域对应的哈希表项中匹配中的 哈希值对应的编码符号的概率增大,以增大后的概率作为算术编码的输入参数,对所述逻 辑域进行算术编码输出所述逻辑域对应的编码符号;如果未匹配中,将所述逻辑域的哈希 值添加到所述逻辑域对应的哈希表项中,以所述逻辑域的哈希值对应的编码符号的默认概 率作为算术编码的输入参数,对所述逻辑域进行算术编码输出所述逻辑域对应的编码符 号。
[0018] 第二方面提供一种数据压缩设备,包括:
[0019] 获取模块,用于按照预定格式,对呼叫历史记录/测量报告CHR/MR数据文件包含 的多个CHR/MR数据包进行统计分析,获取所述多个CHR/MR数据包包含的相同定长字段在 所述CHR/MR数据文件中出现的概率;
[0020] 排序模块,用于根据所述多个CHR/MR数据包包含的相同定长字段在所述CHR/MR 数据文件中出现的概率,从所述多个CHR/MR数据包包含的相同定长字段中确定至少一个 关键字段,并按照所述至少一个关键字段,对所述多个CHR/MR数据包进行排序;
[0021] 匹配模块,用于按照排序后的多个CHR/MR数据包的先后顺序,依次对每个CHR/MR 数据包包含的每个定长字段进行哈希运算,将所述定长字段的哈希值与所述定长字段对应 的哈希表中的哈希值进行匹配;其中,所述多个CHR/MR数据包包含的相同定长字段对应同 一哈希表;
[0022] 算术编码模块,用于在所述匹配模块匹配中时,将所述定长字段对应的哈希表中 匹配中的哈希值对应的编码符号的概率增大,以增大后的概率作为算术编码的输入参数, 对所述定长字段进行算术编码并输出所述定长字段对应的编码符号,或者用于在所述匹配 模块未匹配中时,将所述定长字段的哈希值添加到所述定长字段对应的哈希表中,以所述 定长字段的哈希值对应的编码符号的默认概率作为算术编码的输入参数,对所述定长字段 进行算术编码输出所述定长字段对应的编码符号。
[0023] 结合第二方面,在第二方面的第一种可能的实现方式中,所述排序模块还用于在 对所述多个CHR/MR数据包进行排序之前,检查每个所述CHR/MR数据包包含的所有字段是 否均按字节对齐方式进行存储,并在存在未按字节对齐方式进行存储的字段时,将所述未 按字节对齐方式进行存储的字段扩充为以字节对齐方式进行存储。
[0024] 结合第二方面或第二方面的第一种可能的实现方式,在第二方面的第二种可能的 实现方式中,所述排序模块用于按照所述至少一个关键字段,对所述多个CHR/MR数据包进 行排序,包括:
[0025] 所述排序模块具体用于按照所述至少一个关键字段的优先级,依次根据每个关键 字段对所述多个CHR/MR数据包进行排序。
[0026] 结合第二方面或第二方面的第一种可能的实现方式或第二方面的第二种可能的 实现方式,在第二方面的第三种可能的实现方式中,所述CHR/MR数据包包含的定长字段中 至少一个定长字段包括至少一个逻辑域,所述包括至少一个逻辑域的定长字段对应的哈希 表包括至少一个哈希表项,每个哈希表项对应所述至少一个逻辑域中的一个逻辑域,且相 同定长字段中相同逻辑域对应同一哈希表中的同一哈希表项;
[0027] 所述匹配模块具体用于对包括至少一个逻辑域的定长字段包括的每个逻辑域进 行哈希运算,将所述逻辑域的哈希值与所述包括至少一个逻辑域的定长字段对应的哈希表 中所述逻辑域对应的哈希表项中的哈希值进行匹配;
[0028] 所述算术编码模块具体用于在所述匹配模块匹配中时,将所述逻辑域对应的哈希 表项中匹配中的哈希值对应的编码符号的概率增大,以增大后的概率作为算术编码的输入 参数,对所述逻辑域进行算术编码输出所述逻辑域对应的编码符号;或者在所述匹配模块 未匹配中时,将所述逻辑域的哈希值添加到所述逻辑域对应的哈希表项中,以所述逻辑域 的哈希值对应的编码符号的默认概率作为算术编码的输入参数,对所述逻辑域进行算术编 码输出所述逻辑域对应的编码符号。
[0029] 本发明实施例提供的数据压缩方法及设备,首先按照预定格式,对CHR/MR数据文 件包含的多个CHR/MR数据包进行统计分析,获取所述多个CHR/MR数据包包含的相同定长 字段在所述CHR/MR数据文件中出现的概率,然后按照这些概率从所述相同定长字段中选 择至少一个关键字段,然后根据至少一个关键字段对多个CHR/MR数据包进行排序,使得具 有较高相似度的字段之间的距离减小,有利于提高数据压缩比;进一步按照排序后的多个 CHR/MR数据包的先后顺序,依次对每个CHR/MR数据包包含的每个定长字段进行哈希运算, 将所述定长字段的哈希值与所述定长字段对应的哈希表中的哈希值进行匹配,如果匹配 中,将所述定长字段对应的哈希表中匹配中的哈希值对应的编码符号的概率增大,以增大 后的概率作为算术编码的输入参数,对所述定长字段进行算
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1