数据压缩方法及设备的制造方法

文档序号：8319189阅读：305来源：国知局

数据压缩方法及设备的制造方法
【技术领域】
[0001] 本发明实施例涉及通信技术，尤其涉及一种数据压缩方法及设备。
【背景技术】
[0002] 在无线通信网络中，当用户设备（User Equipment,简称为UE)需要通信的时候，会和基站完成认证、鉴权等流程，之后UE所发送的信令消息通过基站，在无线通信网络中的承载网上传输到接收方。在该过程中，UE随时与基站保持通信，会产生大量的呼叫历史记录 (Call History Record，简称为 CHR)和测量报告（Measurement Report，简称为 MR)数据，这些CHR/MR数据保存在基站控制器上。根据需要，基站控制器会将CHR/MR数据传输到数据采集服务器上，之后数据采集服务器将CHR/MR数据上传到云数据中心，使得在云数据中心能够基于CHR/MR数据提供运维增值服务。
[0003] 随着无线通信网络的快速发展，UE数量激增，CHR/MR数据大幅增长，海量CHR/MR 数据的产生与云数据中心的有限网络带宽之间矛盾日趋凸显，过长的CHR/MR数据上传时间已成为制约云数据中心处理效率的瓶颈。将海量CHR/MR数据进行压缩编码以提升传输效率，是应对这一难题的一条有效途径。其中，算术编码是目前用于对海量CHR/MR数据进行压缩编码的一种有效方法，主要是将被编码的一条消息或字符串表不成0与1之间的一段间隔，即对一串符号直接编码成[0，1)区间上的一个浮点小数，从而避开了用一个特定码字代替一个输入符号的思想，而是用一个单独的浮点数来代替一串输入符号，克服了霍夫曼（Huffman)编码中比特数必须取整的缺点，有效地提高了数据的压缩比。
[0004] 目前，基于算术编码的数据压缩过程是：以被压缩数据中连续的多个字节数据建立上下文，获得被压缩数据的概率分布情况，在得到被压缩数据的概率分布情况下获取接近信息熵，这种方法适用于各种通用数据，但是用于对CHR/MR数据进行压缩时，压缩后的数据仍存在数据冗余，压缩比有待进一步提高。

【发明内容】

[0005] 本发明实施例提供一种数据压缩方法及设备，用以进一步提高对CHR/MR数据的压缩比。
[0006] 第一方面提供一种数据压缩方法，包括：
[0007] 按照预定格式，对呼叫历史记录/测量报告CHR/MR数据文件包含的多个CHR/MR 数据包进行统计分析，获取所述多个CHR/MR数据包包含的相同定长字段在所述CHR/MR数据文件中出现的概率；
[0008] 根据所述多个CHR/MR数据包包含的相同定长字段在所述CHR/MR数据文件中出现的概率，从所述多个CHR/MR数据包包含的相同定长字段中确定至少一个关键字段，并按照所述至少一个关键字段，对所述多个CHR/MR数据包进行排序；
[0009] 按照排序后的多个CHR/MR数据包的先后顺序，依次对每个CHR/MR数据包包含的每个定长字段进行哈希运算，将所述定长字段的哈希值与所述定长字段对应的哈希表中的哈希值进行匹配，如果匹配中，将所述定长字段对应的哈希表中匹配中的哈希值对应的编码符号的概率增大，以增大后的概率作为算术编码的输入参数，对所述定长字段进行算术编码并输出所述定长字段对应的编码符号；如果未匹配中，将所述定长字段的哈希值添加到所述定长字段对应的哈希表中，以所述定长字段的哈希值对应的编码符号的默认概率作为算术编码的输入参数，对所述定长字段进行算术编码输出所述定长字段对应的编码符号；其中，所述多个CHR/MR数据包包含的相同定长字段对应同一哈希表。
[0010] 结合第一方面，在第一方面的第一种可能的实现方式中，所述按照所述至少一个关键字段，对所述多个CHR/MR数据包进行排序之前，包括：
[0011] 检查每个所述CHR/MR数据包包含的所有字段是否均按字节对齐方式进行存储；
[0012] 如果存在未按字节对齐方式进行存储的字段，将所述未按字节对齐方式进行存储的字段扩充为以字节对齐方式进行存储。
[0013] 结合第一方面或第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，所述按照所述至少一个关键字段，对所述多个CHR/MR数据包进行排序，包括：
[0014] 按照所述至少一个关键字段的优先级，依次根据每个关键字段对所述多个CHR/MR 数据包进行排序。
[0015] 结合第一方面或第一方面的第一种可能的实现方式或第一方面的第二种可能的实现方式，在第一方面的第三种可能的实现方式中，所述CHR/MR数据包包含的定长字段中至少一个定长字段包括至少一个逻辑域，所述包括至少一个逻辑域的定长字段对应的哈希表包括至少一个哈希表项，每个哈希表项对应所述至少一个逻辑域中的一个逻辑域，且相同定长字段中相同逻辑域对应同一哈希表中的同一哈希表项；
[0016] 对包括至少一个逻辑域的定长字段，所述对所述定长字段进行哈希运算，将所述定长字段的哈希值与所述定长字段对应的哈希表中的哈希值进行匹配，如果匹配中，将所述定长字段对应的哈希表中匹配中的哈希值对应的编码符号的概率增大，以增大后的概率作为算术编码的输入参数，对所述定长字段进行算术编码输出所述定长字段对应的编码符号；如果未匹配中，将所述定长字段的哈希值添加到所述定长字段对应的哈希表中，以所述定长字段的哈希值对应的编码符号的默认概率作为算术编码的输入参数，对所述定长字段进行算术编码输出所述定长字段对应的编码符号，包括：
[0017] 对所述包括至少一个逻辑域的定长字段包括的每个逻辑域进行哈希运算，将所述逻辑域的哈希值与所述包括至少一个逻辑域的定长字段对应的哈希表中所述逻辑域对应的哈希表项中的哈希值进行匹配,如果匹配中，将所述逻辑域对应的哈希表项中匹配中的哈希值对应的编码符号的概率增大，以增大后的概率作为算术编码的输入参数，对所述逻辑域进行算术编码输出所述逻辑域对应的编码符号；如果未匹配中，将所述逻辑域的哈希值添加到所述逻辑域对应的哈希表项中，以所述逻辑域的哈希值对应的编码符号的默认概率作为算术编码的输入参数，对所述逻辑域进行算术编码输出所述逻辑域对应的编码符号。
[0018] 第二方面提供一种数据压缩设备，包括：
[0019] 获取模块，用于按照预定格式，对呼叫历史记录/测量报告CHR/MR数据文件包含的多个CHR/MR数据包进行统计分析，获取所述多个CHR/MR数据包包含的相同定长字段在所述CHR/MR数据文件中出现的概率；
[0020] 排序模块，用于根据所述多个CHR/MR数据包包含的相同定长字段在所述CHR/MR 数据文件中出现的概率，从所述多个CHR/MR数据包包含的相同定长字段中确定至少一个关键字段，并按照所述至少一个关键字段，对所述多个CHR/MR数据包进行排序；
[0021] 匹配模块，用于按照排序后的多个CHR/MR数据包的先后顺序，依次对每个CHR/MR 数据包包含的每个定长字段进行哈希运算，将所述定长字段的哈希值与所述定长字段对应的哈希表中的哈希值进行匹配；其中，所述多个CHR/MR数据包包含的相同定长字段对应同一哈希表；
[0022] 算术编码模块，用于在所述匹配模块匹配中时，将所述定长字段对应的哈希表中匹配中的哈希值对应的编码符号的概率增大，以增大后的概率作为算术编码的输入参数，对所述定长字段进行算术编码并输出所述定长字段对应的编码符号，或者用于在所述匹配模块未匹配中时，将所述定长字段的哈希值添加到所述定长字段对应的哈希表中，以所述定长字段的哈希值对应的编码符号的默认概率作为算术编码的输入参数，对所述定长字段进行算术编码输出所述定长字段对应的编码符号。
[0023] 结合第二方面，在第二方面的第一种可能的实现方式中，所述排序模块还用于在对所述多个CHR/MR数据包进行排序之前，检查每个所述CHR/MR数据包包含的所有字段是否均按字节对齐方式进行存储，并在存在未按字节对齐方式进行存储的字段时，将所述未按字节对齐方式进行存储的字段扩充为以字节对齐方式进行存储。
[0024] 结合第二方面或第二方面的第一种可能的实现方式，在第二方面的第二种可能的实现方式中，所述排序模块用于按照所述至少一个关键字段，对所述多个CHR/MR数据包进行排序，包括：
[0025] 所述排序模块具体用于按照所述至少一个关键字段的优先级，依次根据每个关键字段对所述多个CHR/MR数据包进行排序。
[0026] 结合第二方面或第二方面的第一种可能的实现方式或第二方面的第二种可能的实现方式，在第二方面的第三种可能的实现方式中，所述CHR/MR数据包包含的定长字段中至少一个定长字段包括至少一个逻辑域，所述包括至少一个逻辑域的定长字段对应的哈希表包括至少一个哈希表项，每个哈希表项对应所述至少一个逻辑域中的一个逻辑域，且相同定长字段中相同逻辑域对应同一哈希表中的同一哈希表项；
[0027] 所述匹配模块具体用于对包括至少一个逻辑域的定长字段包括的每个逻辑域进行哈希运算，将所述逻辑域的哈希值与所述包括至少一个逻辑域的定长字段对应的哈希表中所述逻辑域对应的哈希表项中的哈希值进行匹配；
[0028] 所述算术编码模块具体用于在所述匹配模块匹配中时，将所述逻辑域对应的哈希表项中匹配中的哈希值对应的编码符号的概率增大，以增大后的概率作为算术编码的输入参数，对所述逻辑域进行算术编码输出所述逻辑域对应的编码符号；或者在所述匹配模块未匹配中时，将所述逻辑域的哈希值添加到所述逻辑域对应的哈希表项中，以所述逻辑域的哈希值对应的编码符号的默认概率作为算术编码的输入参数，对所述逻辑域进行算术编码输出所述逻辑域对应的编码符号。
[0029] 本发明实施例提供的数据压缩方法及设备，首先按照预定格式，对CHR/MR数据文件包含的多个CHR/MR数据包进行统计分析，获取所述多个CHR/MR数据包包含的相同定长字段在所述CHR/MR数据文件中出现的概率，然后按照这些概率从所述相同定长字段中选择至少一个关键字段，然后根据至少一个关键字段对多个CHR/MR数据包进行排序，使得具有较高相似度的字段之间的距离减小，有利于提高数据压缩比；进一步按照排序后的多个 CHR/MR数据包的先后顺序，依次对每个CHR/MR数据包包含的每个定长字段进行哈希运算，将所述定长字段的哈希值与所述定长字段对应的哈希表中的哈希值进行匹配，如果匹配中，将所述定长字段对应的哈希表中匹配中的哈希值对应的编码符号的概率增大，以增大后的概率作为算术编码的输入参数，对所述定长字段进行算

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：权宁强;刘凯;
技术所有人：华为技术服务有限公司;
我是此专利的发明人

上一篇：应用程序的推送方法及装置的制造方法
上一篇：三维交互式电子出版物ietp浏览器及其构建方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。