一种文本处理方法、系统、电子设备及存储介质与流程

文档序号：35666910发布日期：2023-10-06 22:46阅读：41来源：国知局

本申请涉及人工智能，尤其涉及一种文本处理方法、系统、电子设备及存储介质。

背景技术：

1、文本与一般文件不同，它存储的是文字信息，并且遵循人类语言的习惯和规则，人类语言的次序不仅仅是字符的简单重复，还包含了语言的内在规则。

2、当需要对文本进行压缩时，传统的压缩方法都是从文件中字符的出现形式出发，其中，传统的压缩方法包括但不限于：利用字符出现的概率不均衡，根据出现的概率大小来确定编码的长短，实现压缩，比如霍夫曼编码；利用上下文字符的重复出现，利用前面出现的模式来实现压缩，比如字典编码；利用前面的文本，构建预测模型，预测后面的词的出现概率，来实现压缩，比如zpaq算法，它们都没有考虑文本所体现的人类语言的内在规律，导致文本的压缩率较低，因此如何提升文本的压缩率，成为了亟待解决的问题。

技术实现思路

1、本申请提供一种文本处理方法、系统、电子设备及存储介质，其主要目的在于解决相关技术中在进行文本处理时文本的压缩率较低的问题。

2、为实现上述目的，本申请提供了一种文本处理方法，包括：将目标文本的种子分词输入至预设的大语言模型，计算所述目标文本的预测概率分布；生成所述目标文本的切分样本；根据所述预测概率分布生成所述切分样本的算术编码；根据所述算术编码将所述目标文本压缩为压缩文本。

3、本申请还提供了一种文本处理系统，包括：概率分布预测模块，用于将目标文本的种子分词输入至预设的大语言模型，计算所述目标文本的预测概率分布；文本切分模块，用于生成所述目标文本的切分样本；算术编码模块，用于根据所述预测概率分布生成所述切分样本的算术编码；文本压缩模块，用于根据所述算术编码将所述目标文本压缩为压缩文本。

4、本申请还提供了一种电子设备，所述电子设备包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述处理器用于执行存储在所述存储器上的计算机程序；所述处理器执行所述计算机程序时，实现所述文本处理方法中的步骤。

5、本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述文本处理方法的步骤。

6、本申请利用预先训练好的大语言模型进行下一个词的预测是因为预先训练好的大语言模型具有强大的拟合人类语言习惯的能力，它可以理解语法和上下文信息，能够更准确地预测下一个词，这使得能够利用语义级别的信息来压缩文本，而不仅仅是基于统计的字符级别压缩，同时，由于大语言模型预测下一个词的准确率较高，这使得编码所需的数字表示较短，进而提高压缩率，减小文本文件的大小，将目标文本划分为较小的部分，有利于更有效地进行后续的编码，根据每个分词在文本中出现的概率分配编码区间，预测概率大的分词分配大的编码区间，预测概率小的分词分配编码区间小，高的预测准确率，使得进行编码时编码区间减少的比较少，从而提高压缩率。因此本申请提出文本处理方法、系统、电子设备及存储介质，可以解决文本处理时文本的压缩率较低的问题。

技术特征：

1.一种文本处理方法，其特征在于，方法包括：

2.如权利要求1所述的文本处理方法，其特征在于，所述将目标文本的种子分词输入至预设的大语言模型，计算所述目标文本的预测概率分布，包括：

3.如权利要求2所述的文本处理方法，其特征在于，在根据所述编码向量将所述目标文本的种子分词输入至预设的大语言模型之前，还包括：

4.如权利要求1所述的文本处理方法，其特征在于，所述生成所述目标文本的切分样本，包括：

5.如权利要求1所述的文本处理方法，其特征在于，所述根据所述预测概率分布生成所述切分样本的算术编码，包括：

6.如权利要求5所述的文本处理方法，其特征在于，所述根据所述分词概率区间逐个对所述切分样本中的切分样本分词进行分词编码，得到所述切分样本的算术编码，包括：

7.如权利要求1所述的文本处理方法，其特征在于，所述根据所述算术编码将所述目标文本压缩为压缩文本，包括：

8.如权利要求1至7中任意一项所述的文本处理方法，其特征在于，所述根据所述算术编码将所述目标文本压缩为压缩文本之后，还包括：

9.如权利要求8所述的文本处理方法，其特征在于，所述根据所述种子分词和所述大语言模型生成所述压缩文本内首位待解码分词的预测区间，包括：

10.如权利要求8所述的文本处理方法，其特征在于，所述根据所述算术编码和所述预测区间生成所述首位待解码分词的首位解码分词及所述首位解码分词的第一解码区间，包括：

11.如权利要求8所述的文本处理方法，其特征在于，所述利用所述第一解码区间对所述首位待解码分词的相邻待解码分词进行预测区间更新，得到所述相邻待解码分词的更新预测区间，包括：

12.如权利要求8所述的文本处理方法，其特征在于，所述根据所述更新预测区间和所述算术编码生成所述相邻待解码分词的相邻解码分词，直至解码区间更新次数达到预设的解码阈值，得到所述压缩文本的解压文本，包括：

13.一种文本处理系统，其特征在于，所述系统包括：

14.一种电子设备，其特征在于，所述电子设备包括：

15.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至12中任意一项所述的文本处理方法。

技术总结
本申请涉及人工智能技术领域，揭露了一种文本处理方法、系统、电子设备以及存储介质，包括：将目标文本的种子分词输入至预设的大语言模型，计算所述目标文本的预测概率分布，根据预测概率分布生成目标文本的算术编码；根据算术编码将目标文本压缩为压缩文本；根据种子分词和大语言模型生成压缩文本内首位待解码分词的预测区间；根据算术编码和预测区间生成首位解码分词及第一解码区间；通过对预测区间的不断更新，逐个完成压缩文本中待解码分词的解码，得到压缩文本的解压文本。通过本申请实施的大语言模型计算目标文本的预测概率分布以及根据预测概率分布进行目标文本的算术编码和解码，可以提高文本处理时的文本的压缩率。

技术研发人员：刘知胜,黄泼,罗桦槟
受保护的技术使用者：深圳市领存技术有限公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘知胜黄泼罗桦槟
技术所有人：深圳市领存技术有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。