一种文本抽样方法、装置、设备和存储介质与流程

文档序号：36263770发布日期：2023-12-06 03:26阅读：40来源：国知局

背景技术：

1、近几年，大规模预训练语言模型的兴起开启了自然语言处理迅猛发展的新时代。在对预训练语言模型训练时，需要对语料进行标注，人工标注数据的价格往往较为昂贵，我们希望能够将人工标注的效用最大化，即在相同的标注数量下，标注到更多的信息量，或者为了达成相同的标注效果，尽量降低标注数量。

2、现有技术中，通常采用蒙特卡洛抽样即随机抽样的方式对文本数据进行抽样，其本质是按照数据的概率密度分布来进行随机抽样。

3、在实现本发明的过程中，发现现有技术中至少存在以下技术问题：

4、基于蒙特卡洛抽样对文本数据进行抽样得到的样本聚集在高概率密度的头部区域，忽视了概率密度比较低的中长尾区域，导致样本信息量较低，标注效果降低，影响预训练语音模型的训练。

技术实现思路

1、本发明提供一种文本抽样方法、装置、设备和存储介质，以实现对语料的自适应分层抽样，提升抽样所得样本的信息量。

2、第一方面，本发明实施例提供了一种文本抽样方法，包括：

3、通过对待抽样语料进行向量化处理，确定所述待抽样语料对应的预设维度向量集；

4、将所述预设维度向量集所构成的语义空间划分为第一预设数量的第一语义子空间，并基于高斯核密度估计确定各所述第一语义子空间内的抽样密度；

5、根据所述抽样密度将各所述第一语义子空间分别划分为第二预设数量的第二语义子空间，并确定各所述第二语义子空间内的邻域样本集；

6、对各所述邻域样本集进行抽样，根据各所述邻域样本集对应的抽样结果确定文本抽样结果。

7、第二方面，本发明实施例还提供了一种文本抽样装置，包括：

8、编码模块，用于通过对待抽样语料进行向量化处理，确定所述待抽样语料对应的预设维度向量集；

9、第一划分模块，用于将所述预设维度向量集所构成的语义空间划分为第一预设数量的第一语义子空间，并基于高斯核密度估计确定各所述第一语义子空间内的抽样密度；

10、第二划分模块，用于根据所述抽样密度将各所述第一语义子空间分别划分为第二预设数量的第二语义子空间，并确定各所述第二语义子空间内的邻域样本集；

11、抽样模块，用于对各所述邻域样本集进行抽样，根据各所述邻域样本集对应的抽样结果确定文本抽样结果。

12、第三方面，本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面中任一所述的文本抽样方法。

13、第四方面，本发明实施例还提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面中任一所述的文本抽样方法。

14、上述发明中的实施例具有如下优点或有益效果：

15、本发明实施例提供一种文本抽样方法，包括：通过对待抽样语料进行向量化处理，确定所述待抽样语料对应的预设维度向量集；将所述预设维度向量集所构成的语义空间划分为第一预设数量的第一语义子空间，并基于高斯核密度估计确定各所述第一语义子空间内的抽样密度；根据所述抽样密度将各所述第一语义子空间分别划分为第二预设数量的第二语义子空间，并确定各所述第二语义子空间内的邻域样本集；对各所述邻域样本集进行抽样，根据各所述邻域样本集对应的抽样结果确定文本抽样结果。上述技术方案，首先可以对待抽样语料进行向量化处理，以基于预设维度向量集表示待抽样语料，将预设维度向量集所构成的语义空间划分为第一预设数量的第一语义子空间后，按照第一语义子空间的抽样密度将第一语义子空间划分为第二预设数量的第二语义子空间，在各第一语义子空间内的各第二语义子空间内确定邻域样本集，并对各邻域样本集进行抽样得到抽样结果，根据各第二语义子空间对应的邻域样本集中抽样得到的抽样结果确定文本抽样结果，实现对待抽样语料的分层抽样，提升抽样所得样本的信息量，进一步提升了文本抽样质量。

技术特征：

1.一种文本抽样方法，其特征在于，包括：

2.根据权利要求1所述的文本抽样方法，其特征在于，通过对待抽样语料进行向量化处理，确定所述待抽样语料对应的预设维度向量集，包括：

3.根据权利要求1所述的文本抽样方法，其特征在于，在通过对待抽样语料进行向量化处理之前，还包括：

4.根据权利要求1所述的文本抽样方法，其特征在于，将所述预设维度向量集所构成的语义空间划分为第一预设数量的第一语义子空间，包括：

5.根据权利要求1所述的文本抽样方法，其特征在于，在将所述预设维度向量集所构成的语义空间划分为第一预设数量的第一语义子空间时，还包括：

6.根据权利要求5所述的文本抽样方法，其特征在于，基于高斯核密度估计确定各所述第一语义子空间内的抽样密度，包括：

7.根据权利要求6所述的文本抽样方法，其特征在于，根据所述抽样密度将各所述第一语义子空间分别划分为第二预设数量的第二语义子空间，并确定各所述第二语义子空间内的邻域样本集，包括：

8.根据权利要求7所述的文本抽样方法，其特征在于，在根据所述抽样密度将各所述第一语义子空间分别划分为第二预设数量的第二语义子空间时，还包括：

9.根据权利要求8所述的文本抽样方法，其特征在于，在通过对待抽样语料进行向量化处理，确定所述待抽样语料对应的预设维度向量集之后，还包括：

10.根据权利要求6所述的文本抽样方法，其特征在于，在将所述预设维度向量集所构成的语义空间划分为第一预设数量的第一语义子空间之前，还包括：

11.一种文本抽样装置，其特征在于，包括：

12.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-10中任一所述的文本抽样方法。

13.一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-10中任一所述的文本抽样方法。

技术总结
本发明实施例公开了一种文本抽样方法、装置、设备和存储介质，该方法包括：通过对待抽样语料进行向量化处理，确定待抽样语料对应的预设维度向量集；将预设维度向量集所构成的语义空间划分为第一预设数量的第一语义子空间，并基于高斯核密度估计确定各第一语义子空间内的抽样密度；根据抽样密度将各第一语义子空间划分为第二预设数量的第二语义子空间，并确定各第二语义子空间内的邻域样本集；对各邻域样本集进行抽样，根据所有邻域样本集对应的抽样结果确定文本抽样结果。上述技术方案，将待抽样语料对应的语义空间划分为第二语义子空间，根据各第二语义子空间中抽样得到的抽样结果确定文本抽样结果，实现对待抽样语料的分层抽样。

技术研发人员：张若兴
受保护的技术使用者：北京沃东天骏信息技术有限公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张若兴
技术所有人：北京沃东天骏信息技术有限公司
我是此专利的发明人

上一篇：防尘件的制作方法
上一篇：分布式光伏电站集群功率超短期网格化预测方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。