背景技术:
1、近几年,大规模预训练语言模型的兴起开启了自然语言处理迅猛发展的新时代。在对预训练语言模型训练时,需要对语料进行标注,人工标注数据的价格往往较为昂贵,我们希望能够将人工标注的效用最大化,即在相同的标注数量下,标注到更多的信息量,或者为了达成相同的标注效果,尽量降低标注数量。
2、现有技术中,通常采用蒙特卡洛抽样即随机抽样的方式对文本数据进行抽样,其本质是按照数据的概率密度分布来进行随机抽样。
3、在实现本发明的过程中,发现现有技术中至少存在以下技术问题:
4、基于蒙特卡洛抽样对文本数据进行抽样得到的样本聚集在高概率密度的头部区域,忽视了概率密度比较低的中长尾区域,导致样本信息量较低,标注效果降低,影响预训练语音模型的训练。
技术实现思路
1、本发明提供一种文本抽样方法、装置、设备和存储介质,以实现对语料的自适应分层抽样,提升抽样所得样本的信息量。
2、第一方面,本发明实施例提供了一种文本抽样方法,包括:
3、通过对待抽样语料进行向量化处理,确定所述待抽样语料对应的预设维度向量集;
4、将所述预设维度向量集所构成的语义空间划分为第一预设数量的第一语义子空间,并基于高斯核密度估计确定各所述第一语义子空间内的抽样密度;
5、根据所述抽样密度将各所述第一语义子空间分别划分为第二预设数量的第二语义子空间,并确定各所述第二语义子空间内的邻域样本集;
6、对各所述邻域样本集进行抽样,根据各所述邻域样本集对应的抽样结果确定文本抽样结果。
7、第二方面,本发明实施例还提供了一种文本抽样装置,包括:
8、编码模块,用于通过对待抽样语料进行向量化处理,确定所述待抽样语料对应的预设维度向量集;
9、第一划分模块,用于将所述预设维度向量集所构成的语义空间划分为第一预设数量的第一语义子空间,并基于高斯核密度估计确定各所述第一语义子空间内的抽样密度;
10、第二划分模块,用于根据所述抽样密度将各所述第一语义子空间分别划分为第二预设数量的第二语义子空间,并确定各所述第二语义子空间内的邻域样本集;
11、抽样模块,用于对各所述邻域样本集进行抽样,根据各所述邻域样本集对应的抽样结果确定文本抽样结果。
12、第三方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面中任一所述的文本抽样方法。
13、第四方面,本发明实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面中任一所述的文本抽样方法。
14、上述发明中的实施例具有如下优点或有益效果:
15、本发明实施例提供一种文本抽样方法,包括:通过对待抽样语料进行向量化处理,确定所述待抽样语料对应的预设维度向量集;将所述预设维度向量集所构成的语义空间划分为第一预设数量的第一语义子空间,并基于高斯核密度估计确定各所述第一语义子空间内的抽样密度;根据所述抽样密度将各所述第一语义子空间分别划分为第二预设数量的第二语义子空间,并确定各所述第二语义子空间内的邻域样本集;对各所述邻域样本集进行抽样,根据各所述邻域样本集对应的抽样结果确定文本抽样结果。上述技术方案,首先可以对待抽样语料进行向量化处理,以基于预设维度向量集表示待抽样语料,将预设维度向量集所构成的语义空间划分为第一预设数量的第一语义子空间后,按照第一语义子空间的抽样密度将第一语义子空间划分为第二预设数量的第二语义子空间,在各第一语义子空间内的各第二语义子空间内确定邻域样本集,并对各邻域样本集进行抽样得到抽样结果,根据各第二语义子空间对应的邻域样本集中抽样得到的抽样结果确定文本抽样结果,实现对待抽样语料的分层抽样,提升抽样所得样本的信息量,进一步提升了文本抽样质量。
1.一种文本抽样方法,其特征在于,包括:
2.根据权利要求1所述的文本抽样方法,其特征在于,通过对待抽样语料进行向量化处理,确定所述待抽样语料对应的预设维度向量集,包括:
3.根据权利要求1所述的文本抽样方法,其特征在于,在通过对待抽样语料进行向量化处理之前,还包括:
4.根据权利要求1所述的文本抽样方法,其特征在于,将所述预设维度向量集所构成的语义空间划分为第一预设数量的第一语义子空间,包括:
5.根据权利要求1所述的文本抽样方法,其特征在于,在将所述预设维度向量集所构成的语义空间划分为第一预设数量的第一语义子空间时,还包括:
6.根据权利要求5所述的文本抽样方法,其特征在于,基于高斯核密度估计确定各所述第一语义子空间内的抽样密度,包括:
7.根据权利要求6所述的文本抽样方法,其特征在于,根据所述抽样密度将各所述第一语义子空间分别划分为第二预设数量的第二语义子空间,并确定各所述第二语义子空间内的邻域样本集,包括:
8.根据权利要求7所述的文本抽样方法,其特征在于,在根据所述抽样密度将各所述第一语义子空间分别划分为第二预设数量的第二语义子空间时,还包括:
9.根据权利要求8所述的文本抽样方法,其特征在于,在通过对待抽样语料进行向量化处理,确定所述待抽样语料对应的预设维度向量集之后,还包括:
10.根据权利要求6所述的文本抽样方法,其特征在于,在将所述预设维度向量集所构成的语义空间划分为第一预设数量的第一语义子空间之前,还包括:
11.一种文本抽样装置,其特征在于,包括:
12.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-10中任一所述的文本抽样方法。
13.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-10中任一所述的文本抽样方法。