语料处理方法、装置、电子设备及存储介质与流程

文档序号：33188938发布日期：2023-02-04 07:39阅读：43来源：国知局

1.本技术涉及计算机技术领域，尤其涉及一种语料处理方法、装置、电子设备及存储介质。

背景技术：

2.在机器学习的自然语言处理(nlp，natural language processing)领域，词向量是常用的词义表征方式，词向量的维度代表了词的特征。通过语料信息训练nlp模型，包括处理语料得到词向量，并将词向量输入模型进行训练。在通过词向量训练nlp模型时，输入模型的词向量的维度越大，得到的模型越能够准确地区分不同的词，但模型加载时占用的内存也就越大。
3.相关技术中，为降低模型加载占用的内存，在语料处理时，通常采用主成分分析(pca，principal component analysis)、线性判别分析(lda，linear discriminant analysis)或基于深度网络的嵌入embedding等方式实现词向量降维处理，存在消耗大量计算力、处理速度慢的问题。

技术实现要素：

4.有鉴于此，本技术实施例提供一种语料处理方法、装置、电子设备及存储介质，以至少解决相关技术在语料处理时存在的消耗大量计算力、处理速度慢的问题。
5.本技术实施例的技术方案是这样实现的：
6.本技术实施例提供了一种语料处理方法，所述方法包括：
7.基于语料信息生成第一矩阵；所述第一矩阵的每一行元素表征所述语料信息中的一个第一文本；
8.将所述第一矩阵的每一行元素划分为设定维度的第一向量；
9.基于各第一向量之间的相似度，对各第一向量进行聚类，得到至少一个簇；
10.使用聚类得到的每一簇对应的簇中心替换对应簇中的第一向量，得到第二矩阵；
11.将所述第二矩阵输入设定的nlp模型，得到关于所述语料信息的语义识别结果。
12.其中，上述方案中，所述基于各第一向量之间的相似度，对各第一向量进行聚类，包括：
13.将在所述第一矩阵中所占的列相同的第一向量分配至同一个第一集合，得到至少一个第一集合；
14.根据各第一向量之间的相似度，对所述至少一个第一集合中的每个第一集合中的第一向量进行聚类。
15.上述方案中，所述基于语料信息生成第一矩阵，包括：
16.基于对所述语料信息进行拆分得到的拆分结果，确定至少两个第一文本；
17.对确定出的至少两个第一文本中的每个第一文本进行特征提取，生成所述第一矩阵。
18.上述方案中，所述基于对所述语料信息进行拆分得到的拆分结果，确定至少两个第一文本，包括：
19.对所述语料信息进行拆分，得到至少两个第二文本；
20.统计所述至少两个第二文本中的每个第二文本在所述语料信息中的出现次数，确定统计结果；
21.基于确定出的统计结果，在所述至少两个第二文本中确定至少两个第一文本。
22.上述方案中，所述基于确定出的统计结果，在所述至少两个第二文本中确定至少两个第一文本，包括：
23.基于确定出的统计结果，将在所述语料信息中出现的次数满足设定阈值的至少两个第二文本确定所述第一文本；
24.和/或，
25.基于确定出的统计结果，利用逆文档频率(idf，
–
inverse document frequency)算法，在所述至少两个第二文本中确定所述第一文本。
26.上述方案中，所述基于对所述语料信息进行拆分得到的拆分结果，确定至少两个第一文本，包括：
27.基于设定分词规则对所述语料信息进行拆分得到的拆分结果，确定至少两个第一文本；所述第一文本表征基于所述语料信息的拆分结果确定的词。
28.上述方案中，所述基于各第一向量之间的相似度，对各第一向量进行聚类，包括：
29.根据各第一向量的元素之间的相似度，得到各第一向量之间的相似性度量矩阵；
30.根据所述相似性度量矩阵对各第一向量进行聚类。
31.本技术实施例还提供了一种语料处理装置，包括：
32.生成单元，用于基于语料信息生成第一矩阵；所述第一矩阵的每一行元素表征所述语料信息中的一个第一文本；
33.划分单元，用于将所述第一矩阵的每一行元素划分为设定维度的第一向量；
34.聚类单元，用于基于各第一向量之间的相似度，对各第一向量进行聚类，得到至少一个簇；
35.替换单元，用于使用聚类得到的每一簇对应的簇中心替换对应簇中的第一向量，得到第二矩阵；
36.识别单元，用于将所述第二矩阵输入设定的nlp模型，得到关于所述语料信息的语义识别结果。
37.本技术实施例还提供了一种电子设备，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器，
38.其中，所述处理器用于运行所述计算机程序时，执行上述语料处理方法的步骤。
39.本技术实施例还提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述语料处理方法步骤。
40.在本技术实施例中，基于语料信息生成第一矩阵，将第一矩阵的每一行元素划分为设定维度的第一向量，基于向量之间的相似度对各第一向量进行聚类，得到至少一个簇，并使用每一簇对应的簇中心替换对应簇中的第一向量，得到第二矩阵；其中，第一矩阵的每一行元素表征语料信息中的一个第一文本。这样，通过对表征语料信息的第一矩阵的第一
向量进行聚类，以每一簇对应的簇中心替换对应簇中的第一向量，得到第二矩阵，将第二矩阵输入设定nlp模型，得到关于语料信息的语义识别结果。在本技术实施例在语料处理时，通过聚类的方式减少词向量所占的空间，语料压缩过程中不需要经历大量的高维度的矩阵乘法运算，从而可以减少语料处理时所消耗的计算力，提高语料处理的速度。
附图说明
41.图1为本技术实施例提供的一种语料处理方法的流程示意图；
42.图2为本技术实施例提供的一种第一矩阵示意图；
43.图3为本技术应用实施例提供的一种语料处理方法的示意图；
44.图4为本技术应用实施例提供的另一种语料处理方法的示意图；
45.图5为本技术实施例提供的一种语料处理装置的结构示意图；
46.图6为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
47.在机器学习的nlp领域，词向量是常用的词义表征方式，词向量的维度代表了词的特征。通过语料信息训练nlp模型，包括处理语料得到词向量，并将词向量输入模型进行训练。在通过词向量训练nlp模型时，输入模型的词向量的维度越大，得到的模型越能够准确地区分不同的词，但模型加载时占用的内存也就越大。
48.相关技术中，为降低模型加载占用的内存，在语料处理时，通常采用pca、lda或基于深度网络的embedding等方式实现词向量降维处理，要进行大量的高维度的矩阵乘法运算，存在消耗大量计算力、处理速度慢的问题。
49.基于此，在本技术的各种实施例中，基于语料信息生成第一矩阵，将第一矩阵的每一行元素划分为设定维度的第一向量，基于向量之间的相似度对各第一向量进行聚类，得到至少一个簇，并使用每一簇对应的簇中心替换对应簇中的第一向量，得到第二矩阵，将第二矩阵输入设定nlp模型，得到关于语料信息的语义识别结果；其中，第一矩阵的每一行元素表征语料信息中的一个第一文本。这样，通过对表征语料信息的第一矩阵的第一向量进行聚类，以每一簇对应的簇中心替换对应簇中的第一向量，在本技术实施例在语料处理时，通过聚类的方式减少词向量所占的空间，语料压缩过程中不需要经历大量的高维度的矩阵乘法运算，从而可以减少语料处理时所消耗的计算力，提高语料处理的速度。
50.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
51.图1为本技术实施例提供的语料处理方法的实现流程示意图，执行主体可以是电子设备。如图1示出的，语料处理方法包括：
52.步骤101：基于语料信息生成第一矩阵。
53.其中，所述第一矩阵的每一行元素表征所述语料信息中的一个第一文本。
54.在本实施例中，基于语料信息生成第一矩阵。这里，语料信息表征用于语义识别的文本，也就是说，语料信息是待语义识别的文本。在实际应用中，根据语义识别时具体的识别场景，可以将语料信息处理成对应的字、词、句子和/或段落文本。第一矩阵的每一行元素
表征基于语料信息中的一个第一文本，第一文本可以是字、词、句子或段落文本，从而实现语料信息对应的字向量、词向量、句子向量或段落向量的向量处理。
55.步骤102：将所述第一矩阵的每一行元素划分为设定维度的第一向量。
56.将第一矩阵中每一行的设定数量的元素划分为一个第一向量。这里，可以从第一矩阵中每一行的第一个元素开始，将相邻的每p个元素确定为一个p维的第一向量，那么，第一矩阵中每一行的元素被划分为m个p维的第一向量。这里，p表征第一向量的设定维度，即设定数量，m和p为不小于1的正整数，m、p的组合可以根据第一矩阵的维度设定。第一向量的数量m可以根据语料处理结果在模型上的表现效果、模型加载占用的内存大小进行反馈调整，例如，将语料处理结果输入nlp模型得到的语义识别结果准确率低于设定阈值，则相应增大m的数值。
57.例如，第一矩阵为12*n维的矩阵，每一行为12个元素，可以将m和p的组合设定为1*12、2*6、3*4、4*3、6*2、12*1的其中一种组合。
58.步骤103：基于各第一向量之间的相似度，对各第一向量进行聚类，得到至少一个簇。
59.基于各第一向量之间的相似度，对各第一向量进行聚类，得到至少一个簇。这里，可以利用k-means等聚类算法，基于各第一向量的相似度对进行聚类。在聚类结果中，同一簇中的第一向量之间的相似度可以高于相似度阙值。这里，簇的数量可以根据语料处理结果在模型上的表现效果、模型加载占用的内存大小进行反馈调整。
60.例如，第一向量a为(0,0,0,0,0.80,0)，第一向量b为(0,0,0,0,0.82,0)，第一向量c为(0.32,0,0,0,0,0)，第一向量b为(0.30,0,0,0,0,0)，根据相似度将第一向量a和第一向量b分到甲簇，将第一向量c和第一向量d分到乙簇。
61.步骤104：使用聚类得到的每一簇对应的簇中心替换对应簇中的第一向量，得到第二矩阵。
62.使用聚类得到的每一簇对应的簇中心，替换第一矩阵中对应簇中的第一向量，得到第二矩阵。这里，簇中心可以是元素的形式，元素基于簇中的所有第一向量确定；簇中心也可以是向量的形式，向量可以基于簇中的所有第一向量的平均值确定，并且，簇中心的向量维度还可以根据语料处理结果在模型上的表现效果、模型加载占用的内存大小进行反馈调整。
63.例如，第一矩阵为将每一行元素划分为1个4维的第一向量。聚类后将第一向量e(0,0,0.80,0)、第一向量f(0,0,0.82,0)分为一簇，对应的簇中心为(0,0,0.81,0)；将第一向量g(0,0,0,0.32)、第一向量h(0,0,0,0.30)分为一簇，对应的簇中心为(0,0,0,0.31)，基于聚类得到的每一簇对应的簇中心，替换第一矩阵中对应簇中的第一向量，得到第二矩阵
64.又例如，第一矩阵为将每一行元素划分为1个4维的第一向量。聚类后将第一向量e(0,0,0.80,0)、第一向量f(0,0,0.82,0)分为一簇，对应的簇中心为元素0.70；将第一向量g(0,0,0,0.22)、第一向量h(0,0,0,0.20)分为一簇，对应的簇中心为元素0.80，基于聚类得到的每一簇对应的簇中心，替换第一矩阵中对应簇中的第一向量，得到第二矩阵
65.步骤105：将所述第二矩阵输入设定的nlp模型，得到关于所述语料信息的语义识别结果。
66.将语料信息对应的第二矩阵输入设定的nlp模型，获得关于语料信息的语义识别结果。这里，根据设定的nlp模型的不同，可以实现如语义分析、情感分类等功能。利用处理过的第二矩阵，这样，在实现不同功能的nlp模型加载时，可以降低所模型占用的内存。
67.在本技术实施例中，通过对表征语料信息的第一矩阵的第一向量进行聚类，以每一簇对应的簇中心替换对应簇中的第一向量，得到第二矩阵，将第二矩阵输入设定nlp模型，得到关于语料信息的语义识别结果。在本技术实施例在语料处理时，通过聚类的方式减少词向量所占的空间，语料压缩过程中不需要经历大量的高维度的矩阵乘法运算，从而可以减少语料处理时所消耗的计算力，提高语料处理的速度。
68.其中，在一实施例中，所述基于各第一向量之间的相似度，对各第一向量进行聚类，包括：
69.将在所述第一矩阵中所占的列相同的第一向量分配至同一个第一集合，得到至少一个第一集合；
70.根据各第一向量之间的相似度，对所述至少一个第一集合中的每个第一集合中的第一向量进行聚类。
71.根据各第一向量在第一矩阵中所占的列，对第一向量进行分配，将在第一矩阵中所占的列相同的第一向量分配至同一个第一集合，得到至少一个第一集合，根据各第一向量之间的相似度，将至少一个第一集合中的每个第一集合中的第一向量进行聚类。
72.例如，如图2所示出的第一矩阵示意图，占第一矩阵中第一列至第四列的第一向量被分配至第一集合a，占第一矩阵中第五列至第八列的第一向量被分配至第一集合b，占第一矩阵中第九列至第十二列的第一向量被分配至第一集合c，占第一矩阵中第十三列至第十六列的第一向量被分配至第一集合d。
73.通过将所占的列相同的第一向量分配至同一个第一集合，对每个第一集合进行聚类，由于第一矩阵中的列相同的元素通常表征第一文本对应的某一类特征，将表征相同特征的第一向量进行聚类，得到的第二矩阵表征的含义与第一矩阵更加接近，从而在压缩模型使用语料信息所需的内存的同时，提高模型语义识别的准确率。
74.在一实施例中，所述基于语料信息生成第一矩阵，包括：
75.基于对所述语料信息进行拆分得到的拆分结果，确定至少两个第一文本；
76.对确定出的至少两个第一文本中的每个第一文本进行特征提取，生成所述第一矩阵。
77.对语料信息进行拆分，得到拆分结果，基于拆分结果确定至少两个第一文本，对确定出的至少两个第一文本中的每个第一文本进行特征提取，得到每个第一文本对应的特征向量，根据第一文本对应的特征向量的元素生成第一矩阵。这里，第一文本表征语料信息中与语义识别相关度高的文本，用于在语料处理结果输入模型。至少两个第一文本可以形成基于语料信息确定的列表，如字表、词表或句子表。对每个第一文本进行的特征提取，特征提取可以采用word2vec算法的机器学习模型，如连续词袋(cbow，continuous bag-of-words)模型或者跳字skip-gram模型。第一文本的数量可以根据语料处理结果在模型上的表现效果、模型加载占用的内存大小进行反馈调整。
78.在一实施例中，所述基于对所述语料信息进行拆分得到的拆分结果，确定至少两个第一文本，包括：
79.对所述语料信息进行拆分，得到至少两个第二文本；
80.统计所述至少两个第二文本中的每个第二文本在所述语料信息中的出现次数，确定统计结果；
81.基于确定出的统计结果，在所述至少两个第二文本中确定至少两个第一文本。
82.对语料信息进行拆分，得到至少两个第二文本为拆分结果，根据每个第二文本在语料信息的拆分结果中出现的次数，确定每个第二文本对应的统计结果，基于统计结果在至少两个第二文本中确定至少两个第一文本。这里，第一文本表征在拆分语料信息得到的第二文本中，与语义识别相关度高的文本，用于在语料处理结果输入模型。这样，在基于统计语料信息中出现的次数确定出的第一文本进行语义识别时，识别结果的准确率提高。
83.这里，还可以进一步根据语料处理结果在模型上的表现效果、模型加载占用的内存大小，对第一文本的数量进行反馈调整，从而降低模型加载语料处理结果时所占用的内存。
84.在一实施例中，所述基于确定出的统计结果，在所述至少两个第二文本中确定至少两个第一文本，包括：
85.基于确定出的统计结果，将在所述语料信息中出现的次数满足设定阈值的至少两个第二文本确定所述第一文本；
86.和/或，
87.基于确定出的统计结果，利用idf算法，在所述至少两个第二文本中确定所述第一文本。
88.基于确定出的统计结果在至少两个第二文本中确定至少两个第一文本的方式，可以是将在语料信息中出现的次数满足设定阈值的这些第二文本确定为第一文本，可以是利用idf算法，在至少两个第二文本中确定第一文本，也可以使用以上两种方式共同用于确定第一文本的结合。
89.例如，语料信息1为“一般的猫：猫的头圆、颜面部短”，语料信息2为“一般的猫和狗是饲养率最高的宠物，其寿命大约在12-18年”，对语料信息1进行拆分，得到第二文本为“一般的”、“猫”、“猫”、“头”、“圆”、“颜面部”、“短”，统计“一般的”、“猫”、“头”、“圆”、“颜面部”、“短”的第一频率分别为1、2、1、1、1、1，确定“猫”为第一文本，而结合idf算法，在语料信息2中没有出现“头”、“圆”“颜面部”、“短”，即确定“头”、“圆”、“颜面部”、“短”为第一文本。利用统计的第一频率和idf算法，确定对应于语料信息1的第一文本为“猫”、“头”、“圆”、“颜面部”、“短”。
90.通过对语料信息的拆分得到的第二文本在拆分结果中出现次数的统计，确定高频文本和高idf文本为拆分结果中与语义识别相关度高的第一文本，这样，通过高频确定出的文本通常可以反映对应语料信息的主题，而通过idf算法确定的第一文本通常与语料信息的细节相关，因而在基于确定出的第一文本进行语义识别时，识别结果的准确率提高。
91.在基于统计语料信息中出现的次数，结合高频和/或高idf确定重要性高的文本为第一文本，这样，确定出的第一文本进行语义识别时，识别结果的准确率提高。
92.在一实施例中，所述基于对所述语料信息进行拆分得到的拆分结果，确定至少两个第一文本，包括：
93.基于设定分词规则对所述语料信息进行拆分得到的拆分结果，确定至少两个第一文本；所述第一文本表征基于所述语料信息的拆分结果确定的词。
94.实际应用中，通常采用pca、lda或embedding将语料信息处理成词向量。这里，设定分词规则可以采用空格拆分、n元算法n-gram拆分、正则规则拆分等方式。在本实施例中，根据设定分词规则对语料信息进行拆分，基于得到的拆分结果确定至少两个词，并通过聚类的方式减少词向量所占的空间，不需要大量的高维度的矩阵乘法运算，从而可以减少语料处理所消耗的计算力，提高语料处理的速度。
95.在一实施例中，所述基于各第一向量之间的相似度，对各第一向量进行聚类，包括：
96.根据各第一向量的元素之间的相似度，得到各第一向量之间的相似性度量矩阵；
97.根据所述相似性度量矩阵对各第一向量进行聚类。
98.根据各第一向量的元素之间的相似度，确定各第一向量之间的相似性度量矩阵，并根据确定出的相似性度量矩阵对各第一向量进行聚类。这里，可以利用欧式距离等相似度计算方法，计算各第一向量两两之间的特征之间的相似度，根据得到的各第一向量两两之间的特征的相似度，得到相似性度量矩阵。
99.例如，有三个第一向量，第一向量i和第一向量j之间的相似度为sl，第一向量i和第一向量k之间的相似度为s2，第一向量j和第一向量k之间的相似度为s3，三个第一向量之间的相似性度量矩阵为(sl，s2，s3)。
100.这样，通过判断各第一向量两两之间的特征之间的相似度，确定相似性度量矩阵，从而实现对各第一向量的聚类。
101.下面结合应用实施例对本技术再作进一步的详细描述。
102.在机器学习的nlp领域，词向量是常用的词义表征方式，在基于词向量的机器学习中，输入模型的词向量的维度越大，则越能够准确地区分不同的词，词向量维度一般在300至600。但是，词向量的维度越大，模型加载词向量时占用的内存就越大，会造成电子设备加载模型的过程中，词表占用内存过大的情况。相关技术中，为降低模型加载占用的内存，在语料处理时，通常采用pca、lda或基于深度网络的embedding等方式实现词向量降维处理，存在消耗大量计算力、处理速度慢、需要与神经网络结合的问题。这里，词向量指的是将一
个词转换一个向量表示的方式，用于机器学习的数据输入。词向量维度指的是一个词转换为词向量时的表示长度，词义相似的词向量距离相近。
103.为此，本应用实施例提出了一种词向量压缩方式，基于聚类方法减少词向量所占内存空间，进而减少模型整体的内存大小，达到模型压缩的目的，实现词向量模型的压缩。这里，模型压缩指的是通过一定方法减少模型加载到内存的大小，进而减少模型的内存消耗。聚类是基于向量之间的距离，将距离相近的向量聚成一类的方法。
104.结合图3，对应的语料处理方法，包括：
105.(1)语料信息分词
106.按照一定规则将语料信息数据进行拆分，常用的分词方法有空格拆分、n-gram、正则规则拆分等。拆分完后一个序列sequence将表示为多个词的形式。
107.(2)统计词频与词数量
108.根据每一个sequence拆分出的多个词，统计训练集中每一个词的数量，以及全体样本词的总数，以便后续的词表选择、词数量确认等步骤。
109.(3)筛选词表
110.根据统计的词频信息，从中筛选出出现频次较多的词作为词表。这里，还可以结合词频逆文档频率(tf-idf，term frequency inverse document frequency)算法等方式确定词的重要性，从拆分得到的多个词中筛选重要性较高的词。
111.(4)特征提取
112.该步骤主要是采用word2vec算法的机器学习模型，如cbow模型或者skip-gram模型进行词向量训练，得到提取的特征。根据筛选出的词表中的每个词的文本信息，获取词表中词对应的词向量。
113.(5)词向量压缩
114.根据获取到的词向量，结合聚类的方式如k-means聚类方法，对词向量进行聚类，从而降低词向量内存消耗，减少模型加载占用的内存，达到模型压缩的目的。
115.在词向量压缩阶段，参见图4所示出的，处理步骤主要为三步，包括第一向量划分、第一向量聚类以及簇中心替换。将第一矩阵分块、聚类，寻找各块的簇中心，使用簇中心表示同一簇的对应第一向量。这里，第一矩阵表示为a*b的二维矩阵，每一行为一个词的向量表示。这里，簇表征聚类结果中表示同一类的数据集合，其中集合元素之间具有一定的相似性。
116.第一向量划分：将第一矩阵按照行拆分为多个子向量块。
117.聚类分簇：分别对每个子向量块中的每个第一向量进行聚类，找到对应的簇中心。
118.簇中心替换：在每个子向量块中使用簇中心替换第一向量，最终的簇中心数量为k*l，相比于原有a*b的数据量有所减少，从而降低词向量内存消耗，减少模型加载占用的内存，达到模型压缩的目的。
119.(6)反馈调整
120.根据词向量在模型上的表现效果、模型加载占用的内存大小，调整词表大小、词向量压缩时用于替换的向量维度、聚类簇的数量的大小。
121.在本应用实施例中，通过对词向量的高维度进行拆分，得到多个向量块，对子向量块的第一向量进行聚类，以对应的簇中心替换第一向量，相较于相关技术为降低模型加载
占用的内存的语料处理的方案，需要进行大量的高维度的矩阵乘法运算，在本技术实施例在语料处理时，通过聚类的方式减少词向量所占的空间，在本技术各实施例在语料处理时，通过聚类的方式减少词向量所占的空间，语料压缩过程中不需要经历大量的高维度的矩阵乘法运算，从而可以减少语料处理时所消耗的计算力，提高语料处理的速度。同时，根据词向量在模型上的表现效果、模型加载占用的内存大小，反馈调整词表大小、词向量压缩时用于替换的向量维度、聚类簇的数量大小。
122.为实现本技术实施例的方法，本技术实施例还提供了一种语料处理装置，如图5所示，该装置包括：
123.生成单元501，用于基于语料信息生成第一矩阵；所述第一矩阵的每一行元素表征所述语料信息中的一个第一文本；
124.划分单元502，用于将所述第一矩阵的每一行元素划分为设定维度的第一向量；
125.聚类单元503，用于基于各第一向量之间的相似度，对各第一向量进行聚类，得到至少一个簇；
126.替换单元504，用于使用聚类得到的每一簇对应的簇中心替换对应簇中的第一向量，得到第二矩阵；
127.识别单元505，用于将所述第二矩阵输入设定的nlp模型，得到关于所述语料信息的语义识别结果。
128.在一个实施例中，所述聚类单元503，用于：
129.将在所述第一矩阵中所占的列相同的第一向量分配至同一个第一集合，得到m个第一集合；
130.根据各第一向量之间的相似度，对所述m个第一集合中的每个第一集合中的第一向量进行聚类。
131.在一个实施例中，所述划分单元502，用于：
132.基于对所述语料信息进行拆分得到的拆分结果，确定至少两个第一文本；
133.对确定出的至少两个第一文本中的每个第一文本进行特征提取，生成所述第一矩阵。
134.在一个实施例中，所述基于对所述语料信息进行拆分得到的拆分结果，确定至少两个第一文本，包括：
135.对所述语料信息进行拆分，得到至少两个第二文本；
136.统计所述至少两个第二文本中的每个第二文本在所述语料信息中的出现次数，确定统计结果；
137.基于确定出的统计结果，在所述至少两个第二文本中确定至少两个第一文本。
138.在一个实施例中，所述基于确定出的统计结果，在所述至少两个第二文本中确定至少两个第一文本，包括：
139.基于确定出的统计结果，将在所述语料信息中出现的次数满足设定阈值的至少两个第二文本确定所述第一文本；
140.和/或，
141.基于确定出的统计结果，利用idf算法，在所述至少两个第二文本中确定所述第一文本。
142.在一个实施例中，所述基于对所述语料信息进行拆分得到的拆分结果，确定至少两个第一文本，包括：
143.基于设定分词规则对所述语料信息进行拆分得到的拆分结果，确定至少两个第一文本；所述第一文本表征基于所述语料信息的拆分结果确定的词。
144.在一个实施例中，所述聚类单元503，用于：
145.根据各第一向量的元素之间的相似度，得到各第一向量之间的相似性度量矩阵；
146.根据所述相似性度量矩阵对各第一向量进行聚类。
147.实际应用时，所述生成单元501、划分单元502、聚类单元503、替换单元504、识别单元505可由基于语料处理装置中的处理器，比如中央处理器(cpu，central processing unit)、数字信号处理器(dsp，digital signal processor)、微控制单元(mcu，microcontroller unit)或可编程门阵列(fpga，field－programmable gate array)等实现。
148.需要说明的是：上述实施例提供的语料处理装置在进行语料处理时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将装置的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的语料处理装置与语料处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。
149.基于上述程序模块的硬件实现，且为了实现本技术实施例语料处理方法，本技术实施例还提供了一种电子设备，如图6所示，该电子设备600包括：
150.通信接口610，能够与其它设备比如网络设备等进行信息交互；
151.处理器620，与所述通信接口610连接，以实现与其它设备进行信息交互，用于运行计算机程序时，执行上述一个或多个技术方案提供的方法。而所述计算机程序存储在存储器630上。
152.具体地，所述处理器620，用于：
153.基于语料信息生成第一矩阵；所述第一矩阵的每一行元素表征所述语料信息中的一个第一文本；
154.将所述第一矩阵的每一行元素划分为设定维度的第一向量；
155.基于各第一向量之间的相似度，对各第一向量进行聚类，得到至少一个簇；
156.使用聚类得到的每一簇对应的簇中心替换对应簇中的第一向量，得到第二矩阵；
157.将所述第二矩阵输入设定的自然语言处理nlp模型，得到关于所述语料信息的语义识别结果。
158.在一个实施例中，所述处理器620，用于：
159.将在所述第一矩阵中所占的列相同的第一向量分配至同一个第一集合，得到至少一个第一集合；
160.根据各第一向量之间的相似度，对所述至少一个第一集合中的每个第一集合中的第一向量进行聚类。
161.在一个实施例中，所述处理器620，用于：
162.基于对所述语料信息进行拆分得到的拆分结果，确定至少两个第一文本；
163.对确定出的至少两个第一文本中的每个第一文本进行特征提取，生成所述第一矩
阵。
164.在一个实施例中，所述处理器620，用于：
165.对所述语料信息进行拆分，得到至少两个第二文本；
166.统计所述至少两个第二文本中的每个第二文本在所述语料信息中的出现次数，确定统计结果；基于确定出的统计结果，在所述至少两个第二文本中确定至少两个第一文本。
167.在一个实施例中，所述处理器620，用于：
168.基于确定出的统计结果，将在所述语料信息中出现的次数满足设定阈值的至少两个第二文本确定为所述第一文本；
169.和/或，
170.基于确定出的统计结果，利用idf算法，在所述至少两个第二文本中确定所述第一文本。
171.在一个实施例中，所述处理器620，用于：
172.基于设定分词规则对所述语料信息进行拆分得到的拆分结果，确定至少两个第一文本；所述第一文本表征基于所述语料信息的拆分结果确定的词。
173.在一个实施例中，所述处理器620，用于：
174.根据各第一向量的元素之间的相似度，得到各第一向量之间的相似性度量矩阵；
175.根据所述相似性度量矩阵对各第一向量进行聚类。
176.当然，实际应用时，电子设备600中的各个组件通过总线系统640耦合在一起。可理解，总线系统640用于实现这些组件之间的连接通信。总线系统640除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图6中将各种总线都标为总线系统640。
177.本技术实施例中的存储器630用于存储各种类型的数据以支持电子设备600的操作。这些数据的示例包括：用于在电子设备600上操作的任何计算机程序。
178.可以理解，存储器630可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(rom，read only memory)、可编程只读存储器(prom，programmable read-only memory)、可擦除可编程只读存储器(eprom，erasable programmable read-only memory)、电可擦除可编程只读存储器(eeprom，electrically erasable programmable read-only memory)、磁性随机存取存储器(fram，ferromagnetic random access memory)、快闪存储器(flash memory)、磁表面存储器、光盘、或只读光盘(cd-rom，compact disc read-only memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(ram，random access memory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的ram可用，例如静态随机存取存储器(sram，static random access memory)、同步静态随机存取存储器(ssram，synchronous static random access memory)、动态随机存取存储器(dram，dynamic random access memory)、同步动态随机存取存储器(sdram，synchronous dynamic random access memory)、双倍数据速率同步动态随机存取存储器(ddrsdram，double data rate synchronous dynamic random access memory)、增强型同步动态随机存取存储器(esdram，enhanced synchronous dynamic random access memory)、同步连接动态随机存取存储器(sldram，synclink dynamic random access memory)、直接内存总线
随机存取存储器(drram，direct rambus random access memory)。本技术实施例描述的存储器630旨在包括但不限于这些和任意其它适合类型的存储器。
179.上述本技术实施例揭示的方法可以应用于处理器620中，或者由处理器620实现。处理器620可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器620中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器620可以是通用处理器、dsp，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器620可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本技术实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器630，处理器620读取存储器630中的程序，结合其硬件完成前述方法的步骤。
180.可选地，所述处理器620执行所述程序时实现本技术实施例的各个方法中由电子设备实现的相应流程，为了简洁，在此不再赘述。
181.在示例性实施例中，本技术实施例还提供了一种存储介质，即计算机存储介质，具体为计算机可读存储介质，例如包括存储计算机程序的存储器630，上述计算机程序可由电子设备的处理器620执行，以完成前述方法所述步骤。计算机可读存储介质可以是fram、rom、prom、eprom、eeprom、flash memory、磁表面存储器、光盘、或cd-rom等存储器。
182.在本技术所提供的几个实施例中，应该理解到，所揭露的装置、电子设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。
183.上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
184.另外，在本技术各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。
185.本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
186.或者，本技术上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本技术各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、rom、ram、磁碟或者光盘等各种可以存储程序代码
的介质。
187.需要说明的是，本技术实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。除非另有说明和限定，术语“连接”应做广义理解，例如，可以是电连接，也可以是两个元件内部的连通，可以是直接相连，也可以通过中间媒介间接相连，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。
188.另外，在本技术实例中，“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解“第一\第二\第三”区分的对象在适当情况下可以互换，以使这里描述的本技术的实施例可以除了在这里图示或描述的那些以外的顺序实施。
189.以上所述，仅为本技术的具体实施方式，但本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本技术的保护范围之内。因此，本技术的保护范围应以所述权利要求的保护范围为准。
190.在具体实施方式中所描述的各个实施例中的各个具体技术特征，在不矛盾的情况下，可以进行各种组合，例如通过不同的具体技术特征的组合可以形成不同的实施方式，为了避免不必要的重复，本技术中各个具体技术特征的各种可能的组合方式不再另行说明。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵艺宾雷昕闫凡徐敬蘅
技术所有人：深信服科技股份有限公司
我是此专利的发明人

上一篇：终端管理方法、装置、计算机设备、存储介质和程序产品与流程
上一篇：一种T细胞CRISPER文库筛选方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。