本发明涉及计算机,尤其涉及一种数据质量评估方法、设备、存储介质及装置。
背景技术:
1、随着人工智能的发展,对语言模型的模型性能要求越来越高,针对人工智能大模型研发领域,在模型训练过程中,通过训练数据对模型进行训练,从而达到提升模型性能的效果,但是现有的训练数据大多数是通过采集网页数据直接输入至模型中进行迭代训练,而网页数据中会存在许多错误文本以及敏感数据,进而导致训练数据在模型训练过程中存在干扰信息,影响模型训练效果。
2、上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
技术实现思路
1、本发明的主要目的在于提供一种数据质量评估方法、设备、存储介质及装置,旨在解决现有技术中通过直接使用网页数据,由于网页数据中存在多种干扰信息导致模型训练效果差的技术问题。
2、为实现上述目的,本发明提供一种数据质量评估方法,所述数据质量评估方法包括以下步骤:
3、基于预设知识图谱对待清洗的网页数据进行敏感内容过滤,获得第一目标网页数据;
4、基于所述预设知识图谱对所述第一目标网页数据进行虚假内容过滤,获得第二目标网页数据;
5、根据预设数据评估流程对所述第二目标网页数据进行质量评估,获得目标评估结果。
6、可选地,所述基于预设知识图谱对待清洗的网页数据进行敏感内容过滤,获得第一目标网页数据的步骤,包括:
7、基于预设知识图谱中包含的敏感词表对所述待清洗的网页数据中的敏感词进行匹配,获得匹配结果;
8、根据所述匹配结果对所述待清洗的网页数据进行敏感内容过滤,获得第一目标网页数据。
9、可选地,所述基于所述预设知识图谱对所述第一目标网页数据进行虚假内容过滤,获得第二目标网页数据的步骤,包括:
10、基于所述预设知识图谱中包含的错误文本构建虚假信息数据库;
11、根据所述虚假信息数据库对所述第一目标网页数据进行虚假内容过滤,获得第二目标网页数据。
12、可选地,所述根据所述虚假信息数据库对所述第一目标网页数据进行虚假内容过滤,获得第二目标网页数据的步骤,包括:
13、根据所述虚假信息数据库中包含的虚假文本对所述第一目标网页数据中的虚假文本进行匹配,获得待处理的虚假文本;
14、基于所述待处理的虚假文本对所述第一目标网页数据进行虚假内容过滤,获得第二目标网页数据。
15、可选地,所述根据所述虚假信息数据库中包含的虚假文本对所述第一目标网页数据中的虚假文本进行匹配,获得待处理的虚假文本的步骤,包括:
16、基于预设文本识别模型将所述虚假信息数据库中包含的虚假文本转换为第一特征向量;
17、基于所述预设文本识别模型将所述第一目标网页数据转换为第二特征向量;
18、将所述第一特征向量与所述第二特征向量进行匹配,获得特征向量匹配结果;
19、根据所述特征向量匹配结果确定待处理的虚假文本。
20、可选地,所述根据预设数据评估流程对所述第二目标网页数据进行质量评估,获得目标评估结果的步骤,包括:
21、根据预设数据评估流程中预设质量评估维度对所述第二目标网页数据进行质量评估,获得多维度评估结果;
22、根据所述多维度评估结果确定目标评估结果。
23、可选地,所述预设质量评估维度包括数据来源、数据多样性、数据时间、跨度时间,所述根据预设数据评估流程中预设质量评估维度对所述第二目标网页数据进行质量评估,获得多维度评估结果的步骤,包括:
24、根据所述预设数据评估流程中数据来源、数据多样性、数据时间、跨度时间对所述第二目标网页数据进行质量评估,获得来源评估结果、多样性评估结果、时间评估结果、跨度评估结果;
25、根据所述来源评估结果、所述多样性评估结果、所述时间评估结果、所述跨度评估结果确定多维度评估结果。
26、可选地,所述根据所述多维度评估结果确定目标评估结果的步骤,包括:
27、基于预设数据评估模型和预设级别对所述第二目标网页数据进行质量评估,获得模型评估结果;
28、根据所述多维度评估结果和所述模型评估结果确定目标评估结果。
29、可选地,所述基于预设数据评估模型和预设级别对所述第二目标网页数据进行质量评估,获得模型评估结果的步骤之前,还包括:
30、基于预设质量文本对初始参数模型进行训练,获得训练后的参数模型;
31、将所述训练后的参数模型输出作为预设数据评估模型。
32、可选地,所述基于预设数据评估模型和预设级别对所述第二目标网页数据进行质量评估,获得模型评估结果的步骤,包括:
33、基于预设数据评估模型和预设级别对所述第二目标网页数据进行质量评估,获得各级别对应的ppl值;
34、根据所述各级别对应的ppl值确定模型评估结果。
35、可选地,所述基于预设知识图谱对待清洗的网页数据进行敏感内容过滤,获得第一目标网页数据的步骤之前,还包括:
36、采集敏感词相关图谱;
37、根据预设语义知识库以及所述敏感词相关图谱构建敏感词知识网络图;
38、基于所述敏感词知识网络图和错误文本知识网络图构建预设知识图谱。
39、此外,为实现上述目的,本发明还提出一种数据质量评估设备,所述数据质量评估设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据质量评估程序,所述数据质量评估程序配置为实现如上文所述的数据质量评估的步骤。
40、此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有数据质量评估程序,所述数据质量评估程序被处理器执行时实现如上文所述的数据质量评估方法的步骤。
41、此外,为实现上述目的,本发明还提出一种数据质量评估装置,所述数据质量评估装置包括:
42、敏感过滤模块,用于基于预设知识图谱对待清洗的网页数据进行敏感内容过滤,获得第一目标网页数据;
43、虚假过滤模块,用于基于所述预设知识图谱对所述第一目标网页数据进行虚假内容过滤,获得第二目标网页数据;
44、质量评估模块,用于根据预设数据评估流程对所述第二目标网页数据进行质量评估,获得目标评估结果。
45、可选地,所述敏感过滤模块,还用于基于预设知识图谱中包含的敏感词表对所述待清洗的网页数据中的敏感词进行匹配,获得匹配结果;
46、所述敏感过滤模块,还用于根据所述匹配结果对所述待清洗的网页数据进行敏感内容过滤,获得第一目标网页数据。
47、可选地,所述虚假过滤模块,还用于基于所述预设知识图谱中包含的错误文本构建虚假信息数据库;
48、所述虚假过滤模块,还用于根据所述虚假信息数据库对所述第一目标网页数据进行虚假内容过滤,获得第二目标网页数据。
49、可选地,所述虚假过滤模块,还用于根据所述虚假信息数据库中包含的虚假文本对所述第一目标网页数据中的虚假文本进行匹配,获得待处理的虚假文本;
50、所述虚假过滤模块,还用于基于所述待处理的虚假文本对所述第一目标网页数据进行虚假内容过滤,获得第二目标网页数据。
51、可选地,所述虚假过滤模块,还用于基于预设文本识别模型将所述虚假信息数据库中包含的虚假文本转换为第一特征向量;
52、所述虚假过滤模块,还用于基于所述预设文本识别模型将所述第一目标网页数据转换为第二特征向量;
53、所述虚假过滤模块,还用于将所述第一特征向量与所述第二特征向量进行匹配,获得特征向量匹配结果;
54、所述虚假过滤模块,还用于根据所述特征向量匹配结果确定待处理的虚假文本。
55、可选地,所述质量评估模块,还用于根据预设数据评估流程中预设质量评估维度对所述第二目标网页数据进行质量评估,获得多维度评估结果;
56、所述质量评估模块,还用于根据所述多维度评估结果确定目标评估结果。
57、可选地,所述预设质量评估维度包括数据来源、数据多样性、数据时间、跨度时间,所述质量评估模块,还用于根据所述预设数据评估流程中数据来源、数据多样性、数据时间、跨度时间对所述第二目标网页数据进行质量评估,获得来源评估结果、多样性评估结果、时间评估结果、跨度评估结果;
58、所述质量评估模块,还用于根据所述来源评估结果、所述多样性评估结果、所述时间评估结果、所述跨度评估结果确定多维度评估结果。
59、本发明通过基于预设知识图谱对待清洗的网页数据进行敏感内容过滤,获得第一目标网页数据;基于所述预设知识图谱对所述第一目标网页数据进行虚假内容过滤,获得第二目标网页数据;根据预设数据评估流程对所述第二目标网页数据进行质量评估,获得目标评估结果,本发明通过预设知识图谱对待清洗网页数据进行敏感内容以及虚假内容的过滤,进而对过滤后的数据进行质量评估,获得评估结果,相较于现有技术中通过直接使用网页数据,由于网页数据中存在多种干扰信息导致模型训练效果差,本发明结合数据清洗对干扰信息进行过滤以及通过质量评估确定高质量数据,从而提高训练数据质量,便于提升模型训练效果。