一种基于向量数据库的多模态大模型训练系统及方法与流程

文档序号:36934870发布日期:2024-02-02 22:01阅读:19来源:国知局
一种基于向量数据库的多模态大模型训练系统及方法与流程

本发明涉及多模态模型训练系统的,具体涉及一种基于向量数据库的多模态大模型训练系统及方法。


背景技术:

1、向量数据库是一种设计用于处理和存储向量数据的数据库系统。在这里,向量指的是具有多个维度的数值数组或向量,而向量数据库专注于有效地存储、检索和处理这些高维度的向量数据。多模态大模型训练系统通常指的是一个用于训练能够处理和理解多种不同模态数据的大型深度学习模型的系统。这样的系统旨在实现对多模态信息的融合和联合学习,以提高模型对于复杂任务的性能。基于向量数据库的多模态大模型训练系统是指结合了向量数据库的概念和多模态大模型训练的要求的系统。这样的系统旨在有效地处理和存储多模态数据,同时支持对这些数据进行联合训练以训练大型深度学习模型。

2、现在已经开发出了很多模型训练系统,经过我们大量的检索与参考,发现现有技术的模型训练系统有如公开号为cn115035366a、cn115128959a、cn107480194a、ep4080419a1、us20220044105a1所公开的模型训练系统,这些模型训练系统一般包括:数据整理终端、模型训练终端和应用终端;数据整理终端用于获取并整理用于训练多模态模型的原始数据;模型训练终端用于根据原始数据进行模型训练;应用终端用于将训练完成的模型应用至对应的场景。由于上述模型训练系统的数据整理方式较为单一,造成了多模态模型训练效率下降的缺陷。


技术实现思路

1、本发明的目的在于,针对上述模型训练系统存在的不足,提出一种基于向量数据库的多模态大模型训练系统及方法。

2、本发明采用如下技术方案:

3、一种基于向量数据库的多模态大模型训练系统,包括数据预处理终端、向量数据库终端和模型训练终端;所述数据预处理终端用于将多模态数据转换为向量格式;所述向量数据库终端用于存储和管理经过预处理的向量数据,并提供数据检索功能;所述模型训练终端用于使用所述向量数据库终端中的数据进行多模态模型的训练;

4、所述数据预处理终端包括文本数据向量化模块、图像数据向量化模块和声音数据向量化模块;所述文本数据向量化模块用于将多模态数据中的文本数据转换为向量格式的文本数据向量;所述图像数据向量化模块用于将多模态数据中的图像数据转换为向量格式的图像数据向量;所述声音数据向量化模块用于将多模态数据中的声音数据转换为向量格式的声音数据向量;

5、所述向量数据库终端包括向量数据存储模块和向量数据管理模块;所述向量数据存储模块用于存储经过预处理后的向量数据;所述向量数据管理模块用于对向量数据进行冗余清理操作并提供数据检索功能。

6、可选的,所述模型训练终端包括预处理模块、模型配置模块、模型训练模块、模型测试模块和模型部署模块;所述预处理模块用于从所述向量数据存储模块加载对应的数据并选择对应的深度学习模型;所述模型配置模块用于设置模型的参数;所述模型训练模块用于根据加载的数据训练所选的模型;所述模型测试模块用于对训练完成的模型进行测试;所述模型部署模块用于将训练完成且测试通过的模型部署至对应的场景中。

7、可选的,所述文本数据向量化模块包括预删减子模块、词嵌入子模块和整合词向量子模块;所述预删减子模块用于对文本数据中的噪声进行删除;所述文本数据的噪声包括非文字字符和错位标点符号;所述词嵌入子模块用于根据词嵌入模型将每个词元转换为对应的词元向量;所述词嵌入模型由管理员预先选定;所述词嵌入模型包括word2vec、glove和fasttext;所述整合词向量子模块用于将文本数据中每个文本文件的全部词元向量整合成文本数据向量。

8、可选的,所述文本数据向量化模块还包括检验子模块;所述检验子模块用于对文本数据进行来源分值计算并生成对应的检验信息;所述预删减子模块用于根据检验信息将检验未通过的文本数据进行预删减操作;所述检验子模块包括来源分值计算单元和检验信息生成单元;所述来源分值计算单元用于根据文本数据的来源信息计算文本数据的来源分值;所述检验信息生成单元用于根据文本数据的来源分值生成对应的检验信息;

9、当所述来源分值计算单元工作时,满足以下式子:

10、;

11、 ;

12、 ;

13、其中,表示对应文本数据的来源分值;表示基于文本数据存储容量大小的系数选择函数;表示对应文本数据的文本数据存储容量大小;q1和q2分别表示不同的存储容量阈值,均由管理员根据经验设定;和分别表示第一变换系数和第二变换系数,均由管理员根据经验设定;和分别表示数据录入员工作等级转换系数和数据录入员工作年龄差转换系数,均由管理员根据经验设定;level表示来源信息中数据录入员录入文本数据时产生的人脸识别数据中的数据录入员工作等级;所述数据录入员工作等级由管理员预先对全部数据录入员进行评定;yworker表示来源信息中录入对应文本数据的数据录入员的年龄数值;yref表示年龄参考值,由管理员根据经验设定;

14、timez表示录入时间分值;time表示基准分值,由管理员根据经验设定;ta表示文本数据中全部文本文件中第a个文本文件的录入时长数值;a表示文本数据中全部文本文件的总数;

15、当时,所述检验信息生成单元生成用于表示对应文本数据的来源分值未达标的检验信息,以便于驱使所述预删减子模块将对应的文本数据进行预删减操作;sref表示检验阈值,由管理员根据经验设定。

16、可选的,所述图像数据向量化模块包括预删除子模块、尺寸修改子模块和向量转换子模块;所述预删除子模块用于对图像数据进行预删除操作,以便于删除质量未达标的图像数据;所述尺寸修改子模块用于对质量达标的图像数据进行预设尺寸修改;所述预设尺寸由管理员预先设定;所述向量转换子模块用于根据图像数据的像素矩阵生成对应的图像数据向量。

17、可选的,所述图像数据向量化模块还包括压缩质量评定子模块;所述压缩质量评定子模块用于对图像数据进行压缩质量评定并生成压缩质量评定信息;所述压缩质量评定子模块包括压缩质量评定指数计算单元和压缩质量评定信息生成单元;所述压缩质量评定指数计算单元用于根据图像数据的原始信息和压缩信息计算对应图像数据的压缩质量评定指数;所述压缩质量评定信息生成单元用于根据压缩质量评定指数生成对应的压缩质量评定信息;所述预删除子模块用于根据压缩质量评定信息进行预删除操作;

18、当所述压缩质量评定指数计算单元工作时,满足以下式子:

19、;

20、;

21、其中,photoz表示对应图像数据的压缩质量评定指数;maxi表示对应图像数据中的最大像素值;mse表示对应图像数据的均方误差数值;m表示对应图像数据的长度,即:图像数据的横向方向的像素点总数;n表示对应图像数据的宽度,即:图像数据的纵向方向的像素点总数;b表示图像数据的原始图像;c表示图像数据的压缩图像;所述图像数据向量化模块接收并处理的图像数据均经过压缩处理;b(b,c)表示原始图像在位置(b,c)上的像素点的像素值;c(b,c)表示压缩图像在位置(b,c)上的像素点的像素值;

22、当时,所述预删除子模块将对应的图像数据进行预删除操作;pref表示质量评定阈值,由管理员根据经验设定。

23、一种基于向量数据库的多模态大模型训练方法,应用于上述的一种基于向量数据库的多模态大模型训练系统,所述多模态大模型训练方法包括:

24、s1,将多模态数据转换为向量格式;

25、s2,存储和管理经过预处理的向量数据,并提供数据检索功能;

26、s3,使用所述向量数据库终端中的数据进行多模态模型的训练。

27、本发明所取得的有益效果是:

28、1、数据预处理终端、向量数据库终端和模型训练终端的设置配合文本数据向量化模块、图像数据向量化模块和声音数据向量化模块,有利于提高多模态数据转变为向量格式的效率,使得向量数据库终端的工作效率更高,以便于在模型过程中优化数据调用、分析和处理的效率,从而有利于提高多模态模型训练的效率;

29、2、预处理模块、模型配置模块、模型训练模块、模型测试模块和模型部署模块的设置有利于提高数据加载速度和优化预选择深度学习模型的过程,模型配置、训练、测试和部署的步骤按顺序独立进行,有利于提高多模态模型训练过程的稳定性,从而有利于提高多模态模型训练的效率;

30、3、预删减子模块、词嵌入子模块和整合词向量子模块的设置有利于对文本数据的向量化过程进行优化,使得文本数据向量更加准确,进而提高了文本数据向量被调用、分析和处理时的效率,从而有利于提高多模态模型训练的效率;

31、4、来源分值计算单元和检验信息生成单元的设置配合文本数据的来源分值算法,有利于提高来源分值的准确性和计算效率,使得检验信息更加准确,检验信息的生成效率更高,进而进一步提高了预删减子模块的工作准确性和效率,从而提高了多模态模型训练的效率;

32、5、预删除子模块、尺寸修改子模块和向量转换子模块的设置有利于对图像数据向量化过程进行优化和提速,进而提高了图像数据向量的准确性和转换效率,从而有利于提高多模态模型训练的效率;

33、6、压缩质量评定指数计算单元和压缩质量评定信息生成单元的设置配合压缩质量评定指数算法,有利于提高压缩质量评定指数的准确性,进而提高了预删除子模块的工作准确性和工作效率,从而提高了多模态模型训练的效率;

34、7、分割指数计算单元、分割长度选择单元、声音分割单元和特征提取单元的设置配合分割指数算法,有利于提高声音数据在向量化时被分割的准确性,优化了声音数据的向量化过程,从而更进一步地提高了多模态模型训练的效率。

35、为使能更进一步了解本发明的特征及技术内容,请参阅以下有关本发明的详细说明与附图,然而所提供的附图仅用于提供参考与说明,并非用来对本发明加以限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1