模型训练方法、数据库表关联关系预测方法和装置与流程

文档序号:37497253发布日期:2024-04-01 14:05阅读:20来源:国知局
模型训练方法、数据库表关联关系预测方法和装置与流程

本技术涉及数据库表处理领域,具体而言,涉及一种模型训练方法、数据库表关联关系预测方法和装置。


背景技术:

1、随着科技的快速发展,许多企业从传统纸质化办公转化成了无纸化办公,在无纸化办公的过程中会产生大量的数据信息。通常,企业会使用数据库表管理这些数据信息。但是,随着企业不断发展,数据库表越来越多,各个数据库表之间可能存在关联关系,预测出这些关联关系有利于整合数据,避免重复存储数据,提高数据的正确性以及减轻数据同步的负担。

2、在相关技术中,可以基于机器学习的方式得到预测模型,然后通过该预测模型预测关联关系,但是仍然需要依赖人工提取样本特征,这样增加了训练负担,且预测的准确性依赖于人工所提取的样本特征,若样本特征选择不当,则容易导致模型预测的准确性较低。


技术实现思路

1、本技术实施例的目的在于提供一种模型训练方法、数据库表关联关系预测方法和装置,用以降低预测模型的训练负担,并提高其预测准确性。

2、第一方面,本技术实施例提供了一种模型训练方法,该方法包括:确定样本数据库表集合对应的样本图结构以及样本特征矩阵;所述样本图结构中的边表征各个样本数据库表之间的关联关系,节点表征样本数据库表;通过预测模型的特征提取器从所述样本特征矩阵中提取出与所述样本图结构对应的节点特征;将所述节点特征以及所述样本图结构输入所述预测模型的点预测器中,将所述样本图结构的真实标签作为所述点预测器的期望输出训练所述预测模型;所述真实标签表征所述样本图结构中各个节点之间存在连接关系的概率;若所述预测模型达到收敛要求,则确定所述预测模型收敛。

3、在本实现方式中,可以通过样本数据库表集合中各个样本数据库表之间的关联关系建立样本图结构,然后可以结合该样本图结构以及样本特征矩阵训练预测模型。这样,无需人工参与训练过程,降低了训练负担,提高了预测模型的预测准确性。

4、可选地,所述样本图结构包括正样本图结构以及负样本图结构;所述负样本图结构中的边关系与所述正样本图结构中的边关系相反,所述负样本图结构中的节点与所述正样本图结构中的节点相同;以及所述通过预测模型的特征提取器从所述样本特征矩阵中提取出与所述样本图结构对应的节点特征,包括:通过所述特征提取器从所述样本特征矩阵中提取出所述正样本图结构对应的节点特征;以及所述将所述节点特征以及所述样本图结构输入所述预测模型的点预测器中,将所述样本图结构的真实标签作为所述点预测器的期望输出训练所述预测模型,包括:通过所述点预测器根据所述正样本图结构以及所述节点特征,得到所述正样本图结构中各条边分别存在的概率;根据所述负样本图结构以及所述节点特征,得到所述负样本图结构中各条边分别存在的概率。这样,通过样本图结构构建出了正样本图结构以及负样本图结构,可以得到较丰富的训练因子,在一定程度上提高了预测模型的准确性。

5、可选地,所述点预测器包括点乘运算层以及激活层;以及所述根据所述正样本图结构以及所述节点特征,得到所述正样本图结构中各条边分别存在的概率,包括:针对所述正样本图结构中的每一条边,确定该条边所连接的两个正节点;将所述两个正节点所对应的节点特征输入所述点乘运算层进行点乘操作,得到该条边对应的正样本边得分;将所述正样本边得分输入所述激活层,以利用所述激活层中的预设激活函数得到该条边存在的概率;所述根据所述负样本图结构以及所述节点特征,得到所述负样本图结构中各条边分别存在的概率,包括:针对于所述负样本图结构中的每一条边,确定该条边所连接的两个负节点;将所述两个负节点所对应的节点特征输入所述点乘运算层进行点乘操作,得到该条边对应的负样本边得分;将所述负样本边得分输入所述激活层,以利用所述激活层中的预设激活函数得到该条边存在的概率。这样,可以通过点乘运算层以及激活层判断正样本图结构或者负样本图结构中各条边分别存在的概率,从而可以将其与真实标签进行损失计算,实现预测模型的训练。

6、可选地,所述特征提取器包括预设层数的图卷积层;以及所述通过预测模型的特征提取器从所述样本特征矩阵中提取出与所述样本图结构对应的节点特征,包括:通过所述预设层数的图卷积层逐层对所述样本特征矩阵进行图卷积运算,得到所述节点特征。这样,可以捕捉到样本数据库表中字段间的结构关系,在一定程度上提高了预测模型的预测准确性。

7、可选地,所述确定样本数据库表集合对应的样本图结构以及样本特征矩阵,包括:根据各个所述样本数据库表中的字段信息进行编码,得到所述样本特征矩阵;根据各个所述样本数据库表之间的关联关系确定所述样本图结构。这里,提供了一种得到样本特征矩阵以及确定样本图结构的方式。

8、第二方面,本技术实施例提供了一种数据库表关联关系预测方法,包括:确定待处理数据库表集合对应的特征矩阵以及图结构;所述图结构中的边表征各个待处理数据库表之间的关联关系,节点表征所述待处理数据库表;将所述特征矩阵以及所述图结构输入预测模型,通过所述预测模型预测出所述待处理数据库表集合中各个数据库表之间的关联关系;所述预测模型通过如第一方面所述的模型训练方法得到。

9、这样,可以通过预测模型预测出数据库表之间的关联关系,由于该预测模型的预测准确性较高,从而可以得到较为准确的预测结果。克服了相关技术中存在的完全依赖人员对数据库表的熟悉度得到关联关系,预测效率较低,且难以预测出海量的数据库表之间的关联关系的缺陷。

10、第三方面,本技术实施例提供了一种模型训练装置,该装置包括:样本确定模块,用于确定样本数据库表集合对应的样本图结构以及样本特征矩阵;所述样本图结构中的边表征各个样本数据库表之间的关联关系,节点表征样本数据库表;提取模块,用于通过预测模型的特征提取器从所述样本特征矩阵中提取出与所述样本图结构对应的节点特征;输入模块,用于将所述节点特征以及所述样本图结构输入所述预测模型的点预测器中,将所述样本图结构的真实标签作为所述点预测器的期望输出训练所述预测模型;所述真实标签表征所述样本图结构中各个节点之间存在连接关系的概率;收敛模块,用于在所述预测模型达到收敛要求的情况下,确定所述预测模型收敛。这样,无需人工参与训练过程,降低了训练负担,提高了预测模型的预测准确性。

11、第四方面,本技术实施例提供了一种数据库表关联关系预测装置,该装置包括:确定模块,用于确定待处理数据库表集合对应的特征矩阵以及图结构;所述图结构中的边表征各个待处理数据库表之间的关联关系,节点表征所述待处理数据库表;预测模块,用于将所述特征矩阵以及所述图结构输入预测模型,通过所述预测模型预测出所述待处理数据库表集合中各个数据库表之间的关联关系;所述预测模型通过如第一方面所述的模型训练方法得到。这样,克服了相关技术中存在的完全依赖人员对数据库表的熟悉度得到关联关系,预测效率较低,且难以预测出海量的数据库表之间的关联关系的缺陷。

12、第五方面,本技术实施例提供一种电子设备,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如上述第一方面或者第二方面提供的所述方法中的步骤。

13、第六方面,本技术实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时运行如上述第一方面或者第二方面提供的所述方法中的步骤。

14、本技术的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本技术实施例了解。本技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1