离线特征融合方法、装置、电子设备及存储介质与流程

文档序号:33556582发布日期:2023-03-22 12:10阅读:来源:国知局

技术特征:
1.一种离线特征融合方法,其特征在于,所述离线特征融合方法包括:获取至少一个机器学习模型对应的预先建立的特征配置表;所述特征配置表至少包括表征所述机器学习模型的模型标识,表征离线特征的离线特征标识,表征所述离线特征所属hive数据表的hive数据表标识及所述hive数据表中存储的所述离线特征对应的特征关联主键;根据所述至少一个机器学习模型对应的所述特征配置表中的所述离线特征标识及所述hive数据表标识,从所述离线特征所属hive数据表中抽取所述离线特征;所述离线特征包括所述离线特征对应的特征关联主键、所述离线特征标识和离线特征值;根据所述离线特征对应的特征关联主键,对抽取的所述至少一个机器学习模型对应的离线特征进行特征融合,以获得融合离线特征。2.根据权利要求1所述的离线特征融合方法,其特征在于,所述预先建立的特征配置表的建立过程包括:获取所述机器学习模型对应的所述离线特征标识和所述特征关联主键;根据所述离线特征标识和所述特征关联主键确定hive数据表集合中的所述离线特征所属hive数据表以及所述离线特征所属hive数据表中的目标列;所述hive数据表集合中的每一个hive数据表用于存储主键与特征的对应关系;根据所述离线特征标识、所述特征关联主键、所述离线特征所属hive数据表和所述目标列,建立所述机器学习模型对应的所述特征配置表。3.根据权利要求2所述的离线特征融合方法,其特征在于,所述特征配置表还包括所述离线特征值的预处理方式;在从所述离线特征所属hive数据表中抽取所述离线特征之后,所述离线特征融合方法还包括:根据所述离线特征值的预处理方式对抽取的所述离线特征值进行预处理;根据预处理后的所述离线特征值进行所述特征融合。4.根据权利要求1或3所述的离线特征融合方法,其特征在于,所述根据所述离线特征对应的特征关联主键,对抽取的所述至少一个机器学习模型对应的离线特征进行特征融合,以获得融合离线特征,包括:将所述至少一个机器学习模型对应的离线特征组合为离线特征按行排列的纵向表格;所述纵向表格的每一行存储一个所述离线特征;根据所述特征关联主键对所述纵向表格进行行列转换,得到离线特征按列排列的横向表格;其中,所述横向表格的每一行存储一个特征关联主键对应的所有离线特征标识对应的离线特征值;对所述横向表格中按列排列的离线特征进行聚合去重,以获得所述融合离线特征。5.根据权利要求1所述的离线特征融合方法,其特征在于,所述离线特征融合方法还包括:将所述融合离线特征存储至缓存数据库中;以在在线推理时通过读取所述缓存数据库中所述至少一个机器学习模型对应的融合离线特征进行在线推理并获得在线推理结果。6.根据权利要求1所述的离线特征融合方法,其特征在于,所述离线特征融合方法还包括:当所述机器学习模型进行模型更新时,确定待更新离线特征的离线特征标识;
确定所述待更新离线特征的离线特征标识在所述hive数据表集合中对应的目标hive数据表以及所述目标hive数据表中对应的目标列;根据所述目标hive数据表以及所述目标hive数据表中对应的目标列,更新所述机器学习模型对应的所述特征配置表。7.根据权利要求6所述的离线特征融合方法,其特征在于,所述根据所述目标hive数据表以及所述目标hive数据表中对应的目标列,更新所述机器学习模型对应的所述特征配置表,包括:若所述待更新离线特征的离线特征标识为新增的离线特征标识时,则新增所述目标hive数据表为所述离线特征所属hive数据表,并新增所述目标hive数据表的目标列为所述离线特征所属hive数据表的目标列;若所述待更新离线特征的离线特征标识为待删除的离线特征标识时,则删除所述离线特征所属hive数据表中的所述待更新离线特征对应的目标hive数据表。8.根据权利要求6至7任一项所述的离线特征融合方法,其特征在于,根据所述至少一个机器学习模型对应的所述特征配置表中的所述离线特征标识及所述hive数据表标识,从所述离线特征所属hive数据表中抽取所述离线特征,包括:根据更新后的所述特征配置表中的所述离线特征标识及所述hive数据表标识,从更新后的所述离线特征所属hive数据表中抽取所述离线特征。9.根据权利要求4所述的离线特征融合方法,其特征在于,所述根据所述特征关联主键对所述纵向表格进行行列转换,得到离线特征按列排列的横向表格,包括:根据所述特征关联主键对所述纵向表格中的内容进行分组处理;根据分组处理结果,确定每一个所述特征关联主键对应的所有离线特征标识;对每一个所述特征关联主键对应的所有离线特征标识进行pivot透视处理,将所述所有离线特征标识对应的离线特征值存储在所述横向表格的一行。10.根据权利要求9所述的离线特征融合方法,其特征在于,所述离线特征融合方法还包括:对所述所有离线特征标识进行聚合处理,得到聚合后的离线特征标识;所述对每一个所述特征关联主键对应的所有离线特征标识进行pivot透视处理,包括:对所述每一个特征关联主键对应的所述聚合后的离线特征标识进行所述pivot透视处理。11.一种离线特征融合装置,其特征在于,所述离线特征融合装置包括:获取单元,用于获取至少一个机器学习模型对应的预先建立的特征配置表;所述特征配置表至少包括表征所述机器学习模型的模型标识,表征离线特征的离线特征标识,表征所述离线特征所属hive数据表的hive数据表标识及所述hive数据表中存储的所述离线特征对应的特征关联主键;确定单元,用于根据所述至少一个机器学习模型对应的所述特征配置表中的所述离线特征标识及所述hive数据表标识,从所述离线特征所属hive数据表中抽取所述离线特征;所述离线特征包括所述离线特征对应的特征关联主键、所述离线特征标识和离线特征值;处理单元,用于根据所述离线特征对应的特征关联主键,对抽取的所述至少一个机器学习模型对应的离线特征进行特征融合,以获得融合离线特征。
12.一种电子设备,其特征在于,包括:存储器和处理器、所述存储器和所述处理器耦合;处理器;存储器,用于存储样本特征的确定程序,所述程序在被所述处理器读取执行时,执行如权利要求1-10中任一项所述的离线特征融合方法。13.一种计算机可读取存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行如权利要求1-10中任一项所述的离线特征融合方法。

技术总结
本申请提供了一种离线特征融合方法、装置、电子设备及存储介质,应用于数据处理领域。包括:获取至少一个机器学习模型对应的预先建立的特征配置表,特征配置表至少包括表征机器学习模型的模型标识,表征离线特征的离线特征标识,表征离线特征所属hive数据表的hive数据表标识及hive数据表中存储的离线特征对应的特征关联主键。根据机器学习模型对应的特征配置表中的离线特征标识及hive数据表标识,从离线特征所属hive数据表中抽取离线特征。离线特征包括离线特征对应的特征关联主键、离线特征标识和离线特征值。根据特征关联主键,对抽取的至少一个机器学习模型对应的离线特征进行特征融合,以获得融合离线特征。以获得融合离线特征。以获得融合离线特征。


技术研发人员:魏万恒 刘勇成 胡志鹏 袁思思 程龙
受保护的技术使用者:网易(杭州)网络有限公司
技术研发日:2022.11.01
技术公布日:2023/3/21
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1