基于模型复用的模型预测方法、模型预测装置及系统与流程

文档序号:22916961发布日期:2020-11-13 15:59阅读:169来源:国知局
基于模型复用的模型预测方法、模型预测装置及系统与流程

本说明书实施例通常涉及人工智能领域,尤其涉及基于模型复用的模型预测方法、模型预测装置及模型预测系统。



背景技术:

模型复用是机器学习领域中的常用技术。模型复用是指在模型预测任务来临时,可以根据已有的预测模型来进行模型预测,无需再去训练新的预测模型,从而达到复用这些已有预测模型的目的,由此节省预测模型的模型训练时间。在有新的待预测数据到来时,如何在保护数据及模型隐私安全的基础上实现模型预测,成为亟待解决的问题。



技术实现要素:

鉴于上述,本说明书的实施例提供基于模型复用的模型预测方法、模型预测装置及模型预测系统。利用该模型预测方案,可以在保护数据及模型隐私安全的基础上,实现基于模型复用的模型预测。

根据本说明书的实施例的一个方面,提供一种基于模型复用的模型预测方法,包括:使用模型拥有方处的多个可复用预测模型中的每个可复用预测模型来分别对数据拥有方处的待预测数据进行预测得到各个可复用预测模型的预测标签,所述预测标签通过在所述数据拥有方和所述模型拥有方之间对所述待预测数据和各个可复用预测模型分别进行安全计算得到,所述多个可复用预测模型具有相同的模型输入特征;以及根据各个可复用预测模型的预测标签以及各个可复用预测模型的模型权重,确定所述待预测数据的预测标签,各个可复用预测模型的模型权重是在所述数据拥有方具有的数据样本集下的模型权重。

可选地,在上述方面的一个示例中,在进行模型预测之前,所述方法还包括:使用各个可复用预测模型来分别对数据拥有方处的标记数据进行预测得到各个可复用预测模型的预测标签,所述预测标签通过在所述数据拥有方和所述模型拥有方之间对所述标记数据和各个可复用预测模型分别进行安全计算得到;根据各个可复用预测模型的预测标签以及所述标记数据的真实标签,确定各个可复用预测模型的预测误差;以及根据各个可复用预测模型的预测误差,确定各个可复用预测模型的模型权重。

可选地,在上述方面的一个示例中,所述模型拥有方包括多个模型拥有方,所述多个模型拥有方中的每个模型拥有方具有所述多个可复用预测模型中的一个或多个可复用预测模型。

可选地,在上述方面的一个示例中,所述安全计算包括:基于秘密共享的安全计算;基于同态加密的安全计算;基于不经意传输的安全计算;基于混淆电路的安全计算;或者基于可信执行环境的安全计算。

可选地,在上述方面的一个示例中,所述标记数据包括多个标记数据,以及各个预测模型的预测误差是针对所述多个标记数据的预测误差的平均误差。

可选地,在上述方面的一个示例中,所述可复用预测模型包括逻辑回归模型,各个可复用预测模型的模型参数是模型参数矩阵,以及所述待预测数据是向量数据,使用模型拥有方处的多个可复用预测模型中的每个可复用预测模型来分别对数据拥有方处的待预测数据进行预测得到各个可复用预测模型的预测标签包括:在所述数据拥有方和所述模型拥有方之间,分别对所述模型拥有方的各个可复用预测模型和所述数据拥有方的待预测数据进行安全计算,得到各个可复用预测模型的模型参数与所述待预测数据之间的向量乘积;以及计算各个可复用预测模型的向量乘积的激活函数,作为各个可复用预测模型的预测标签。

根据本说明书的实施例的另一方面,提供一种基于模型复用的模型预测装置,所述模型预测装置应用于数据拥有方,所述模型预测装置包括:模型预测单元,使用模型拥有方处的多个可复用预测模型中的每个可复用预测模型来分别对所述数据拥有方处的待预测数据进行预测得到各个可复用预测模型的预测标签,所述预测标签通过在所述数据拥有方和所述模型拥有方之间对所述待预测数据和各个可复用预测模型分别进行安全计算得到,所述多个可复用预测模型具有相同的模型输入特征;以及预测标签确定单元,根据各个可复用预测模型的预测标签以及各个可复用预测模型的模型权重,确定所述待预测数据的预测标签,各个可复用预测模型的模型权重是在所述数据拥有方具有的数据样本集下的模型权重。

可选地,在上述方面的一个示例中,所述模型预测装置还包括:预测误差确定单元,根据使用各个可复用预测模型对所述数据拥有方处的标记数据进行模型预测得到的预测标签以及所述标记数据的真实标签,确定各个可复用预测模型的预测误差;以及模型权重确定单元,根据各个可复用预测模型的预测误差,确定各个可复用预测模型的模型权重,其中,各个可复用预测模型的预测标签由所述模型预测单元在所述数据拥有方和所述模型拥有方之间对所述标记数据和各个可复用预测模型分别进行安全计算得到。

可选地,在上述方面的一个示例中,所述安全计算包括:基于秘密共享的安全计算;基于同态加密的安全计算;基于不经意传输的安全计算;基于混淆电路的安全计算;或者基于可信执行环境的安全计算。

可选地,在上述方面的一个示例中,所述标记数据包括多个标记数据,以及各个预测模型的预测误差是针对所述多个标记数据的预测误差的平均误差。

可选地,在上述方面的一个示例中,所述可复用预测模型包括逻辑回归模型,各个可复用预测模型的模型参数是模型矩阵,以及所述待预测数据是向量数据,所述模型预测单元包括:安全计算模块,在所述数据拥有方和所述模型拥有方之间,分别对所述模型拥有方的各个可复用预测模型和所述数据拥有方的待预测数据进行安全计算,得到各个可复用预测模型的模型参数与所述待预测数据之间的向量乘积;以及预测标签计算模块,计算各个可复用预测模型的向量乘积的激活函数,作为各个可复用预测模型的预测标签。

根据本说明书的实施例的另一方面,提供一种基于模型复用的模型预测系统,包括:数据拥有方,包括如上所述的模型预测装置;以及至少一个模型拥有方,每个模型拥有方具有多个可复用预测模型中的一个或多个可复用预测模型。

根据本说明书的实施例的另一方面,提供一种电子设备,包括:至少一个处理器,以及与所述至少一个处理器耦合的存储器,所述存储器存储指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如上所述的模型预测方法。

根据本说明书的实施例的另一方面,提供一种机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得所述机器执行如上所述的模型预测方法。

附图说明

通过参照下面的附图,可以实现对于本说明书内容的本质和优点的进一步理解。在附图中,类似组件或特征可以具有相同的附图标记。

图1示出了根据本说明书的实施例的模型预测系统的一个示例的架构示意图。

图2示出了根据本说明书的实施例的基于模型复用的模型预测方法的一个示例的流程图。

图3示出了根据本说明书的实施例的模型预测过程的一个示例的流程图。

图4示出了根据本说明书的实施例的可复用预测模型的模型权重确定过程的一个示例的流程图。

图5示出了根据本说明书的实施例的在数据拥有方处的模型预测装置的一个示例的方框图。

图6示出了根据本说明书的实施例的模型预测单元的一个实现示例的方框图。

图7示出了根据本说明书的实施例的用于实现在数据拥有方处的模型预测过程的电子设备的示意图。

具体实施方式

现在将参考示例实施方式讨论本文描述的主题。应该理解,讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题,并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本说明书内容的保护范围的情况下,对所讨论的元素的功能和排列进行改变。各个示例可以根据需要,省略、替代或者添加各种过程或组件。例如,所描述的方法可以按照与所描述的顺序不同的顺序来执行,以及各个步骤可以被添加、省略或者组合。另外,相对一些示例所描述的特征在其它例子中也可以进行组合。

如本文中使用的,术语“包括”及其变型表示开放的术语,含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义,无论是明确的还是隐含的。除非上下文中明确地指明,否则一个术语的定义在整个说明书中是一致的。

模型复用是机器学习领域中的常用技术。利用模型复用技术,可以在模型预测任务来临时,根据模型拥有方所具有的现有预测模型来进行模型预测,而无需再去训练新的预测模型,由此可以节省预测模型的模型训练时间。然而,在使用模型拥有方的现有预测模型来对数据拥有方处的待预测数据进行模型预测时,需要保护数据拥有方处的数据以及模型拥有方处的预测模型的隐私安全。

鉴于上述,本说明书的实施例提供一种基于模型复用的模型预测方案。在该模型预测方案中,通过对模型拥有方处的各个可复用预测模型和数据拥有方处的待预测数据进行安全计算来得出各个可复用预测模型的预测标签,从而可以实现数据拥有方处的数据以及模型拥有方处的预测模型的隐私安全。此外,由于在进行针对待预测数据的模型预测时,每个可复用预测模型具有在数据拥有方的数据样本集下的模型权重,从而使得各个可复用预测模型的模型权重更加符合数据拥有方处的数据特性,由此提高模型预测精度。

本说明书实施例提供的模型预测方法和模型预测装置可以由电子设备执行,例如终端设备或服务端设备。换言之,所述方法可以由安装在终端设备或服务器设备的软件或硬件来执行。所述服务器设备包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。所述终端设备包括但不限于:智能手机、个人电脑(personalcomputer,pc)、笔记本电脑、平板电脑、电子阅读器、网络电视、可穿戴设备等智能终端设备中的任何一种。

在本说明书的实施例中,术语“模型拥有方”可以是部署或维护可复用预测模型(例如,业务模型)的设备或设备方,比如,终端设备、服务器设备等。术语“数据拥有方”可以是用于本地收集数据样本的设备或设备方,比如,智能终端设备、服务器设备等。在数据拥有方上不部署(或不维护)预测模型。

在一个实际应用示例中,模型拥有方例如可以是第三方支付平台的服务器,以及数据拥有方例如可以是不同金融机构或医疗机构的私有数据存储服务器或智能终端设备。

图1示出了根据本说明书的实施例的模型预测系统1的一个示例的架构示意图。

如图1所示,模型预测系统1包括模型拥有方10和数据拥有方20。模型拥有方10具有多个可复用预测模型11-1到11-n。每个可复用预测模型可以是预先训练好的预测模型,例如,可以是利用数据拥有方20之外的数据拥有方的数据样本训练出的预测模型。在一个示例中,模型拥有方10可以包括多个模型拥有方,所述多个模型拥有方中的每个模型拥有方可以包括多个可复用预测模型11-1到11-n中的一个或多个可复用预测模型。例如,如图1中所示,模型拥有方10包括n个模型拥有方,每个模型拥有方具有一个可复用预测模型。这里,多个可复用预测模型11-1到11-n具有相同的模型输入特征。

数据拥有方20用于本地收集数据样本,例如,业务对象的特征数据。所述业务对象的示例可以包括用户、商品、事件或关系。相应地,数据样本可以包括用户特征数据、商品特征数据、事件特征数据或关系特征数据。

数据拥有方20具有模型预测装置21。在进行模型预测时,模型预测装置21分别与各个模型拥有方10-1到10-n联合进行模型预测,得到各个可复用预测模型的模型预测结果,并且根据各个可复用预测模型的模型预测结果以及各个可复用预测模型在数据拥有方20所具有的数据样本集下的模型权重来得出待预测数据的模型预测结果(预测标签)。关于模型预测装置21的结构和操作将在下面结合附图详细描述。

图2示出了根据本说明书的实施例的基于模型复用的模型预测方法的一个示例200的流程图。

如图2所示,在210,使用模型拥有方处的多个可复用预测模型中的每个可复用预测模型来分别对数据拥有方处的待预测数据进行预测得到各个可复用预测模型的预测标签。这里,针对每个可复用预测模型,在数据拥有方和模型拥有方之间对待预测数据和该可复用预测模型进行安全计算得到预测标签。在一个示例中,安全计算的示例可以包括但不限于:基于秘密共享的安全计算;基于同态加密的安全计算;基于不经意传输的安全计算;基于混淆电路的安全计算;或者基于可信执行环境的安全计算。在本说明书中,可复用预测模型的示例可以包括但不限于:线性回归模型、逻辑回归模型、神经网络模型、决策树模型、支持向量机等。

图3示出了根据本说明书的实施例的模型预测过程的一个示例300的流程图。在该示例中,可复用预测模型是逻辑回归模型,各个可复用预测模型的模型参数可以利用模型参数矩阵表征,以及待预测数据采用向量数据(例如,特征数据向量)来表征。

如图3所示,在310,在数据拥有方和模型拥有方之间,分别对模型拥有方的各个可复用预测模型和数据拥有方的待预测数据进行安全计算,得到各个可复用预测模型的模型参数与待预测数据之间的向量乘积。例如,假设n个可复用预测模型,待预测数据为x,则分别对与x进行安全计算得到,……,

在320,计算各个可复用预测模型的向量乘积的激活函数,作为各个可复用预测模型的预测标签。例如,假设激活函数为sigmoid函数,则计算,作为各个可复用预测模型的预测标签

要说明的是,图3中示出的模型预测过程仅仅是例示性实施例。在本说明书的其它实施例,针对其它类型的可复用预测模型,可以采用其它合适的模型预测方式来在数据拥有方和模型拥有方之间对待预测数据和可复用预测模型进行安全计算得到预测标签。

回到图2,在220,根据各个可复用预测模型的预测标签以及各个可复用预测模型的模型权重,确定待预测数据的预测标签。例如,假设第i个可复用预测模型的模型权重为,以及第i个可复用预测模型的预测标签为,则待预测数据的预测标签为。这里,各个可复用预测模型的模型权重是在数据拥有方具有的数据样本集下的模型权重。在一个示例中,各个可复用预测模型的模型权重可以是在进行模型预测之前使用数据拥有方的数据样本集确定出的。

图4示出了根据本说明书的实施例的可复用预测模型的模型权重确定过程的一个示例400的流程图。

如图4所示,在410,使用各个可复用预测模型来分别对数据拥有方处的标记数据进行预测得到各个可复用预测模型的预测标签。针对标记数据的预测标签可以通过在数据拥有方和模型拥有方之间对标记数据和各个可复用预测模型分别进行安全计算得到。例如,可以按照图3中所述的类似方式来得到各个可复用预测模型针对标记数据的预测标签。在一个示例中,标记数据可以包括多个标记数据,由此可以得到多个标记数据的预测标签。

在420,根据各个可复用预测模型的预测标签以及标记数据的真实标签,确定各个可复用预测模型的预测误差。例如,可以通过计算标记数据的预测标签与真实标签的差值的绝对值来得到该标记数据的预测误差,即,,其中,i为第i个可复用预测模型。在标记数据包括多个标记数据的情况下,各个预测模型的预测误差是针对多个标记数据的预测误差的平均误差

在430,在数据拥有方处,根据各个可复用预测模型的预测误差,确定各个可复用预测模型的模型权重。例如,可以将作为第i个可复用预测模型的模型权重。在其它示例中,也可以采用其它合适的方式来根据可复用预测模型的预测误差确定该可复用预测模型的模型权重。

如上参照图1到图4描述了根据本说明书的实施例的基于模型复用的模型预测方法。

利用上述模型预测方法,通过对模型拥有方处的各个可复用预测模型和数据拥有方处的待预测数据进行安全计算来得出各个可复用预测模型的预测标签,从而可以实现数据拥有方处的数据以及模型拥有方处的预测模型的隐私安全。

此外,由于在进行针对待预测数据的模型预测时,每个可复用预测模型具有在数据拥有方的数据样本集下的模型权重,从而使得各个可复用预测模型的模型权重更加符合数据拥有方处的数据特性,由此提高模型预测精度。

图5示出了根据本说明书的实施例的在数据拥有方处的模型预测装置500的一个示例的方框图。如图5所示,模型预测装置500包括模型预测单元510和预测标签确定单元520。

模型预测单元510被配置为使用模型拥有方处的多个可复用预测模型中的每个可复用预测模型来分别对数据拥有方处的待预测数据进行预测得到各个可复用预测模型的预测标签。这里,多个可复用预测模型具有相同的模型输入特征。此外,预测标签通过在数据拥有方和所述模型拥有方之间对待预测数据和各个可复用预测模型分别进行安全计算得到。模型预测单元510的操作可以参考上面参照图2描述的210的操作以及参照图3描述的操作。

预测标签确定单元520被配置为根据各个可复用预测模型的预测标签以及各个可复用预测模型的模型权重,确定待预测数据的预测标签。这里,各个可复用预测模型的模型权重是在数据拥有方具有的数据样本集下的模型权重。预测标签确定单元520的操作可以参考上面参照图2描述的220的操作。

图6示出了根据本说明书的实施例的模型预测单元600的一个实现示例的方框图。在该实现示例中,可复用预测模型是逻辑回归模型,各个可复用预测模型的模型参数可以利用模型参数矩阵表征,以及待预测数据采用向量数据(例如,特征数据向量)来表征。如图6所示,模型预测单元600包括安全计算模块610和预测标签计算模块620。

安全计算模块610被配置为在数据拥有方和模型拥有方之间,分别对模型拥有方的各个可复用预测模型和数据拥有方的待预测数据进行安全计算,得到各个可复用预测模型的模型参数与待预测数据之间的向量乘积。

预测标签计算模块620被配置为计算各个可复用预测模型的向量乘积的激活函数,作为各个可复用预测模型的预测标签。

此外,可选地,模型预测装置500还可以包括预测误差确定单元530和模型权重确定单元540。

预测误差确定单元530被配置为根据使用各个可复用预测模型对数据拥有方处的标记数据进行模型预测得到的预测标签以及标记数据的真实标签,确定各个可复用预测模型的预测误差。这里,各个可复用预测模型的预测标签可以由模型预测单元510在数据拥有方和模型拥有方之间对标记数据和各个可复用预测模型分别进行安全计算得到。预测误差确定单元530的操作可以参考上面参照图4描述的420的操作。

模型权重确定单元540被配置为根据各个可复用预测模型的预测误差,确定各个可复用预测模型的模型权重。模型权重确定单元540的操作可以参考上面参照图4描述的430的操作。

利用模型预测单元510、预测误差确定单元530和模型权重确定单元540,可以确定出各个可复用预测模型在数据拥有方的数据样本集下的模型权重。

如上参照图1到图6,对根据本说明书实施例的模型预测方法、模型预测装置和模型预测系统进行了描述。上面的模型预测装置可以采用硬件实现,也可以采用软件或者硬件和软件的组合来实现。

图7示出了根据本说明书的实施例的用于实现在数据拥有方处的模型预测过程的电子设备700的示意图。如图7所示,电子设备700可以包括至少一个处理器710、存储器(例如,非易失性存储器)720、内存730和通信接口740,并且至少一个处理器710、存储器720、内存730和通信接口740经由总线760连接在一起。至少一个处理器710执行在存储器中存储或编码的至少一个计算机可读指令(即,上述以软件形式实现的元素)。

在一个实施例中,在存储器中存储计算机可执行指令,其当执行时使得至少一个处理器710:使用模型拥有方处的多个可复用预测模型中的每个可复用预测模型来分别对数据拥有方处的待预测数据进行预测得到各个可复用预测模型的预测标签,所述预测标签通过在数据拥有方和模型拥有方之间对待预测数据和各个可复用预测模型分别进行安全计算得到,所述多个可复用预测模型具有相同的模型输入特征;以及根据各个可复用预测模型的预测标签以及各个可复用预测模型的模型权重,确定待预测数据的预测标签,各个可复用预测模型的模型权重是在数据拥有方具有的数据样本集下的模型权重。

应该理解,在存储器中存储的计算机可执行指令当执行时使得至少一个处理器710进行本说明书的各个实施例中以上结合图1-6描述的各种操作和功能。

根据一个实施例,提供了一种比如机器可读介质(例如,非暂时性机器可读介质)的程序产品。机器可读介质可以具有指令(即,上述以软件形式实现的元素),该指令当被机器执行时,使得机器执行本说明书的各个实施例中以上结合图1-6描述的各种操作和功能。具体地,可以提供配有可读存储介质的系统或者装置,在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。

根据一个实施例,提供了一种比如机器可读介质(例如,非暂时性机器可读介质)的程序产品。机器可读介质可以具有指令(即,上述以软件形式实现的元素),该指令当被机器执行时,使得机器执行本说明书的各个实施例中以上结合图1-6描述的各种操作和功能。具体地,可以提供配有可读存储介质的系统或者装置,在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。

在这种情况下,从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此机器可读代码和存储机器可读代码的可读存储介质构成了本说明书的一部分。

可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘(如cd-rom、cd-r、cd-rw、dvd-rom、dvd-ram、dvd-rw、dvd-rw)、磁带、非易失性存储卡和rom。可选择地,可以由通信网络从服务器计算机上或云上下载程序代码。

本领域技术人员应当理解,上面公开的各个实施例可以在不偏离发明实质的情况下做出各种变形和修改。因此,本说明书的保护范围应当由所附的权利要求书来限定。

需要说明的是,上述各流程和各系统结构图中不是所有的步骤和单元都是必须的,可以根据实际的需要忽略某些步骤或单元。各步骤的执行顺序不是固定的,可以根据需要进行确定。上述各实施例中描述的装置结构可以是物理结构,也可以是逻辑结构,即,有些单元可能由同一物理实体实现,或者,有些单元可能分由多个物理实体实现,或者,可以由多个独立设备中的某些部件共同实现。

以上各实施例中,硬件单元或模块可以通过机械方式或电气方式实现。例如,一个硬件单元、模块或处理器可以包括永久性专用的电路或逻辑(如专门的处理器,fpga或asic)来完成相应操作。硬件单元或处理器还可以包括可编程逻辑或电路(如通用处理器或其它可编程处理器),可以由软件进行临时的设置以完成相应操作。具体的实现方式(机械方式、或专用的永久性电路、或者临时设置的电路)可以基于成本和时间上的考虑确定。

上面结合附图阐述的具体实施方式描述了示例性实施例,但并不表示可以实现的或者落入权利要求书的保护范围的所有实施例。在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”,并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的,具体实施方式包括具体细节。然而,可以在没有这些具体细节的情况下实施这些技术。在一些实例中,为了避免对所描述的实施例的概念造成难以理解,公知的结构和装置以框图形式示出。

本公开内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本公开内容。对于本领域普通技术人员来说,对本公开内容进行的各种修改是显而易见的,并且,也可以在不脱离本公开内容的保护范围的情况下,将本文所定义的一般性原理应用于其它变型。因此,本公开内容并不限于本文所描述的示例和设计,而是与符合本文公开的原理和新颖性特征的最广范围相一致。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1