一种评估模型构建方法、装置及系统与流程

文档序号:20206449发布日期:2020-03-31 10:14阅读:235来源:国知局
一种评估模型构建方法、装置及系统与流程

本发明属于计算机技术领域,特别涉及一种评估模型构建方法、装置及系统。



背景技术:

为了便于对一些目标作出评估,一般通过评估模型实现目标的评估。以二手车为例,如何准确估计二手车在各个业务中的成交价格成为了一个至关重要的问题。二手车估价可以通过数据挖掘来实现,而由于每个车型都有自己的价格分布,一般做法是对每个车型,通过其历史二手车成交数据,分别训练估价模型。例如可以采用传统的机器学习的方法,即当为车型a建立一个估价模型时,必须使用车型a的样本来训练。

传统机器学习的方法基于如下理论,即训练一个模型来对无标签的测试样本进行预测时,训练模型使用的有标签训练数据的概率分布必须要与被预测的样本一致,才能得到一个好的预测模型。当传统的机器学习方法应用在二手车估价上时,由于各个车型的价格分布都跟车型的各种因素有关,所以通常会对每个车型都建立模型,且只使用本车型的历史数据进行训练,得到的模型也只能用来预测本车型的价格。然而,由于二手车商品的特性,使得二手车的成交量通常不会很大,一个车型的成交数据并不足以训练出一个优秀的估价模型。



技术实现要素:

为了解决现有技术中训练数据较少而不能产生良好的估价模型的问题,本发明提出了一种评估模型构建方法及系统。

一种评估模型构建方法,所述方法包括:

在多种类型的目标中获取所述多种类型目标中每一个目标的一个或多个样本;

将获取的所述样本作为训练样本,对所述多种类型目标中的第一目标构建第一目标评估模型。

进一步地,基于获取的所述训练样本对评估模型进行训练,将训练后的评估模型作为所述第一目标评估模型。

进一步地,利用第一目标评估模型对所述多种类型的目标中第二目标进行预测,在预测误差在预定范围内时,将所述第二目标的样本作为所述训练样本中的一个或多个训练样本。

进一步地,为所述一个或多个训练样本设置相应的权值,在所述预测误差超出所述预定范围时,调整一个或多个训练样本的权值。

进一步地,所述预测误差变大时,降低所述权值。

进一步地,

利用所述多种类型的目标中第二目标的训练样本构建针对第二目标的第二目标评估模型;

将第二目标评估模型的参数作为所述第一目标评估模型参数;

基于所述第一目标评估模型参数,以所述第一目标的训练样本对所述第一目标评估模型进行训练;

基于所述训练形成最终的所述第一目标评估模型。

进一步地,确定所述多种类型目标中的共享参数,利用所述共享参数进行训练以构建所述第一目标评估模型。

进一步地,所述类型为车型。

进一步地,不同的车型具有相同的以下一个或多个维度:

车辆型号、车龄、上牌时间、车况。

一种评估模型构建装置,所述装置包括:

样本获取单元,用于在多种类型的目标中获取所述多种类型目标中每一个目标的一个或多个样本;

模型构建单元,用于将所述样本获取单元获取的所述样本作为训练样本,对所述多种类型目标中的第一目标构建第一目标评估模型。

进一步地,所述模型构建单元,进一步用于基于获取的所述训练样本对评估模型进行训练,将训练后的评估模型作为所述第一目标评估模型。

进一步地,所述样本获取单元,进一步用于利用第一目标评估模型对所述多种类型的目标中第二目标进行预测,在预测误差在预定范围内时,将所述第二目标的样本作为所述训练样本中的一个或多个训练样本。

进一步地,所述样本获取单元,还用于为所述一个或多个训练样本设置相应的权值,在所述预测误差超出所述预定范围时,调整一个或多个训练样本的权值。

进一步地,

所述模型构建单元,进一步用于:

利用所述多种类型的目标中第二目标的训练样本构建针对第二目标的第二目标评估模型;

将第二目标评估模型的参数作为所述第一目标评估模型参数;

基于所述第一目标评估模型参数,以所述第一目标的训练样本对所述第一目标评估模型进行训练;

基于所述训练形成最终的所述第一目标评估模型。

进一步地,所述模型构建单元,进一步用于确定所述多种类型目标中的共享参数,利用所述共享参数进行训练以构建所述第一目标评估模型。

进一步地,所述类型为车型。

进一步地,不同的车型具有相同的以下一个或多个维度:

车辆型号、车龄、上牌时间、车况。

一种评估模型构建系统,所述评估模型构建系统包括:至少一个处理器以及至少一个存储器;其中,

所述存储器存储执行如上任一所述方法的计算机程序,所述处理器调用所述存储器中的计算机程序以执行如上任一所述的方法。

本发明的评估模型构建方法及系统解决了样本数量不足而生产的估价模型不准确的技术问题,通过本发明能够得到准确率更好的估价模型。本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图一作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1示出了根据本发明实施例的构建评估模型的基本流程图;

图2示出了根据本发明实施例的借助车型a的样本构建车型b的评估模型的基本流程图;

图3示出了根据本发明实施例的通过微调方式对参数迁移的方法基本流程图;

图4示出了根据本发明实施例的通过多任务学习的方式对参数迁移的方法基本流程图;

图5示出了根据本发明实施例的构建评估模型构建装置框图;

图6示出了根据本发明实施例的构建评估模型构建系统框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在评估模型构建过程中,如果同一类的样本不足,以至于无法利用样本构建评估模型,此时可以选用类似的其他样本以弥补样本不足的问题。

图1示出了根据本发明实施例的构建评估模型的基本流程图,如图1所示,在多种类型目标中获取所述多种类型目标中每一个目标的一个或多个样本;将获取的所述样本作为训练样本,对所述多种类型目标中的第一目标构建第一目标评估模型。本发明实施例中以二手车为例进行示例性说明,但并非仅仅限于二手车;而且本发明实施例中假设有两种类型的二手车车型,不同的车型具有相同的维度,例如车型a为宝马520,车型b为宝马535,这两种车型都有型号、车龄、上牌时间、车况等维度。需要说明的是本发明并非仅仅限于这两种车型,更多的车型同样适用于本发明。

在二手车定价模型的构建过程中,由于不同车型样本分布不一致,则他们都属于不同的领域。假设车型a为源领域,车型b为目标领域,在实际中,存在目标领域中车型b相对较少,导致样本数少的问题。由于车型b的目标领域中的样本数比较少,如果仅仅采用该目标领域中的车型b作为样本构建评估模型,则构建的评估模型由于样本数不足而准确性较差,因此通过构建的评估模型预测的车型b的车价与实际偏离较大。以下以不同的实施例对本发明的方法作出详细说明。

实施例一

本发明实施例一中将源领域的样本迁移到目标领域中,利用车型a的样本来提升车型b的车价预测准确性。

图2示出了根据本发明实施例的借助车型a的样本构建车型b的评估模型的基本流程图,如图2所示,首先选择车型a的所有样本,然后对车型a的样本进行筛选。

本发明实施例中,对车型a的样进行筛选时,可以通过以下方式中的一种或多种进行筛选:

a.通过行业知识,预先找出与目标领域车型b相似的源领域车型a(例如将宝马5系中的宝马520和宝马535作为相似的车型,或者将宝马5系和奥迪a6作为相似的车型),直接把源领域中与车型b相似的车型a样本加入到训练样本中,用来辅助目标领域的车型b评估模型的建立。

b.通过行业知识,预先找出与目标领域车型b相似的源领域车型a,对源领域样本进行进一步筛选。示例性地:车型a为宝马5202015款,车型b为宝马5202017款。那么车型b至今为止只有车龄为2年以内的车,对车龄两年之内的车可以预测准确,但是车龄大于2年的无法实现较为准确的预测。对于车龄大于2年的车,可以选择2015款520的车来预测。对于两年以内的车,可以就只使用2017款520预测即对车型b预测,可以排除车型a带来的干扰。最后将筛选的样本加入到训练样本中,用来辅助目标领域的模型建立。

c.对源领域样本直接进行自动化筛选,筛选的过程可以描述为:

i.训练样本为目标领域车型b样本;

ii.使用训练样本对目标领域进行建模。示例性地:可以对训练样本利用线性回归方式进行建模。然后用此建模得到的线性模型对源领域样本进行预测;

iii.使用目标领域模型对源领域的样本进行预测。如果预测误差在一定范围内,则认为源领域样本与目标领域样本分布类似,则可将源领域的样本加入到训练样本中;

iv.如果不满足预先设定终止条件(例如不满足迭代次数),则回到ii,否则到v;

v.使用训练样本训练目标领域模型。

示例性地,线性模型预测源领域有三个样本,误差分别为1%、5%、10%。如果选择阈值为4%。则认为误差为1%的源领域样本可以加到训练样本中。在下一轮迭代时,由于训练样本发生变化,下一轮预测的时候,剩下的两个源领域样本预测误差可能变成3%、8%,此时选择3%的点加入训练样本,继续训练。如果预测误差是4.5%、9.5%,即均超出了阈值。则终止迭代算法。

d.对样本的筛选还可以基于权重,即样本不仅仅只有使用和不使用两种状态,而是用权重代表其在训练过程在起的作用。可以自动化学习样本权重,过程为:

i.目标领域和源领域样本都初始化同样一个权值,比如1;

ii.以目标领域的训练样本准确性为指标,使用训练样本训练目标领域模型;

iii.使用目标领域模型对源领域训练样本进行预测。如果预测误差大,则减小权值;反之增大权值;

iv.如果不满足预先设定终止条件(如不满足迭代次数),则回到ii,否则到v;

v.此时目标领域模型可能已经在选择样本的算法过程中产生。

也可以利用选择样本算法得出的训练样本和其权值重新使用其他算法

训练目标领域模型。

上述筛选,能够获得合适的源领域样本,有效地防止了样本选择不当导致负迁移的不利情况。

通过上述方式筛选出车型a的样本后,将筛选出的车型a的样本和车型b的样本整合形成一个训练样本,最后通过整合后的训练样本对模型进行训练。示例性地:最简单的训练方式例如,设定评估函数为f(x)=ax+b,其中x为特征,本发明实施例中假设x特征为车龄,f(x)是输出的价格。模型训练过程是确定系数a和b的过程。在本示例中,输入各个训练样本后,有可能训练出来的结果是:b=新车价,a=某个负数,表示车价随着车龄的增大而降低。通过上述训练最终形成车型b的评估模型。

通过该训练过程,克服了只使用车型b的样本训练车型b的估价模型表现较差的技术问题,有效地提升了车型b评估模型的准确性。

实施例二

本发明实施例二中,将源领域的模型迁移到目标领域模型,利用车型a的样本构建的模型来提升车型b的车价预测准确性。本发明实施例二可以通过两种方式实现模型参数迁移。

通过微调的方式:

图3示出了根据本发明实施例的通过微调方式对参数迁移的方法基本流程,如图3所示,首先使用源领域的样本训练一个源领域的模型。当训练目标领域的模型时,首先令目标领域模型的参数(例如上述示例中的参数a和参数b)等于源领域的模型,即令目标领域模型参数等于源领域模型。如上述示例中f(x)=ax+b,这是线性回归,其参数是a和b。这里是特征x只有一个的情况,即车龄。如果特征更多,例如上牌时间、车况等特征,可能参数会有a1,a2….an这n个参数。f(x)=ax+b仅是一个示例,本发明实施例中可以使用其他模型,比如神经网络、决策树模型等。

输入目标领域的样本,在当前模型(例如上述形成的f(x)=ax+b)基础上进行训练,训练过程中,模型会发生较小的变化,从而生成了目标领域的模型,示例性地,将a调节成a’、将b调节为b’。如果源模型和目标模型比较接近,训练出的模型比单独使用目标领域样本训练的模型更好。

多任务学习方式:

图4示出了根据本发明实施例的通过多任务学习的方式对参数迁移的方法基本流程,如图4所示,把源任务和目标任务在共享一部分参数的情况下同时训练。

示例性地,现在有两个特征x1=车辆剐蹭面数,x2=车龄。对于两种价格相差较小的车型1和车型2的模型分别为:车型1,模型f(x)=a*x1+b*x2+c;车型2,模型f(x)=a*x1+d*x2*e。从这两个模型中可知a是共享参数。设定a为共享的优势在于,一般来说,同样档次的车,剐蹭一面修的钱差不多,所以可以设定一个共享参数。

在单独训练源模型和目标模型时,这部分共享参数由于数据量少,可能会训练不够充分。如果同时用源领域样本和目标领域样本训练这部分参数,则能够训练得更充分。同时,对于源模型和目标模型不共享的参数,通过这种方法也能够分别利用源领域样本和目标领域样本训练出来。在一般情况下,此训练方法能够同时提升源模型和目标模型的准确度。

本发明实施例二的流程中,训练参数的算法包括现今常用的机器学习算法,包括但不限于:树模型、神经网络。图4中不同训练流程的参数训练算法,可以相同也可以不相同,即:训练源模型独有参数、训练共享模型参数、训练目标模型独有参数的训练算法可以相同也可以不同。图4中无依赖关系的参数训练步骤,并不限定其训练先后顺序,甚至也可以同时训练。

本发明还在上述方法的基础上提供了一种评估模型构建装置,如图5所示,该评估模型构建装置包括样本获取单元和与所述样本获取单元连接的模型构建单元。

样本获取单元,用于在多种类型的目标中获取所述多种类型目标中每一个目标的一个或多个样本;用于利用第一目标评估模型(例如车型a的评估模型)对所述多种类型的目标中第二目标(例如车型b)进行预测,在预测误差在预定范围内时,将所述第二目标的样本作为所述训练样本中的一个或多个训练样本;还用于为所述一个或多个训练样本设置相应的权值,在所述预测误差超出所述预定范围时,调整一个或多个训练样本的权值。

所述模型构建单元,用于将所述样本获取单元获取的所述样本作为训练样本,对所述多种类型目标中的第一目标构建第一目标评估模型;进一步用于基于获取的所述训练样本对评估模型进行训练,将训练后的评估模型作为所述第一目标评估模型;进一步用于利用所述多种类型的目标中第二目标的训练样本构建针对第二目标的第二目标评估模型,将第二目标评估模型的参数作为所述第一目标评估模型参数,以所述第一目标的训练样本对所述第一目标评估模型进行训练,基于所述训练形成最终的所述第一目标评估模型;进一步用于确定所述多种类型目标中的共享参数,利用所述共享参数进行训练以构建所述第一目标评估模型。

本发明还在上述方法的基础上提供了一种评估模型构建系统,如图6所示,所述评估模型构建装置包括:至少一个处理器以及至少一个存储器;其中,所述存储器存储执行如上任一所述方法的计算机程序,所述处理器调用所述存储器中的计算机程序以执行如上任一所述的方法。

本发明的评估模型构建方法及系统不仅可以应用在不同车型之间相互辅助上,还可以应用在不同业务场景的相互辅助上。比如:二手车的交易有很多不同的价钱,如车商从个人端的(c2b)收购价、车商从车商端(b2b)的收购价、个人从个人(c2c)的收购价、个人从车商(b2c)的收购价等。在已知任何一个业务场景下的价钱,其余场景下的价钱可以通过迁移学习得到。已知多种场景下的价钱,可以使用迁移学习同时提升所有场景的模型精确度。从技术角度上说,上面两节中“领域”本来指代车型,而现在可以指代业务场景。

本发明实施例以二手车定价模型为例进行说明,但是其同样适用于各种不同点业务场景,优势在于:

1、在对单一车型进行建模时,如果单一车型的样本数量不足,可以通过其他车型的样本辅助训练,得到准确率更高的车型估价模型。

2、在对单一车型进行建模时,如果单一车型的样本数量不足,可以基于其他车型的模型进行调整,得到准确率更高的车型估价模型。

3、多种车型共享参数并对其进行训练,可以使得最终得到的各车型的模型表现更好。

4、上述三条中“车型”可以换成“业务场景”,同样适用。

需要说明的是,本说明书中所使用的术语仅出于描述特定实施方式的目的,而非意在对本发明进行限制。本文中的“第一”、“第二”等表述并非限制前后顺序,而仅仅在于表示不同的目标。

尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1