本发明涉及模式识别与机器学习的技术领域,主要涉及到一种找化网背景下多不定核匹配算法。
背景技术:
找化网是一个跨境化学品B2B一站式交易服务平台。通过平台,客户可以找到最原始的厂家。我们提供对比价格,检测质量,安排运输,保险,报关,发货等一站式供应链服务。找化网的盈利模式是买家免费,卖家成交后收佣金,做到不成交不收费,平台致力于建设全球化学品研发,生产,销售一条龙的生态链,主要有三大功能:
1, 通过了解客户需求,我们汇集全球在某个特定时间段的订单,将订单与供应商之间进行匹配和价格磋商。然后根据客户要求,安排运输;
2, 通过优惠特卖,把家里有存货的、又急着变现的企业,通过客户在系统里留下的大数据,一对一最快速度联系客户,以特殊时间特殊价格的方式快速消化库存;
3, 通过精准匹配,可以帮助客户控制质量和风险,保证资金流和数据流的统一。采集客户和供应商生产销售的大数据。将客户和供应商采购系统相对接,提前一段时间得到客户采购计划和安排,这样可以更好地安排生产,旺季和淡季相结合生产,从而降低成本;
针对上述特点,本发明公布了一种找化网背景下多不定核匹配算法,该方法主要包括以下步骤:1)获取终端用户的详细需求;2)提取特征:提取终端用户详细需求的特征;3)通过多个不定核函数将这些特征转化成核矩阵;4)匹配模型:采用多类Hinge-loss损失函数构建最终的多不定核匹配模型;5)通过匹配模型为终端用户推荐符合要求的化工厂。
技术实现要素:
发明目的:为了解决找化网背景下的匹配问题,本发明提出了一种找化网背景下多不定核匹配算法,该方法采用多类Hinge-loss损失函数来更有效地利用数据信息和更好地处理匹配问题,利用不定核技术构造一个更有效的核组合,提升匹配算法的泛化能力以获得更优的匹配结果。
技术方案:在对该方法具体步骤进行描述前,首先给出相关的定义及表示:
(a)特征:来自终端用户详细需求的特征;
(b)匹配目标:化工厂所属类别;
(c)不定核:由再生核Kreĭn空间中数据内积演化而来的不定核函数;
本发明提供了一种找化网背景下多不定核匹配算法,该方法包括两个阶段:训练和应用。具体步骤如下:
本发明公布了一种找化网背景下多不定核匹配算法,该方法主要包括以下步骤:1)获取终端用户的详细需求;2)提取特征:提取终端用户详细需求的特征;3)通过多个不定核函数将这些特征转化成核矩阵;4)匹配模型:采用多类Hinge-loss损失函数构建最终的多不定核匹配模型;5)通过匹配模型为终端用户推荐符合要求的化工。
所述步骤2)采用信息增益(IG)的方法提取终端用户详细需求的特征。对于一个系统,其信息熵为:。C表示类别个数,表示第i的类别概率。信息增益提取特征词步骤:
1)统计正负分类数,记为N1,N2;
2)统计每个词在正分类出现的频率(A),负分类出现的频率(B),正分类不出现的频率(C),负分类的不出现的频率(D);
3)计算信息熵;
(1)
4)计算每个词w的信息增益;
(2)
5)按照信息增益的大小排序,选取最终特征。
所述步骤3)采用多个不定核函数(Indefinite Kernel Function)将特征转化为相对应的核矩阵(Kernel Matrix),从而将低维的特征映射到高维空间。核函数k(·,·)是定义在输入空间上的对称函数。对于任意数据,我们会得到下列核矩阵:
所述步骤4)采用多类Hinge-loss损失函数来设计匹配模型。具体步骤如下:
1)构造匹配函数。在多核的基础上,构造如下的匹配函数:
(3)
其中,j表示c个推荐中的第j个,i表示m个终端用户中的第i个。 是核组合系数,u表示r个核函数的第u个。矩阵是匹配器系数,定义如下:
2)上述的匹配模型可以表示成如下优化问题:
(4)
其中,为损失函数,和是正则化参数,
3)引入多类Hinge-loss损失函数,定义如下:
(5)
其中,,,定义如下:
(6)
4)为了在匹配时更多的利用不同类别的类间信息,本专利采用多类Hinge-loss损失函数提高模型的匹配性能:
(7)
其中,是用来增加匹配模型容错能力的松弛变量,从而提高匹配模型的匹配准确度。
所述步骤5)根据匹配模型的匹配结果为终端用户推荐最终的化工厂卖家,具体来说,我们通过使用正定核和不定核的组合,对数据的各个特征分量分别进行映射,使数据在高维特征空间中分布和表达更优,使得匹配正确率明显提高。
本发明的优点主要体现在下面两点:
1、我们采用多类Hinge-loss损失函数来更有效地利用数据信息和更好地处理匹配问题;
2、利用不定核技术构造一个更有效的核组合,提升匹配算法的泛化能力以获得更好的匹配结果。
附图说明
图1是本发明在找化网背景下多不定核匹配算法流程图。
具体实施方式
下面结合附图和实例对本发明进行详细说明,本实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利。本发明主要针对找化网背景下的匹配问题,结合不定核技术、多类Hinge-loss损失函数设计一个更好的匹配算法,一种找化网背景下多不定核匹配算法如图1所示,包括两个阶段:训练和测试。具体步骤如下:
1)获取终端用户的详细需求;
2)特征提取:提取终端用户详细需求的特征;
3)通过多个不定核函数将这些特征转化成核矩阵;
4)匹配模型:采用多类Hinge-loss损失函数构建最终的多不定核匹配模型;
5)通过匹配模型为终端用户推荐符合要求的化工厂。
所述步骤2)采用信息增益(IG)的方法提取终端用户详细需求的特征,对于一个系统,其信息熵为:,C表示类别个数,表示第i的类别概率,信息增益提取特征词步骤:
1) 统计正负分类数,记为N1,N2;
2) 统计每个词在正分类出现的频率(A),负分类出现的频率(B),正分类不出现的频率(C),负分类的不出现的频率(D);
3) 计算信息熵;
(1)
4) 计算每个词w的信息增益;
(2)
5)按照信息增益的大小排序,选取最终特征。
所述步骤3)采用多个不定核函数(Indefinite Kernel Function)将特征转化为相对应的核矩阵(Kernel Matrix),从而将低维的特征映射到高维空间,核函数k(·,·)是定义在输入空间上的对称函数,对于任意数据,我们会得到下列核矩阵:
所述步骤4)采用多类Hinge-loss损失函数来设计匹配模型。具体步骤如下:
a)构造匹配函数。在多核的基础上,构造如下的匹配函数:
(3)
其中,j表示c个推荐中的第j个,i表示m个终端用户中的第i个。 是核组合系数,u表示r个核函数的第u个。矩阵是匹配器系数,定义如下:
b)上述的匹配模型可以表示成如下优化问题:
(4)
其中,为损失函数,和是正则化参数,
c)引入多类Hinge-loss损失函数,定义如下:
(5)
其中,,,定义如下:
(6)
d)为了在匹配时更多的利用不同类别的类间信息,本专利采用多类Hinge-loss损失函数提高模型的匹配性能:
(7)
其中,是用来增加匹配模型容错能力的松弛变量,从而提高匹配模型的匹配准确度。
所述步骤5)根据匹配模型的匹配结果为终端用户推荐最终的化工厂卖家。