本发明属于数据处理技术领域,尤其涉及一种基于回归树的专利价值数据信息处理方法及系统。
背景技术:
目前,专利价值分析是专利运营及管理中至关重要的环节,通过专利的法律、技术及经济价值三大方向进行系统化分析,使专利投资人可以根据专利价值进行合理判断和决策,专利权人也可根据自身所有专利的专利价值合理用于出资、转让、许可等行为。现有算法中,人们往往通过使用形如:pvd=α×lvd+β×tvd+γ×mvd的方式,采用线性函数对法律价制度、技术价制度、经济价制度等设置不同权重再相加,其权重设置往往由领域专家凭借主观经验进行设置。
以前的技术方案的缺陷:
(1)现有技术无法适应专利领域复杂多样的情况。如“引证数”特征,不同国家的发明人对引证他人作品的重视程度不同,最好的结果便是根据不同国家进行参数设置,如果追求更高精度,则可以同时按照不同领域进行划分,而绝非使用单一模型即可进行评定。
(2)某些特征与专利价值不成线性关系。如“生效年限”,生效年限越长,说明其技术价值越高,投资价值越高,然而当期达到一定年限后,因其剩余可保护年限变短,故对于投资者而言,其投资价值便会开始下降。
(3)领域专家不便准确设置合理参数。很多情况下不同特征之间会彼此牵制,a特征权重分值偏高,b特征影响力相对下降,b特征权重提高,a的影响力便会受到影响,如何合理设置a和b的权重便显得即为困难,此时如果同时考虑c、d、e、f的特征,即便是专家也很难考虑周全。
(4)评估指标单一。在前技术往往只是根据专利固有属性信息评判专利价值,并没有结合专利所处环境的相对信息进行判断。
解决以上问题及缺陷的难度为:
上述问题及缺陷需要领域专家针对每种特征维度的不同情况设计相应的评分公式,所需构建评价公式与特征维度成指数增长,人工成本较高,而且需要领域专家对每个行业都能够有所了解,并购建相对客观的评价体系,然而在现实生活中,每位领域专家所能熟知的领域是有限的,如果构建足够全面的评价体系,往往需要多为领域专家的共同介入,成本投入增加,同时,一般人能够想象到的结果与数据特征所呈现的关系多为低纬度线性关系,如:y=ax+b,很难凭空想象复杂的对应关系,如:y=sin(log(x))+cos(e(x^2))。
解决以上问题及缺陷的意义为:
本发明针对不同特征状态状态进行不同处理;挖掘了深层非线性特征;挖掘了更多评价指标,挖掘相对特征信息;能自动化调节参数。
技术实现要素:
针对现有技术存在的问题,本发明提供了一种基于回归树的专利价值数据信息处理方法及系统。
本发明是这样实现的,一种基于回归树的专利价值数据信息处理方法,所述基于回归树的专利价值数据信息处理方法包括:
获取固有属性:根据专利固有信息统计固有属性信息;
挖掘相对特征:根据数据挖掘方法,挖掘每篇专利相较于不同层面的其他专利的差异信息;
非线性变化:使用不同转化因子,将专利的固有属性信息、相对特征信息,进行非线性变化操作,进行扩维操作;
自动调节算法模型:使用标注数据进行有监督学习操作,自动调节算法模型参数,最小化损失函数;
n次非线性变化:根据有监督学习过后的模型参数,选择最具影响力的多个参数再次进行非线性变化,挖掘数据的更深层特征;
保存模型参数。
进一步,统计的固有属性信息用于为特征工程进行数据层面备用。
进一步,算法模型使用决策树对不同特征状态组合执行不同策略,同时,基于根节点的选择,反馈不同特征对其结果的影响程度。
算法模型使用多可小决策树,并使用回归树记性结果的融合。
进一步,保存模型参数后,使用模型对未知样本进行打分。
本发明的另一目的在于提供一种基于回归树的专利价值数据信息处理系统,所述基于回归树的专利价值数据信息处理系统包括:
固有属性获取模块,根据专利固有信息统计固有属性信息;
相对特征分析模块,根据数据挖掘方法,挖掘每篇专利相较于不同层面的其他专利的差异信息;
非线性变化操作模块,使用不同转化因子,将专利的固有属性信息、相对特征信息,进行非线性变化操作,进行扩维操作;
自动调节参数模块,使用标注数据进行有监督学习操作,自动调节算法模型参数,最小化损失函数;
非线性变化分析模块,根据有监督学习过后的模型参数,选择最具影响力的多个参数再次进行非线性变化,挖掘数据的更深层特征;
模型参数评价模块,用于保存模型参数,对未知样本进行打分。
本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
获取固有属性:根据专利固有信息统计固有属性信息;
挖掘相对特征:根据数据挖掘方法,挖掘每篇专利相较于不同层面的其他专利的差异信息;
非线性变化:使用不同转化因子,将专利的固有属性信息、相对特征信息,进行非线性变化操作,进行扩维操作;
自动调节算法模型:使用标注数据进行有监督学习操作,自动调节算法模型参数,最小化损失函数;
n次非线性变化:根据有监督学习过后的模型参数,选择最具影响力的多个参数再次进行非线性变化,挖掘数据的更深层特征;
保存模型参数。
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
获取固有属性:根据专利固有信息统计固有属性信息;
挖掘相对特征:根据数据挖掘方法,挖掘每篇专利相较于不同层面的其他专利的差异信息;
非线性变化:使用不同转化因子,将专利的固有属性信息、相对特征信息,进行非线性变化操作,进行扩维操作;
自动调节算法模型:使用标注数据进行有监督学习操作,自动调节算法模型参数,最小化损失函数;
n次非线性变化:根据有监督学习过后的模型参数,选择最具影响力的多个参数再次进行非线性变化,挖掘数据的更深层特征;
保存模型参数。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:
本发明使用相对信息进行价值评估。该方法使得算法模型更加稳定合理,减少自身属性缺失对结果的影响。
使用决策树进行专利价值评估。该方法可针对不同特征状态进行不同处理,避免单一模型无法满足需求。
使用回归树进行模型融合。该方法可将决策树离散的数值结果转为连续值,由分类模型转化为回归模型。
使用有监督学习进行参数调节。该方法可极大减轻领域专家压力,同时可以避免考虑不周全的情况。
使用多颗小决策树而非一颗超大树。可保证模型具有更高可读性,方便内容专家进行二次优化。
(1)根据主权利要求所述,该技术方案通过自动化特征构建,与自动化特征选择,可以有效降低人工构建特征工程成本,同时,对低影响力特征的过滤,还可压缩特征收集阶段成本,通过对特征的非线性变化,与随机组合并进行二次变化,可构架更加复杂的高维特征,用以更好的拟合实验数据。
(2)根据从权利要求所述,因原始特征多为离散特征,模型通过使用多颗小决策树进行建模,可有效拟合不同离散特征的数值分布,在多颗决策树的基础之上,通过使用回归树进行模型融合,可使用离散的决策树分类问题的预测结果变得连续。无论是决策树还是回归树,均具有较强的可读性,在可控的模型范围内,人们可对模型进行展开、分析、修改操作,是一种机器学习与人工相结合的模型构造方法。
(3)实验结果如下:
根据上述技术方案对国内专利进行评分,结果分布如下:
通过对上述结果分布进行分析可得,存在过转移质押专利评分明显高于没有转移质押的专利,无效过的专利数据分值低于一般专利,发明类型专利高于实用新型专利,以上结果符合常识认知。
通过对上述数据分布结果进行分析,伴随时间推移,专利评分会逐渐降低,其原因在于,伴随时间推移,专利剩余可保护年限缩短,市场价值降低,数据分布结果符合常识认知。
通过对上述数据分布进行分析,发现获奖专利得分普遍高于一般专利,且随时间推移,平均分值程下降趋势,符合常识预期,针对部分优秀奖专利得分高于金奖得分,其在于专利评奖过程中针对金奖、银奖、优秀奖的评估侧重存在轻微差异,通过数据分布,符合常识。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的基于回归树的专利价值数据信息处理方法流程图。
图2是本发明实施例提供的算法模型结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种基于回归树的专利价值数据信息处理方法及系统,下面结合附图对本发明作详细的描述。
如图1所示,本发明实施例提供的基于回归树的专利价值数据信息处理方法包括:
获取固有属性:根据专利固有信息,如:特征数、权利项数、引证数、被引证数、申请人类型、申请人企业规模、发明人技术实力等,统计其固有属性信息,为之后的特征工程进行数据层面准备。
挖掘相对特征:根据数据挖掘方法,挖掘每篇专利相较于不同层面的其他专利的差异信息,如:相对被引用数、相对引用数、相对发明团队规模等。
非线性变化:使用不同转化因子,将专利的固有属性信息、相对特征信息,进行非线性变化操作,进行扩维操作,如:tanh、sin、cos、dfdt、gaussian。
算法模型:通过选择,获奖专利、有过外部交易的数据、10年以上的专利等,最优优质专利,通过有监督学习操作,自动调节算法模型参数,最小化损失函数。
n次非线性变化:根据有监督学习过后的模型参数,选择最具影响力的topn个参数再次进行非线性变化,挖掘数据的更深层特征,以便更好地拟合真实结果。
保存模型参数。
使用模型对未知样本进行打分。
如图2所示,模型使用决策树针对不同特征状态组合执行不同策略,可有效解决不同特征组合无法使用单一模型解决的问题,同时,基于根节点的选择,可反馈不同特征对其结果的影响程度,故而挑选影响力最大的特征。
通过对topn影响力参数的选择,过滤掉低影响力特征,可压缩特征获取阶段对特征的收集工作。
模型使用多可小决策树,并使用回归树记性结果的融合,使得只能用于分类的决策树可以充分发挥其作用。由分类转变为回归。
由于模型可解释性较强,经由有监督学习后的模型交由算法专家进行二次验证,确保模型效果满足实验要求。
下面结合实验数据对本发明作进一步描述。
根据上述技术方案对国内专利进行评分,结果分布如下:
通过对上述结果分布进行分析可得,存在过转移质押专利评分明显高于没有转移质押的专利,无效过的专利数据分值低于一般专利,发明类型专利高于实用新型专利,以上结果符合常识认知。
通过对上述数据分布结果进行分析,伴随时间推移,专利评分会逐渐降低,其原因在于,伴随时间推移,专利剩余可保护年限缩短,市场价值降低,数据分布结果符合常识认知。
通过对上述数据分布进行分析,发现获奖专利得分普遍高于一般专利,且随时间推移,平均分值程下降趋势,符合常识预期,针对部分优秀奖专利得分高于金奖得分,其在于专利评奖过程中针对金奖、银奖、优秀奖的评估侧重存在轻微差异,通过数据分布,符合常识。
在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上;术语“上”、“下”、“左”、“右”、“内”、“外”、“前端”、“后端”、“头部”、“尾部”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”等仅用于描述目的,而不能理解为指示或暗示相对重要性。
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、cd或dvd-rom的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。