基于半导体市场数据的电子元器件生命周期预测方法与流程

文档序号:21836420发布日期:2020-08-14 16:03阅读:1114来源:国知局
基于半导体市场数据的电子元器件生命周期预测方法与流程

本发明涉及数据收集处理技术,尤其是涉及一种基于半导体市场数据的电子元器件生命周期预测方法。



背景技术:

近年来数据技术迅速发展,大量传统的业务如服务、销售等转移到线上,为数据分析提供了便捷的条件,企业对数据的应用程度也随着各类数据挖掘算法的完善日趋加深。通过对大量历史数据的研究通过监督学习预测特征未来的变化趋势,已经有应用于股票,期货预测的先例。

半导体行业虽然具有高度活跃交易频繁的特点,但元器件的流通信息却依旧主要以“点对点”的方式在线下传播,缺乏对线上大量销售流通数据的有效利用。恰逢近年消费电子、新能源汽车等行业的快速发展,电子元器件制造业升级转型加快,大批半导体器件随着产业的转型升级被厂商宣布停产(eol)或缺货,这导致追求长期稳定的工业产品被迫修改设计或由制造企业花费高价在器件停产前囤现货,为企业带来的巨大的负担。因此在产品设计阶段及时了解元器件生命周期状态、避免选用处于生命周期末端的器件对维持工业品长期稳定的运行具有很高的现实意义。

目前设计者只能凭自己的经验判断来选取生命周期状况良好器件,此种判断方式过于主观并不可靠,并且面对大量新器件的上市无法更加准确把握元器件的信息,传统的元器件信息获取与利用方式已无法满足产品设计的需要。相比股票、期货等产品的预测,与元器件生命周期相关的特征值较少,容易通过训练得出准确度较高的预测模型,但缺点是元器件流通不具有股指期货等易于获得的海量高质量数据,因此对数据获取方式的预处理有较高的要求。



技术实现要素:

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于半导体市场数据的电子元器件生命周期预测方法。

本发明的目的可以通过以下技术方案来实现:

一种基于半导体市场数据的电子元器件生命周期预测方法,包括以下步骤:

步骤s1、获取多种器件在多种分销渠道不同时间点上的库存、交期、出货量、价格、生命周期状态数据;

步骤s2、依据元器件生产流通的规律,制定不同的策略对数据进行识别、清洗、转化;

步骤s3、进一步将离散的特征数据滤波、拟合、逼近,将每个节点的库存、交期、出货量、价格转化为反映这些特征值在此时间点的变化率指数数据;

步骤s4、基于c4.5决策树算法,用半年的历史数据训练预测模型,定期将采集到的器件流通数据输入模型得出生命周期预测结果,从而对处于生命周期末端的器件及时给出预警。

优选地,所述的步骤s1的数据通过网页获得,解析网页结构后,利用selenium爬取实时更新的元器件市场数据,包括元器件库存、交期、出货量、价格、生命周期状态5个维度定期采集并存储于mysql数据库中。

优选地,将所述的库存s(m,n,t)、交期l(m,n,t)、出货量q(m,n,t)、价格p(m,n,t)作为特征值,生命周期状态z(m,n,t)作为目标值,其中m指元器件型号,n指同种器件数据的不同采集渠道,t指采集时间点。

优选地,所述的步骤s2对数据进行处理包括元器件库存数据处理过程、元器件交期数据处理过程、元器件出货量数据处理过程、元器件价格数据处理过程、以及元器件生命周期状态数据处理过程。

优选地,所述的元器件库存数据处理过程为对器件库存的缺失值用同一时刻不同分销商的库存中位数填充,具体过程如下:

若有某种器件mr在同一时刻tr不同分销渠道n0~np采集到的一组库存数据

sr=[s(mr,n0,tr),s(mr,n1,tr)......s(mr,np,tr)]

那么将其中的缺失值填充为:

snull=med(sr);

所述的元器件出货量数据处理过程为对出货量的缺失数据用不同分销商采集到出货量平均数进行填充,具体过程如下:

若有某种器件在同一时刻不同分销渠道采集到的一组出货量数据

qr=[q(mr,n0,tr),q(mr,n1,tr)......q(mr,np,tr)]

那么其中的缺失值填充为:

qnull=avg(qr)。

优选地,所述的元器件交期数据处理过程为采用统计分析去除偏移正常交期过大的异常数据,具体过程为:

若有某种器件在同一时刻不同渠道采集到的一组交期数据

lr=[l(mr,n0,tr),l(mr,n1,tr)......l(mr,np,tr)]

那么任意数据l(mr,nr,tr)均应当满足|l(mr,nr,tr)-avg(lr)|≤σ(lr)

其中avg(lr)为数组的均值,σ(lr)为数组的标准差,删除不满足上述条件的数据异常数据。

优选地,所述的元器件价格数据处理过程为:对于某器件同一时刻从不同分销商采集到的价格,随着平均价格的升高,对偏离平均价格数据的范围逐渐收紧,经验所得价格偏差比例在0.1到3的区间为合理,删除超过价格范围区间的异常数据,具体过程如下:

若有同一种器件在同一时间不同渠道采集到的一组数据

pr=[p(mr,n0,tr),p(mr,n1,tr)...p(mr,np,tr)]

任意数据p(mr,nr,tr)应满足:

其中avg(pr)为数组的均值,系数c需满足c∝[avg(pr)]-1且0.1≤c≤3。

优选地,所述的元器件生命周期状态数据处理过程具体为:

对于采集到的数据文本匹配这六种状态,处于前4种状态的数据,统一记为1,表示器件正常供应,对于缺失与无法匹配的数据同样记为1;对于最后两种“下降”与“退出”的数据记为-1,表示器件处于生命周期末端,再将列表中由1变为-1在时间序列上的最后一项元素修改为0,因为1变,0再变为-1是不可逆的过程,所以对于同一种器件mr在同一渠道nr不同时间t0~tp采集到的一组数据

zr=[z(mr,nr,t0),z(mr,nr,t1)...z(mr,nr,tp)]

任意数据z(mr,nr,tr)应满足z(mr,nr,tr)≥p(mr,nr,tr+1)

若出现了不满足以上条件的数据,说明分销商对元器件的生命周期状态标注有误,删除此器件在此分销商所有时间点上采集到的的特征及目标数据。

优选地,所述的步骤s3采用savitzky-golay平滑滤波,针对不同类型的数据选取合适的窗宽做滤波拟合处理,先将小幅高频的波动滤除再拟合曲线,进而对时间轴上的每一个取样点做线性逼近,求得的每个时间节点上的库存、交期、出货量、价格变化趋势指数,并分别记为sindex(m,n,t)、lindex(m,n,t)、qindex(m,n,t)、pindex(m,n,t),由此得到了每种器件在不同分销渠道每个取样时间点上的特征值变化率指数与目标数据。

优选地,所述的步骤s4的c4.5决策树算法为一种经典监督学习算法,通过信息增益率来选取特征值,对大量数据快速处理得出准确度较高的预测模型,将半年采集到的数据集随机分为80%测试集与20%验证集,将测试集每个元祖的sindex(m,n,t)、lindex(m,n,t)、qindex(m,n,t)、pindex(m,n,t)作为特征值,|z(m,n,t)|作为目标值输入模型,得出预测模型,并将验证集带入进行验证优化;

定期采集元器件的数据,并重复s2、s3步骤,将实时的库存、交期、出货量、价格变化趋势指数输入模型得出结果,筛选出|z(m,n,t)|=0的器件,代表器已处于生命周期末端。

与现有技术相比,本发明选取了若干较为可靠的数据源,定期通过爬虫与分销商网站的api从互联网采集电子元器件销售流通数据,再经由结合市场运行规律的定制化处理方式对数据进行判断、清洗,并用历史数据生成用以预测器件生命周期的决策树模型。使用时定期采集元器件的销售数据输入模型得出运算结果,以监控处于电子组件可选清单(avl)中的器件,及时的筛选出被市场淘汰的半导体器件,本发明定制性强,在电子设计领域具有较高的实用价值。

附图说明

图1为本发明的工作流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。

如图1所示,本发明,具体包含以下步骤:

步骤s1、获取多种器件在多种分销渠道不同时间点上的库存、交期、出货量、价格、生命周期状态数据。

步骤s2、依据元器件生产流通的规律,制定不同的策略对数据进行识别、清洗、转化。

步骤s3、进一步将离散的特征数据滤波、拟合、逼近,将每个节点的库存、交期、出货量、价格转化为反映这些特征值在此时间点的变化率指数数据。

步骤s4、基于c4.5决策树算法,用半年的历史数据训练预测模型。定期将采集到的器件流通数据输入模型得出生命周期预测结果,从而对处于生命周期末端的器件及时给出预警。

各步骤具体如下:

s1、获取多种器件在多种分销渠道不同时间点上的库存、交期、出货量、价格、生命周期状态数据。

元器件的销售数据广泛的遍布于网络,其中绝大部分优质的数据集中在若干家主流器件分销商,为避免数据受到采集渠道的影响不能反映实际器件的流通状态,选取全球范围的主流器件分销网站及权威元器件行业数据发布网站,解析网页结构后,利用selenium爬取实时更新的元器件市场数据。包括元器件库存、交期、出货量、价格、生命周期状态5个维度定期采集并存储于mysql数据库中。

其中库存、交期、出货量、价格作为特征值,生命周期状态作为目标值,分别记为s(m,n,t)、l(m,n,t)、q(m,n,t)、p(m,n,t)、z(m,n,t)。其中m指器件的mpn(即元器件型号),n指同种器件数据的不同采集渠道,t指采集时间点。

s2、依据元器件生产流通的规律,制定不同的策略对数据进行识别、清洗、转化。

网络上的器件流通信息存在缺失、不准确等情况。因生命周期预测研究主要依据的是器件数据在时间轴上的变化趋势,而为了保证数据的准确性选取了多种器件信息收集源,因此对特征的数据正确性识别和预处理集中在同时刻不同分销商采集到的同类型数据上。

限于元器件生产流通的客观规律,不同分销商的库存、交期、出货量、价格、生命周期五个维度的数据无法通过统一的方式进行数据清洗。为了最大限度的反映元器件真实的状态,必须结合元器件生产销售的客观规律,因此对每种数据分别采用如下方式处理:

1)元器件库存:库存量作为元器件销售网站的核心数据,实时更新并且准确性较高,可以反应市场对器件销量的预期。对此类数据无需过度处理仅对器件库存的缺失值用同一时刻不同分销商的库存中位数填充。

若有某种器件在同一时刻不同分销渠道采集到的一组库存数据

sr=[s(mr,n0,tr),s(mr,n1,tr)......s(mr,np,tr)]

那么将其中的缺失值填充为:

snull=med(sr)。

2)元器件交期:限于元器件的基础材料、设备、产能等因素,同类型器件的交期在不同分销渠道不会有较大的差别,若出现某分销渠道的交期与其他分销商呈现较大的差别则认定数据有误,采用统计分析去除偏移正常交期过大的异常数据。

若有某种器件在同一时刻不同渠道采集到的一组交期数据

lr=[l(mr,n0,tr),l(mr,n1,tr)......l(mr,np,tr)]

那么任意数据l(mr,nr,tr)均应当满足|l(mr,nr,tr)-avg(lr)|≤σ(lr)

其中avg(lr)为数组的均值,σ(lr)为数组的标准差。删除不满足上述条件的数据异常数据。

3)出货量:不同分销商的销售策略存在较大区别,若出现个别分销商采集到的出货量数据与其他渠道相比有较大区别,不能认为数据是有误的。仅对出货量的缺失数据用不同分销商采集到出货量平均数进行填充。

若有某种器件在同一时刻不同分销渠道采集到的一组出货量数据

qr=[q(mr,n0,tr),q(mr,n1,tr)......q(mr,np,tr)]

那么其中的缺失值填充为:

qnull=avg(qr)

4)价格:元器件的单价越高在不同分销渠道的价格差异偏离度越小,一些价格较低的器件如阻容在不同分销渠道价格差最高可能达到3倍,而单价较贵的器件通常价格差异不会超过10%。因此对于某器件同一时刻从不同分销商采集到的价格,随着平均价格的升高,对偏离平均价格数据的范围逐渐收紧,经验所得价格偏差比例在0.1到3的区间为合理,删除超过价格范围区间的异常数据。

若有同一种器件在同一时间不同渠道采集到的一组数据

pr=[p(mr,n0,tr),p(mr,n1,tr)...p(mr,np,tr)]

任意数据p(mr,nr,tr)应满足:

其中系数c需满足c∝[avg(pr)]-1且0.1≤c≤3。

5.生命周期:元器件的生命周期按照ansi/eia724-97的标准有导入、增长、成熟、饱和、下降、退出六个阶段。对于采集到的数据文本匹配这六种状态,处于前4种状态的数据,统一记为1,表示器件正常供应,对于缺失与无法匹配的数据同样记为1。对于最后两种“下降”与“退出”的数据记为-1,表示器件处于生命周期末端,再将列表中由1变为-1在时间序列上的最后一项元素修改为0,因为1变,0再变为-1是不可逆的过程,所以对于同一种器件在同一渠道不同时间采集到的一组数据

zr=[z(mr,nr,t0),z(mr,nr,t1)...z(mr,nr,tp)]

任意数据z(mr,nr,tr)应满足z(mr,nr,tr)≥p(mr,nr,tr+1)

若出现了不满足以上条件的数据,说明分销商对元器件的生命周期状态标注有误,删除此器件在此分销商所有时间点上采集到的的特征及目标数据。考虑到采集渠道和器件种类足够多,删除此类数据并不会影响实际预测模型的训练结果。

s3、进一步将离散的特征数据滤波、拟合、逼近,将每个节点的库存、交期、出货量、价格转化为反映这些特征值在此时间点的变化率指数数据。

采集到的库存、交期、出货量、价格数据是离散的,并且因为不同的元器件差异很大,它们本身的值与器件在市场的生命周期状态没有必然关系,需要的是他们的变化趋势。因此采用对数据滤波、拟合、逼近的方法,将数据转化为库存、交期、出货量、价格在某个时间点的变化率。

元器件的库存、交期、出货量、价格数据会因为市场微小的干扰因素存在一些小幅度的波动,但是这些小幅波动对于了解器件长期的变化趋势不具有可参考性,因此采用savitzky-golay平滑滤波,针对不同类型的数据选取合适的窗宽做滤波拟合处理,先将小幅高频的波动滤除再拟合曲线,这样做可以有效地排除市场短期波动的干扰,尽可能地还原数据在较长一段时间内的变化趋势,进而对时间轴上的每一个取样点做线性逼近,求得的每个时间节点上的库存、交期、出货量、价格变化趋势指数,并分别记为sindex(m,n,t)、lindex(m,n,t)、qindex(m,n,t)、pindex(m,n,t)。

由此得到了每种器件在不同分销渠道每个取样时间点上的特征值变化率指数与目标数据。

s4、基于c4.5决策树算法,用半年的历史数据训练预测模型。定期将采集到的器件流通数据输入模型得出生命周期预测结果,从而对处于生命周期末端的器件及时给出预警。

决策树是一种经典监督学习算法,通过信息增益率来选取特征值,可以对大量数据快速处理得出准确度较高的预测模型,较为适合作为本发明的预测模型算法。

将半年采集到的数据集随机的分为80%测试集与20%验证集,将测试集每个元祖的sindex(m,n,t)、lindex(m,n,t)、qindex(m,n,t)、pindex(m,n,t)作为特征值,|z(m,n,t)|作为目标值输入模型,得出预测模型,并将验证集带入进行验证优化。

定期采集元器件的数据,并重复s2、s3步骤,将实时的库存、交期、出货量、价格变化趋势指数输入模型得出结果,筛选出|z(m,n,t)|=0的器件,代表器已处于生命周期末端,提醒人员避免使用。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1