一种时序过程与手机缺陷特征深度融合的二手手机价格预测算法的制作方法

文档序号:28164291发布日期:2021-12-24 21:36阅读:96来源:国知局
一种时序过程与手机缺陷特征深度融合的二手手机价格预测算法的制作方法

1.本发明属于二手手机价格预测技术领域,具体涉及一种时序过程与手机缺陷特征深度融合的二手手机价格预测算法。


背景技术:

2.二手手机的价格预测对二手手机的回收和销售厂商都具有重要意义,通过对二手设备的类型、年代、用过的时间、地理位置等各种特征,进行建模来预测售价,是回归模型的一个典型的应用场景。
3.然而,手机价格的预测会受外界因素影响而产生难以预测的短期性波动,手机的属性和元数据特征通常包含多种模态,也增加了建模的复杂性。
4.业界技术主要可以划分为:时序过程建模和基于属性特征的建模。
5.一,时序过程建模:时序过程建模基于时隙间聚合视图量的时间演变过程来价格。价格随着时间的推移而变化,同时会在外部因素影响下产生意外的爆发性波动,如何对这种长期规律和短期波动进行建模,是时序模型的目标。
6.1、二手手机的价格波动过程视为用户购买行为的微观到达点过程,基于强化的possion过程,hawkes点过程或神经网络对单个事件的微观点过程建模来预测流行度。然而,在大规模应用中,事件的数量(成交单数)可能会在短时间内爆发性突变,这将导致微观时序过程建模的性能问题。
7.2、基于事件量宏观积累过程进行预测。霍克斯强度过程(hip)能够描述宏观时序过程的演变,并成功应用于youtube视频流行度预测。然而,hip对时序过程的函数形式和外部因素的影响做出了具体的假设,限制了模型的表达能力。其他的传统做法还有从宏观时序过程中手动提取上升和下降“阶段”以捕获波动,而后采用基于相位的线性回归方法进行流行度预测。然而,手工制作的“阶段”不能处理大众化的演变过程,不具有普适性。
8.二,基于特征的建模:建模手机检测项元数据特征用于价格预测。
9.例如,手机屏幕,电池特征,销售渠道特征等,手工提取特征后利用传统的回归模型融合特征进行预测。然而,这类技术没有充分利用检测员评测报告长文本和元数据特征,也忽略了手机价格的演变过程。并且,手动提取的特征很难设计和度量,通常局限于特定的数据集或应用程序。
10.现有技术的缺陷:
11.1.影响手机价格的外部因素可能涵盖不同的范围和持续时间,人为地很难假设价格波动的数量和形状,通过提前对外部影响因素的具体假设或手工提取来捕获短期波动,反而会限制模型的预测能力。
12.2.缺少对质检人员检测报告的文本建模,用户购买手机时,除了关注手机的各项检测结果外,也会关注检测人员给出的检测报告书,而报告的书写情况(详略情况,用词程度情况等差异)也会影响用户的心理出价。现有技术未能充分利用基于检测报告的长文本
来进行二手手机价格预测。
13.3.未能充分整合时序过程和内容特征建模,以发挥各自的优势。不同的手机机型会显示出不同的价格的波动。直觉融合方法缺乏处理价格演变过程的灵活性。


技术实现要素:

14.为解决现有技术中存在的上述问题,本发明提供了一种时序过程与手机缺陷特征深度融合的二手手机价格预测算法,具有使用方便、处理效果更佳以及灵活性更好的特点。
15.为实现上述目的,本发明提供如下技术方案:一种时序过程与手机缺陷特征深度融合的二手手机价格预测算法,包含如下步骤:
16.步骤一:抽取元数据特征,得到(f1,f2,f3,

,f
n
)特征向量;
17.步骤二:将每个机型每天的销售均价计为宏观时间序列,得到(p1,p2,p3,

,p
n
)时序特征序列;
18.步骤三:对机型检测报告内容进行文本预处理,并对文本进行分词,统计词频,再从中筛选出一部分高频关键词作为分词字典;
19.步骤四:假设经过步骤三文本对应划分成w1,w2,w3,

,w
k
共计k个词,利用word2vec模型将每个词映射为1个300维实向量,即doc映射成k*300的矩阵;
20.步骤五:将步骤一、步骤二和步骤四分别得到的手机元数据特征、手机价格时间序列和文本向量表示输入到价格预测模型中进行预测,所述价格预测模型包括时序过程建模、属性特征建模和注意力融合模块。
21.作为本发明的一种优选技术方案,所述步骤一中,元数据特征包括手机品牌、发布时间、机型报告和屏幕检测项。
22.作为本发明的一种优选技术方案,所述步骤三中,预处理包括特殊符号处理、英文大小写转换以及繁简字统一。
23.作为本发明的一种优选技术方案,所述步骤三还包括对于不在字典中的关键词,统一用特殊符号<unk>表示。
24.作为本发明的一种优选技术方案,所述步骤五中,时间过程建模以步骤二中的历史反馈序列{v1,v2,v3,

,v
t
)作为输入,采用循环神经网络rnn对长期趋势进行建模,同时采用卷积神经网络cnn捕获短期波动。
25.作为本发明的一种优选技术方案,所述步骤五中,属性特征建模采用嵌入网络和分层注意力网络分别接收步骤一和步骤四中的元数据特征和文本向量作为输入,对元数据和长文本进行建模。
26.作为本发明的一种优选技术方案,所述步骤五中,注意力融合模块动态整合时间过程建模和属性特征建模的网络模块。
27.作为本发明的一种优选技术方案,还包括训练阶段,用于对时序过程建模、属性特征建模和注意力融合模块进行训练。
28.作为本发明的一种优选技术方案,还包括应用阶段,作为线上服务来处理二手手机,具体包括:
29.第1步,提取待预测的手机的元数据特征、机型名称和检测报告文本内容,并划分手机的历史销售序列,进行预处理;
30.第2步,将处理好的价格历史时间序列以及元数据特征和文本序列输入到训练好的模型中,输出手机价格的预测类别;
31.第3步,将预测结果通过规则来确定手机的销售指导价。
32.与现有技术相比,本发明的有益效果是:
33.(1)本方法在二手手机价格预测的时序过程建模中同时考虑了全局的价格的长期趋势和局部的单位时间内的价格的突发性波动,可以更全面具体地建模历史销售时序价格数据中的变化;
34.(2)本方法用lstm建模长期增长趋势,有两个优点:a)lstm极其适合于处理时序上具有依赖关系的序列结构输入,可以捕获历史时刻之间的关系,学习到价格的历史演变模式;b)lstm中的记忆单元可以记忆更远距离的时序依赖关系,可以更好的处理长序列的历史时序输入;
35.(3)本方法采用带有注意力机制的cnn建模单位时间内的价格的突发性波动,有两个优点:a)cnn擅于捕捉具有平移不变性的局部结构,而价格“上升”和“下降”的短期波动恰好具有这种特性;b)注意力机制能够使模型更多地关注受到外部因素影响的时间点;
36.(4)本方法采用分层注意力网络建模手机的检测报告长文本内容,这出于对文档的固有层次结构(即,单词形成句子和句子形成文档)的考虑,将文档依次编码为单词级和句子级的注意力向量,有益于得到更优的文本语义表示;
37.(5)本方法采用嵌入技术将不同类型的元数据特征嵌入到同源密集空间中,有利于元数据特征的充分融合;
38.(6)本发明采用时序注意力融合机制可以根据不同时刻自动决定不同模块的输出对最终预测结果的决定性程度,具有良好的处理时序过程动态演化的灵活性;
39.(7)手机机型发布早期历史数据的不足使早期的预测更具挑战,然而在早期的预测更有价值。本发明提出的时间衰减损失函数有益于帮助模型在早期阶段投入更多精力来优化预测性能;
40.(8)通过以上几点的结合,模型在预测二手手机价格时对时序过程和属性特征进行了深度融合,时两者优势互补,可以在在新手机发布周期的任何时期灵活地预测其价格。
附图说明
41.附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
42.图1为本发明的算法流程图;
43.图2为本发明的主体模型结构示意图;
44.图3为本发明中的时间过程模型结构示意图;
45.图4为本发明中的嵌入网络结构示意图;
46.图5为本发明中的分层注意力网络结构示意图;
具体实施方式
47.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于
本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
48.请参阅图1

图5,本发明提供以下技术方案:一种时序过程与手机缺陷特征深度融合的二手手机价格预测算法,包含如下步骤:
49.步骤一:抽取元数据特征,包括手机品牌、发布时间、机型报告和屏幕检测项,得到(f1,f2,f3,

,f
n
)特征向量;
50.步骤二:将每个机型每天的销售均价计为宏观时间序列,得到(p1,p2,p3,

,p
n
)时序特征序列;
51.步骤三:对机型检测报告内容进行文本预处理,包括特殊符号处理、英文大小写转换以及繁简字统一,并对文本进行分词,统计词频,再从中筛选出一部分高频关键词作为分词字典,对于不在字典中的关键词,统一用特殊符号<unk>表示;
52.步骤四:假设经过步骤三文本对应划分成w1,w2,w3,

,w
k
共计k个词,利用word2vec模型将每个词映射为1个300维实向量,即doc映射成k*300的矩阵;
53.步骤五:将步骤一、步骤二和步骤四分别得到的手机元数据特征、手机价格时间序列和文本向量表示输入到价格预测模型中进行预测,所述价格预测模型包括时序过程建模、属性特征建模和注意力融合模块。
54.具体的,根据附图3所示,本实施例中,步骤五中,时间过程建模以步骤二中的历史反馈序列{v1,v2,v3,

,v
t
}作为输入,采用循环神经网络rnn对长期趋势进行建模,同时采用卷积神经网络cnn捕获短期波动。
55.时间过程网络利用rnn中的长短期记忆网络lstm来捕捉价格随时间演变的长期增长趋势,lstm对时间建模的优越性在于隐藏状态包含所有历史信息,因此不需要对历史趋势的函数形式做出具体的假设,并且lstm中的记忆单元更擅于捕获长序列依赖关系,将每个时隙的反馈向量v馈送到lstm中,并获得输出向量中的历史增长模式。
56.另一方面,由外部因素引起的波动使得单位时间阅读量曲线呈现出上升和下降阶段,看起来像“山脉”和“山谷”,如附图3,这些“山脉”和“山谷”是平移不变的局部结构,因此,本发明提出用一维卷积神经网络捕获这样的短期波动结构;此外,不同因素的影响在不同的时间范围内持续,这意味着“山脉”具有不同的宽度,所以,本发明采用不同大小的多个卷积核来捕获不同的波动范围,之后再垂直堆叠所有卷积核的输出,由于cnn通常需要固定大小的输入,假设输入窗口宽度为k,则每个卷积层的输入为t时刻前长度为k的剪切序列{v
t

k+1
,v
t

k+2


,v
t
},应用相同的填充操作并获得长度为k的输出序列{c
t

k+1
,c
t

k+2


,c
t
},其捕获最近历史的波动模式,最后,本发明采用注意力机制通过时间维度合并输出序列{c
t

k+1
,c
t

k+2


,c
t
}到输出向量中,注意力机制为卷积层输出序列中不同时刻的向量c乘以不同的注意力权重a
c
,从而有助于输出更多地关注受到外部因素影响的时间点,权重a
c
和输出向量的计算方法如下:
57.[0058][0059][0060]
具体的,根据附图4和附图5所示,本实施例中,步骤五中,属性特征建模采用嵌入网络和分层注意力网络分别接收步骤一和步骤四中的元数据特征和文本向量作为输入,对元数据和长文本进行建模。
[0061]
二手手机的内容属性特征(包括检测报告文本和元数据特征)很大程度上决定了它们的价格区间,元数据特征包括独热编码特征,如类别,也包括数值型特征,如过去一周/一天/三天的成交均价等,因此本发明利用嵌入技术将这些特征嵌入到同源密集向量中,并将全连接层应用于特征组合,而不是手工选择和组合这些特征,如附图4所示,我们通过嵌入矩阵将独热编码特征嵌入到密集向量中,同时,将数字特征乘以嵌入向量从而将它们映射到同源密集向量,然后将所有元数据特征进行级联,并应全连接层将所有元数据特征组合在一起,得到总体的元数据表示向量h
e

[0062]
由于手机检测报告通常是长文本文档,本发明采用分层注意力网络han建模文本内容特征,考虑到文档的固有层次结构(即,单词形成句子和句子形成文档),han采用两级的编码器和注意力机制将文档依次编码为单词级和句子级的注意力的向量,字级和句级编码器都是双向门控循环单元bi

gru,此外,手机机型名是手机的高级描述,显示手机的主体印象,han中同时学习了机型名称表示向量作为补充,由于机型名称通常是短语或句子,将机型名称编码为仅具有字级编码器和注意力的向量,然后将检测报告文档向量和机型名称向量连接在一起作为最终的文本特征h
h

[0063]
具体的,根据附图4和附图5所示,本实施例中,步骤五中,注意力融合模块动态整合时间过程建模和属性特征建模的网络模块。
[0064]
假设h
h
和h
e
分别代表rnn、cnn、han和元特征嵌入的输出,由于在机型发布后的最初阶段,时间过程建模很难学习价格的整体趋势,因此,预测应主要取决于属性特征建模,随着时间的推移,观察到的价格会逐渐趋于稳定,因此时间建模应该在预测中起主要作用,注意力融合机制正是将要作用,注意力融合机制正是将h
h
和h
e
与灵活权重a相结合,a是h
h
和h
e
与时间t的函数,因此它可以自动适应不同模块的输出和不同时刻,具有良好的处理时序过程动态演化的灵活性,注意力机制是逐元素组合,这里将h
h
和h
e
馈入全连接层以进行特征组合,并获得各元素的对齐向量和然后使用一个两层的神经网络计算注意力权重a
m
,计算方式如下:
[0065][0066]
[0067]
时间表示变量t由给定时隙t的周期性属性,时隙间隔和发布时间组成,这里,周期性属性是一个独热编码特征,时间间隔是数值型特征,本发明应用与嵌入元数据特征相同的策略将时间表示变量t嵌入到向量中,通过注意力权重a
m
,动态地将所有子网络融合为并在全连接层和softmax输出层之后获得价格预测的概率分布p
t
={p
t
(l1),p
t
(l2),

,p
t
(l
n
)},然后,将最大概率对应的价格类别作为最终的预测结果具体计算过程如下:
[0068][0069][0070][0071]
具体的,根据附图4和附图5所示,本实施例中,还包括训练阶段,用于对时序过程建模、属性特征建模和注意力融合模块进行训练。
[0072]
采用有监督的学习方式,收集大概200w+手机销售记录,为了确保训练数据的多样性,我们在对价格上采用分段均匀采样,本发明将手机的价格预测视为分类任务,把价格分为100类:按照价格等频分桶将价格的连续值分为100个类,作为训练数据的标签;同时,我们限制了文本序列的最大和最小输入长度,过滤了历史反馈时间序列过短的不具有预测价值的序列。
[0073]
在训练的过程中,我们选取预测得分最高的类别作为价格的预测结果,采用adam优化算法以及我们提出的时间衰减损失函数作为优化目标在训练集上训练该模型直至收敛,由于在实际应用中,预测早期的价格更有价值,此外,观察到的价格与价格合理区间之间的内在关系使得在后期更容易进行预测,为了帮助模型在早期阶段投入更多精力来优化预测性能,在训练过程中,本发明将时间衰减因子子d(δ
t
)乘以单步的交叉熵损失的加权和作为最终的损失函数,时间衰减因子d(δ
t
)是t与机型发布时间之间的时间间隔δ
t
的单调非增函数,d(δ
t
)与损失函数j的具体形式如下:
[0074]
d(δ
t
)=[log
γ

t
+1)]
‑1[0075][0076]
这里,[
·
]表示向上取整算子,δ
t
是发布时间到时刻t之间的时隙数,因此δ
t
和logp
t
(l
c
)都是正整数,y>1是用于控制衰减率的超参数,我们采用对数函数来确保d(δ
t
)的衰减率随着时间的推移而变得越来越小,向上取整算子用于限制对数函数的初始衰减率。
[0077]
具体的,根据附图4和附图5所示,本实施例中,还包括应用阶段,作为线上服务来处理二手手机,具体包括:
[0078]
第1步,提取待预测的手机的元数据特征、机型名称和检测报告文本内容,并划分手机的历史销售序列,进行预处理;
[0079]
第2步,将处理好的价格历史时间序列以及元数据特征和文本序列输入到训练好的模型中,输出手机价格的预测类别;
[0080]
第3步,将预测结果通过规则来确定手机的销售指导价。
[0081]
(1)本方法使用的是lstm来建模价格的长期趋势,也可以使用rnn中的其他结构来替换,例如门控循环单元(gru);
[0082]
(2)han中采用的是双向门控循环单元(bi

gru)对单词级和句子级的文本依次进行编码,也可以使用其他编码器来替换,例如单向或双向的rnn和lstm,cnn和transformer;
[0083]
(3)可以将最后的输出由分类问题改为回归问题,直接预测得出价格的得分;
[0084]
(4)应用场景的扩展,本方法可以扩展到任何回归场景的业务,例如门户网站中的新闻和社交网络中的博客推荐。
[0085]
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1