本申请涉及数据处理,特别是涉及一种基于深度学习的职业特征向量提取方法、装置及设备。
背景技术:
1、在劳动力与人力资源管理领域中,与职业相关的研究往往以定性为主,对职业的特征描述依赖于简单化的文字表述,或职业特定属性,如工作头衔或行业分类。随着科技与经济发展,定性的方法难以适应快速变化的就业市场,也忽视了职业及职业间关系的复杂性。因此,有必要借助大数据与深度学习技术改进职业特征提取方法,以增强职业特征提取结果的全面性和准确性。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种基于深度学习的职业特征向量提取方法、装置及设备。
2、一种基于深度学习的职业特征向量提取方法,所述方法包括:
3、获取在线职业网络中多个样本的简历数据,通过提取简历数据中的职业流动轨迹,构建职业流动网络;其中,职业流动网络包括节点、边以及每条边对应的权重;
4、在职业流动网络中释放随机游走器,根据随机游走器的游走序列生成职业路径;
5、根据职业路径中职业间的关联程度提取路径共性并构建路径共性矩阵,将路径共性矩阵输入深度自编码器进行训练迭代,输出得到简历数据中每种职业的职业特征向量。
6、在其中一个实施例中,通过提取简历数据中的职业流动轨迹,构建职业流动网络,包括:
7、通过提取简历数据中的职业流动轨迹,构建职业流动网络,表示为g=(v,e,w),其中,表示节点集合,每个节点vi表示一种职业,n表示职业数量,表示边集合,每条边eij表示从职业i到职业j的人员流动,表示权重集合,每条边对应的权重wij表示从职业i到职业j的人员流动数量。
8、在其中一个实施例中,在职业流动网络中释放随机游走器,根据随机游走器的游走序列生成职业路径,包括:
9、在职业流动网络中释放随机游走器,随机游走器随机选择职业流动网络中的节点vi作为起点进行游走,根据随机游走器的游走序列生成职业路径,表示为其中,ct表示为随机游走器游走的第t个职业节点,l表示游走序列的固定长度。
10、在其中一个实施例中,随机游走器在职业流动网络中的转移概率表示为
11、
12、πt,t+1=λt-1,t+1·wt,t+1;
13、
14、其中,p(ct+1=vt+1|ct=vt)表示随机游走器从节点vt游走到节点vt+1的转移概率,πt,t+1表示节点vt和节点vt+1之间的未归一化的转移概率,z表示归一化指数,et,t+1表示在职业流动网络中节点vt和节点vt+1之间的边,λt-1,t+1表示偏好参数,wt,t+1表示边et,t+1对应的权重,α为返回参数,β为进出参数,dt-1,t+1表示节点vt-1和vt+1之间的最短路径距离。
15、在其中一个实施例中,根据职业路径中职业间的关联程度提取路径共性并构建路径共性矩阵,包括:
16、根据职业路径c中职业间的关联程度提取路径共性,其中,路径共性表示任意两个职业在所有职业路径中共同出现的频率;
17、根据路径共性构建路径共性矩阵a,路径共性矩阵a中由n个实例组成,实例的数量与职业流动网络中的职业数量一致,每个实例表示为其中mij表示在所有职业路径中职业vi和职业vj的职业共性总和,当且仅当vi和vj同时在一条职业路径中出现时,ai,j>0。
18、在其中一个实施例中,在构建路径共性矩阵a之后,还包括:对路径共性矩阵a中每一个实例进行最小最大值归一化处理。
19、在其中一个实施例中,将路径共性矩阵输入深度自编码器进行训练迭代,输出得到简历数据中每种职业的职业特征向量,包括:
20、将路径共性矩阵a中实例ai输入深度自编码器中的编码器,编码器通过多个非线性函数将实例ai映射为隐藏表示,其中,编码器每一层的隐藏表示如下所示:
21、
22、其中,xi=ai表示编码器的输入,表示编码器第k层的隐藏表示,h(k)表示编码器第k层的权重矩阵,b(k)表示编码器第k层的偏置项,σ表示激活函数,k表示编码器中的网络层数,为编码器最终输出的隐藏表示;
23、将编码器最终输出的隐藏表示输入深度自编码器中的解码器,根据解码器中的多个非线性函数对进行重构,得到重构输入
24、根据编码器的输入xi与重构输入构建损失函数,根据损失函数对深度自编码器进行训练迭代,得到训练好的深度自编码器,根据训练好的深度自编码器对路径共性矩阵进行特征提取,得到每种职业的职业特征向量。
25、在其中一个实施例中,损失函数表示为
26、l=lcom+lreg;
27、
28、
29、其中,lcom表示重构误差,表示解码器第k层的权重矩阵,||·||2为二范数,||·||f为f范数,上标2表示平方,为惩罚项,ξi,j为ξi中的第j个元素,ξ是以ξi为行构成的矩阵,lreg是一个防止过拟合的l2范数正则化项。
30、一种基于深度学习的职业特征向量提取装置,所述装置包括:
31、职业流动网络模块,用于获取在线职业网络中多个样本的简历数据,通过提取简历数据中的职业流动轨迹,构建职业流动网络;其中,职业流动网络包括节点、边以及每条边对应的权重;
32、职业路径生成模块,用于在职业流动网络中释放随机游走器,根据随机游走器的游走序列生成职业路径;
33、职业特征向量提取模块,用于根据职业路径中职业间的关联程度提取路径共性并构建路径共性矩阵,将路径共性矩阵输入深度自编码器进行训练迭代,输出得到简历数据中每种职业的职业特征向量。
34、一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
35、获取在线职业网络中多个样本的简历数据,通过提取简历数据中的职业流动轨迹,构建职业流动网络;其中,职业流动网络包括节点、边以及每条边对应的权重;
36、在职业流动网络中释放随机游走器,根据随机游走器的游走序列生成职业路径;
37、根据职业路径中职业间的关联程度提取路径共性并构建路径共性矩阵,将路径共性矩阵输入深度自编码器进行训练迭代,输出得到简历数据中每种职业的职业特征向量。
38、上述基于深度学习的职业特征向量提取方法、装置及设备,首先构建职业流动网络对职业之间的复杂联系进行建模,然后,在职业流动网络中释放随机游走器,根据随机游走器的游走序列生成职业路径,捕捉职业流动网络中职业间的关联程度,再根据职业间的关联程度提取职业路径中的路径共性,通过路径共性强化职业间的联系,最后通过将路径共性矩阵输入深度自编码器进行训练迭代,输出得到简历数据中每种职业的职业特征向量。采用方法能够通过深度学习提取包含职业自身信息和职业间相互联系的职业特征向量,增强了职业特征提取结果的全面性和准确性。
1.一种基于深度学习的职业特征向量提取方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,通过提取简历数据中的职业流动轨迹,构建职业流动网络,包括:
3.根据权利要求2所述的方法,其特征在于,在所述职业流动网络中释放随机游走器,根据所述随机游走器的游走序列生成职业路径,包括:
4.根据权利要求3所述的方法,其特征在于,所述随机游走器在所述职业流动网络中的转移概率表示为
5.根据权利要求1所述的方法,其特征在于,根据所述职业路径中职业间的关联程度提取路径共性并构建路径共性矩阵,包括:
6.根据权利要求5所述的方法,其特征在于,在构建路径共性矩阵a之后,还包括:对所述路径共性矩阵a中每一个实例进行最小最大值归一化处理。
7.根据权利要求6所述的方法,其特征在于,将所述路径共性矩阵输入深度自编码器进行训练迭代,输出得到简历数据中每种职业的职业特征向量,包括:
8.根据权利要求7所述的方法,其特征在于,所述损失函数表示为
9.一种基于深度学习的职业特征向量提取装置,其特征在于,所述装置包括:
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。