一种基于多源数据融合的智能人格特性评价方法与流程

文档序号:24412449发布日期:2021-03-26 19:53阅读:121来源:国知局
一种基于多源数据融合的智能人格特性评价方法与流程

1.本发明涉及自然语言处理技术领域,具体涉及一种基于多源数据融合的智能人格特性评价方法。


背景技术:

2.互联网技术不断发展,为了提升公司人才流入的效率,越来越多的企业会在招聘过程中对面试者的人格特性进行测试,以判断该面试者是否符合岗位胜任要求。数字化时代,学习力、适应性、创造性是人才的核心竞争力。然而,这些品质很多都被认为是“无形的资产”,只能依靠面试官长期积累的测评经验进行捕捉。此外,心理学研究发现,人格特性能够通过人的语言进行分析和判断,因为人格特性影响着一个人的行为举止,比如人际过于敏感的人与他人相处时常常会感到焦虑与不适,而宜人合群的人与他人相处时会更多的使用积极用语。此背景为智能人格特性研究提供了可能。
3.随着人工智能技术的蓬勃发展以及计算机算力的提高,尤其是基于自然语言处理相关的深度学习技术的发展,使得计算机在机器翻译、自动问答、信息抽取等方面均得到显著突破。其中特定的网络结构,比如循环神经网络,可以很好地对文本进行表征建模,因此许多研究者开始研究智能人格特性评价问题。目前主流的智能人格特性评价算法几乎都需要使用大规模精标数据集进行训练,构建代价昂贵,比如有的研究者使用线性回归模型或者支持向量机对人格特性进行预测。此外,目前的方法可解释性较差,面试官无法得知算法背后的计算原理,即对于企业来说,很难确认智能人格特性评价工具的有效性。


技术实现要素:

4.本发明的目的是为了解决现有技术中智能人格特性评价方法的不足,提供一种基于多源数据融合的智能人格特性评价方法。该方法结合了心理专业人员的先验知识,通过关键词匹配,更准确地对人格特性进行预测。
5.本发明的目的可以通过采取如下技术方案达到:
6.一种基于多源数据融合的智能人格特性评价方法,该方法包括以下步骤:
7.s1、收集网络用户的演讲视频数据;
8.s2、将步骤s1中获得的演讲视频数据进行语音转写,转写为演讲文本;
9.s3、根据演讲文本,心理专业人员对该用户的人格特性进行打分;
10.s4、对步骤s2中获得的演讲文本进行词汇切分,通过词频排序操作,统计不同词汇出现的次数以及概率;
11.s5、心理专业人员对步骤s4中词频排序后的词汇进行关键词筛选,筛选出最能分别代表不同人格特性的关键词,形成关键词表;
12.s6、对步骤s2的演讲文本进行预处理,并使用基于词嵌入的特征提取操作,形成词嵌入向量特征;
13.s7、将步骤s6中获得的词嵌入向量特征以及步骤s5中获得的关键词表输入到多源
数据融合模型,输出归一化的人格特性得分;
14.s8、将步骤s7中输出的归一化的人格特性得分乘上一个缩放因子,最终输出用户的人格特性得分。
15.进一步地,在所述步骤s1中,首先批量邀请用户登录网络平台,用户需要针对网络平台给定的题目进行演讲,网络平台将保存用户的演讲视频数据。
16.进一步地,在所述步骤s2中,使用自动语音识别技术将演讲视频数据进行语音转写,转写为演讲文本,设f=(f1,f2,

,f
n
,

,f
k
‑1,f
k
)为所有用户的演讲视频数据进行语音转写后的集合,其中k为总的演讲用户个数,f
n
为第n个用户转写后的演讲文本,演讲文本集合f供后续关键词筛选以及模型训练时使用。
17.进一步地,在所述步骤s3中,邀请3位心理专业人员,根据用户的演讲文本,心理专业人员对用户的r项人格特性进行打分,将3位心理专业人员的打分取均值作为该用户的人格特性得分,设第n个用户的人格特性打分结果为s
n
=(s
n,1
,s
n,2
,

,s
n,m
,

,s
n,r
‑1,s
n,r
),其中s
n,m
为该用户的第m项人格特性得分。
18.进一步地,在所述步骤s4中,将步骤s2中获得的演讲文本进行词汇切分,由于f
n
为步骤s2中获得第n个用户转写后的演讲文本,因此将f
n
进行词汇切分操作后获得的词汇集合设为w
n
=(w
n,1
,w
n,2
,

,w
n,j
,

,w
n,c
‑1,w
n,c
),其中c为f
n
进行词汇切分后的总词汇数,w
n,j
为f
n
进行词汇切分后的第j个词汇,以此类推对演讲文本集合f进行操作,将获得所有演讲文本的切分集合g=(w1,w2,

,w
n
,

,w
k
‑1,w
k
),对切分集合g进行词频统计操作,统计不同词汇出现的次数以及概率,并对词频进行排序。
19.进一步地,在所述步骤s5中,心理专业人员从步骤s4中获得的经过词频排序后的词汇当中筛选出最能分别代表不同人格特性的关键词,形成关键词表k=(k1,k2,

,k
m
,

,k
r
‑1,k
r
),其中k
m
代表第m项人格特性的关键词词组,r为步骤s3中设定的人格特性项个数,每个关键词词组共包含c

个关键词,将每个关键词都转为one

hot向量,则k
m
=(k
m,1
,k
m,2
,

,k
m,c
′‑1,k
m,c

)。
20.进一步地,在所述步骤s6中,对步骤s2的演讲文本进行预处理和词嵌入操作,形成词嵌入向量特征,过程如下:
21.预处理操作包括词汇切分、去停用词以及文本对齐;词汇切分操作与步骤s4中的相同,对于第n个用户转写后的演讲文本f
n
,则其进行词汇切分操作后获得的词汇集合为w
n
=(w
n,1
,w
n,2
,

,w
n,j
,

,w
n,c
‑1,w
n,c
);去停用词操作会对词汇集合w
n
中的停用词进行过滤,形成过滤后的词汇集合(w

n,1
,w

n,2
,

,w

n,d
‑1,w

n,d
),其中d为过滤后词汇集合长度,w

n,d
为第n个用户去停用词后的词汇集合中的第d个词汇,设t为停用词表,则去停用词操作如下:
[0022][0023]
文本对齐操作将对不同长度的词汇集合进行对齐,设l为最大集合长度,则词汇集合中,低于最大集合长度l的部分填入0进行扩充,高于最大集合长度l的部分进行截断;第n个用户转写后的演讲文本f
n
经过上述预处理操作后,获得预处理操作后的词汇集合q
n
=(q
n,1
,q
n,2
,

,q
n,v
,

,q
n,l
‑1,q
n,l
),其中q
n,v
为q
n
中的第v个词汇;
[0024]
词嵌入操作包括随机初始化词嵌入矩阵以及词向量映射;首先随机初始化一个词嵌入矩阵其中d为词嵌入向量特征的维度,l为词表的大小,词嵌入矩阵将伴随着后续模型一同训练;词向量映射操作首先需要将q
n
中的每个词汇转为one

hot向量,再将one

hot向量与词嵌入矩阵相乘,获得词嵌入向量特征u
n
=(u
n,1
,u
n,2
,

,u
n,v
,

,u
n,l
‑1,u
n,l
),设q
n
中的每个词汇转都为one

hot向量后,获得的向量集合为q

n
=(q

n,1
,q

n,2
,

,q

n,v
,

,q

n,l
‑1,q

n,l
),其中为q

n
中的第v个one

hot向量,对单个one

hot向量q

n,v
来说,词嵌入向量的映射规则为u
n,v
=w
·
q

n,v

[0025]
进一步地,在所述步骤s7中,将步骤s6中获得的词嵌入特征向量u
n
=(u
n,1
,u
n,2
,

,u
n,v
,

,u
n,l
‑1,u
n,l
)以及步骤s5中获得的关键词表k=(k1,k2,

,k
m
,

,k
r
‑1,k
r
)输入到多源数据融合模型,输出归一化的人格特性得分y
n
=(y
n,1
,y
n,2
,

,y
n,m
,

,y
n,r
‑1,y
n,r
),其中,所述多源数据融合模型从输入层到输出层之间的连接结构依次为:长短期记忆网络(long short term memory,lstm)层、关键词匹配层、全连接层、sigmoid函数层;
[0026]
设当前输入的时间步为t,即输入为词嵌入特征向量u
n,t
,则长短期记忆网络层向前推进一个时间步的计算方法为:
[0027]
i
t
=σ(w
i

·
[h
n,t
‑1,u
n,t
]+b
i

),
[0028]
f
t
=σ(w
f

·
[h
n,t
‑1,u
n,t
]+b
f

),
[0029][0030][0031]
o
t
=σ(w
o

·
[h
n,t
‑1,u
n,t
]+b
o

),
[0032]
h
n,t
=o
t
*tanh(c
t
),
[0033][0034]
其中i
t
为输入门,f
t
为遗忘门,o
t
为输出门,σ为sigmoid函数,为备选记忆细胞,c
t
为记忆细胞,h
n,t
为时间步为t时最终输出的隐向量,w
i

,w
f

,w
c

,w
o

以及b
i

,b
f

,b
c

,b
o

为随机初始化参数,lstm的优点是可以解决文本长距离的依赖问题,并且可以通过记忆细胞保存之前时间步的状态,为了能更好的感知上下文信息,使用前向与后向长短期记忆网络对u
n,t
进行编码,得到前向输出的隐向量与后向输出的隐向量,将前向与后向输出的隐向量进行拼接得到h

n,t
,以此类推,u
n
输入后将输出(h

n,1
,h

n,2
,

,h

n,l
‑1,h

n,l
),将输出取平均记为h

n
,此时h

n
即为长短期记忆网络层的输出;
[0035]
若当前关键词词组为k
m
=(k
m,1
,k
m,2
,

,k
m,c
′‑1,k
m,c

),则关键词匹配层的计算方法为:
[0036]
u

n,m
=match(u
n
,k
m
),
[0037][0038]
k

m,i
=w
·
k
m,i

[0039]
其中u

n,m
为关键词匹配层的输出向量,z∈[1,l],i∈[1,c

]为索引下标,w为步骤s6中介绍的词嵌入矩阵,max_num操作将取前num个最大的值,match(u
n
,k
m
)为关键词匹配函
数,计算u
n
与k
m
的匹配得分;
[0040]
将长短期记忆网络层的输出h

n
与关键词匹配层的输出u

n,m
做拼接,输入到全连接层以及sigmoid函数层中,计算方法为:
[0041]
y
n,m
=σ(w
p
·
[h

n
;u

n,m
]+b
p
),
[0042]
其中w
p
以及b
p
为随机初始化变量。
[0043]
进一步地,在所述步骤s8中,将步骤s7中输出的归一化的人格特性得分乘上一个缩放因子c,最终输出用户的人格特性得分:
[0044]
y

n,m
=c
×
y
n,m

[0045]
最后,多源数据融合模型的损失函数为:
[0046][0047]
训练过程中根据损失函数的梯度对多源数据融合模型变量进行迭代,直至相邻两次迭代中loss的变化值小于0.5。
[0048]
本发明相对于现有技术具有如下的优点及效果:
[0049]
(1)本发明结合了心理专业人员的先验知识,相比较传统的智能人格特性评价方法,本发明提出的关键词匹配步骤有较好的可解释性,使用本发明可以清晰地得出方法背后的计算原理,实现用户人格特性的自动预测;
[0050]
(2)本发明方法采用了一种细粒度人格特性的评分机制,结合了长短期记忆网络对用户进行较为完善的人格特性画像评估,能为企业提供良好的决策参考;
[0051]
(3)本发明提供了一种新的预测用户人格特性的工具,并且多源数据融合模型包含关键词的冷启动步骤,使得多源数据融合模型可以更快收敛,因此能在小样本数据集上取得较好的预测效果,只需较小的数据集构建代价。
附图说明
[0052]
图1是本发明实施例公开的一种基于多源数据融合的智能人格特性评价方法的流程图;
[0053]
图2是本发明实施例多源数据融合模型架构示意图。
具体实施方式
[0054]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0055]
实施例
[0056]
本实施例通过如图1所示的流程进行实现,如图所示,一种基于多源数据融合的智能人格特性评价方法包括以下步骤:
[0057]
步骤s1的具体实施过程如下:
[0058]
训练模型需要收集网络用户的演讲视频数据,因此首先批量邀请用户登录网络平台,用户需要针对网络平台给定的题目进行演讲,网络平台将保存用户的演讲视频数据。
[0059]
步骤s2的具体实施过程如下:
[0060]
将步骤s1中获得的演讲视频数据进行语音转写,转写为演讲文本。需要使用自动语音识别技术将演讲视频数据进行语音转写,转写为演讲文本,并对转写的文本进行人工校正,设f=(f1,f2,

,f
n
,

,f
k
‑1,f
k
)为所有用户的演讲视频数据进行语音转写后的集合,其中k为总的演讲用户个数,f
n
为第n个用户转写后的演讲文本,演讲文本集合f供后续关键词筛选以及模型训练时使用。
[0061]
步骤s3的具体实施过程如下:
[0062]
根据演讲文本,心理专业人员对该用户的人格特性进行打分,具体来说,邀请3位心理专业人员,根据用户的演讲文本,心理专业人员对用户的r项人格特性进行打分,将3位心理专业人员的打分取均值作为该用户的人格特性得分,设第n个用户的人格特性打分结果为s
n
=(s
n,1
,s
n,2
,

,s
n,m
,

,s
n,r
‑1,s
n,r
),其中s
n,m
为该用户的第m项人格特性得分。
[0063]
步骤s4的具体实施过程如下:
[0064]
对步骤s2中获得的演讲文本进行词汇切分,通过词频排序操作,统计不同词汇出现的次数以及概率,由于f
n
为步骤s2中获得第n个用户转写后的演讲文本,因此将f
n
进行词汇切分操作后获得的词汇集合设为w
n
=(w
n,1
,w
n,2
,

,w
n,j
,

,w
n,c
‑1,w
n,c
),其中c为f
n
进行词汇切分后的总词汇数,w
n,j
为f
n
进行词汇切分后的第j个词汇,以此类推对演讲文本集合f进行操作,将获得所有演讲文本的切分集合g=(w1,w2,

,w
n
,

,w
k
‑1,w
k
),对切分集合g进行词频统计操作,统计不同词汇出现的次数以及概率,并对词频进行排序。
[0065]
步骤s5的具体实施过程如下:
[0066]
心理专业人员从步骤s4中获得的经过词频排序后的词汇当中筛选出最能分别代表不同人格特性的关键词,形成关键词表k=(k1,k2,

,k
m
,

,k
r
‑1,k
r
),其中k
m
代表第m项人格特性的关键词词组,r为步骤s3中设定的人格特性项个数,每个关键词词组共包含c

个关键词,将每个关键词都转为one

hot向量,则k
m
=(k
m,1
,k
m,2
,

,k
m,c
′‑1,k
m,c

)。
[0067]
步骤s6的具体实施过程如下:
[0068]
对步骤s2的演讲文本进行预处理和词嵌入操作,形成词嵌入向量特征。
[0069]
其中预处理操作包括词汇切分、去停用词以及文本对齐;词汇切分操作与步骤s4中的相同,对于第n个用户转写后的演讲文本f
n
,则其进行词汇切分操作后获得的词汇集合为w
n
=(w
n,1
,w
n,2
,

,w
n,j
,

,w
n,c
‑1,w
n,c
);去停用词操作会对词汇集合w
n
中的停用词进行过滤,形成过滤后的词汇集合(w

n,1
,w

n,2
,

,w

n,d
‑1,w

n,d
),其中d为过滤后词汇集合长度,w

n,d
为第n个用户去停用词后的词汇集合中的第d个词汇,设t为停用词表,则去停用词操作如下:
[0070][0071]
文本对齐操作将对不同长度的词汇集合进行对齐,设l为最大集合长度,则词汇集合中,低于最大集合长度l的部分填入0进行扩充,高于最大集合长度l的部分进行截断;第n个用户转写后的演讲文本f
n
经过上述预处理操作后,获得预处理操作后的词汇集合q
n
=(q
n,1
,q
n,2
,

,q
n,v
,

,q
n,l
‑1,q
n,l
),其中q
n,v
为q
n
中的第v个词汇;
[0072]
词嵌入操作包括随机初始化词嵌入矩阵以及词向量映射;首先随机初始化一个词
嵌入矩阵其中d为词嵌入向量特征的维度,l为词表的大小,词嵌入矩阵将伴随着后续模型一同训练;词向量映射操作首先需要将q
n
中的每个词汇转为one

hot向量,再将one

hot向量与词嵌入矩阵相乘,获得词嵌入向量特征u
n
=(u
n,1
,u
n,2
,

,u
n,v
,

,u
n,l
‑1,u
n,l
),设q
n
中的每个词汇转都为one

hot向量后,获得的向量集合为q

n
=(q

n,1
,q

n,2
,

,q

n,v
,

,q

n,l
‑1,q

n,l
),其中为q

n
中的第v个one

hot向量,对单个one

hot向量q

n,v
来说,词嵌入向量的映射规则为u
n,v
=w
·
q

n,v

[0073]
步骤s7的具体实施过程如下:
[0074]
将步骤s6中获得的词嵌入特征向量
[0075]
u
n
=(u
n,1
,u
n,2
,

,u
n,v
,

,u
n,l
‑1,u
n,l
)以及步骤s5中获得的关键词表k=(k1,k2,

,k
m
,

,k
r
‑1,k
r
)输入到如图2所示的多源数据融合模型中,输出归一化的人格特性得分y
n
=(y
n,1
,y
n,2
,

,y
n,m
,

,y
n,r
‑1,y
n,r
),其中,所述多源数据融合模型从输入层到输出层之间的连接结构依次为:长短期记忆网络(long short term memory,lstm)层、关键词匹配层、全连接层、sigmoid函数层;
[0076]
设当前输入的时间步为t,即输入为词嵌入特征向量u
n,t
,则长短期记忆网络层向前推进一个时间步的计算方法为:
[0077]
i
t
=σ(w
i

·
[h
n,t
‑1,u
n,t
]+b
i

),
[0078]
f
t
=σ(w
f

·
[h
n,t
‑1,u
n,t
]+b
f

),
[0079][0080][0081]
o
t
=σ(w
o

·
[h
n,t
‑1,u
n,t
]+b
o

),
[0082]
h
n,t
=o
t
*tanh(c
t
),
[0083][0084]
其中i
t
为输入门,f
t
为遗忘门,o
t
为输出门,σ为sigmoid函数,为备选记忆细胞,c
t
为记忆细胞,h
n,t
为时间步为t时最终输出的隐向量,w
i

,w
f

,w
c

,w
o

以及b
i

,b
f

,b
c

,b
o

为随机初始化参数,lstm的优点是可以解决文本长距离的依赖问题,并且可以通过记忆细胞保存之前时间步的状态,为了能更好的感知上下文信息,使用前向与后向长短期记忆网络对u
n,t
进行编码,得到前向输出的隐向量与后向输出的隐向量,将前向与后向输出的隐向量进行拼接得到h

n,t
,以此类推,u
n
输入后将输出(h

n,1
,h

n,2
,

,h

n,l
‑1,h

n,l
),将输出取平均记为h

n
,此时h

n
即为长短期记忆网络层的输出;
[0085]
若当前关键词词组为k
m
=(k
m,1
,k
m,2
,

,k
m,c
′‑1,k
m,c

),则关键词匹配层的计算方法为:
[0086]
u

n,m
=match(u
n
,k
m
),
[0087][0088]
k

m,i
=w
·
k
m,i

[0089]
其中u

n,m
为关键词匹配层的输出向量,z∈[1,l],i∈[1,c

]为索引下标,w为步骤
s6中介绍的词嵌入矩阵,max_num操作将取前num个最大的值,match(u
n
,k
m
)为关键词匹配函数,计算u
n
与k
m
的匹配得分;
[0090]
将长短期记忆网络层的输出h

n
与关键词匹配层的输出u

n,m
做拼接,输入到全连接层以及sigmoid函数层中,计算方法为:
[0091]
y
n,m
=σ(w
p
·
[h

n
;u

n,m
]+b
p
),
[0092]
其中w
p
以及b
p
为随机初始化变量。
[0093]
步骤s8的具体实施过程如下:
[0094]
将步骤s7中输出的归一化的人格特性得分乘上一个缩放因子c,最终输出用户的人格特性得分:
[0095]
y

n,m
=c
×
y
n,m

[0096]
最后,多源数据融合模型的损失函数为:
[0097][0098]
训练过程中根据损失函数的梯度对多源数据融合模型变量进行迭代,直至相邻两次迭代中loss的变化值小于0.5。多源数据融合模型训练完成后,新的用户的演讲文本输入到多源数据融合模型中将对应生成人格特性预测评分。
[0099]
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1