本技术涉及计算机,尤其涉及一种关键词提取方法、装置及设备。
背景技术:
1、随着互联网的不断发展,各类线上服务逐渐成熟,为用户带来了极大的便利。为了契合用户的实际需求,及时掌握市场动态,各个厂商通常会借助调查问卷等形式来采集用户的需求信息。
2、在相关技术中,面对采集到的海量问卷,各个厂商通常需要人工对问卷进行筛选、过滤,人工提取出调查问卷中的有效信息,这种提取方式成本较高,效率较低,准确率也不高。
技术实现思路
1、本技术的多个方面提供一种关键词提取方法、装置及设备,用以提高关键词提取的效率和准确率,节省用户的成本。
2、第一方面,本技术实施例提供一种关键词提取方法,包括:
3、获取待处理文本,并确定所述待处理文本对应的关键词候选集;
4、针对所述关键词候选集中的每个候选关键词,从所述待处理文本中删除所述候选关键词,得到各个所述候选关键词对应的候选文本;
5、针对每个候选关键词对应的候选文本,确定所述候选文本与所述待处理文本的目标相似度;
6、在所述目标相似度满足预设条件的情况下,将所述目标相似度对应的候选文本所对应的候选关键词确定为目标关键词。
7、在一种可能的实施方式中,所述确定所述待处理文本对应的关键词候选集,包括:
8、对所述待处理文本进行词性标注,并按照预设规则抽取所述待处理文本中的候选词;
9、计算各个所述候选词的目标评价值;
10、基于所述目标评价值,从所述候选词中选取所述候选关键词,得到所述关键词候选集。
11、在一种可能的实施方式中,所述基于所述目标评价值,从所述候选词中选取所述候选关键词,得到所述关键词候选集,包括:
12、按照所述目标评价值的大小对所述候选词进行降序排序;
13、将排序在前n位的候选词确定为所述候选关键词,得到所述关键词候选集;其中n为大于0的整数。
14、在一种可能的实施方式中,所述确定所述候选文本与所述待处理文本的目标相似度,包括:
15、基于目标文本语义模型,确定所述候选文本与所述待处理文本的目标相似度。
16、在一种可能的实施方式中,所述基于目标文本语义模型,确定所述候选文本与所述待处理文本的目标相似度,包括:
17、根据所述目标文本语义模型,确定所述候选文本对应的第一语义向量,以及确定所述待处理文本对应的第二语义向量;
18、基于所述第一语义向量与所述第二语义向量,确定所述目标相似度。
19、在一种可能的实施方式中,所述方法还包括:
20、获取目标训练数据;
21、基于所述目标训练数据,对预设文本语义模型进行训练,得到所述目标文本语义模型。
22、在一种可能的实施方式中,所述目标训练数据为无标签的训练数据。
23、在一种可能的实施方式中,所述目标训练数据包括正样本数据和负样本数据;所述获取目标训练数据,包括:
24、获取原始训练数据;
25、对所述原始训练数据进行词语改写或者词语删除,生成所述正样本数据和所述负样本数据;
26、将所述正样本数据和负样本数据进行混合,得到所述目标训练数据。
27、在一种可能的实施方式中,所述在所述目标相似度满足预设条件的情况下,将所述目标相似度对应的候选文本所对应的候选关键词确定为目标关键词,包括:
28、将所述目标相似度小于预设阈值的候选文本对应的候选关键词确定为所述目标关键词;或者,
29、将所述目标相似度最小的候选文本对应的候选关键词确定为所述目标关键词。
30、第二方面,本技术实施例提供一种关键词提取方法,包括:
31、响应于用户对预设输入控件的触控操作,获取所述触控操作对应的待处理文本;
32、确定所述待处理文本对应的关键词候选集;
33、针对所述关键词候选集中的每个候选关键词,从所述待处理文本中删除所述候选关键词,得到各个所述候选关键词对应的候选文本;
34、针对每个候选关键词对应的候选文本,确定所述候选文本与所述待处理文本的目标相似度;
35、在所述目标相似度满足预设条件的情况下,将所述目标相似度对应的候选文本所对应的候选关键词确定为目标关键词,并显示所述目标关键词。
36、第三方面,本技术实施例提供一种关键词提取装置,包括:
37、获取模块,用于获取待处理文本,并确定所述待处理文本对应的关键词候选集;
38、删除模块,用于针对所述关键词候选集中的每个候选关键词,从所述待处理文本中删除所述候选关键词,得到各个所述候选关键词对应的候选文本;
39、第一确定模块,用于针对每个候选关键词对应的候选文本,确定所述候选文本与所述待处理文本的目标相似度;
40、第二确定模块,用于在所述目标相似度满足预设条件的情况下,将所述目标相似度对应的候选文本所对应的候选关键词确定为目标关键词。
41、在一种可能的实施方式中,所述获取模块,具体用于:
42、对所述待处理文本进行词性标注,并按照预设规则抽取所述待处理文本中的候选词;
43、计算各个所述候选词的目标评价值;
44、基于所述目标评价值,从所述候选词中选取所述候选关键词,得到所述关键词候选集。
45、在一种可能的实施方式中,所述获取模块,具体用于:
46、按照所述目标评价值的大小对所述候选词进行降序排序;
47、将排序在前n位的候选词确定为所述候选关键词,得到所述关键词候选集;其中n为大于0的整数。
48、在一种可能的实施方式中,所述第一确定模块,具体用于:
49、基于目标文本语义模型,确定所述候选文本与所述待处理文本的目标相似度。
50、在一种可能的实施方式中,所述第一确定模块,具体用于:
51、根据所述目标文本语义模型,确定所述候选文本对应的第一语义向量,以及确定所述待处理文本对应的第二语义向量;
52、基于所述第一语义向量与所述第二语义向量,确定所述目标相似度。
53、在一种可能的实施方式中,所述装置还包括:
54、数据获取模块,用于获取目标训练数据;
55、训练模块,用于基于所述目标训练数据,对预设文本语义模型进行训练,得到所述目标文本语义模型。
56、在一种可能的实施方式中,所述目标训练数据为无标签的训练数据。
57、在一种可能的实施方式中,所述目标训练数据包括正样本数据和负样本数据;所述数据获取模块,具体用于:
58、获取原始训练数据;
59、对所述原始训练数据进行词语改写或者词语删除,生成所述正样本数据和所述负样本数据;
60、将所述正样本数据和负样本数据进行混合,得到所述目标训练数据。
61、在一种可能的实施方式中,所述第二确定模块,具体用于:
62、将所述目标相似度小于预设阈值的候选文本对应的候选关键词确定为所述目标关键词;或者,
63、将所述目标相似度最小的候选文本对应的候选关键词确定为所述目标关键词。
64、第四方面,本技术实施例提供一种关键词提取装置,包括:
65、获取模块,用于响应于用户对预设输入控件的触控操作,获取所述触控操作对应的待处理文本;
66、第一确定模块,用于确定所述待处理文本对应的关键词候选集;
67、删除模块,用于针对所述关键词候选集中的每个候选关键词,从所述待处理文本中删除所述候选关键词,得到各个所述候选关键词对应的候选文本;
68、第二确定模块,用于针对每个候选关键词对应的候选文本,确定所述候选文本与所述待处理文本的目标相似度;
69、显示模块,用于在所述目标相似度满足预设条件的情况下,将所述候选文本对应的候选关键词确定为目标关键词,并显示所述目标关键词。
70、第五方面,本技术实施例提供一种电子设备,包括:存储器和处理器;
71、所述存储器存储计算机执行指令;
72、所述处理器执行所述存储器存储的计算机执行指令,使得所述处理器执行第一方面或者第二方面任一项所述的关键词提取方法。
73、第六方面,本技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当所述计算机执行指令被处理器执行时用于实现第一方面或者第二方面任一项所述的关键词提取方法。
74、第七方面,本技术实施例提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现第一方面或者第二方面任一项所示的关键词提取方法。
75、在本技术实施例中,电子设备获取待处理文本,并确定待处理文本对应的关键词候选集;针对关键词候选集中的每个候选关键词,从待处理文本中删除候选关键词,得到各个候选关键词对应的候选文本;针对每个候选关键词对应的候选文本,确定候选文本与待处理文本的目标相似度;在目标相似度满足预设条件的情况下,将目标相似度对应的候选文本所对应的候选关键词确定为目标关键词。本技术实施例中,电子设备通过确定出待处理文本中的候选关键词,并从待处理文本删除候选关键词得到候选文本,最后基于候选文本与待处理文本的目标相似度来确定目标关键词,这样,能够实现关键词的自动提取,无需用户人工进行提取,提高了关键词的提取效率和准确率,节省了用户的成本。