一种文本标签的提取方法和装置与流程

文档序号：25723223发布日期：2021-07-02 21:08阅读：来源：国知局

技术特征：

1.一种文本标签的提取方法，其特征在于，包括：

获取目标文本，访问预先构建的标签字典树的节点，以按照所述节点之间的归属关系，从所述标签字典树中确定存在于所述目标文本的节点值，生成初始标签集；

判断所述初始标签集的初始标签是否存在于设定基准标签集中，以分别计算不存在于所述基准标签集的至少一个初始标签与所述基准标签集的基准标签之间的相似度；

根据相似度计算结果，从所述基准标签集中为所述至少一个初始标签分别选取对应的目标基准标签，使用所述目标基准标签对应替换所述至少一个初始标签，得到最终标签集。

2.根据权利要求1所述的方法，其特征在于，按照节点之间的归属关系，从所述标签字典树中确定存在于所述目标文本的节点值，生成一个初始标签，包括：

初始化空字符串，将归属于根节点的当前未被访问的叶子节点作为当前节点，访问所述当前节点，确定所述目标文本中存在所述当前节点的节点值；

判断拼接：判断所述当前节点是否存在未被访问的叶子节点，如果所述当前节点存在未被访问的叶子节点，且所述目标文本中存在所述叶子节点的节点值，则拼接所述当前节点的节点值和所述叶子节点的节点值；

更新：使用拼接后的节点值更新所述字符串，将所述叶子节点作为所述当前节点；

重复执行所述判断拼接步骤和所述更新步骤，直至所述当前节点不存在所述叶子节点时，将更新后的所述字符串作为一个初始标签。

3.根据权利要求1所述的方法，其特征在于，从所述基准标签集中为当前初始标签选取对应的目标基准标签，包括：

确定所述当前初始标签与所述基准标签集的基准标签之间的最大相似度；

比较所述最大相似度与设定阈值的大小，如果所述最大相似度大于等于所述阈值，则选取所述最大相似度对应的基准标签作为目标基准标签。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

按照设定粒度拆分所述基准标签集的基准标签，以构建所述标签字典树。

5.根据权利要求4所述的方法，其特征在于，按照设定粒度拆分所述基准标签集的基准标签，以构建所述标签字典树，包括：

增加根节点，从所述基准标签集中选取当前基准标签；

拆分：按照字符粒度拆分所述当前基准标签，得到多个单字符；

判断：根据所述单字符在所述当前基准标签的原始顺序，依次判断所述单字符是否存在于字典树路径中；

增加：如果所述单字符不存在于所述字典树路径中，则在所述字典树路径中增加所述单字符对应的节点；

从所述基准标签集中选取下一基准标签作为所述当前基准标签，重复执行所述拆分步骤、所述判断步骤和所述增加步骤，直至最后一个基准标签，得到所述标签字典树。

6.根据权利要求2所述的方法，其特征在于，所述方法还包括：

按照字符粒度，对所述目标文本进行分词处理；

判断分词后的目标文本中是否存在所述叶子节点的节点值。

7.根据权利要求1至6的任一项所述的方法，其特征在于，计算不存在于所述基准标签集的至少一个初始标签与所述基准标签集的基准标签之间的相似度，包括：

采用下列任意一种方式计算不存在于所述基准标签集的至少一个初始标签与所述基准标签集的基准标签之间的相似度：计算编辑距离、余弦距离、欧式距离、jaccard距离。

8.一种文本标签的提取装置，其特征在于，包括：

获取生成模块，用于获取目标文本，访问预先构建的标签字典树的节点，以按照所述节点之间的归属关系，从所述标签字典树中确定存在于所述目标文本的节点值，生成初始标签集；

相似度计算模块，用于判断所述初始标签集的初始标签是否存在于设定基准标签集中，以分别计算不存在于所述基准标签集的至少一个初始标签与所述基准标签集的基准标签之间的相似度；

标签确定模块，用于根据相似度计算结果，从所述基准标签集中为所述至少一个初始标签分别选取对应的目标基准标签，使用所述目标基准标签对应替换所述至少一个初始标签，得到最终标签集。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。

10.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。

技术总结
本发明公开了一种文本标签的提取方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：获取目标文本，访问预先构建的标签字典树的节点，以按照节点之间的归属关系，从标签字典树中确定存在于目标文本的节点值，生成初始标签集；判断初始标签集的初始标签是否存在于设定基准标签集中，以分别计算不存在于基准标签集的至少一个初始标签与基准标签集的基准标签之间的相似度；根据相似度计算结果，从基准标签集中为至少一个初始标签分别选取对应的目标基准标签，使用目标基准标签对应替换至少一个初始标签，得到最终标签集。该方法实现了文本标签的自动化提取，提高标签提取的效率和准确率，降低了人力成本。

技术研发人员：孙志强;李飞
受保护的技术使用者：北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司
技术研发日：2020.01.02
技术公布日：2021.07.02

完整全部详细技术资料下载

当前第2页1 2