一种文本数据标注方法、系统和介质与流程

文档序号:36321565发布日期:2023-12-08 22:31阅读:48来源:国知局
一种文本数据标注方法与流程

本技术涉及大数据及文本处理,具体而言,涉及一种文本数据标注方法、系统和介质。


背景技术:

1、文本标注是对文本进行特征标记的过程,对其打上具体的类别、语义、关系、情感等数据标签,通过标注好的训练数据,计算机就可以智能识别文本中所隐含的含义或者情感,使计算机可以更加人性化的理解自然语言,实现人与计算机之间用自然语言进行有效通信。目前,现有的文本自动标注方法只能根据用户提前选择的标注类型进行文本标注,无法根据用户的不同需求进行文本类别、实体关系、情感、语义等标注类型的自适应选择,也无法根据文本事件的分析结果对可能发生的潜在风险事件进行安全预警。

2、针对上述问题,目前亟待有效的技术解决方案。


技术实现思路

1、本技术的目的在于提供一种文本数据标注方法、系统和介质,可以根据用户不同需求进行文本类别标注、文本实体关系标注、文本情感标注、文本语义标注等文本标注类型的自适应选择,还可以对文本进行事件标注,并可以实现根据文本事件的分析结果对可能发生的潜在风险事件进行安全预警的功能。

2、本技术还提供了一种文本数据标注方法,包括以下步骤:

3、获取待标注文本,并对待标注文本进行数据清洗,获得第一文本数据;

4、获取待标注文本的应用场景信息和标注需求信息,并分别提取应用场景特征数据和标注需求特征数据;

5、对所述第一文本数据进行分词处理并校验后,获得标准分词数据,并对标准分词数据进行词性识别,获得词属性数据;

6、将所述标准分词数据以及所述词属性数据输入预设类别识别模型进行分析处理,生成文本类别标签数据;

7、根据所述标准分词数据提取实体数据,并将实体数据输入标准关系识别模型进行处理,获得文本关系标签数据;

8、将所述实体数据以及所述应用场景特征数据输入优化情感标签训练模型进行处理,获得文本情感标签数据;

9、将所述实体数据结合所述文本关系标签数据、文本情感标签数据以及所述应用场景特征数据输入预设语义识别模型进行处理,获得文本语义标签数据;

10、根据所述标注需求特征数据对所述文本类别标签数据、文本关系标签数据、文本情感标签数据和文本语义标签数据进行标注选择,根据标注选择结果对所述待标注文本进行标注。

11、可选地,在本技术所述的文本数据标注方法中,所述对所述第一文本数据进行分词处理并校验后,获得标准分词数据,并对标准分词数据进行词性识别,获得词属性数据,包括:

12、对所述第一文本数据进行分词处理,获得分词结果;

13、获取所述待标注文本对应应用场景下的预设标准词库;

14、将所述分词结果与所述预设标准词库进行比对校验,根据校验结果对分词结果进行修正,获得标准分词数据;

15、对所述标准分词数据进行词性识别,获得词属性数据。

16、可选地,在本技术所述的文本数据标注方法中,所述根据所述标准分词数据提取实体数据,并将实体数据输入标准关系识别模型进行处理,获得文本关系标签数据,包括:

17、获取人工标注数据,包括:标注实体数据和关系标签数据;

18、使用预设机器学习算法对所述标注实体数据以及所述关系标签数据进行训练,得到关系识别模型;

19、获取测试数据集,并将测试数据集输入所述关系识别模型进行处理,获得测试关系标签数据;

20、根据所述测试关系标签数据对所述关系识别模型进行性能测试并改进,生成标准关系识别模型;

21、将所述实体数据输入标准关系识别模型进行分析处理,获得文本关系标签数据。

22、可选地,在本技术所述的文本数据标注方法中,所述将所述实体数据以及所述应用场景特征数据输入优化情感标签训练模型进行处理,获得文本情感标签数据,包括:

23、获取人工情感标注样本数据集,包括:已标注样本数据和未标注样本数据;

24、提取所述已标注样本数据的情感标签,并对所述已标注样本数据和未标注样本数据分别进行特征向量提取,获得已标注特征数据和未标注特征数据;

25、将所述已标注特征数据以及所述情感标签进行训练,生成情感标签训练模型;

26、将所述未标注特征数据输入所述情感标签训练模型进行处理,生成测试情感标签;

27、根据所述测试情感标签对所述情感标签训练模型进行测试改进,生成更新情感标签训练模型;

28、将所述未标注特征数据输入所述更新情感标签训练模型进行处理,生成更新情感标签;

29、获取社交媒体网站的评论内容,并提取情绪敏感新词并标注社交新词情感标签;

30、将所述已标注样本数据的情感标签、更新情感标签以及所述社交新词情感标签集合生成情感标签数据集;

31、根据所述人工情感标注样本数据集以及所述情感标签数据集重新进行训练,生成优化情感标签训练模型;

32、将所述实体数据以及所述应用场景特征数据输入所述优化情感标签训练模型进行处理,获得文本情感标签数据。

33、可选地,在本技术所述的文本数据标注方法中,所述根据所述标注需求特征数据对所述文本类别标签数据、文本关系标签数据、文本情感标签数据和文本语义标签数据进行标注选择,根据标注选择结果对所述待标注文本进行标注,包括:

34、将所述标注需求特征数据进行分析处理,生成标注选择因子;

35、根据所述标注选择因子对所述文本类别标签数据、文本关系标签数据、文本情感标签数据和文本语义标签数据进行标注选择,生成标注选择结果;

36、根据所述标注选择结果对所述待标注文本进行标注。

37、可选地,在本技术所述的文本数据标注方法中,还包括:

38、将所述实体数据以及所述文本关系标签数据、文本语义标签数据、文本情感标签数据输入预设事件标签模型进行分析处理,获得事件标签数据;

39、根据所述事件标签数据对所述待标注文本进行事件标注。

40、可选地,在本技术所述的文本数据标注方法中,还包括:

41、根据所述事件标签数据以及所述文本情感标签数据对事件进行分析处理,获得事件安全系数;

42、将所述事件安全系数与预设事件安全系数阈值进行对比,获得阈值对比结果;

43、若所述阈值对比结果不符合预设阈值结果对比要求,则进行安全预警。

44、第二方面,本技术提供了一种文本数据标注系统,该系统包括:存储器及处理器,所述存储器中包括文本数据标注方法的程序,所述文本数据标注方法的程序被所述处理器执行时实现以下步骤:

45、获取待标注文本,并对待标注文本进行数据清洗,获得第一文本数据;

46、获取待标注文本的应用场景信息和标注需求信息,并分别提取应用场景特征数据和标注需求特征数据;

47、对所述第一文本数据进行分词处理并校验后,获得标准分词数据,并对标准分词数据进行词性识别,获得词属性数据;

48、将所述标准分词数据以及所述词属性数据输入预设类别识别模型进行分析处理,生成文本类别标签数据;

49、根据所述标准分词数据提取实体数据,并将实体数据输入标准关系识别模型进行处理,获得文本关系标签数据;

50、将所述实体数据以及所述应用场景特征数据输入优化情感标签训练模型进行处理,获得文本情感标签数据;

51、将所述实体数据结合所述文本关系标签数据、文本情感标签数据以及所述应用场景特征数据输入预设语义识别模型进行处理,获得文本语义标签数据;

52、根据所述标注需求特征数据对所述文本类别标签数据、文本关系标签数据、文本情感标签数据和文本语义标签数据进行标注选择,根据标注选择结果对所述待标注文本进行标注。

53、可选地,在本技术所述的文本数据标注系统中,所述对所述第一文本数据进行分词处理并校验后,获得标准分词数据,并对标准分词数据进行词性识别,获得词属性数据,包括:

54、对所述第一文本数据进行分词处理,获得分词结果;

55、获取所述待标注文本对应应用场景下的预设标准词库;

56、将所述分词结果与所述预设标准词库进行比对校验,根据校验结果对分词结果进行修正,获得标准分词数据;

57、对所述标准分词数据进行词性识别,获得词属性数据。

58、第三方面,本技术还提供了一种计算机可读存储介质,所述计算机可读存储介质中包括文本数据标注方法程序,所述文本数据标注方法程序被处理器执行时,实现如上述任一项所述的文本数据标注方法的步骤。

59、由上可知,本技术提供的一种文本数据标注方法、系统和介质,可以根据用户不同需求进行文本类别标注、文本实体关系标注、文本情感标注、文本语义标注等文本标注类型的自适应选择,还可以对文本进行事件标注,并可以实现根据文本事件的分析结果对可能发生的潜在风险事件进行安全预警的功能。

60、本技术的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本技术实施例了解。本技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1