数据检测方法、装置及存储介质与流程

文档序号:27261801发布日期:2021-11-05 22:15阅读:74来源:国知局
数据检测方法、装置及存储介质与流程

1.本发明实施例涉及互联网风控技术领域,尤其涉及一种数据检测方法、装置及存储介质。


背景技术:

2.目前,大部分公司面临着激烈的行业竞争。其中文本风控是中文互联网中非常重要的风控手段。
3.目前,在各类负向文本中,群体会话中的反讽文本的识别难度最高。反讽文本是指用户以反语、讽刺的语气表达不满的方式。反语是指运用跟本意相反的词语来表达此意,却含有否定、讽刺以及嘲弄的意思。反讽文本是一种带有强烈感情色彩的修辞格,如“我真是太喜欢这个破地方了”。讽刺则是用比喻、夸张等手法对人或事进行揭露、批评或嘲笑,如“xx快递,野鸡中的战斗机”。这些反讽文本通常会以正向情感表达不满的态度,因此使用传统的情感分析难以正确识别含反讽文本的实际情感,反讽等这种修辞方式严重影响了文本的识别精度,因此针对反讽文本的识别,在文本风控中具有重要意义。
4.当前反讽文本识别技术,主要使用的方式有:关键词识别、情感分析、有监督学习等方式,这些方式各有优缺点。第一个关键词识别,通常是首先建立人工收集的语料库,然后在文本过滤的过程中,以该语料库是否识别该文本中的关键词为结果来识别反讽文本。这种方式的识别方案对于复杂点的反讽文本识别效率较低。第二个是情感分析,这种是以文本的情绪为主要判断依据,通过情感识别模型对文本进行评分。但是这种方式会造成误杀,对于反讽文本的识别效率较低。第三种方式是监督学习,这种方法需要一个比较庞大的反讽语料库,通过语料库来进行反讽文本的识别。这种方式时效性较差,通常在语料库长期的收集和训练过程后,用户的反讽表达形式也发生较多变化,导致模型失效,进而对反讽文本的识别效率也较低。


技术实现要素:

5.本发明实施例提供的一种数据检测方法、装置及存储介质,可以提高群体会话中反讽文本的识别效率。
6.本发明的技术方案是这样实现的:
7.本发明实施例提供了一种数据检测方法,包括:
8.获取当前待检文本信息;
9.利用当前文本识别模型对所述当前待检文本信息进行检测,确定出所述当前待检文本信息的检测结果;
10.其中,所述当前文本识别模型是通过获取训练文本数据集合,结合多维数据提取所述训练文本数据集合中的多个反讽文本信息,并通过所述多个反讽文本信息对前一次文本识别模型进行循环训练得到的;所述多维数据包括:词性类、情感信息类、画像类和评价得分类信息中的至少两个。
11.上述方案中,所述当前文本识别模型是基于包含上下文的所述训练文本数据集合对应的目标对象的画像,及所述训练文本数据集合中会话文本信息的评价得分类信息,在所述训练文本数据集合中确定出所述多个反讽文本信息,并通过所述多个反讽文本信息对前一次文本识别模型进行循环训练得到的。
12.上述方案中,所述利用当前文本识别模型对所述当前待检文本信息进行检测,确定出所述当前待检文本信息的检测结果之前,所述方法还包括:
13.获取训练文本数据集合,结合多维数据提取所述训练文本数据集合中的多个反讽文本信息;所述训练文本数据集合包括多个目标对象的会话文本信息及相关信息,其中,每个文本信息表征对应目标对象的单一场景会话文本信息;
14.基于所述多个反讽文本信息对所述前一次文本识别模型进行训练,直至得到所述当前文本识别模型。
15.上述方案中,所述方法还包括:
16.利用所述当前文本识别模型再次提取所述训练文本数据集合中的多个补充反讽文本信息;
17.结合所述多个补充反讽文本信息和所述多个反讽文本信息,构建所述训练文本数据集合对应的多个目标对象的多个画像;所述多个画像中的每个画像表征对应目标对象对应的反讽文本得分信息;
18.基于所述多个画像,提取下次获取的训练文本数据集合中的多个反讽文本信息,以对所述当前文本识别模型进行训练得到下次文本识别模型。
19.上述方案中,所述获取训练文本数据集合,结合多维数据提取所述训练文本数据集合中的多个反讽文本信息,包括:
20.获取所述训练文本数据集合,对所述训练文本集合中的文本进行断句,得到多个文本信息;
21.结合所述词性类、所述情感信息类、所述画像类和所述评价得分类信息中的至少两个信息,对所述多个文本信息进行文本识别,得到所述多个文本信息对应的多个得分;
22.基于所述多个得分,在所述多个文本信息中确定多个反讽文本信息。
23.上述方案中,所述多个得分包括:多个四级得分;
24.所述结合词性类、所述情感信息类、所述画像类和所述评价得分类信息中的至少两个信息,对所述多个文本信息进行文本识别,得到所述多个文本信息对应的多个得分,包括:
25.将所述多个文本信息中的多个待选文本信息进行分词处理,得到所述多个待选文本信息分别对应的多个关键词;所述多个待选文本信息为所述多个文本信息被所述前一次文本识别模型筛选过后剩余的文本信息;
26.若所述多维数据包括:所述词性类、所述情感信息类、所述画像类和所述评价得分类信息中的四个,则基于所述多个关键词的词性,在所述多个待选文本信息中确定多个一级反讽文本信息,并对所述多个一级反讽文本信息进行加分,得到所述多个待选文本信息对应的多个一级得分;
27.基于所述多个待选文本信息的情感信息和对应的上下文本信息的情感信息,在所述多个待选文本信息中确定多个二级反讽文本信息,并对所述多个二级反讽文本信息对应
的一级得分进行加分,得到所述多个待选文本信息对应的多个二级得分;
28.基于所述多个待选文本信息的目标对象对应的多个关联画像,在所述多个待选文本信息中确定多个三级反讽文本信息,并对所述多个三级反讽文本信息对应的二级得分进行加分,得到所述多个待选文本信息对应的多个三级得分;
29.基于所述多个待选文本信息对应的多个评价得分和所述多个待选文本信息的情感信息,在所述多个待选文本信息中确定多个四级反讽文本信息,并对所述多个四级反讽文本信息对应的三级得分进行加分,得到所述多个待选文本信息对应的多个四级得分。
30.上述方案中,基于所述多个关键词的词性,在所述多个待选文本信息中确定多个一级反讽文本信息,并对所述多个一级反讽文本信息进行加分,得到所述多个待选文本信息对应的多个一级得分,包括:
31.在情感词列表中查找到所述多个关键词的词性;所述情感词列表为预设的包括全量关键词的词性的列表;
32.在所述多个待选文本信息中确定包括关键词的词性相反的多个一级反讽文本信息;
33.在所述多个待选文本信息对应的初始得分上对所述多个一级反讽文本信息进行加分,得到多个待选文本信息对应的多个一级得分。
34.上述方案中,所述基于所述多个待选文本信息的情感信息和对应的上下文本信息的情感信息,在所述多个待选文本信息中确定多个二级反讽文本信息,并对所述多个二级反讽文本信息对应的一级得分进行加分,得到所述多个待选文本信息对应的多个二级得分,包括:
35.在所述训练文本数据集合中,提取所述多个待选文本信息对应的多个上下文本信息;
36.检测得到所述多个上下文本信息的情感信息和所述多个待选文本信息的情感信息;
37.在所述多个待选文本信息中确定情感信息为正且对应的上下文本信息的情感信息为负的多个二级反讽文本信息;
38.在所述多个待选文本信息对应的一级得分上对所述多个二级反讽文本信息进行加分,得到多个待选文本信息对应的多个二级得分。
39.上述方案中,所述基于所述多个待选文本信息的目标对象对应的多个关联画像,在所述多个待选文本信息中确定多个三级反讽文本信息,并对所述多个三级反讽文本信息对应的二级得分进行加分,得到所述多个待选文本信息对应的多个三级得分,包括:
40.在所述多个画像中提取出所述多个待选文本信息对应的目标对象对应的多个关联画像;
41.在所述多个待选文本信息中确定对应的关联画像表征的目标对象为易反讽用户的多个三级反讽文本信息;
42.在所述多个待选文本信息对应的二级得分上对所述多个三级反讽文本信息进行加分,得到多个待选文本信息对应的多个三级得分。
43.上述方案中,所述基于所述多个待选文本信息对应的多个评价得分和所述多个待选文本信息的情感信息,在所述多个待选文本信息中确定多个四级反讽文本信息,并对所
述多个四级反讽文本信息对应的三级得分进行加分,得到所述多个待选文本信息对应的多个四级得分,包括:
44.在所述训练文本数据集合中,提取所述多个待选文本信息对应的多个评价得分;
45.在所述多个待选文本信息中确定情感信息为正且对应的评价得分低于第一阈值的多个四级反讽文本信息;
46.在所述多个待选文本信息对应的三级得分上对所述多个四级反讽文本信息进行加分,得到多个待选文本信息对应的多个四级得分。
47.上述方案中,所述检测得到所述多个上下文本信息的情感信息和所述多个待选文本信息的情感信息,包括以下之一:
48.将所述多个上下文本信息和所述多个待选文本信息输入情感识别模型,得到所述多个上下文本信息的情感信息和所述多个待选文本信息的情感信息;
49.将所述多个上下文本信息分词形成多个上下关键词;
50.在情感词列表中查找到所述多个上下关键词的词性,在情感词列表中查找到所述多个关键词的词性;
51.基于所述多个上下关键词的词性和所述多个关键词的词性确定所述多个上下文本信息的情感信息和所述多个待选文本信息的情感信息。
52.上述方案中,所述将所述多个文本信息的多个待选文本信息进行分词处理,得到所述多个待选文本信息分别对应的多个关键词之前,所述方法还包括:
53.将所述多个文本信息输入所述前一次文本识别模型,得到所述多个文本信息中的多个五级反讽文本信息。
54.上述方案中,所述基于所述多个得分,在所述多个文本信息中确定多个反讽文本信息,包括:
55.在所述多个待选文本信息中,确定对应的四级得分高于第二阈值的多个六级反讽文本信息;
56.将所述多个五级反讽文本信息和所述多个六级反讽文本信息结合形成所述多个反讽文本信息。
57.上述方案中,所述结合所述多个补充反讽文本信息和所述多个反讽文本信息,构建所述训练文本数据集合对应的多个目标对象的多个画像,包括:
58.将所述训练文本数据集合中的多个文本信息输入情感识别模型,得到所述训练文本数据集合对应的多个目标对象分别对应的情绪化文本信息;
59.在所述训练文本数据集合中提取所述多个目标对象分别对应的评价数量及差评数量;
60.基于所述多个补充反讽文本信息、所述多个反讽文本信息、所述情绪化信息和所述差评数量信息,构建所述多个画像。
61.上述方案中,所述基于所述多个补充反讽文本信息、所述多个反讽文本信息、所述情绪化信息和所述差评数量信息,构建所述多个画像,包括:
62.将所述多个目标对象分别对应的补充反讽文本信息和反讽文本信息的信息和,比上对应的文本信息总数,得到分别对应所述多个目标对象的反讽得分;
63.将所述多个目标对象分别对应的情绪化文本信息比上对应的文本信息总数,得到
分别对应所述多个目标对象的情绪得分;
64.将所述多个目标对象分别对应的差评数量比上对应的评价数量,得到分别对应所述多个目标对象的负影响得分;
65.基于所述多个目标对象分别对应的反讽得分、情绪得分和负影响得分,计算所述多个画像。
66.上述方案中,所述基于所述多个目标对象分别对应的反讽得分、情绪得分和负影响得分,计算所述多个画像,包括:
67.将所述多个目标对象分别对应的反讽得分和反讽权重的乘积加上,情绪得分和情绪权重的乘积再加上,负影响得分和和负影响权重的乘积,得到所述多个目标对象对应的多个综合得分;
68.形成所述多个综合得分与所述多个目标对象之间的对应关系,进而形成所述多个画像。
69.上述方案中,所述形成所述多个综合得分与所述多个目标之间的对应关系,进而形成所述多个画像之后,所述方法还包括:
70.确定所述多个目标对象的综合得分最大的前第一比例对应的目标对象为易反讽对象;
71.确定所述多个目标对象的综合得分最小的前第二比例对应的目标对象为不反讽对象。
72.本发明实施例还提供了一种数据检测装置,包括:
73.获取单元,用于获取当前待检文本信息;
74.检测单元,用于利用当前文本识别模型对所述当前待检文本信息进行检测,确定出所述当前待检文本信息的检测结果;
75.其中,所述当前文本识别模型是通过获取训练文本数据集合,结合多维数据提取所述训练文本数据集合中的多个反讽文本信息,并通过所述多个反讽文本信息对前一次文本识别模型进行循环训练后得到的;所述多维数据表征词性类、情感信息类、画像类和评价得分类信息中的至少两个。
76.本发明实施例还提供了一种数据检测装置,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法中的步骤。
77.本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法中的步骤。
78.本发明实施例中,通过获取当前待检文本信息;利用当前文本识别模型对当前待检文本信息进行检测,确定出当前待检文本信息的检测结果;其中,当前文本识别模型是通过获取训练文本数据集合,结合多维数据提取训练文本数据集合中的多个反讽文本信息,并通过多个反讽文本信息对前一次文本识别模型进行循环训练后得到的;多维数据表征词性类、情感信息类、画像类和评价得分类信息中的至少两个。由于多个反讽文本信息是通过对训练文本数据集合结合多维数据提取得到的,又因为多维数据考虑了反讽文本信息中的多个因素,所以前一次文本识别模型可以学习大量全面的反讽文本信息。进而通过大量全面的反讽文本信息训练得到的当前文本识别模型,可以在群体会话中准确地识别出反讽文
本信息,所以提高了群体会话反讽文本的识别效率。
附图说明
79.图1为本发明实施例提供的数据检测方法的一个可选的流程示意图;
80.图2为本发明实施例提供的数据检测方法的一个可选的流程示意图;
81.图3为本发明实施例提供的数据检测方法的一个可选的流程示意图;
82.图4为本发明实施例提供的数据检测方法的一个可选的流程示意图;
83.图5为本发明实施例提供的数据检测方法的一个可选的流程示意图;
84.图6为本发明实施例提供的数据检测方法的一个可选的流程示意图;
85.图7为本发明实施例提供的数据检测方法的一个可选的流程示意图;
86.图8为本发明实施例提供的数据检测方法的一个可选的效果示意图;
87.图9为本发明实施例提供的数据检测方法的一个可选的流程示意图;
88.图10为本发明实施例提供的数据检测方法的一个可选的流程示意图;
89.图11为本发明实施例提供的数据检测方法的一个可选的流程示意图;
90.图12为本发明实施例提供的数据检测方法的一个可选的流程示意图;
91.图13为本发明实施例提供的数据检测方法的一个可选的流程示意图;
92.图14为本发明实施例提供的数据检测方法的一个可选的流程示意图;
93.图15为本发明实施例提供的数据检测方法的一个可选的流程示意图;
94.图16为本发明实施例提供的数据检测方法的一个可选的流程示意图;
95.图17为本发明实施例提供的数据检测方法的一个可选的效果示意图;
96.图18为本发明实施例提供的数据检测方法的一个可选的流程示意图;
97.图19为本发明实施例提供的数据检测方法的一个可选的流程示意图;
98.图20为本发明实施例提供的数据检测方法的一个可选的流程示意图;
99.图21为本发明实施例提供的数据检测装置的结构示意图;
100.图22为本发明实施例提供的数据检测装置的一种硬件实体示意图。
具体实施方式
101.为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和实施例对本发明的技术方案进一步详细阐述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
102.在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
103.如果发明文件中出现“第一/第二”的类似描述则增加以下的说明,在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。
104.除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的
技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。
105.图1为本发明实施例提供的数据检测方法的一个可选的流程示意图,将结合图1示出的步骤进行说明。
106.s101、获取当前待检文本信息。
107.本发明实施例中,服务器通过与客户端预先建立的通信线路获取,客户端中多对象会话文本信息中的当前时刻的当前待检文本信息。
108.本发明实施例中,服务器通过与客户端预先建立的通信线路获取,客户端中某个应用的多对象会话文本信息中一段时间内的当前待检文本信息。
109.本发明实施例中,服务器通过与客户端预先建立的通信线路获取,客户端中某个应用的多对象会话中的多个对象在一段时间内分别对应的当前待检文本信息。
110.本发明实施例中,当前待检文本信息为对应对象在客户端中输送的一句文本语句。示例性的,当前待检文本信息可以为对应对象在客户端中输送的文本会话:“明天一定会下雨”。
111.s102、利用当前文本识别模型对当前待检文本信息进行检测,确定出当前待检文本信息的检测结果。
112.本发明实施例中,服务器将当前待检文本信息输入当前文本识别模型,当前文本识别模型输出当前待检文本信息对应的检测结果。也就是,当前待检文本信息是否为反讽文本的结果。
113.在本发明实施例中,当前文本识别模型包括基于卷积神经网络模型的检测模型。当前文本识别模型是前一次文本识别模型是通过获取训练文本数据集合,结合多维数据提取所述训练文本数据集合中的多个反讽文本信息,并通过多个反讽文本信息对前一次文本识别模型进行循环训练得到的;多维数据包括:词性类、情感信息类、画像类和评价得分类信息中的至少两个。由于在训练过程中充分提取了训练文本数据集合中的反讽文本信息,并通过循环训练实时更新反讽文本库,提高了前一次文本识别模型的学习样本数量和质量,进而训练后得到的当前文本识别模型可以高效的识别多对象会话中的反讽文本信息。
114.本发明实施例中,当前文本识别模型的可以包括:光学字符识别模型 (optical character recognition,ocr)或者文本识别模型(convolutionalrecurrent neural network,crnn)。其中,当前文本识别模型的网络结构可以包括:输入层、数个中间层和输出层。当前文本识别模型通过采集单元获取到了当前待检文本西信息。当前文本识别模型将当前待检文本信息输入输入层,经过当前文本识别模型中间层对当前待检文本信息的处理,前文本识别模型的输出层输出当前待检文本信息的置信度。前文本识别模型判断该置信度的大小,当该置信度大于一定数值之后,当前文本识别模型输出对应的当前待检文本信息为反讽文本信息。
115.本发明实施例中,当前文本识别模型是基于包含上下文的训练文本数据集合对应的目标对象的画像,及训练文本数据集合中会话文本信息的评价得分类信息,在训练文本数据集合中确定出多个反讽文本信息,并通过多个反讽文本信息对前一次文本识别模型进行循环训练得到的。
116.本发明实施例中,通过获取当前待检文本信息;利用当前文本识别模型对当前待
检文本信息进行检测,确定出当前待检文本信息的检测结果;其中,当前文本识别模型是通过获取训练文本数据集合,结合多维数据提取所述训练文本数据集合中的多个反讽文本信息,并通过多个反讽文本信息对前一次文本识别模型进行循环训练后得到的;多维数据表征词性类、情感信息类、画像类和评价得分类数据。由于多个反讽文本信息是通过对训练文本数据集合结合多维数据提取得到的,又因为多维数据包括了反讽文本信息中的多个因素,所以前一次文本识别模型可以学习大量全面的反讽文本信息,进而通过大量全面的反讽文本信息训练得到的当前文本识别模型,可以在群体会话中准确地识别出反讽文本信息,所以提高了群体会话反讽文本的识别效率。
117.在一些实施例中,参见图2,图2为本发明实施例提供的数据检测方法的一个可选的流程示意图,图1示出的s102之前还包括s103至s104实现,将结合各步骤进行说明。
118.s103、获取训练文本数据集合,结合多维数据提取训练文本数据集合中的多个反讽文本信息。
119.本发明实施例中,服务器通过与多个客户端预先构建的通信线路获取多个客户端对应的训练文本数据集合。其中,训练文本数据集合中可以包括多个目标对象的多个文本信息。服务器在训练文本数据集合中,结合多个目标对象对应的多个画像、及训练文本数据集合中的关键词的词性、及训练文本数据集合中的关键词的情感信息和评价信息提取出多个反讽文本信息。
120.其中,训练文本数据集合包括多个目标对象的会话文本信息及相关信息,其中,每个会话文本信息表征对应目标对象的单一场景会话文本信息。多个画像中的每个画像表征对应目标对象对应的反讽文本得分信息。相关信息可以为对应文本信息的评价或者打分信息。
121.本发明实施例中,服务器可以通过前一次文本识别模型提取出训练文本数据集合中多个文本信息的多个反讽文本信息。
122.本发明实施例中,服务器可以通过多个文本信息对应的评价信息或者打分信息,在多个文本信息中确定出多个反讽文本信息。
123.本发明实施例中,服务器可以通过多个文本信息中的主题词的情感信息确定出多个反讽文本信息中的反讽文本信息。示例性的,当一个文本信息的主题词的情感信息表征正向,且该文本信息对应的评价或者打分信息为负向或者低分,则该文本信息为反讽文本信息。
124.示例性的,结合图3。服务器可以从本地存储的原始数据库中提取出对应多个目标对象的咨询文本、评价文本和用户评分。服务结合咨询文本、评价文本和用户评分形成训练文本数据集合。服务器通过步骤s201、反讽文本识别。在训练文本数据集合进行新语料挖掘,也就是提取出其中的多个反讽文本信息。服务器通过反讽文本识别提取出训练文本数据集合中的多个反讽文本信息。
125.s104、基于多个反讽文本信息对前一次文本识别模型进行训练,直至得到当前文本识别模型。
126.本发明实施例中,服务器将多个反讽文本系信息依次输入前一次文本识别模型进行训练,直至前一次文本识别模型的函数收敛或者达到一定训练次数之后,得到当前文本识别模型。
127.在本发明实施例中,前一次文本识别模型的一次训练可以用以下几个阶段表示:前向传播阶段、反向传播阶段和更新权值阶段。前向传播阶段是文本信息从输入层输入向后一直传输到输出层。反向传播阶段是从输出层向前一直传输到输入层。本发明实施例中提出的数据检测方法,在前向传播阶段将文本信息输入至待训练的前一次文本识别模型的网络结构中。前一次文本识别模型的网络结构基于文本信息通过损失函数计算出第一负样本对应的损失。
128.在本发明实施例中,前一次文本识别模型的网络结构基于损失函数计算得到对应文本信息的损失。若该损失大于损失阈值,前一次文本模型的网络结构将基于该损失通过输出层,向中间层、输入层逐层反传,按梯度下降的方式修正各层的权值。当前一次文本识别模型的网络结构各层的权值修正之后,前一次文本识别模型的网络结构会继续对新获取到文本信息进行训练。前一次文本识别模型训练得到当前文本识别模型的过程一直进行到的前一次文本识别模型计算的当前损失不大于损失阈值时为止,或者前一次文本识别模型训练的次数达到预先设定的训练次数时为止,得到当前文本识别模型。
129.示例性的,结合图3。服务器将提取出的多个反讽文本信息输入前一次文本识别模型,服务器进行步骤s202、自学习模型。进而形成了当前文本识别模型。服务器再通过当前文本识别模型对训练文本数据集合进行步骤s203、二次内容甄别。进而提取出其中的补充反讽文本信息。服务器基于多个反讽文本信息和补充文本信息构建出多个目标对象对应的用户画像,服务器通过多个用户画像和当前文本识别模型提取下一次的训练文本数据集合中的多个反讽文本信息。服务器通过对前依次文本是被模型的训练形成当前文本识别模型,再形成用户画像的过程为模型迭代的过程。服务器获取到当前文本识别模型之后可以对当前文本识别模型进行步骤s204、新版模型自动部署,进而对当前待检文本信息进行识别,完成模型应用。
130.在一些实施例中,参见图4,图4为本发明实施例提供的数据检测方法的一个可选的流程示意图,还包括s105至s107,将结合各步骤进行说明。
131.s105、利用当前文本识别模型再次提取训练文本数据集合中的多个补充反讽文本信息。
132.本发明实施例中,服务器将训练文本数据集合中的多个文本信息输入当前文本识别模型,通过当前文本识别模型得到了训练文本数据集合中的多个补充反讽文本信息。
133.本发明实施例中,由于训练文本数据集合中的多个反讽文本信息部分通过了前一次文本识别模型获取,所以训练文本数据集合的多个反讽文本信息并不是训练文本数据集合中的全部反讽文本信息。而当前文本识别模型是基于训练文本识别模型充分训练得到的比前一次文本识别模型的识别效率和准确性都高,所以服务器通过当前文本识别模型再次提取出训练文本数据集合中的多个补充反讽文本信息,弥补了前一次文本识别模型的提取反讽文本信息时的不足。
134.s106、结合多个补充反讽文本信息和多个反讽文本信息,构建训练文本数据集合对应的多个目标对象的多个画像。
135.本发明实施例中,服务器结合多个补充反讽文本信息和个反讽文本信息,构建训练文本数据集合对应的多个目标对象的多个画像。
136.本发明实施例中,服务器可以在多个反讽文本信息和多个补充反讽文本信息中提
取出每个目标对象对应的反讽文本信息和补充反讽文本信息。服务器根据每个目标对象的反讽文本信息和补充反讽文本信息的得分计算出每个目标对象的得分信息,进而根据得分信息标记每个目标对象。得到了每个目标对象的画像。示例性的,服务器可以将每个目标对象的标识信息和对应的得分形成对应关系,进而构建出每个目标对象对应的画像。
137.s107、基于多个画像,提取下次获取的训练文本数据集合中的多个反讽文本信息,以对当前文本识别模型进行训练得到下次文本识别模型。
138.本发明实施例中,服务器的得到了多个目标对象的多个画像,当多个目标对象的客户端将新的文本信息输送给服务器之后。服务器可以形成新的训练文本数据集合,也就是下次获取的训练文本数据集合。服务器可以通过当前文本识别模型提取出新的训练文本数据集合中的多个反讽文本信息。服务器通过本次得到的多个反讽文本信息对当前文本识别模型进行训练,得到了下次文本识别模型。
139.在一些实施例中,参见图5,图5为本发明实施例提供的数据检测方法的一个可选的流程示意图,图2示出的s103还可以通过s108至s110实现,将结合各步骤进行说明。
140.s108、获取训练文本数据集合,对训练文本集合中的文本进行断句,得到多个文本信息。
141.本发明实施例中,训练文本数据集合中包括了多个目标对象的会话文本。其中,会话文本可以为不连贯或者语义不连续的会话。服务器通过断句模型对会话文本进行断句,可以得到多个文本信息。
142.s109、结合词性类、情感信息类、画像类和评价得分类信息中的至少两个信息,对多个文本信息进行文本识别,得到多个文本信息对应的多个得分。
143.本发明实施例中,服务器可以首先通过前一次的文本识别模型识别出多个文本信息中的部分反讽文本信息。服务器再结合多个目标对象的多个画像和待选文本信息中关键词的词性,确定出多个目标对象对应的待选文本信息中的多个得分。其中,多个待选文本信息为多个文本信息被前一次文本识别模型筛选过后剩余的文本信息。
144.本发明实施例中,服务器还可以结合多个目标对象的多个画像和待选文本信息中关键词的情感信息,确定出多个目标对象对应的待选文本信息中的多个得分。
145.本发明实施例中,服务器还可以结合待选文本信息中关键词的词性和情感信息,确定出多个目标对象对应的待选文本信息中的多个得分。
146.本发明实施例中,服务器还可以结合待选文本信息中关键词的词性和待选文本信息的评价信息,确定出多个目标对象对应的待选文本信息中的多个得分。
147.本发明实施例中,服务器确定多个文本信息中关键词极性相反的多个一级反讽文本信息。服务器在多个待选文本信息的初始得分上对多个一级反讽文本信息进行加分,得到了多个待选文本信息对应的多个一级得分。服务器再在多个待选文本信息中确定出情感信息为正且对应的上下文本信息的情感信息为负的多个二级反讽文本信息。服务器在多个待选文本信息的一级得分的基础上对多个二级反讽文本信息进行加分,得到了多个待选文本信息对应的多个得分。
148.本发明实施例中,若一个目标对象的画像表征该目标对象为易反讽对象,且该目标对象对应的文本信息为情感正向且评价较低的文本信息。则服务器可以对该目标对象对应的文本信息进行置信加分,进而得到对应该目标对象的文本信息的得分。
149.本发明实施例中,服务器还可以通过多个文本信息中的主题词的情感信息确定出多个文本信息中间得分,服务器将多个文本信息的中间得分加上服务器通过结合画像得到的文本信息的得分,得到多个文本信息最终的得分。
150.s110、基于多个得分,在多个文本信息中确定多个反讽文本信息。
151.本发明实施例中,服务器确定多个文本信息中得分高于阈值的多个反讽文本信息。
152.在一些实施例中,参见图6,图6为本发明实施例提供的数据检测方法的一个可选的流程示意图,图5示出的s109还可以通过s111至s115实现,将结合各步骤进行说明。
153.s111、将多个文本信息中的多个待选文本信息进行分词处理,得到多个待选文本信息分别对应的多个关键词。
154.本发明实施例中,服务器通过分词模型将多个文本信息中的多个待选文本信息进行分词处理,得到了多个待选文本信息分别对应的多个关键词。
155.本发明实施例中,多个待选文本信息为多个文本信息被前一次文本识别模型筛选过后剩余的文本信息。示例性的,结合图7,将结合各步骤进行说明。
156.s205、输入文本识别模型。
157.本发明实施例中,服务器将多个文本信息输入前一次的文本识别模型。
158.s206、是否已识别为反讽句。
159.本发明实施例中,服务器通过前一次文本识别模型来判断多个文本信息中的每个文本信息是否为反讽句。若前一次文本识别模型识别到多个文本信息中的n个文本信息为反讽句,服务器则将该n个反讽文本信息归入对个反讽文本信息中。其中,多个文本信息中剩余的文本信息为多个待选文本信息。
160.本发明实施例中,服务器可以通过机械分词算法将多个文本信息进行分词处理得到了,每个文本信息对应的多个关键词。服务器也可以通过马尔可夫模型分词算法将每个文本信息进行分词处理得到了,每个文本信息对应的多个关键词。在其他实施例中,服务器也可以采用其他的分词算法将识别信息分词成对应的多个关键词,本发明实施例中不做限制。
161.其中,多个关键词的可以包括:名词、动词和形容词。
162.s112、若多维数据包括:词性类、情感信息类、画像类和评价得分类信息中的四个,则基于多个关键词的词性,在多个待选文本信息中确定多个一级反讽文本信息,并对多个一级反讽文本信息进行加分,得到多个待选文本信息对应的多个一级得分。
163.本发明实施例中,若多维数据包括:词性类、情感信息类、画像类和评价得分类信息中的四个,则服务器确定多个文本信息中关键词极性相反的多个一级反讽文本信息。服务器在多个待选文本信息的初始得分上对多个一级反讽文本信息进行加分,得到了多个待选文本信息对应的多个一级得分。
164.其中,关键词极性相反表征同一个文本信息中出现至少一对关键词的词极性一个为正一个为负。
165.示例性的,多个待选文本信息的初始得分可以为0分。
166.示例性的,结合图7,将结合步骤进行说明。
167.s207、分词+情感词性识别。
168.本发明实施例中,服务器对多个待选文本信息首先进行分词得到多个关键词,再对多个关键词进行情感词性识别。得到多个关键词的词性。
169.s208、是否包含情感冲突的词对。
170.本发明实施例中,服务器再识别多个待选文本信息对应的关键词中是否包括对应情感冲突的词对。服务器对情感词性冲突的词对进行步骤s209、置信加分,得到多个待选文本信息对应的多个一级得分。
171.s113、基于多个待选文本信息的情感信息和对应的上下文本信息的情感信息,在多个待选文本信息中确定多个二级反讽文本信息,并对多个二级反讽文本信息对应的一级得分进行加分,得到多个待选文本信息对应的多个二级得分。
172.本发明实施例中,服务器在多个待选文本信息中确定出情感信息为正且对应的上下文本信息的情感信息为负的多个二级反讽文本信息。服务器在多个待选文本信息的一级得分的基础上对多个二级反讽文本信息进行加分,得到了多个待选文本信息对应的多个二级得分。
173.其中,上下文本信息为对应待选文本信息在目标对象的会话文本中相邻的文本信息。
174.本发明实施例中,服务器可以将待选文本信息输入情感识别模型得到多个待选文本信息对应的情感信息。
175.结合图7,将结合各步骤进行说明。
176.s210、上下文句情感识别。
177.本发明实施例中,服务器对多个待选文本信息进行上下文情感识别,来判断多个待选文本信息对应的上下文是否为负向情感,且对应的待选文本信息为正向情感。
178.本发明实施例中,s211、上下文是否为负向情感。
179.服务器对多个待选文本信息中对应情感信息为正向情感,且对应的上下文为负向情感的多个二级反讽文本信息进行步骤s212、置信加分,得到了多个待选文本信息对应的多个三级得分。
180.s114、基于多个待选文本信息的目标对象对应的多个关联画像,在多个待选文本信息中确定多个三级反讽文本信息,并对多个三级反讽文本信息对应的二级得分进行加分,得到多个待选文本信息对应的多个三级得分。
181.本发明实施例中,服务器确定出多个待选文本信息对应的目标对象的关联画像。服务器确定出关联画像表征对应的目标对象为已反讽用户对应的多个三级反讽文本信息。服务器在多个待选文本信息的多个二级得分的基础上对多个三级反讽文本信息进行加分,得到了多个待选文本信息对应的多个三级得分。
182.结合图7,将结合步骤进行说明。
183.s213、获取用户画像。
184.s214、是否为易反讽用户。
185.本发明实施例中,服务器基于多个待选文本信息对应的多个目标对应的关联画像识别出多个目标对象是否为易反讽用户。服务器确定多个目标对象中的易反讽用户对应的多个三级反讽文本信息。服务器在多个待选文本信息的多个二级得分的基础上对多个三级反讽文本信息进行s215、置信加分,得到了多个待选文本信息对应的多个三级得分。
186.s115、基于多个待选文本信息对应的多个评价得分和多个待选文本信息的情感信息,在多个待选文本信息中确定多个四级反讽文本信息,并对多个四级反讽文本信息对应的三级得分进行加分,得到多个待选文本信息对应的多个四级得分。
187.本发明实施例中,服务器在多个待选文本信息中确定出对应的评价得分为低分且情感信息为正的多个四级反讽文本信息。服务器在多个待选文本信息对应的多个三级得分的基础上对多个四级反讽文本信息进行加分,得到了多个待选文本信息对应的多个四级得分。
188.结合图7,将结合步骤进行说明。
189.s216、获取评价分。
190.s217、是否差评且情感正向。
191.本发明实施例中,服务器获取多个待选文本信息对应的评价分。服务器识别多个待选文本信息是否为差评且情感正向的四级反讽文本信息。服务器对多个待选对应的多个三级得分的基础上对多个四级反讽文本信息进行s218、置信加分,得到了多个待选文本信息对应的多个四级得分。
192.s219、综合判定得分。
193.s220、得分是否高于阈值
194.s221、多个反讽文本信息
195.本发明实施例中,服务器得到多个待选文本信息对应的综合判定得分,即多个四级得分。服务器判断多个四级得分是否高于阈值,若高于阈值,则服务器将高于阈值对应的待选文本信息归入多个反讽文本信息。
196.本发明实施例中,结合图8,服务器基于多个待选文本信息对应的句内情感冲突信息、上下文情感冲突信息、用户语言结构习惯信息和文本评分冲突信息,确定出多个待选文本信息中的反讽文本信息。
197.在一些实施例中,参见图9,图9为本发明实施例提供的数据检测方法的一个可选的流程示意图,图6示出的s112还可以通过s116至s118实现,将结合各步骤进行说明。
198.s116、在情感词列表中查找到多个关键词的词性。
199.本发明实施例中,服务器在情感词列表中查找到多个关键词对应的词性。其中,词性可以为正或者为负。
200.其中,情感词列表为预设的包括全量关键词的词性的列表。
201.s117、在多个待选文本信息中确定包括关键词的词性相反的多个一级反讽文本信息。
202.本发明实施例中,服务器确定出对应的多个关键词中词性相反的多个一级反讽文本信息。
203.示例性的,多个关键词可以包括:“喜欢”、“唯一”和“该死的”。其中,“喜欢”和“该死的”词极性相反,服务器可以确定该多个关键词对应的待选文本信息为一级反讽文本信息。
204.s118、在多个待选文本信息对应的初始得分上对多个一级反讽文本信息进行加分,得到多个待选文本信息对应的多个一级得分。
205.本发明实施例中,多个待选文本信息对应有多个初始得分。服务器对多个待选文
本信息中的多个一级反讽文本信息在初始得分的基础上进行加分,得到多个待选文本信息对应的多个一级得分。
206.其中,进行加分可以为加1分或者加10分,在此不做限定。
207.在一些实施例中,参见图10,图10为本发明实施例提供的数据检测方法的一个可选的流程示意图,图6示出的s113还可以通过s119至s122实现,将结合各步骤进行说明。
208.s119、在训练文本数据集合中,提取多个待选文本信息对应的多个上下文本信息。
209.本发明实施例中,每个待选文本信息都包括相邻的文本信息,也就是上下文本信息。服务器在训练文本数据集合中提取出多个待选文本信息对应的多个上相文本信息。
210.s120、检测得到多个上下文本信息的情感信息和多个待选文本信息的情感信息。
211.本发明实施例中,服务器可以通过情感识别模型处理得到多个上相文本信息的情感信息和多个待选文本信息的情感信息。
212.本发明实施例中,服务器可以通过情感词列表查到到多个上下文本信息的情感信息和多个待选文本信息的情感信息。
213.s121、在多个待选文本信息中确定情感信息为正且对应的上下文本信息的情感信息为负的多个二级反讽文本信息。
214.本发明实施例中,服务器确定多个待选文本信息中情感信息为正且对应的上下文本信息为负的多个二级反讽文本信息。
215.s122、在多个待选文本信息对应的一级得分上对多个二级反讽文本信息进行加分,得到多个待选文本信息对应的多个二级得分。
216.本发明实施例中,服务器对多个待选文本信息中的多个二级反讽文本信息在一级得分的基础上进行加分,得到了多个待选文本信息对应的多个二级得分。
217.在一些实施例中,参见图11,图11为本发明实施例提供的数据检测方法的一个可选的流程示意图,图6示出的s114还可以通过s123至s125实现,将结合各步骤进行说明。
218.s123、在多个画像中提取出多个待选文本信息对应的目标对象对应的多个关联画像。
219.本发明实施例中,服务器在多个画像中确定出多个待选文本信息对应的目标对象的多个关联画像。
220.s124、在多个待选文本信息中确定对应的关联画像表征的目标对象为易反讽用户的多个三级反讽文本信息。
221.本发明实施例中,由于每个关联画像都表征了对应的目标对象是否为易反讽用户。服务器在多个待选文本信息中确定出多个三级反讽文本信息。其中,多个三级反讽文本信息对应的目标对象为已反讽用户。
222.s125、在多个待选文本信息对应的二级得分上对多个三级反讽文本信息进行加分,得到多个待选文本信息对应的多个三级得分。
223.本发明实施例中,服务器对多个待选文本信息中的多个三级反讽文本信息在二级得分的基础上进行加分,得到了多个待选文本信息对应的多个三级得分。
224.在一些实施例中,参见图12,图12为本发明实施例提供的数据检测方法的一个可选的流程示意图,图6示出的s115还可以通过s126至s128实现,将结合各步骤进行说明。
225.s126、在训练文本数据集合中,提取多个待选文本信息对应的多个评价得分。
226.本发明实施例中,服务器在训练文本数据集合中提取出多个待选文本信息对应的多个评价得分。
227.s127、在多个待选文本信息中确定情感信息为正且对应的评价得分低于第一阈值的多个四级反讽文本信息。
228.本发明实施例中,服务器在多个待选文本信息中,确定出情感信息为正且对应的评价得分低于第一阈值的多个四级反讽文本信息。
229.s128、在多个待选文本信息对应的三级得分上对多个四级反讽文本信息进行加分,得到多个待选文本信息对应的多个四级得分。
230.本发明实施例中,服务器对多个待选文本信息中的多个四级反讽文本信息在三级得分的基础上进行加分,得到了多个待选文本信息对应的多个四级得分。
231.在一些实施例中,参见图13,图13为本发明实施例提供的数据检测方法的一个可选的流程示意图,图10示出的s120还可以通过s129实现,将结合各步骤进行说明。
232.s129、将多个上下文本信息和多个待选文本信息输入情感识别模型,得到多个上下文本信息的情感信息和多个待选文本信息的情感信息。
233.本发明实施例中,服务器将多个上下文本信息和多个待选文本信息分别输入情感识别模型,可以得到多个上下文本信息的情感信息和多个待选文本信息的情感信息
234.在一些实施例中,参见图14,图14为本发明实施例提供的数据检测方法的一个可选的流程示意图,图10示出的s120还可以通过s130至s132实现,将结合各步骤进行说明。
235.s130、将多个上下文本信息分词形成多个上下关键词。
236.s131、在情感词列表中查找到多个上下关键词的词性,在情感词列表中查找到多个关键词的词性。
237.s132、基于多个上下关键词的词性和多个关键词的词性确定多个上下文本信息的情感信息和多个待选文本信息的情感信息。
238.本发明实施例中,服务器确定多个上下关键词中的每个关键词的词性,确对应的一个上下文本信息中包括词性为正的关键词,则该上下文本信息为情感信息为正。相应的,服务器可以确定对应的待选文本信息的情感信息。
239.在一些实施例中,参见图15,图15为本发明实施例提供的数据检测方法的一个可选的流程示意图,图6示出的s111之前还包括s133,将结合各步骤进行说明。
240.s133、将多个文本信息输入前一次文本识别模型,得到多个文本信息中的多个五级反讽文本信息。
241.本发明实施例中,服务器将多个待选文本信息输入前一次文本识别模型,得到了多个文本信息中的多个五级反讽文本信息。
242.在一些实施例中,参见图15,图15为本发明实施例提供的数据检测方法的一个可选的流程示意图,图6示出的s110可以通过s134至s135实现,将结合各步骤进行说明。
243.s134、在多个待选文本信息中,确定对应的四级得分高于第二阈值的多个六级反讽文本信息。
244.本发明实施例中,服务器在多个待选文本信息中,确定出对应的四级得分高于第二阈值的多个六级反讽文本信息。
245.本发明实施例中,服务器还可以在多个待选文本信息中,确定出对应的四级得分
前m名为多个六级反讽文本信息。
246.s135、将多个五级反讽文本信息和多个六级反讽文本信息结合形成多个反讽文本信息。
247.本发明实施例,服务器将多个五级反讽文本信息和多个六级反讽文本信息组成多个反讽文本信息。
248.在一些实施例中,参见图16,图16本发明实施例提供的数据检测方法的一个可选的流程示意图,图4示出的s106可以通过s136至s138实现,将结合各步骤进行说明。
249.s136、将训练文本数据集合中的多个文本信息输入情感识别模型,得到训练文本数据集合对应的多个目标对象分别对应的情绪化文本信息。
250.本发明实施例中,服务器在训练文本数据集合中提取出多个目标对象分别对应的多个文本信息。服务器将多个目标对象分别对应的多个文本信息分别输入情感识别模型。可以得到多个目标对象分别对应的情绪化文本信息。
251.本发明实施例中,结合图17,服务器需要获取用户讽刺句、情绪句、会话服务评价等数据。由于讽刺句就是多个反讽文本信息。服务器可以通过情感识别模型得到多个目标对象也就是多个用户的情绪句,再提取出多个讽刺句和多个情绪句的会话服务评价信息。
252.s137、在训练文本数据集合中提取多个目标对象分别对应的评价数量及差评数量。
253.本发明实施例中,服务器在训练文本数据集合中提取出多个目标对象分别对应的评价数量和差评数量。
254.s138、基于多个补充反讽文本信息、多个反讽文本信息、情绪化信息和差评数量信息,构建多个画像。
255.本发明实施例中,服务器基于多个补充反讽文本信息、多个反讽文本信息、情绪化信息和差评数量信息,构建多个画像。
256.本发明实施例中,结合图17,服务器获取多个目标对象分别对应的讽刺分、情绪分和负向影响分。服务器根据讽刺分、情绪分和负向影响分形成多个目标对象的综合得分。服务器通过对多个综合得分进行综合加权排序确定出多个目标对象中的易反讽用户。其中,讽刺分包括:反讽会话占比。情绪分包括:抱怨会话占比和愤怒会话占比。负影响分包括:会话差评占比和服务差评占比。
257.在一些实施例中,参见图18,图18本发明实施例提供的数据检测方法的一个可选的流程示意图,图16示出的s138可以通过s139至s142实现,将结合各步骤进行说明。
258.s139、将多个目标对象分别对应的补充反讽文本信息和反讽文本信息的信息和,比上对应的文本信息总数,得到分别对应多个目标对象的反讽得分。
259.本发明实施例中,服务器将多个目标对象分别对应的补充反讽文本信息和反讽文本信息的和,比上该目标对象的文本信息的总数,得到了对应目标对象的反讽得分。
260.s140、将多个目标对象分别对应的情绪化文本信息比上对应的文本信息总数,得到分别对应多个目标对象的情绪得分。
261.本发明实施例中,服务器将多个目标对象分别对应的情绪化文本信息比上对应的文本信息总数,得到分别对应多个目标对象的情绪得分。
262.s141、将多个目标对象分别对应的差评数量比上对应的评价数量,得到分别对应
多个目标对象的负影响得分。
263.本发明实施例中,服务器将多个目标对象分别对应的差评数量比上对应的评价数量,得到分别对应多个目标对象的负影响得分。
264.s142、基于多个目标对象分别对应的反讽得分、情绪得分和负影响得分,计算多个画像。
265.在一些实施例中,参见图19,图19本发明实施例提供的数据检测方法的一个可选的流程示意图,图18示出的s142可以通过s143至s144实现,将结合各步骤进行说明。
266.s143、将多个目标对象分别对应的反讽得分和反讽权重的乘积加上,情绪得分和情绪权重的乘积再加上,负影响得分和和负影响权重的乘积,得到多个目标对象对应的多个综合得分。
267.本发明实施例中,服务器将多个目标对象分别对应的反讽得分和反讽权重的乘积加上,情绪得分和情绪权重的乘积再加上,负影响得分和和负影响权重的乘积,得到多个目标对象对应的多个综合得分。
268.其中,反讽权重可以为任意数值,情绪权重可以为任意数值,负影响权重可以为任意数值。
269.s144、形成多个综合得分与多个目标对象之间的对应关系,进而形成多个画像。
270.本发明实施例中,服务器建立多个目标对象与对应的综合得分之间的对应关系,进而确定出多个目标对象对应的多个画像。
271.在一些实施例中,参见图20,图20本发明实施例提供的数据检测方法的一个可选的流程示意图,图19示出的s144之后还包括s145至s146,将结合各步骤进行说明。
272.s145、确定多个目标对象的综合得分最大的前第一比例对应的目标对象为易反讽对象。
273.本发明实施例中,服务器确定多个目标对象的综合得分最大的前第一比例对应的目标对象为易反讽对象。
274.其中,第一比例可以为百分之10。
275.s146、确定多个目标对象的综合得分最小的前第二比例对应的目标对象为不反讽对象。
276.本发明实施例中,服务器确定多个目标对象的综合得分最小的前第二比例对应的目标对象为不反讽对象。
277.其中,第二比例也可以为百分之10。
278.参见图21,图21本发明实施例提供的数据检测装置的结构示意图。
279.本发明实施例还提供了一种数据检测装置800,包括:获取单元803和检测单元804。
280.获取单元803,用于获取当前待检文本信息;
281.检测单元804,用于利用当前文本识别模型对所述当前待检文本信息进行检测,确定出所述当前待检文本信息的检测结果;
282.其中,所述当前文本识别模型是通过获取训练文本数据集合,结合多维数据提取所述训练文本数据集合中的多个反讽文本信息,并通过所述多个反讽文本信息对前一次文本识别模型进行循环训练得到的;所述多维数据包括:词性类、情感信息类、画像类和评价
得分类信息中的至少两个。
283.本发明实施例中,所述当前文本识别模型是基于包含上下文的所述训练文本数据集合对应的目标对象的画像,及所述训练文本数据集合中会话文本信息的评价得分类信息,在所述训练文本数据集合中确定出所述多个反讽文本信息,并通过所述多个反讽文本信息对前一次文本识别模型进行循环训练得到的。
284.本发明实施例中,数据检测装置800中的获取单元803用于获取训练文本数据集合,结合多维数据提取所述训练文本数据集合中的多个反讽文本信息;所述训练文本数据集合包括多个目标对象的会话文本信息及相关信息,其中,每个文本信息表征对应目标对象的单一场景会话文本信息;所述多个画像中的每个画像表征对应目标对象对应的反讽文本得分信息;基于所述多个反讽文本信息对前一次文本识别模型进行训练,直至得到所述当前文本识别模型。
285.本发明实施例中,数据检测装置800用于利用所述当前文本识别模型再次提取所述训练文本数据集合中的多个补充反讽文本信息;
286.结合所述多个补充反讽文本信息和所述多个反讽文本信息,构建所述训练文本数据集合对应的多个目标对象的多个画像;
287.基于所述多个画像,提取下次获取的训练文本数据集合中的多个反讽文本信息,以对所述当前文本识别模型进行训练得到下次文本识别模型。
288.本发明实施例中,数据检测装置800中的获取单元803用于获取训练文本数据集合,对所述训练文本集合中的文本进行断句,得到多个文本信息;结合所述词性类、情感信息类、画像类和评价得分类信息中的至少两个信息,对所述多个文本信息进行文本识别,得到所述多个文本信息对应的多个得分;基于所述多个得分,在所述多个文本信息中确定多个反讽文本信息。
289.本发明实施例中,数据检测装置800用于将所述多个文本信息中的多个待选文本信息进行分词处理,得到所述多个待选文本信息分别对应的多个关键词;所述多个待选文本信息为所述多个文本信息被所述前一次文本识别模型筛选过后剩余的文本信息;若所述多维数据包括:所述词性类、所述情感信息类、所述画像类和所述评价得分类信息中的四个,则基于所述多个关键词的词性,在所述多个待选文本信息中确定多个一级反讽文本信息,并对所述多个一级反讽文本信息进行加分,得到所述多个待选文本信息对应的多个一级得分;基于所述多个待选文本信息的情感信息和对应的上下文本信息的情感信息,在所述多个待选文本信息中确定多个二级反讽文本信息,并对所述多个二级反讽文本信息对应的一级得分进行加分,得到所述多个待选文本信息对应的多个二级得分;基于所述多个待选文本信息的目标对象对应的多个关联画像,在所述多个待选文本信息中确定多个三级反讽文本信息,并对所述多个三级反讽文本信息对应的二级得分进行加分,得到所述多个待选文本信息对应的多个三级得分;基于所述多个待选文本信息对应的多个评价得分和所述多个待选文本信息的情感信息,在所述多个待选文本信息中确定多个四级反讽文本信息,并对所述多个四级反讽文本信息对应的三级得分进行加分,得到所述多个待选文本信息对应的多个四级得分。
290.本发明实施例中,数据检测装置800用于在情感词列表中查找到所述多个关键词的词性;所述情感词列表为预设的包括全量关键词的词性的列表;在所述多个待选文本信
息中确定包括关键词的词性相反的多个一级反讽文本信息;在所述多个待选文本信息对应的初始得分上对所述多个一级反讽文本信息进行加分,得到多个待选文本信息对应的多个一级得分。
291.本发明实施例中,数据检测装置800用于在所述训练文本数据集合中,提取所述多个待选文本信息对应的多个上下文本信息;检测得到所述多个上下文本信息的情感信息和所述多个待选文本信息的情感信息;在所述多个待选文本信息中确定情感信息为正且对应的上下文本信息的情感信息为负的多个二级反讽文本信息;在所述多个待选文本信息对应的一级得分上对所述多个二级反讽文本信息进行加分,得到多个待选文本信息对应的多个二级得分。
292.本发明实施例中,数据检测装置800用于在所述多个画像中提取出所述多个待选文本信息对应的目标对象对应的多个关联画像;在所述多个待选文本信息中确定对应的关联画像表征的目标对象为易反讽用户的多个三级反讽文本信息;在所述多个待选文本信息对应的二级得分上对所述多个三级反讽文本信息进行加分,得到多个待选文本信息对应的多个三级得分。
293.本发明实施例中,数据检测装置800用于在所述训练文本数据集合中,提取所述多个待选文本信息对应的多个评价得分;在所述多个待选文本信息中确定情感信息为正且对应的评价得分低于第一阈值的多个四级反讽文本信息;在所述多个待选文本信息对应的三级得分上对所述多个四级反讽文本信息进行加分,得到多个待选文本信息对应的多个四级得分。
294.本发明实施例中,数据检测装置800用于将所述多个上下文本信息和所述多个待选文本信息输入情感识别模型,得到所述多个上下文本信息的情感信息和所述多个待选文本信息的情感信息;将所述多个上下文本信息分词形成多个上下关键词;在情感词列表中查找到所述多个上下关键词的词性,在情感词列表中查找到所述多个关键词的词性;基于所述多个上下关键词的词性和所述多个关键词的词性确定所述多个上下文本信息的情感信息和所述多个待选文本信息的情感信息。
295.本发明实施例中,数据检测装置80用于将所述多个文本信息输入所述前一次文本识别模型,得到所述多个文本信息中的多个五级反讽文本信息。
296.本发明实施例中,数据检测装置800用于在所述多个待选文本信息中,确定对应的四级得分高于第二阈值的多个六级反讽文本信息;将所述多个五级反讽文本信息和所述多个六级反讽文本信息结合形成所述多个反讽文本信息。
297.本发明实施例中,数据检测装置800中用于将所述训练文本数据集合中的多个文本信息输入情感识别模型,得到所述训练文本数据集合对应的多个目标对象分别对应的情绪化文本信息;在所述训练文本数据集合中提取所述多个目标对象分别对应的评价数量及差评数量;基于所述多个补充反讽文本信息、所述多个反讽文本信息、所述情绪化信息和所述差评数量信息,构建所述多个画像。
298.本发明实施例中,数据检测装置800用于将所述多个目标对象分别对应的补充反讽文本信息和反讽文本信息的信息和,比上对应的文本信息总数,得到分别对应所述多个目标对象的反讽得分;将所述多个目标对象分别对应的情绪化文本信息比上对应的文本信息总数,得到分别对应所述多个目标对象的情绪得分;将所述多个目标对象分别对应的差
评数量比上对应的评价数量,得到分别对应所述多个目标对象的负影响得分;基于所述多个目标对象分别对应的反讽得分、情绪得分和负影响得分,计算所述多个画像。
299.本发明实施例中,数据检测装置800用于将所述多个目标对象分别对应的反讽得分和反讽权重的乘积加上,情绪得分和情绪权重的乘积再加上,负影响得分和和负影响权重的乘积,得到所述多个目标对象对应的多个综合得分;形成所述多个综合得分与所述多个目标对象之间的对应关系,进而形成所述多个画像。
300.本发明实施例中,数据检测装置800用于确定所述多个目标对象的综合得分最大的前第一比例对应的目标对象为易反讽对象;确定所述多个目标对象的综合得分最小的前第二比例对应的目标对象为不反讽对象。
301.本发明实施例中,通过获取单元803获取当前待检文本信息;检测单元804 利用当前文本识别模型对当前待检文本信息进行检测,确定出当前待检文本信息的检测结果;其中,当前文本识别模型是通过获取训练文本数据集合,结合多维数据提取所述训练文本数据集合中的多个反讽文本信息,并通过多个反讽文本信息对前一次文本识别模型进行循环训练后得到的;多维数据表征词性类、情感信息类、画像类和评价得分类信息中的至少两个。由于多个反讽文本信息是通过对训练文本数据集合结合多维数据提取得到的,又因为多维数据考虑了反讽文本信息中的多个因素,所以前一次文本识别模型可以学习大量全面的反讽文本信息,进而通过大量全面的反讽文本信息训练得到的当前文本识别模型,可以在群体会话中准确地识别出反讽文本信息,所以提高了群体会话反讽文本的识别效率。
302.需要说明的是,本发明实施例中,如果以软件功能模块的形式实现上述的数据检测方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台数据检测装置(可以是个人计算机等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read only memory,rom)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本发明实施例不限制于任何特定的硬件和软件结合。
303.对应地,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法中的步骤。
304.对应地,本发明实施例提供一种数据检测装置800,包括存储器802和处理器801,所述存储器802存储有可在处理器801上运行的计算机程序,所述处理器801执行所述程序时实现上述方法中的步骤。
305.这里需要指出的是:以上存储介质和装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本发明存储介质和装置实施例中未披露的技术细节,请参照本发明方法实施例的描述而理解。
306.需要说明的是,图22为本发明实施例提供的数据检测装置的一种硬件实体示意图,如图22所示,该数据检测装置800的硬件实体包括:处理器801和存储器802,其中;
307.处理器801通常控制数据检测装置800的总体操作。
308.存储器802配置为存储由处理器801可执行的指令和应用,还可以缓存待处理器801以及数据检测装置800中各模块待处理或已经处理的数据(例如,图像数据、音频数据、
语音通信数据和视频通信数据),可以通过闪存(flash) 或随机访问存储器(random access memory,ram)实现。
309.应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本发明的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
310.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
311.在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
312.上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
313.另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
314.本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储装置、只读存储器(read only memory,rom)、磁碟或者光盘等各种可以存储程序代码的介质。
315.或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机、服务器、或者网络装置等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储装置、rom、磁碟或者光盘等各种可以存储程序代码的介质。
316.以上所述,仅为本发明的实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在
本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1