一种数据处理方法、装置及计算机可读存储介质与流程

文档序号:20701544发布日期:2020-05-12 15:46阅读:156来源:国知局
一种数据处理方法、装置及计算机可读存储介质与流程

本申请涉及数据处理技术领域,具体涉及一种数据处理方法、装置及计算机可读存储介质。



背景技术:

随着网络的发展和计算机的广泛应用,数据处理技术显得越来越重要,比如,情感分析技术已成为数据处理领域的热门技术,情感分析的目标是从文本中挖掘用户表达的观点以及情感极性,通过挖掘文本中的情感倾向可用于帮助其他用户做决定,具有很大的应用价值。

相关技术中,可以通过人工标记序列规则获取文本的情感倾向,即基于训练文本中每一句子的情感类别标记和训练文本的情感标记构成标记序列规则,最后根据这些标记序列规则分析目标文本的情感。

在对相关技术的研究和实践过程中,本申请的发明人发现,相关技术中,人工标记成本非常昂贵,难以获取大量的标记数据,且标记速度非常慢,导致数据处理的效率较差,进而导致情感分析挖掘的效率降低。



技术实现要素:

本申请实施例提供一种数据处理方法、装置及计算机可读存储介质,可以提升数据处理的效率,进而提升情感分析挖掘的效率。

为解决上述技术问题,本申请实施例提供以下技术方案:

一种数据处理方法,包括:

采集待训练样本,并对所述待训练样本进行词性标注和预设类别标签标定处理,得到相应的目标词性标注序列;

对所述目标词性标注序列进行计算,得到频繁序列以及相应的置信度,将置信度满足预设条件的频繁序列确定为目标挖掘规则;

根据所述目标挖掘规则对所述目标词性标注序列进行遍历,迭代扩充预设类别标签的挖掘词;

为符合目标挖掘规则的目标词性标注序列添加分类训练标签,并提取添加分类训练标签的目标词性标注序列中的词向量和相应的权重向量;

根据所述词向量、权重向量以及分类训练标签对分类网络模型进行训练,得到训练后的分类网络模型,基于训练后的分类网络模型对目标词性标注序列进行分类处理。

相应的,本申请实施例还提供一种数据处理装置,包括:

采集单元,用于采集待训练样本,并对所述待训练样本进行词性标注和预设类别标签标定处理,得到相应的目标词性标注序列;

确定单元,用于对所述目标词性标注序列进行计算,得到频繁序列以及相应的置信度,将置信度满足预设条件的频繁序列确定为目标挖掘规则;

扩充单元,用于根据所述目标挖掘规则对所述目标词性标注序列进行遍历,迭代扩充预设类别标签的挖掘词;

提取单元,用于为符合目标挖掘规则的目标词性标注序列添加分类训练标签,并提取添加分类训练标签的目标词性标注序列中的词向量和相应的权重向量;

分类单元,用于根据所述词向量、权重向量以及分类训练标签对分类网络模型进行训练,得到训练后的分类网络模型,基于训练后的分类网络模型对目标词性标注序列进行分类处理。

在一些实施例中,所述扩充子单元,用于:

将所述第二置信度大于第二预设置信度阈值的挖掘序列确定为目标挖掘序列,并获取所述目标挖掘规则中对每一词性进行预设类别标签标定的标定规则;

根据所述标定规则对所述目标挖掘序列中的分词按照词性进行预设类别标签标定,扩充预设类别标签的挖掘词。

在一些实施例中,所述提取单元,包括:

添加子单元,用于为符合目标挖掘规则的目标词性标注序列添加分类训练标签;

确定子单元,用于通过词向量计算工具确定所述添加分类训练标签的目标词性标注序列的词向量;

计算子单元,用于通过词频逆文件频率算法计算添加分类训练标签的目标词性标注序列的权重向量。

在一些实施例中,所述计算子单元,用于:

获取添加分类训练标签的目标词性标注序列中目标分词的出现次数,并获取所述待训练样本中出现的总词数;

根据目标分词的出现次数与总词数的比值确定相应的词频信息;

获取待训练样本中的总样本数量,并获取包含目标分词的目标样本数量;

计算所述总样本数量与目标样本数量的目标比值,并计算所述目标比值的对数,得到相应的逆文档频率;

将所述词频信息乘以逆文档频率得到目标分词的权重,将同一目标词性标注序列中的分词相应的权重组合,生成权重向量。

在一些实施例中,所述分类单元,用于:

通过卷积神经网络模型对所述词向量进行卷积处理,并在倒数第二层全连接层上拼接所述权重向量,得到特征组合向量,所述倒数第二层全连接层的节点个数小于预设节点阈值;

将卷积神经网络模型对于特征组合向量的输出信息作为分类网络模型的输入,将相应的分类训练标签作为分类网络模型的输出,得到训练后的分类网络模型;

基于训练后的分类网络模型对目标词性标注序列进行分类处理。

相应的,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行上述数据处理方法中的步骤。

本申请实施例通过采集待训练样本进行词性标注和预设类别标签标定处理,得到相应的目标词性标注序列;对目标词性标注序列进行计算,得到频繁序列以及置信度,将置信度满足预设条件的频繁序列确定为目标挖掘规则;根据目标挖掘规则对目标词性标注序列迭代扩充预设类别标签的挖掘词;为符合目标挖掘规则的目标词性标注序列添加分类训练标签,并提取添加分类训练标签的目标词性标注序列中的词向量和权重向量;根据词向量、权重向量以及分类训练标签对分类网络模型进行训练,得到训练后的分类网络模型对目标词性标注序列进行分类处理。以此,对待训练样本中的分词进行预设类别标签的迭代标定,实现预设类别标签的挖掘词的不断扩充,并且将词向量和相应的权重向量进行融合对分类网络模型进行训练,使得训练后的分类网络模型的情感分类的准确性更高,极大的提升了数据处理的效率,进而提升了情感分析挖掘的效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例所提供的数据处理的场景示意图;

图2是本申请实施例提供的数据处理方法的流程示意图;

图3是本申请实施例提供的数据处理方法的另一流程示意图;

图4为本申请实施例提供的数据处理方法的应用场景示意图;

图5a是本申请实施例提供的数据处理装置的结构示意图;

图5b是本申请实施例提供的数据处理装置的另一结构示意图;

图5c是本申请实施例提供的数据处理装置的另一结构示意图;

图5d是本申请实施例提供的数据处理装置的另一结构示意图;

图6是本申请实施例提供的服务器的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请实施例提供一种数据处理方法、装置及计算机可读存储介质。

请参阅图1,图1为本申请实施例所提供的数据处理的场景示意图,包括:样本服务器、和服务器,样本服务器与服务器之间可以通过通信网络连接,该通信网络,可以包括无线网络以及有线网络,其中无线网络包括无线广域网、无线局域网、无线城域网、以及无线个人网中的一种或多种的组合。网络中包括路由器、网关等等网络实体,图中并未示意出。样本服务器可以通过通信网络与服务器进行信息交互,服务器可以通过通信网络从该样本服务器中爬取待训练样本,例如,可以从样本服务器上爬取电商评论、新闻评论或者内容交互平台上的交互评论等等。

该数据处理系统可以包括数据处理装置,该数据处理装置具体可以集成在服务器中,在一些实施方式中,该数据处理装置还可以集成在具有运算能力的终端中,在本实施例中,以该数据处理装置集成在服务器中进行说明,如图1所示,该服务器爬取样本服务器中的待训练样本,并对该待训练样本进行词性标注和预设类别标签标定处理(即预处理),得到相应的目标词性标注序列,对该目标词性标注序列进行规则挖掘,得到频繁序列以及相应的置信度,将置信度满足预设条件的频繁序列确定为目标挖掘规则,根据该目标挖掘规则对该目标词性标注序列进行遍历,迭代扩充预设类别标签的挖掘词,得到扩充后的目标词性标注序列,为符合目标挖掘规则的目标词性标注序列添加分类训练标签,并提取添加分类训练标签的目标词性标注序列中的词向量和相应的权重向量,最后,根据该词向量、权重向量以及分类训练标签对分类网络模型进行训练,得到训练后的分类网络模型,基于训练后的分类网络模型对目标词性标注序列进行分类处理,实现自动对待训练样本中的预设类别标签的挖掘词不断扩充进行训练和情感分类,无需人工反复标定,极大的提升了情感分析挖掘的效率。

该数据处理系统还可以包括样本服务器,该样本服务器可以为应用提供商,保存各种用户的电商评论、新闻评论或者交互评论等等。

需要说明的是,图1所示的数据处理系统的场景示意图仅仅是一个示例,本申请实施例描述的数据处理系统以及场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着数据处理系统的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。

实施例一、

在本实施例中,将从数据处理装置的角度进行描述,该数据处理装置具体可以集成在具备储存单元并安装有微处理器而具有运算能力的电子设备中,该电子设备可以包括服务器或者终端。

一种数据处理方法,包括:采集待训练样本,并对待训练样本进行词性标注和预设类别标签标定处理,得到相应的目标词性标注序列;对目标词性标注序列进行计算,得到频繁序列以及相应的置信度,将置信度满足预设条件的频繁序列确定为目标挖掘规则;根据目标挖掘规则对目标词性标注序列进行遍历,迭代扩充预设类别标签的挖掘词;为符合目标挖掘规则的目标词性标注序列添加分类训练标签,并提取添加分类训练标签的目标词性标注序列中的词向量和相应的权重向量;根据词向量、权重向量以及分类训练标签对分类网络模型进行训练,得到训练后的分类网络模型,基于训练后的分类网络模型对目标词性标注序列进行分类处理。

请参阅图2,图2是本申请实施例提供的数据处理方法的流程示意图。该数据处理方法包括:

在步骤101中,采集待训练样本,并对待训练样本进行词性标注和预设类别标签标定处理,得到相应的目标词性标注序列。

其中,该待训练样本的数量为多个,可以为从样本服务器上爬取的待训练样本,该待训练样本可以消费评论、新闻评论和购物评论等等,在本申请实施例中,以消费评论为例进行说明,每一个待训练样本即为即为一条消费评论,该待训练样本中包括多条分句,每条分句中又包括多个分词,例如,某一待训练样本为“房间很舒服,服务很好,价格不便宜”。

进一步的,在爬取到多个待训练样本后,需要对该待训练样本进行词性标注,该词性标注为对待训练样本中的每一句子中的词语添加词性标签,即注明各个词语的词性,确定各个词语是名词、副词或者形容词等等,例如,对某一待训练样本为“房间很舒服,服务很好,价格不便宜”进行词性标注,得到“房间/n,很/d,舒服/a,|,服务/n,很/d,好/a,|,价格/n,不/d,便宜/a”的词性标注结果,该|代表分句,该n代表名词、该d代表副词以及该a代表形容词,得到该词性标注结果后,还需要对该词性标注结果进行预设类别标签标定,该预设类别标签为可挖掘类别标签,例如属性词标签、程度副词标签、否定词标签以及情感词标签等等类别标签,具体的设置方式可以根据挖掘需求而定,该每一预设类别标签中都会有相应的初始挖据词,该初始挖掘词可以为人工设定的,或者来自词典中的初始挖掘词,对词性标注结果中包含有初始挖掘词的分词进行相应的预设类别标签标定处理,得到相应的目标词性标注序列。

在一些实施方式中,该对待训练样本进行词性标注和预设类别标签标定处理,得到相应的目标词性标注序列的步骤,包括:

(1)对该待训练样本进行分句、分词和词性标注操作,得到相应的词性标注序列;

(2)获取预设类别标签的挖掘词,并确定该词性标注序列中的挖掘词;

(3)为该词性标注序列中的挖掘词标定相应的预设类别标签,得到相应的目标词性标注序列。

其中,可以首先根据断句标点符号,如“,”等对待训练样本进行分句操作,得到多个待训练分句,在一实施方式中,可以将待训练分句中的无关字符和无关词进行去除,该无关字符可以为“/”和“~”等等,该无关词可以为“了”、“哦”以及“嗯”等等,用户还可以根据需求,添加无关字符和无关词的数据。在将待训练分句中的无关字符和无关词进行去除之后,对该待训练分句进行分词操作,例如将分句“房间很舒服,服务很好,价格不便宜”进行分词,得到“房间、很、舒服,服务、很、好、价格、不、便宜”的分词结果,并对每一分词进行词性标注,得到词性标注序列“房间/n,很/d,舒服/a,|,服务/n,很/d,好/a,|,价格/n,不/d,便宜/a”。

进一步的,获取预设类别标签的挖掘词,该预设类别标签可以包括至少两种预设类别标签,例如为四种,即属性词标签、程度副词标签、否定词标签以及情感词标签,每一预设类别标签中包含有相应的初始挖掘词,例如该属性词标签可以包括初始挖掘词“房间”、“服务”、“价格”,该程度副词标签可以包括初始挖掘词“很”,该否定词标签中可以包括初始挖掘词“不”,该情感词标签可以包括初始挖掘词“舒服”、“好”、“便宜”,对该词性标注序列按照初始挖掘词进行遍历,确定该词性标注序列中的挖掘词。

在一实施方式中,可以为每一预设类别标签设定相应的标签符号,如属性词标注为#,情感词标注为*,程度副词标注为&,否定词标注为!,以此,为该词性标注序列中的挖掘词标定相应的预设类别标签,得到目标词性标注序列“#/n,&/d,*/a,|,#/n,&/d,*/a,|,#/n,!/d,*/a”。

在步骤102中,对目标词性标注序列进行计算,得到频繁序列以及相应的置信度,将置信度满足预设条件的频繁序列确定为目标挖掘规则。

其中,可以通过频繁序列挖掘算法对目标词性标注序列的词性进行挖掘,得到满足预设支持度的频繁序列,该频繁序列挖掘算法有gsp(generalizadsequentialpatterns)算法以及prefixspan算法,该频繁序列为由多个词性组成的序列,例如为/n,/d,/a等等,也就是频繁出现的子序列,该子序列可以理解为公共规则,如/n,/d,/a即可为公共规则,该频繁序列为出现频率大于预设支持率的子序列,该预设支持率为衡量子序列是否为频繁序列的临界值,例如该预设支持率为0.2,子序列为/n,/d,/a,待训练分句为100句,那么在包含该子序列的分句大于20条以上时,该子序列的出现频率大于0.2,会将该子序列/n,/d,/a确定为频繁序列,该频繁序列代表在所有目标词性标注序列中的公共规则,且该公共规则出现的次数达到预设支持率相应的支持度阈值,该频繁序列具有一定的代表性。

进一步的,每一频繁序列具有相应的置信度,该置信度越大,说明该频繁序列越可靠,该置信度越低,说明该频繁序列越不可靠,在本申请实施例中,该置信度可以为频繁序列中出现的预设分类标签的第一目标种类数与总种类数的比值,该预设条件可以称为成为最小置信度,例如0.4,当频繁序列的置信度大于0.4时,满足预设条件,将该频繁序列确定为目标挖掘规则,也就是说只有在频繁序列包含至少半数以上的预设分类标签种类数时,将该频繁序列确定为目标挖掘规则,该目标挖掘规则包含有相应的预设分类标签,该目标挖掘规则可以称为类序列规则。

在一些实施方式中,该对该目标词性标注序列进行挖掘,得到频繁序列以及相应的置信度,将置信度满足预设条件的频繁序列确定为目标挖掘规则的步骤,可以包括:

(1)通过频繁序列挖掘算法对该目标词性标注序列进行挖掘,得到相应的频繁序列;

(2)获取每一频繁序列中包含的预设类别标签的第一目标种类数以及预设类别标签的总种类数;

(3)根据该第一目标种类数与该总种类数的比值确定相应的第一置信度;

(4)将该第一置信度大于第一预设置信度阈值的频繁序列确定为目标挖掘规则。

其中,可以通过prefixspan算法对该目标词性标注序列进行挖掘,得到该目标标注序列相应的公共规则,如nda等,确定满足该公共规则的目标词性标注序列的数量,根据该数量与目标词性标注序列的总数量的比值确定出相应的支持率,当该支持率大于预设支持率时,将该公共规则确定为频繁序列。

进一步的,获取每一频繁序列中包含预设类别标签的第一目标种类数以及预设类别标签的总种类数,并根据该第一目标种类数与预设类别标签的总种类数确定相应的第一置信度,该第一预设置信度阈值为界定该频繁序列是否为目标挖掘规则的临界值,如0.4,当该第一置信度大于第一预设置信度阈值时,将该第一置信度相应的频繁序列确定为目标挖掘规则,该目标挖掘规则包含相应的预设类别信息,如目标挖掘规则为“#/n,&/d,*/a”。

在一些实施方式中,该通过频繁序列挖掘算法对该目标词性标注序列进行挖掘,得到相应的频繁序列的步骤,可以包括:

(1.1)根据该预设支持率和该分句数量的乘积确定相应的预设支持度;

(1.2)通过频繁序列挖掘算法挖掘该目标词性标注序列的公共规则,确定符合该公共规则的目标词性标注序列的目标数量;

(1.3)当该目标数量大于该预设支持度时,将该公共规则确定为频繁序列。

在一实施方式中,本申请实施例的预设支持率是可以变化的,该预设支持率为经过试验测试得到,比如0.01至0.1至之间,该预设支持率也可以由用户自行设置,该预设支持率越高,挖掘的精度越高,该预设支持度等于该预设支持率与该预设训练样本中分句的乘积,该预设支持度越高,该挖掘的规则的精度越高,该预设支持度越低,该挖掘的规则的精度越低,在本申请实施例中,假设该预设支持率为0.1,该预设训练样本中分句为100条,那么该预设支持度为10。

其中,根据该预设支持率和该分句数量的乘积确定相应的预设支持度之后,可以通过prefixspan算法挖掘该目标词性标注序列的公共规则,如公共规则/n,/d,/a,确定符合该公共规则的目标词性标注序列的目标数量,如20条,该目标数量大于预设支持度10,可以将该公共规则确定为频繁序列。

在步骤103中,根据目标挖掘规则对目标词性标注序列进行遍历,迭代扩充预设类别标签的挖掘词。

其中,在得到目标挖掘规则后,可以根据该目标挖掘规则对目标词性标注序列中的词性进行遍历,确定出与该目标挖掘规则的频繁序列匹配的挖掘序列,例如,当该目标挖掘规则为“#/n,&/d,*/a”时,根据该目标挖掘规则遍历出目标词性标注序列中与频繁序列“/n,/d,/a”相同的挖掘序列“/n,/d,/a”,该挖掘序列“/n,/d,/a”可以包含有预设类别标签,也可以不包含有预设类别标签。

进一步,当该挖掘序列中包含有预设类别标签时,说明该挖掘序列满足挖掘条件,可以根据目标挖掘规则对每一词性进行预设类别标定的标定规则将挖掘序列中的未标定预设类别标签的分词进行预设类别标签标定,并将该分词作为该预设类别标签的挖掘词,使得目标词性标注序列中每一预设类别标签相应的被标定的分词越来越多,进而不断的进行迭代挖掘,实现自动对目标词性标注序列中的预设类别标签和相应的挖掘词的不断扩充,节省了人工标注的时间和成本。例如,对于待训练样本中的“空气特别好,房间挺舒适”进行举例说明,假设当前的情感词类别标签中只包含“好”,属性词类别标注标签中只包含“房间”程度副词类别标签和否定词类别标签均为空,则其相应的目标词性标注序列分别为“/n,/d,*/a”与“#/n,/d,/a”,两者均包含该目标挖掘规则“#/n,&/d,*/a”的频繁序列“/n,/d,/a”,因此,该“空气特别好,房间挺舒适”相应的目标词性标注序列均为挖掘序列“/n,/d,/a”,且该“空气特别好”相应的目标词性标注序列中包含情感词类别标签(即预设类别标签),该“房间挺舒适”相应的目标词性标注序列中包含属性词标注标签(即预设类别标签)。

因此,两者均满足挖掘条件,可以根据目标挖掘规则“#/n,&/d,*/a”对名词n、副词d和形容词a的标定规则将挖掘序列“/n,/d,*/a”与“#/n,/d,/a”未标定预设类别标签的分词进行预设类别标签标定,将名词“空气”进行属性词标注,将副词“特别”进行程度副词标注,将副词“挺”进行程度副词标注,将形容词“舒适”进行情感词标注,使得属性词分类标签增加挖掘词“空气”,程度副词类别标签增加挖掘词“特别”、“挺”,情感词分类标签增加挖掘词“舒适”,并基于扩充后的分词对待训练样本继续迭代挖掘,实现每一预设类别标签相应的分词越来越多,节省人工标注的时间和成本,且可以不断的挖掘出新的词汇,实现词库的自动化扩展。

在一些实施方式中,该根据目标挖掘规则对目标词性标注序列进行遍历,迭代扩充预设类别标签的挖掘词的步骤,包括:

(1)确定该目标词性标注序列中与该目标挖掘规则的频繁序列匹配的挖掘序列;

(2)获取每一挖掘序列中包含的预设类别标签的第二目标种类数以及预设类别标签的总种类数,并根据该第二目标种类数与该总种类数的比值确定相应的第二置信度;

(3)将该第二置信度大于第二预设置信度阈值的挖掘序列确定为目标挖掘序列,并按照该目标挖掘规则对该目标挖掘序列中的分词进行预设类别标签标定,扩充预设类别标签的挖掘词;

(4)重新执行获取每一挖掘序列中包含的预设类别标签的第二目标种类数以及预设类别标签的总种类数的步骤,迭代对该目标挖掘序列中的分词进行预设类别标签标定,扩充预设类别标签的挖掘词,直至迭代次数满足预设迭代阈值。

其中,可以确定该目标词性标注序列中与该目标挖掘规则的频繁序列匹配的挖掘序列,例如当该目标挖掘规则为“#/n,&/d,*/a”,频繁序列为“/n,/d,/a”,可以确定根据该频繁序列为“/n,/d,/a”确定出每一目标词性标注序列中与该频繁序列为“/n,/d,/a”相同的挖掘序列“/n,/d,/a”。

进一步的,可以获取该每一挖掘序列中包含预设种类标标签的第二目标种类数以及预设类别标签的总种类数,该总种类数可以为4,并根据该第二目标种类数与该总种类数的比值确定相应的第二置信度,该第二预设置信度阈值为界定该挖掘序列是否可以进行扩展的临界值,当该第二置信度大于该第二预设置信度阈值时,说明该挖掘序列满足扩展条件,将该挖掘序列确定为目标挖掘序列,并按照该目标挖掘规则中对每一词性进行预设类别标签标定的标定规则对该目标挖掘序列中分词进行预设类别标签标定,实现扩充预设类别标签的挖掘词,使得该目标词性标注序列中被标定的预设类别标签和相应的挖掘词越来越多。

最后,在该目标词性标注序列的预设类别标签的挖掘词被扩充之后,该挖掘序列中包含的预设类别标签的第二目标种类数会相应的发生变化,以此,需要重新返回执行获取每一挖掘序列中包含的预设类别标签的第二目标种类数以及预设类别标签的总种类数的步骤,不断迭代对该目标挖掘序列中分词进行预设类别标签标定,并使得预设类别标签的挖掘词越来越多,直至迭代次数达到预设迭代阈值,迭代结束,只要该迭代次数足够多,该目标词性标注序列中的预设类别标签的挖掘词就会被充分地挖掘出来。

在一些实施方式中,该按照该目标挖掘规则对该目标挖掘序列中的分词进行预设类别标签标定,扩充预设类别标签的挖掘词的步骤,包括:

(1.1)获取该目标挖掘规则中对每一词性进行预设类别标签标定的标定规则;

(1.2)根据该标定规则对该目标挖掘序列中的分词按照词性进行预设类别标签标定,扩充预设类别标签的挖掘词。

其中,可以获取目标挖掘规则中对每一词性进行预设类别标签标定的标定规则,如对名词以属性词标定,对副词以程度副词标定,对形容词以情感词标注,根据该标定规则对目标挖掘序列中的不含预设类别标签的分词按照词性进行预设类别标签标定,实现扩充每一预设类别标签的挖掘词。

在步骤104中,为符合目标挖掘规则的目标词性标注序列添加分类训练标签,并提取添加分类训练标签的目标词性标注序列中的词向量和相应的权重向量。

其中,为符合目标挖掘规则的目标词性标注序列添加分类训练标签,可以保证添加分类训练标签的目标词性标注序列具有分类属性词和相应的情感分类词,可以进行训练,并提取添加分类训练标签的目标词性标注序列中每一分词的词向量和相应的权重向量。

在一实施方式中,可以通过word2vec工具得到目标词性标注序列中每一分词的词向量(wordembedding),该词向量可以很好地度量词之间的相似性。

在一实施方式中,可以通过词频-逆文件频率(termfrequency-inversedocumentfrequency,tf-idf)统计方法得到目标词性标注序列中每一分词的权重,将同一目标词性标注序列的权重合并为相应的权重向量,该每一权重可以评估一个词对于整个待训练样本的重要程度。

在步骤105中,根据词向量、权重向量以及分类训练标签对分类网络模型进行训练,得到训练后的分类网络模型,基于训练后的分类网络模型对目标词性标注序列进行分类处理。

人工智能(artificialintelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

自然语言处理(naturelanguageprocessing,nlp)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

本申请实施例提供的方案涉及人工智能的自然语言处理等技术,具体通过如下实施例进行说明:

其中,可以将通过预设神经网络提取该同一目标词性标注序列的词向量的深度特征信息,该深度特征信息相对于该初始的词向量更符合分类的要求。以此,可以将该根据词向量提取的深度特征信息与相应的权重向量进行融合,得到特征组合向量,该特征组合向量能够更好的体现出情感分类相关的信息,降低了分类网络模型的要求,在一实施方式中,该分类网络模型可以为xgboost模型等用于对情感分类的神经网络模型。

进一步的,可以将该特征组合向量作为该分类网络模型的输入,将相应的分类训练标签作为该分类网络模型的输出,实现对该分类网络模型进行训练,得到可以用于情感分类的分类网络模型,并基于该训练后的分类网络模型未包含分类训练标签的目标词性标注序列进行分类处理,由于该分类网络模型融合了权重向量,因此,该分类网络模型的分类准确度远远高于正常分类网络模型。

在一些实施方式中,该该根据该词向量、权重向量以及分类训练标签对分类网络模型进行训练,得到训练后的分类网络模型的步骤,可以包括:

(1)通过卷积神经网络模型对该词向量进行卷积处理,并在倒数第二层全连接层上拼接该权重向量,得到特征组合向量,该倒数第二层全连接层的节点个数小于预设节点阈值;

(2)将卷积神经网络模型对于特征组合向量的输出信息作为分类网络模型的输入,将相应的分类训练标签作为分类网络模型的输出,得到训练后的分类网络模型。

其中,可以通过该卷积神经网络(convolutionalneuralnetworks,cnn)对该词向量不断的进行卷积处理,随着卷积的深入,提取的词向量的特征越适合进行分类,而由于该卷积神经网络模型的倒数第二层全连接层中的特征与输出的用于分类的特征最为接近,因此,在该倒数第二层全连接层上拼接该权重向量,得到特征组合向量,为了使得该权重向量的作用不被削弱,规定该倒数第二层全连接层的节点个数小于预设节点阈值,如小于10个节点。

进一步的,将卷积神经网络模型对于特征组合向量的输出信息作为分类网络模型的输入,将相应的分类训练标签作为分类网络模型输出,根据输入输出不断对该分类网络模型中的网络参数进行调整,直至收敛,得到训练后的分类网络模型。

由上述可知,本申请实施例通过采集待训练样本进行词性标注和预设类别标签标定处理,得到相应的目标词性标注序列;对目标词性标注序列进行计算,得到频繁序列以及置信度,将置信度满足预设条件的频繁序列确定为目标挖掘规则;根据目标挖掘规则对目标词性标注序列迭代扩充预设类别标签的挖掘词;为符合目标挖掘规则的目标词性标注序列添加分类训练标签,并提取添加分类训练标签的目标词性标注序列中的词向量和权重向量;根据词向量、权重向量以及分类训练标签对分类网络模型进行训练,得到训练后的分类网络模型对目标词性标注序列进行分类处理。以此,对待训练样本中的分词进行预设类别标签的迭代标定,实现预设类别标签的挖掘词的不断扩充,并且将词向量和相应的权重向量进行融合对分类网络模型进行训练,使得训练后的分类网络模型的情感分类的准确性更高,极大的提升了数据处理的效率,进而提升了情感分析挖掘的效率。

实施例二、

根据实施例一所描述的方法,以下将举例作进一步详细说明。

在本实施例中,将该数据处理方法以执行主体为服务器为例进行说明。

请参阅图3,图3为本申请实施例提供的数据处理方法的另一流程示意图。

该方法流程可以包括:

在步骤201中,服务器采集待训练样本,对待训练样本进行分句、分词和词性标注操作,得到相应的词性标注序列,获取预设类别标签的挖掘词,并确定词性标注序列中的挖掘词,为词性标注序列中的挖掘词标定相应的预设类别标签,得到相应的目标词性标注序列。

其中,该服务器可以通过网络从其他样本服务器中爬取多个待训练样本,为了更好的说明本实施例,该待训练样本以为消费评论进行说明,如某一消费评论为“房间很舒服,服务很好,价格不便宜”。

进一步的,需要对该消费评论进行分句、分词和词性标注操作,的得到相应的词性标注序列“房间/n,很/d,舒服/a,|,服务/n,很/d,好/a,|,价格/n,不/d,便宜/a”。获取预设类别标签的挖掘词,该预设类别标签可以为包括四种,如属性词标签、程度副词标签、否定词标签以及情感词标签,分别简略对应于#、&、!和*。该属性词标签该属性词标签可以包括初始挖掘词“房间”、“服务”、“价格”,该程度副词标签可以包括初始挖掘词“很”,该否定词标签中可以包括初始挖掘词“不”,该情感词标签可以包括初始挖掘词“舒服”、“好”、“便宜”。

然后,基于该预设标签的挖掘词确定词性标注序列中的挖掘词,并为该词性标注序列中的挖掘词标定相应的预设类别标签,得到目标词性标注序列“#/n,&/d,*/a,|,#/n,&/d,*/a,|,#/n,!/d,*/a”。

在步骤202中,服务器获取预设支持率和待训练样本的分句数量,根据预设支持率和分句数量的乘积确定相应的预设支持度,通过频繁序列挖掘算法挖掘目标词性标注序列的公共规则,确定符合公共规则的目标词性标注序列的目标数量,当目标数量大于预设支持度时,将公共规则确定为频繁序列。

其中,该预设支持率为0.1,该待训练样本的分句数量为200条,根据预设支持率和分句数量的乘积确定相应的预设支持度为20,通过该prefixspan算法挖掘该200条的目标词性标注序列的公共规则,如确定公共规则为“/n,/d,/a”,并确定在该200条的目标词性标注序列中符合该公共规则的目标词性标注序列的目标数量,如符合该公共规则“/n,/d,/a”的目标数量为30条,那么目标数量30大于20,即目标数量大于预设支持度,将该公共规则确定为频繁序列。

在步骤203中,服务器获取每一频繁序列中包含的预设类别标签的第一目标种类数以及预设类别标签的总种类数,根据第一目标种类数与总种类数的比值确定相应的第一置信度,将第一置信度大于第一预设置信度阈值的频繁序列确定为目标挖掘规则。

其中,服务器获取该频繁序列“/n,/d,/a”中包含的预设类别标签的第一目标种类数,假设该频繁系列“/n,/d,/a”包含3个预设类别标签即#、&和*时,该第一目标种类数即为3,而该预设类别标签的总种类数为4,根据该第一目标种类数3与总种类数4的比值确定相应的第一置信度为0.75,假设该第一预设置信度阈值为0.4,即说明该频繁序列中包含的预设类别标签的第一目标种类数至少为2,即0.5,而本申请实施例的第一置信度为0.75,大于第一预设置信度阈值,将该频繁序列和相应的预设类别标签确定为目标挖掘规则,即“#/n,&/d,*/a”。

在步骤204中,服务器确定目标词性标注序列中与目标挖掘规则的频繁序列匹配的挖掘序列,获取每一挖掘序列中包含的预设类别标签的第二目标种类数以及预设类别标签的总种类数,并根据第二目标种类数与总种类数的比值确定相应的第二置信度。

其中,服务器确定该200条目标词性标注序列中与目标挖掘规则的频繁序列“/n,/d,/a”相同的挖掘序列“/n,/d,/a”,该挖掘序列中可能不包含预设类别标签,可能包含一个预设类别标签,可能包含两个预设类别标签,也可能包含三个预设类别标签,例如,待训练样本为“这个酒店的位置很近,空气特别好,房间挺舒适”,相应的目标词性标注序列为“/r,/n,/u,/n,&/d,/a,|,/n,/d,*/a,|,#/n,/d,/a”,服务器确定目标词性标注序列中与目标挖掘规则的频繁序列“/n,/d,/a”相同的挖掘序列“/n,/d,/a”,该三个挖掘序列的第二目标种类数均为1,相应的第二置信度均为0.25。

在步骤205中,服务器将第二置信度大于第二预设置信度阈值的挖掘序列确定为目标挖掘序列,并获取目标挖掘规则中对每一词性进行预设类别标签标定的标定规则,根据标定规则对目标挖掘序列中的分词按照词性进行预设类别标签标定,扩充预设类别标签的挖掘词。

其中,该第二预设置信度阈值为界定该挖掘序列是否可以进行扩展的临界值,如0.1,即该挖掘序列中出现一个预设类别标签时,即可以认为该第二置信度大于第二预设置信度阈值,将该挖掘序列确定为目标挖掘序列,如上述三个挖掘序列“/n,&/d,/a,|,/n,/d,*/a,|,#/n,/d,/a”的第二置信度0.25均大于第二预设置信度阈值,将该三个挖掘序列均确定为目标挖掘序列。

进一步的,获取目标挖掘规则中对每一词性进行预设类别标签标定的标定规则,如在本申请实施例中为对对名词以属性词标定,对副词以程度副词标定,对形容词以情感词标注,以此,根据该标定规则对三个目标挖掘序列“/n,&/d,/a,|,/n,/d,*/a,|,#/n,/d,/a”中的分词按照词性进行预设类别标签标定,扩充预设类别标签的挖掘词,扩充后的四个预设类别标签的挖掘词分别为:

属性词标签(#),房间、服务、价格、位置和空气

程度副词标签(&),很、特别、挺

否定词标签(!),不

情感词标签(*),舒服、好、便宜、近、舒适。

以此,可以看出,该四个预设类别标签的挖掘词越来越多。

在步骤206中,服务器检测迭代次数是否满足预设迭代阈值。

其中,在四个预设类别标签的挖掘词被扩充之后,挖掘序列中包含的预设类别标签的第二目标种类数会相应的发生变化,因此,可以设定相应的预设迭代阈值不断的挖掘四个预设类别标签的挖掘词,当服务器检测迭代次数不满足预设迭代阈值时,返回执行步骤204,不断的进行迭代挖掘,使得四个预设类别标签的挖掘词被充分的挖掘。当服务器检测迭代次数满足预设迭代阈值时,执行步骤207。

在步骤207中,服务器为符合目标挖掘规则的目标词性标注序列添加分类训练标签。

其中,服务器为符合目标挖掘规则“#/n,&/d,*/a”的目标词性标注序列添加分类训练标签,该分类训练标签可以为-1(贬义)、0(中性)和1(褒义),且该目标挖掘规则保证了添加分类训练标签的目标词性标注序列既有属性词(评定对象)和情感词(情感打分依据),如舒服的分类训练标签为1,该添加分类训练标签的动作可以为人工标注,也可以根据知网中对于一些特定情感词的标定自动生成相应的分类训练标签。

在步骤208中,服务器通过词向量计算工具确定添加分类训练标签的目标词性标注序列的词向量。

其中,服务器通过word2vec工具得到目标词性标注序列中每一分词的词向量(wordembedding),该词向量也成为词嵌入向量,可以设定为100维。

在步骤209中,服务器获取添加分类训练标签的目标词性标注序列中目标分词的出现次数,并获取待训练样本中出现的总词数,根据目标分词的出现次数与总词数的比值确定相应的词频信息。

其中,服务器获取该分类训练标签的目标词性标注序列中目标分词的出现次数,如“房间”在200个目标词性标注序列中出现的次数,并获取200个目标词性标注序列中出现的总词数,根据目标分词的出现次数与总词数的比值确定相应的词频信息。

在步骤210中,服务器获取待训练样本中的总样本数量,并获取包含目标分词的目标样本数量,计算总样本数量与目标样本数量的目标比值,并计算目标比值的对数,得到相应的逆文档频率,将词频信息乘以逆文档频率得到目标分词的权重,将同一目标词性标注序列中的分词相应的权重组合,生成权重向量。

其中,服务器获取待训练样本中的总样本数量,该总样本数量为所有消费评论的数量,并获取包含目标分词的目标样本数量,即包含“房间”的消费评论数量,计算该所有消费评论的数量与该包含“房间”的消费评论数量的目标比值,并计算该目标比值的对象,得到相应的逆文档频率,将该词频信息乘以逆文档频率得到目标分词的权重,并依次将同一目标词性标注序列中的分词的权重进行组合,生成多维度的权重向量,该维度由该目标词性标注序列中的分词数决定。

在步骤211中,服务器通过卷积神经网络模型对词向量进行卷积处理,并在倒数第二层全连接层上拼接权重向量,得到特征组合向量。

其中,如图4所示,服务器将词嵌入向量输入卷积神经网络中,通过卷积层和池化层不断抽取该词嵌入向量的深层特征信息,由于该最后一层为输出成,节点个数为分类标签个数,即3个,因此,该倒数第二层全连接层中深层特征信息与实际分类特征最接近,所以可以将权重向量与该卷积神经网络模型在倒数第二层全连接层上进行拼接,并设定该倒数第二层全连接层的节点个数小于10个,使得该权重向量可以占据更大的权重,以此,拼接得到特征组合向量。

在步骤212中,服务器将卷积神经网络模型对于特征组合向量的输出信息作为分类网络模型的输入,将相应的分类训练标签作为分类网络模型的输出,得到训练后的分类网络模型,基于训练后的分类网络模型对目标词性标注序列进行分类处理。

其中,服务器将卷积神经网络模型对于特征组合向量的输出信息作为分类网络模型的输入,将相应的分类训练标签作为该分类网络模型的输出,根据输入输出之间的关系,不断的对该分类网络模型中的网络参数进行调整,直至收敛,得到训练后的分类网络模型,该训练后的分类网络模型还可以实现对于前述未被自动标注分类训练标签的符合目标挖掘规则的目标词性标注序列进行分类处理,实现半监督式分类,极大的提升了对消费评论的情感分析挖掘的效率。

由上述可知,本申请实施例通过采集待训练样本进行词性标注和预设类别标签标定处理,得到相应的目标词性标注序列;对目标词性标注序列进行计算,得到频繁序列以及置信度,将置信度满足预设条件的频繁序列确定为目标挖掘规则;根据目标挖掘规则对目标词性标注序列迭代扩充预设类别标签的挖掘词;为符合目标挖掘规则的目标词性标注序列添加分类训练标签,并提取添加分类训练标签的目标词性标注序列中的词向量和权重向量;根据词向量、权重向量以及分类训练标签对分类网络模型进行训练,得到训练后的分类网络模型对目标词性标注序列进行分类处理。以此,对待训练样本中的分词进行预设类别标签的迭代标定,实现预设类别标签的挖掘词的不断扩充,并且将词向量和相应的权重向量进行融合对分类网络模型进行训练,使得训练后的分类网络模型的情感分类的准确性更高,极大的提升了数据处理的效率,进而提升了情感分析挖掘的效率。

实施例三、

为便于更好的实施本申请实施例提供的数据处理方法,本申请实施例还提供一种基于上述数据处理方法的装置。其中名词的含义与上述数据处理方法中相同,具体实现细节可以参考方法实施例中的说明。

请参阅图5a,图5a为本申请实施例提供的数据处理装置的结构示意图,其中该数据处理装置可以包括采集单元301、确定单元302、扩充单元303、提取单元304及分类单元305等。

采集单元301,用于采集待训练样本,并对该待训练样本进行词性标注和预设类别标签标定处理,得到相应的目标词性标注序列。

在一些实施方式中,该采集单元301,用于:对该待训练样本进行分句、分词和词性标注操作,得到相应的词性标注序列;获取预设类别标签的挖掘词,并确定该词性标注序列中的挖掘词;为该词性标注序列中的挖掘词标定相应的预设类别标签,得到相应的目标词性标注序列。

确定单元302,用于对该目标词性标注序列进行计算,得到频繁序列以及相应的置信度,将置信度满足预设条件的频繁序列确定为目标挖掘规则。

在一些实施方式中,如图5b所示,确定单元302,包括:

挖掘子单元3021,用于通过频繁序列挖掘算法对该目标词性标注序列进行挖掘,得到相应的频繁序列;

获取子单元3022,用于获取每一频繁序列中包含的预设类别标签的第一目标种类数以及预设类别标签的总种类数;

第一确定子单元3023,用于根据该第一目标种类数与该总种类数的比值确定相应的第一置信度;

第二确定子单元3024,用于将该第一置信度大于第一预设置信度阈值的频繁序列确定为目标挖掘规则。

在一些实施方式中,该挖掘子单元3021,用于获取预设支持率和该待训练样本的分句数量;根据该预设支持率和该分句数量的乘积确定相应的预设支持度;通过频繁序列挖掘算法挖掘该目标词性标注序列的公共规则,确定符合该公共规则的目标词性标注序列的目标数量;当该目标数量大于该预设支持度时,将该公共规则确定为频繁序列。

扩充单元303,用于根据该目标挖掘规则对该目标词性标注序列进行遍历,迭代扩充预设类别标签的挖掘词。

在一些实施方式中,如图5c所示,扩充单元303,包括:

第一确定子单元3031,用于确定该目标词性标注序列中与该目标挖掘规则的频繁序列匹配的挖掘序列;

第二确定子单元3032,用于获取每一挖掘序列中包含的预设类别标签的第二目标种类数以及预设类别标签的总种类数,并根据该第二目标种类数与该总种类数的比值确定相应的第二置信度;

扩充子单元3033,用于将该第二置信度大于第二预设置信度阈值的挖掘序列确定为目标挖掘序列,并按照该目标挖掘规则对该目标挖掘序列中的分词进行预设类别标签标定,扩充预设类别标签的挖掘词;

迭代子单元3034,用于重新执行获取每一挖掘序列中包含的预设类别标签的第二目标种类数以及预设类别标签的总种类数,迭代对该目标挖掘序列中的分词进行预设类别标签标定,扩充预设类别标签的挖掘词,直至迭代次数满足预设迭代阈值。

在一些实施方式中,该扩充子单元3033,用于:将该第二置信度大于第二预设置信度阈值的挖掘序列确定为目标挖掘序列,并获取该目标挖掘规则中对每一词性进行预设类别标签标定的标定规则;根据该标定规则对该目标挖掘序列中的分词按照词性进行预设类别标签标定,扩充预设类别标签的挖掘词。

提取单元304,用于为符合目标挖掘规则的目标词性标注序列添加分类训练标签,并提取添加分类训练标签的目标词性标注序列中的词向量和相应的权重向量。

在一些实施方式中,如图5d所示,该提取单元304,包括:

添加子单元3041,用于为符合目标挖掘规则的目标词性标注序列添加分类训练标签;

确定子单元3042,用于通过词向量计算工具确定该添加分类训练标签的目标词性标注序列的词向量;

计算子单元3043,用于通过词频逆文件频率算法计算添加分类训练标签的目标词性标注序列的权重向量。

在一些实施方式中,该计算子单元3043,用于:获取添加分类训练标签的目标词性标注序列中目标分词的出现次数,并获取该待训练样本中出现的总词数;根据目标分词的出现次数与总词数的比值确定相应的词频信息;获取待训练样本中的总样本数量,并获取包含目标分词的目标样本数量;计算该总样本数量与目标样本数量的目标比值,并计算该目标比值的对数,得到相应的逆文档频率;将该词频信息乘以逆文档频率得到目标分词的权重,将同一目标词性标注序列中的分词相应的权重组合,生成权重向量。

分类单元305,用于根据该词向量、权重向量以及分类训练标签对分类网络模型进行训练,得到训练后的分类网络模型,基于训练后的分类网络模型对目标词性标注序列进行分类处理。

在一些实施方式中,该分类单元305,用于通过卷积神经网络模型对该词向量进行卷积处理,并在倒数第二层全连接层上拼接该权重向量,得到特征组合向量,该倒数第二层全连接层的节点个数小于预设节点阈值;将卷积神经网络模型对于特征组合向量的输出信息作为分类网络模型的输入,将相应的分类训练标签作为分类网络模型的输出,得到训练后的分类网络模型;基于训练后的分类网络模型对目标词性标注序列进行分类处理。

以上各个单元的具体实施可参见前面的实施例,在此不再赘述。

由上述可知,本申请实施例通过采集单元301通过采集待训练样本进行词性标注和预设类别标签标定处理,得到相应的目标词性标注序列;确定单元302对目标词性标注序列进行计算,得到频繁序列以及置信度,将置信度满足预设条件的频繁序列确定为目标挖掘规则;扩充单元303根据目标挖掘规则对目标词性标注序列迭代扩充预设类别标签的挖掘词;提取单元304为符合目标挖掘规则的目标词性标注序列添加分类训练标签,并提取添加分类训练标签的目标词性标注序列中的词向量和权重向量;分类单元305根据词向量、权重向量以及分类训练标签对分类网络模型进行训练,得到训练后的分类网络模型对目标词性标注序列进行分类处理。以此,对待训练样本中的分词进行预设类别标签的迭代标定,实现预设类别标签的挖掘词的不断扩充,并且将词向量和相应的权重向量进行融合对分类网络模型进行训练,使得训练后的分类网络模型的情感分类的准确性更高,极大的提升了数据处理的效率,进而提升了情感分析挖掘的效率。

实施例四、

本申请实施例还提供一种服务器,如图6所示,其示出了本申请实施例所涉及的服务器的结构示意图,具体来讲:

该服务器可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图6中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

其中:

处理器401是该服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行服务器的各种功能和处理数据,从而对服务器进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。

服务器还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该服务器还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出,服务器还可以包括显示单元等,在此不再赘述。具体在本实施例中,服务器中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:

采集待训练样本,并对待训练样本进行词性标注和预设类别标签标定处理,得到相应的目标词性标注序列;对目标词性标注序列进行计算,得到频繁序列以及相应的置信度,将置信度满足预设条件的频繁序列确定为目标挖掘规则;根据目标挖掘规则对目标词性标注序列进行遍历,迭代扩充预设类别标签的挖掘词;为符合目标挖掘规则的目标词性标注序列添加分类训练标签,并提取添加分类训练标签的目标词性标注序列中的词向量和相应的权重向量;根据词向量、权重向量以及分类训练标签对分类网络模型进行训练,得到训练后的分类网络模型,基于训练后的分类网络模型对目标词性标注序列进行分类处理。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对数据处理方法的详细描述,此处不再赘述。

由上述可知,本申请实施例的服务器可以通过采集待训练样本进行词性标注和预设类别标签标定处理,得到相应的目标词性标注序列;对目标词性标注序列进行计算,得到频繁序列以及置信度,将置信度满足预设条件的频繁序列确定为目标挖掘规则;根据目标挖掘规则对目标词性标注序列迭代扩充预设类别标签的挖掘词;为符合目标挖掘规则的目标词性标注序列添加分类训练标签,并提取添加分类训练标签的目标词性标注序列中的词向量和权重向量;根据词向量、权重向量以及分类训练标签对分类网络模型进行训练,得到训练后的分类网络模型对目标词性标注序列进行分类处理。以此,对待训练样本中的分词进行预设类别标签的迭代标定,实现预设类别标签的挖掘词的不断扩充,并且将词向量和相应的权重向量进行融合对分类网络模型进行训练,使得训练后的分类网络模型的情感分类的准确性更高,极大的提升了数据处理的效率,进而提升了情感分析挖掘的效率。

实施例五、

本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于计算机可读存储介质中,并由处理器进行加载和执行。

为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种数据处理方法中的步骤。例如,该指令可以执行如下步骤:

采集待训练样本,并对待训练样本进行词性标注和预设类别标签标定处理,得到相应的目标词性标注序列;对目标词性标注序列进行计算,得到频繁序列以及相应的置信度,将置信度满足预设条件的频繁序列确定为目标挖掘规则;根据目标挖掘规则对目标词性标注序列进行遍历,迭代扩充预设类别标签的挖掘词;为符合目标挖掘规则的目标词性标注序列添加分类训练标签,并提取添加分类训练标签的目标词性标注序列中的词向量和相应的权重向量;根据词向量、权重向量以及分类训练标签对分类网络模型进行训练,得到训练后的分类网络模型,基于训练后的分类网络模型对目标词性标注序列进行分类处理。

以上各个操作的具体实施可参见前面的实施例,在此不再赘述。

其中,该计算机可读存储介质可以包括:只读存储器(rom,readonlymemory)、随机存取记忆体(ram,randomaccessmemory)、磁盘或光盘等。

由于该计算机可读存储介质中所存储的指令,可以执行本申请实施例所提供的任一种数据处理方法中的步骤,因此,可以实现本申请实施例所提供的任一种数据处理方法所能实现的有益效果,详见前面的实施例,在此不再赘述。

以上对本申请实施例所提供的一种数据处理方法、装置及计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1