数据监控方法、装置、设备及计算机可读存储介质与流程

文档序号:19947736发布日期:2020-02-18 09:43阅读:157来源:国知局
数据监控方法、装置、设备及计算机可读存储介质与流程

本发明涉及金融科技(fintech)技术领域,尤其涉及一种数据监控方法、装置、设备及计算机可读存储介质。



背景技术:

随着计算机技术的发展,越来越多的技术(大数据、分布式、区块链blockchain、人工智能等)应用在金融领域,传统金融业正在逐步向金融科技(fintech)转变,但由于金融行业的安全性、实时性要求,也对技术提出了更高的要求。

随着移动互联网技术的快速发展和普及,网络信息已经成为人们生活中必不可少的一部分,越来越多的人开始在网上发表自己的观点和评论。这些观点和评论或讨论企业的文化、企业未来的前景,或针对产品的使用体验、感受以及一些改进建议。而企业方为了能够健康长久的发展下去,也需要不断监控采集用户的反馈数据,进而对反馈数据进行分析处理,以根据用户的反馈数据不断的改进和提升自己。

目前,做零售经营的小微企业可以通过一些点评网站来收集用户的评论反馈;网店可以在其对应的电商平台中浏览用户的产品反馈;但是对于更多中大型的企业而言,并没有一个很好的平台能够收集用户的评论。这些企业通常在发布一个产品或者举办一场活动后,通过发布线上问卷、论坛发帖、或者建立用户群的方式收集用户的评论反馈数据。但通过上述方式监控用户的反馈数据时,通常需要人工进行收集和整理,较为耗时、数据监控效率较低,同时人工分析监控数据的标准不统一,导致数据监控结果的准确性较差。



技术实现要素:

本发明的主要目的在于提供一种数据监控方法、装置、设备及计算机可读存储介质,旨在解决现有技术中数据监控效率较低、数据监控结果的准确性较差的问题。

为实现上述目的,本发明提供一种数据监控方法,所述数据监控方法包括:

获取源数据,对所述源数据进行筛选,得到第一监控数据;

对所述第一监控数据中的语句进行抽取,得到目标语句;

对所述目标语句中的信息进行抽取,得到目标信息;

对所述目标信息进行分析统计,生成对应的数据监控结果。

可选地,所述对所述第一监控数据中的语句进行抽取,得到目标语句的步骤包括:

对所述第一监控数据进行分句处理,得到分句语句;

对所述分句语句进行分词处理和词性标注,并根据分词处理结果和词性标注结果删除词性为预设词性的分词,得到所述分句语句对应的分词列表;

基于所述分词列表计算得到所述分句语句的第一句向量,将所述第一句向量输入至第一预设分类模型,得到第一分类结果;

根据所述第一分类结果对所述分句语句进行抽取,得到目标语句。

可选地,所述基于所述分词列表计算得到所述分句语句的第一句向量的步骤包括:

通过预设长度的窗口依次圈选所述分词列表中的分词,得到对应的词组列表;

获取所述词组列表的各词组中各分词的第一词向量,并根据所述第一词向量和预设公式计算得到所述词组列表中各词组的词组向量;

按向量维度对所述词组向量进行加和处理,得到分句语句的第一句向量。

可选地,所述对所述第一监控数据进行分句处理,得到分句语句的步骤之前,还包括:

对所述第一监控数据进行预处理,得到第二监控数据;

所述对所述第一监控数据进行分句处理,得到分句语句的步骤包括:

对所述第二监控数据进行分句处理,得到分句语句。

可选地,所述目标信息包括第一目标信息和第二目标信息,所述对所述目标语句中的信息进行抽取,得到目标信息的步骤包括:

将所述目标语句输入至预设信息分类模型,得到信息分类结果;

根据所述信息分类结果和预设分类标注词,得到所述第一目标信息;

计算所述目标语句的第二句向量,将所述第二句向量输入第二预设分类模型,得到第二分类结果;

根据所述第二分类结果得到所述第二目标信息。

可选地,所述将所述目标语句输入至预设信息分类模型,得到信息分类结果的步骤之前,还包括:

获取训练样本,其中,所述训练样本包括人工批注;

通过所述训练样本对预设神经网络模型进行训练,得到预设信息分类模型;

其中,所述预设神经网络模型依次包括输入层、双向lstm层和crf层;其中,

所述输入层,用于接收训练样本;

所述双向ltsm层,用于对输入的训练样本进行处理,输出训练样本被标记为各预设分类标注词的概率值;

所述crf层,用于基于所述概率值输出训练样本的标注结果。

可选地,所述对所述源数据进行筛选,得到第一监控数据的步骤包括:

采用预设正则匹配式对所述源数据进行匹配,得到匹配结果;

根据所述匹配结果对所述源数据进行筛选,得到第一监控数据。

可选地,所述对所述第一监控数据中的语句进行抽取,得到目标语句的步骤之前,还包括:

对所述第一监控数据进行切词处理,得到切词文档;

将所述切词文档输入至预设词向量模型,得到所述切词文档中各切词的第二词向量,并根据所述第二词向量得到所述第一监控数据对应的文档向量;

将所述文档向量输入第三预设分类模型中,得到第三分类结果,并基于所述第三分类结果对所述第一监控数据进行过滤处理;

所述对所述第一监控数据中的语句进行抽取,得到目标语句的步骤包括:

对经过滤处理的第一监控数据中的语句进行抽取,得到目标语句。

此外,为实现上述目的,本发明还提供一种数据监控装置,所述数据监控装置包括:

数据筛选模块,用于获取源数据,对所述源数据进行筛选,得到第一监控数据;

第一抽取模块,用于对所述第一监控数据中的语句进行抽取,得到目标语句;

第二抽取模块,用于对所述目标语句中的信息进行抽取,得到目标信息;

分析统计模块,用于对所述目标信息进行分析统计,生成对应的数据监控结果。

此外,为实现上述目的,本发明还提供一种数据监控设备,所述数据监控设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据监控程序,所述数据监控程序被所述处理器执行时实现如上所述的数据监控方法的步骤。

此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有数据监控程序,所述数据监控程序被处理器执行时实现如上所述的数据监控方法的步骤。

本发明提供一种数据监控方法、装置、设备及计算机可读存储介质,通过获取源数据,并对源数据进行筛选,得到第一监控数据;对第一监控数据中的语句进行抽取,得到目标语句;然后,对目标语句中的信息进行抽取,得到目标信息;进而对目标信息进行分析统计,生成对应的数据监控结果。通过上述方式,可自动获取源数据,进而抽取出其中的目标信息,并进行统计分析,从可实现数据的智能监控,相比于现有技术中通过人工收集、整理的方式来监控数据,本发明可提高数据监控效率,提高数据监控结果的准确性。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图;

图2为本发明数据监控方法第一实施例的流程示意图;

图3为本发明数据监控装置第一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

参照图1,图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图。

本发明实施例数据监控设备可以是智能手机,也可以是pc(personalcomputer,个人计算机)、平板电脑、便携计算机等终端设备。

如图1所示,该数据监控设备可以包括:处理器1001,例如cpu,通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解,图1中示出的数据监控设备结构并不构成对数据监控设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及数据监控程序。

在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端,与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的数据监控程序,并执行以下数据监控方法的各个步骤。

基于上述硬件结构,提出本发明数据监控方法的各实施例。

本发明提供一种数据监控方法。

参照图2,图2为本发明数据监控方法第一实施例的流程示意图。

在本实施例中,该数据监控方法包括:

步骤s10,获取源数据,对所述源数据进行筛选,得到第一监控数据;

本实施例的数据监控方法是由数据监控设备实现的,该设备以服务器为例进行说明。首先,获取源数据,其中,源数据可以为互联网上的新闻数据、论坛评论数据等,可以通过预设接口定时(如每隔一小时)获取源数据。然后,对源数据进行筛选,得到第一监控数据。在本实施例中,以企业从新闻数据中监控获取对应评论信息的应用场景为例进行说明。

其中,步骤“对所述源数据进行筛选,得到第一监控数据”包括:

步骤a1,采用预设正则匹配式对所述源数据进行匹配,得到匹配结果;

步骤a2,根据所述匹配结果对所述源数据进行筛选,得到第一监控数据。

对于源数据的筛选,可以采用正则匹配的方式进行筛选,具体的,先采用预设正则匹配式对源数据进行匹配,得到匹配结果。例如,为获取某一企业的评论数据,可以先整理一份和企业相关的关键词集合,包括但不限于企业全称、企业简称、所有产品/品牌的名称,然后基于企业关键词生成对应的预设正则匹配式,进而采用预设正则匹配式对源数据进行匹配,通过正则匹配的方式来检查源数据中是否包含企业的全称,或者包含企业简称,或者包含至少一个产品/品牌名称,进而得到匹配结果。

然后,根据匹配结果对源数据进行筛选,得到第一监控数据。其中,第一监控数据即为待分析企业相关的新闻数据,根据匹配结果保留包括企业关键词的新闻数据,得到第一监控数据。

步骤s20,对所述第一监控数据中的语句进行抽取,得到目标语句;

然后,对第一监控数据中的语句进行抽取,得到目标语句。具体的,对第一监控数据进行分句处理,得到分句语句;对分句语句进行分词处理和词性标注,并根据分词处理结果和词性标注结果删除词性为预设词性的分词,得到分句语句对应的分词列表;基于分词列表计算得到分句语句的第一句向量,将第一句向量输入至第一预设分类模型,得到第一分类结果;根据第一分类结果对分句语句进行抽取,得到目标语句。目标语句的具体抽取过程可参照下述第二实施例,此处不作赘述。例如,以企业从新闻数据中监控获取对应评论信息为例,目标语句可以为第一监控数据中的评论句,进而进一步从评论语句中抽取得到目标信息,如评论人、评论主体、评论主题、评论内容、评论情感等。

步骤s30,对所述目标语句中的信息进行抽取,得到目标信息;

进而,对目标语句中的信息进行抽取,得到目标信息。具体的,将目标语句输入至预设信息分类模型,得到信息分类结果;根据信息分类结果和预设分类标注词,得到第一目标信息;计算目标语句的第二句向量,将第二句向量输入第二预设分类模型,得到第二分类结果;根据第二分类结果得到第二目标信息。目标信息的具体抽取过程可参照下述第三实施例,此处不作赘述。

步骤s40,对所述目标信息进行分析统计,生成对应的数据监控结果。

在得到目标信息之后,可以对目标信息进行分析统计,生成对应的数据监控结果。当然,除对目标信息进行分析统计外,还可以获取到目标信息的来源信息,上述例中,目标信息的来源信息可以包括但不限于新闻id(编号)、新闻发布源、新闻发布时间等,目标信息包括评论人、评论主体、评论主题、评论内容、评论情感,在进行分析统计时,可以对每一个评论主体的全部评论信息,按照评论主题进行聚类,展示评论次数最多的top10(前10)的评论人、评论内容以及评论情感,进而生成数据监控结果,通过查看该数据监控结果,可便于业务人员分析企业/产品/品牌在社会上的口碑情况以及大众的情感趋势。若某个时间出现了大量的负面评论,业务人员也可以及时发现,并以此为依据迅速对产品缺陷或业务方向做出正确的调整,改善大众口碑。

本发明实施例提供一种数据监控方法,通过获取源数据,并对源数据进行筛选,得到第一监控数据;对第一监控数据中的语句进行抽取,得到目标语句;然后,对目标语句中的信息进行抽取,得到目标信息;进而对目标信息进行分析统计,生成对应的数据监控结果。通过上述方式,可自动获取源数据,进而抽取出其中的目标信息,并进行统计分析,从而可实现数据的智能监控,相比于现有技术中通过人工收集、整理的方式来监控数据,本发明实施例可提高数据监控效率,提高数据监控结果的准确性。

进一步地,基于上述第一实施例,提出本发明数据监控方法的第二实施例。

在本实施例中,步骤s20包括:

步骤b1,对所述第一监控数据进行分句处理,得到分句语句;

在本实施例中,在筛选得到第一监控数据之后,先对第一监控数据进行分句处理,得到分句语句。具体的,可以按照标点符号“。”、“?”、“?”、“!”、“!”将第一监控数据中的各新闻正文切分成句子列表。进一步的,为便于后续的分析,可以限定每个分句语句的最大长度为50个字符,在切分之后,如果切分得到的语句长度超出50个字符,则可以根据其他标点符号,如“,”、“、”、“;”等,将较长的语句截断为多个分句语句,或者根据字符长度进行截断,如各隔预设个数的字符(如20-50个)进行一次截断。

步骤b2,对所述分句语句进行分词处理和词性标注,并根据分词处理结果和词性标注结果删除词性为预设词性的分词,得到所述分句语句对应的分词列表;

然后,对分句语句进行分词处理和词性标注,并根据分词处理结果和词性标注结果删除词性为预设词性的分词,得到分句语句对应的分词列表。具体的,可以通过结巴分词工具进行分词处理及词性标注,预设词性可以包括词性标注为介词、连词、助词和非语素字,在分词处理和词性标注后,可以得到各分句语句的分词序列及各分词的词性标注,进而将词性为预设词性的分词删除后,即可得到每个分句语句的分词列表。例如,某一分句语句为“人民日报编辑某先生认为,aa银行在员工福利方面做得很出色,让员工有一种家的感觉。”在分词处理和词性标注后的结果为“人民日报\nz编辑\n某\r先生\n认为\v,\xaa\n银行\n在\p员工福利\n方面\n做得\v很\d出色\v,\x让\v员工\n有\v一种\m家\n的\u感觉\n。\x”,其中,nz表示其他专名,n表示名词,r表示代词,v表示动词,x表示非语素字,p表示介词,d表示副词,m表示数词,u表示助词,在删除预设词性的分词后,可得到最终的分词列表为[“人民日报”,“编辑”,“某”,“先生”,“认为”,“aa”,“银行”,“员工福利”,“方面”,“做得”,“很”,“出色”,“让”,“员工”,“有”,“一种”,“家”,“感觉”]。

步骤b3,基于所述分词列表计算得到所述分句语句的第一句向量,将所述第一句向量输入至第一预设分类模型,得到第一分类结果;

在得到分句语句对应的分词列表之后,基于分词列表计算得到分句语句的第一句向量。其中,步骤“基于所述分词列表计算得到所述分句语句的第一句向量”包括:

步骤b31,通过预设长度的窗口依次圈选所述分词列表中的分词,得到对应的词组列表;

步骤b32,获取所述词组列表的各词组中各分词的第一词向量,并根据所述第一词向量和预设公式计算得到所述词组列表中各词组的词组向量;

步骤b33,按向量维度对所述词组向量进行加和处理,得到分句语句的第一句向量。

第一句向量的获取过称为:1)先通过预设长度的窗口依次圈选分词列表中的分词,得到对应的词组列表;其中,预设长度可以设定3个字符长度,当然,也可以根据实际情况进行设定,此处不作为对本发明的限定。例如,在采用长度为3个字符的窗口对依次圈选上述例中的分词列表中的分词后,可以得到词组列表如下:[[“人民日报”,“编辑”,“某”],[“编辑”,“某”,“先生”],[“某”,“先生”,“认为”],[先生”,“认为”,“微众”],[认为”,“微众”,“银行”],[“微众”,“银行”,“员工福利”],[“银行”,“员工福利”,“方面”],[“员工福利”,“方面”,“做得”],[“方面”,“做得”,“很”],[“做得”,“很”,“出色”],[“很”,“出色”,“让”],[“出色”,“让”,“员工”],[“让”,“员工”,“有”],[“员工”,“有”,“一种”],[“有”,“一种”,“家”],[“一种”,“家”,“感觉”]]。2)获取词组列表的各词组中各分词的第一词向量,并根据第一词向量和预设公式计算得到词组列表中各词组的词组向量。其中,第一词向量可以是通过预设词向量模型(如word2vec,wordtovector,用来产生词向量的相关模型)计算得到的每个分词的200维词向量,预设公式可以设为y=0.2x1+0.3x2+0.5x3,其中x1,x2,x3分别表示词组中的第1,2,3个词的第一词向量,y即为词组的词组向量。3)按向量维度对词组向量进行加和处理,得到分句语句的第一句向量。

通过上述方式计算各分句语句的第一句向量,相比于通过单个词的方式来获取句向量(即对所有词的词向量直接求和得到句向量),可以在保留每个分词上下文的同时简化计算量,方便每天处理千万级的新闻量。例如,“企业a起诉企业b”和“企业b起诉企业a”,直接通过词向量求和得到的句向量是完全一致的,而通过上述词组的方式得到句向量,就能保留更多的语义信息。

在得到第一句向量之后,将第一句向量输入至第一预设分类模型,得到第一分类结果。其中,第一预设分类模型的类型可以为神经网络模型、xgboost(extremegradientboosting,极端梯度增强)模型,svm(supportvectormachine,支持向量机)模型,贝叶斯模型和cnn(convolutionalneuralnetworks,卷积神经网络)模型。优选地,可预先构建一神经网络模型,其从左到右依次为输入层,隐藏层和输出层。输入层共200个神经元节点(与上述第一句向量的维度一致),隐藏层也是200个神经元节点,输出层为softmax(柔性最大值传输函数)层,共2个神经元节点,对应2个类别(属于“评论句”和不属于“评论句”),三个层之间均为全连接结构,所有神经元节点使用的激活函数为relu(rectifiedlinearunit,线性整流)函数。然后,人工标注5万条属于评论句的样本和5万条不属于评论句的样本,对10万条样本分别计算句向量;然后将这10万条句向量随机分为三份,7万句向量作为训练集,2万句向量作为测试集,1万句向量作为验证集,并以此训练该神经网络模型,得到第一预设分类模型。具体的训练过程可参照下述第二预设分类模型。

步骤b4,根据所述第一分类结果对所述分句语句进行抽取,得到目标语句。

在将第一句向量输入至第一预设分类模型,得到第一分类结果之后,根据第一分类结果对分句语句进行抽取,得到目标语句。其中,第一分类结果即为第一句向量是否属于评论句,根据第一分类结果可抽取出属于评论句的语句,记为目标语句。

通过上述方式,可从第一监控数据中初步筛选得到目标类型的语句(即目标语句),进而便于后续从目标语句中抽取出目标信息。

进一步地,为提高目标语句抽取的准确性,在上述第二实施例的步骤b1之前,还可以包括:

步骤b5,对所述第一监控数据进行预处理,得到第二监控数据;

此时,步骤b1包括:

对所述第二监控数据进行分句处理,得到分句语句。

在本实施例中,由于第一监控数据中的某些内容会影响分句和分词效果,例如,html(hypertextmarkuplanguage,超级文本标记语言)标签、颜文字表情,因此,可以在分句处理之前,先对第一监控数据进行预处理,以删除其中的html、颜文字表情等可能影响后续目标语句抽取结果的内容,进而得到第二监控数据。其中,预处理也可以采用正则匹配的方式进行删除过滤。

在预处理得到第二监控数据之后,对第二监控数据进行分句处理,得到分句语句,进而继续执行后续过程,可参照对应实施例,此处不作赘述。

通过上述方式,对第一监控数据进行预处理,以删除第一监控数据中会影响目标语句抽取结果的内容,从而可提高目标语句抽取结果的准确性,进而提高数据监控结果的准确性。

进一步地,基于上述第一实施例,提出本发明数据监控方法的第三实施例。

在本实施例中,所述目标信息包括第一目标信息和第二目标信息,步骤s30包括:

步骤c1,将所述目标语句输入至预设信息分类模型,得到信息分类结果;

步骤c2,根据所述信息分类结果和预设分类标注词,得到所述第一目标信息;

在本实施例中,目标信息可以包括第一目标信息和第二目标信息,以企业从新闻数据中监控获取对应评论信息的应用场景为例,第一目标信息可以包括评论人、评论主体、评论主题和评论内容,第二目标信息可以包括评论情感,其中评论情感可以包括负面、较负面、中性、较正面和正面5类。

第一目标信息的获取过程如下:1)将目标语句输入至预设信息分类模型,得到信息分类结果。第一目标信息是从目标语句中抽取具体的信息,可抽象为一个序列标注的问题,例如,用“b-per”表示评论人的首字符,“e-per”表示评论人的尾字符,“b-ent”表示评论主体的首字符,“e-ent”表示评论主体的尾字符,“b-sub”表示评论主题的首字符,“e-sub”表示评论主题的尾字符,“b-con”表示评论内容的首字符,“e-con”表示评论内容的尾字符,“o”表示其他字符,以此对评论句“人民日报编辑某先生认为,微众银行在员工福利方面做得很出色,让员工有一种家的感觉。”进行标注,其中,信息标注的过程可以借助预设信息分类模型(为预先训练好的)来完成,其中,预设信息分类模型的训练过程可参照下述实施方式,对应的,可得到信息分类结果为“人\b-per民\o日\o报\o编\o辑\o某\o先\o生\e-per认\o为\o,\o微\b-ent众\o银\o行\e-ent在\o员\e-sub工\o福\o利\e-sub方\o面\o做\b-con得\o很\o出\o色\o,\o让\o员\o工\o有\o一\o种\o家\o的\o感\o觉\e-con。\o”。2)根据信息分类结果和预设分类标注词,得到第一目标信息,对应的,b-per和e-per,b-ent和e-ent,b-sub和e-sub,b-con和e-con之间的字符串分别表示评论人、评论主体、评论主题和评论内容,上述例中,可得到评论人为“人民日报编辑某先生”、评论主体为“aa银行”、评论主题为“员工福利”、评论内容为“做得很出色,让员工有一种家的感觉”。

步骤c3,计算所述目标语句的第二句向量,将所述第二句向量输入第二预设分类模型,得到第二分类结果;

步骤c4,根据所述第二分类结果得到所述第二目标信息。

第二目标信息的获取过程为:先计算目标语句的第二句向量,将第二句向量输入第二预设分类模型,得到第二分类结果,然后根据第二分类结果得到所述第二目标信息。

其中,第二句向量与第一句向量的计算方式相同,由于在抽取目标语句的过程中,已计算得到的各分句语句的第一句向量,即包括目标语句的句向量,因此也可以直接从第一句向量中获取得到目标语句的第二句向量。需要说明的是,“第一句向量”和“第二句向量”中的“第一”和“第二”仅起区分作用,无实质含义。

第二预设分类模型的类型可以为神经网络模型、xgboost模型,svm模型,贝叶斯模型和cnn模型。优选地,可预先构建一神经网络模型,输入层共200个神经元节点(与第二句向量维度一致),隐藏层也是200个神经元节点,输出层为softmax层,共5个神经元节点,对应5个评论情感类别,三个层之间均为全连接结构,所有神经元节点使用的激活函数为relu函数。然后,人工标注2万条属于负面情感的样本、2万条属于较负面情感的样本、2万条属于中性情感的样本、2万条属于较正面情感的样本、2万条属于正面情感的样本,对10万条样本分别计算句向量;然后将这10万条句向量随机分为三份,7万句向量作为训练集,2万句向量作为测试集,1万句向量作为验证集,并以此训练该神经网络模型,得到第二预设分类模型。

具体的,神经网络模型中包含两类参数,一类是模型的超参数,比如神经网络隐含层的层数,各隐含层的节点数量等;另一类是网络模型输入层、隐含层和输出层各节点的权重参数、偏移参数。下面介绍如何通过标注数据训练得到这两类参数。这里的隐含层设定为1层,仅训练隐含层中的节点数量。训练过程为:a)首先将10万条标注样本分别计算句向量;然后将这10万条句向量随机分为三份,7万句向量作为训练集,2万句向量作为测试集,1万句向量作为验证集。b)设定神经网络模型隐含层的节点数量为100,接下来将训练集中的标注样本,逐条输入网络模型,计算交叉熵损失函数值,并通过后向反馈来调节模型各层各节点的权重与偏移参数。当训练集中所有的样本都进行过一次计算后,称为一轮训练结束,保存当前的模型,并用测试集来测试当前模型的准确率。c)重复步骤b,进行多轮的模型训练。当连续两轮训练得到的模型在测试集上的准确率差值小于10的-6次方,或者进行了1000轮模型训练后,停止模型训练。取测试集上准确率最高的那个模型作为当前超参数设置(隐含层节点100个)下的最优模型,用验证集来验证这个最优模型的准确率。d)将网络模型隐含层的节点数量依次设定为110,120,130,…,290,300,重复步骤b和c,得到对应隐含层节点数量设置下的最优模型,并在验证集上求得各模型的准确率。e)取步骤d中准确率最高的模型作为最终的模型,即第二预设分类模型。

进一步地,在上述步骤c1之前,还包括:

步骤c5,获取训练样本,其中,所述训练样本包括人工批注;

步骤c6,通过所述训练样本对预设神经网络模型进行训练,得到预设信息分类模型;

其中,所述预设神经网络模型依次包括输入层、双向lstm层和crf层;其中,

所述输入层,用于接收训练样本;

所述双向ltsm层,用于对输入的训练样本进行处理,输出训练样本被标记为各预设分类标注词的概率值;

所述crf层,用于基于所述概率值输出训练样本的标注结果。

本实施例中介绍了预设信息分类模型的训练过程,具体的,可以先获取训练样本,其中,训练样本是经人工批注的,批注方式可参照上述实施例中的信息分类结果,训练样本的数量也可以为5万条样本数据。然后,通过训练样本对预设神经网络模型进行训练,得到预设信息分类模型,其中,预设神经网络模型从下到上分别为输入层,双向lstm(longshorttermmemory,长短时记忆网络)层和crf(conditionalrandomfield,条件随机场)层。其中网络的输入为每条评论句中各个字符的字向量(由word2vec工具提前训练得到),按照顺序依次输入网络。输入的字向量首先会经过双向lstm神经元节点的处理,输出是对应字符被标记为b-per、e-per、b-ent、e-ent、b-sub、e-sub、b-con、e-con和o的概率值。双向lstm神经元节点的输出会作为crf层的输入被进一步处理,网络最终的输出就是原评论句中每个字符的标注结果。

进一步的,基于上述各实施例,提出本发明数据监控方法的第四实施例。

在本实施例中,在步骤s20之前,该数据监控方法还包括:

步骤a,对所述第一监控数据进行切词处理,得到切词文档;

在本实施例中,由于第一监控数据中某些数据虽然包括企业的关键词,但是并不一定包含目标信息,例如,以“微众银行”为例,在对源数据进行筛选后保留下的新闻会包含诸如“微众银行笔试题目详解”,“如何提高微众银行的微粒贷产品额度”等新闻数据。这些新闻和企业口碑、产品口碑、品牌口碑(即目标信息)是完全无关的。为了不影响后续处理过程,提高数据监控结果的准确性,故在得到第一监控数据后,可以先将这些无用的垃圾新闻过滤掉。

具体的,可以先对第一监控数据进行切词处理,得到切词文档;其中,切词处理可采用预设的工具,如中科院nlpir、哈工大ltp、结巴分词等。具体的切词过程与现有技术相一致,此处不作赘述。

步骤b,将所述切词文档输入至预设词向量模型,得到所述切词文档中各切词的第二词向量,并根据所述第二词向量得到所述第一监控数据对应的文档向量;

然后,将切词文档输入至预设词向量模型,得到切词文档中各切词的第二词向量,并根据第二词向量得到第一监控数据对应的文档向量;其中,预设词向量模型可选地为word2vec(wordtovector,用来产生词向量的相关模型),word2vec将每一个中文词汇映射为一个高维向量(通常取200维向量),且对于任意两个中文词汇,语义上越相近,映射后得到的向量距离也越近。因此可以根据词向量之间的距离来描述中文词汇的语义相似性。对于文档向量的获取,是对第二词向量按对应向量维度进行相加,即可得到对应的文档向量。

步骤c,将所述文档向量输入第三预设分类模型中,得到第三分类结果,并基于所述第三分类结果对所述第一监控数据进行过滤处理;

将文档向量输入第三预设分类模型中,得到第三分类结果,并基于第三分类结果对第一监控数据进行过滤处理。其中,第三预设分类模型的类型可以为xgboost分类模型、svm模型,贝叶斯模型和cnn模型,第三预设分类模型用于检测是否属于垃圾数据,进而根据第三分类结果,对第一监控数据中属于垃圾数据的数据进行过滤处理。

对于第三预设分类模型的训练过程如下(以源数据为新闻为例):1)预先对垃圾新闻进行定义,如下表1,表1中所列举的低质新闻,广告新闻,提问式新闻,招聘新闻,小说片段,散文片段以及无意义文本,均与后续的口碑分析无关,所以会被作为垃圾新闻过滤掉。2)根据表1中对垃圾新闻的定义,由人工标注5万篇垃圾新闻以及5万篇非垃圾新闻,然后将这10万篇新闻正文依次进行切词处理,并通过word2vec模型得到其文档向量,最后利用上述10万个文档向量训练一个xgboost分类模型。

表1垃圾新闻定义表

此时,步骤s20包括:对经过滤处理的第一监控数据中的语句进行抽取,得到目标语句。

在对第一监控数据进行过滤处理后,对经过滤处理的第一监控数据中的语句进行抽取,得到目标语句,进而继续执行后续步骤,具体的执行过程可参照上述对应实施例,此处不再赘述。

通过上述方式,对第一监控数据中的垃圾数据进行过滤,可进一步提高数据监测结果的准确性。

本发明还提供一种数据监控装置。

参照图3,图3为本发明数据监控装置第一实施例的功能模块示意图。

如图3所示,所述数据监控装置包括:

数据筛选模块10,用于获取源数据,对所述源数据进行筛选,得到第一监控数据;

第一抽取模块20,用于对所述第一监控数据中的语句进行抽取,得到目标语句;

第二抽取模块30,用于对所述目标语句中的信息进行抽取,得到目标信息;

分析统计模块40,用于对所述目标信息进行分析统计,生成对应的数据监控结果。

进一步地,所述第一抽取模块20包括:

第一处理单元,用于对所述第一监控数据进行分句处理,得到分句语句;

第二处理单元,用于对所述分句语句进行分词处理和词性标注,并根据分词处理结果和词性标注结果删除词性为预设词性的分词,得到所述分句语句对应的分词列表;

第一计算单元,用于基于所述分词列表计算得到所述分句语句的第一句向量,将所述第一句向量输入至第一预设分类模型,得到第一分类结果;

第一抽取单元,用于根据所述第一分类结果对所述分句语句进行抽取,得到目标语句。

进一步地,所述第一计算单元具体用于:

通过预设长度的窗口依次圈选所述分词列表中的分词,得到对应的词组列表;

获取所述词组列表的各词组中各分词的第一词向量,并根据所述第一词向量和预设公式计算得到所述词组列表中各词组的词组向量;

按向量维度对所述词组向量进行加和处理,得到分句语句的第一句向量。

进一步地,所述第一抽取模块20还包括:

第三处理单元,用于对所述第一监控数据进行预处理,得到第二监控数据;

所述第一处理单元具体用于:对所述第二监控数据进行分句处理,得到分句语句。

进一步地,所述目标信息包括第一目标信息和第二目标信息,所述第二抽取模块30包括:

第一获取单元,用于将所述目标语句输入至预设信息分类模型,得到信息分类结果;

第二获取单元,用于根据所述信息分类结果和预设分类标注词,得到所述第一目标信息;

第二计算单元,用于计算所述目标语句的第二句向量,将所述第二句向量输入第二预设分类模型,得到第二分类结果;

第四获取单元,用于根据所述第二分类结果得到所述第二目标信息。

进一步地,所述第二抽取模块30还包括:

第五获取单元,用于获取训练样本,其中,所述训练样本包括人工批注;

模型训练单元,用于通过所述训练样本对预设神经网络模型进行训练,得到预设信息分类模型;

其中,所述预设神经网络模型依次包括输入层、双向lstm层和crf层;其中,所述输入层,用于接收训练样本;所述双向ltsm层,用于对输入的训练样本进行处理,输出训练样本被标记为各预设分类标注词的概率值;所述crf层,用于基于所述概率值输出训练样本的标注结果。

进一步地,所述数据筛选模块10包括:

数据匹配单元,用于采用预设正则匹配式对所述源数据进行匹配,得到匹配结果;

数据筛选单元,用于根据所述匹配结果对所述源数据进行筛选,得到第一监控数据。

进一步地,所述数据监控装置还包括:

切词模块,用于对所述第一监控数据进行切词处理,得到切词文档;

向量获取模块,用于将所述切词文档输入至预设词向量模型,得到所述切词文档中各切词的第二词向量,并根据所述第二词向量得到所述第一监控数据对应的文档向量;

数据过滤模块,用于将所述文档向量输入第三预设分类模型中,得到第三分类结果,并基于所述第三分类结果对所述第一监控数据进行过滤处理;

所述第一抽取模块10具体用于:对经过滤处理的第一监控数据中的语句进行抽取,得到目标语句。

其中,上述数据监控装置中各个模块的功能实现与上述数据监控方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。

本发明还提供一种计算机可读存储介质,该计算机可读存储介质上存储有数据监控程序,所述数据监控程序被处理器执行时实现如以上任一项实施例所述的数据监控方法的步骤。

本发明计算机可读存储介质的具体实施例与上述数据监控方法各实施例基本相同,在此不作赘述。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1