本发明涉及互联网技术领域,特别涉及一种评论数据处理方法、装置及设备。
背景技术:
随着互联网技术的高速发展,网络已经成为人们生活中必不可少的部分,用户可直接通过互联网完成各种社会活动,比如通过互联网购物、预定酒店、机票、餐厅等等。
目前,用户在通过互联网处理购物、预定酒店等事情时,除了关心商品本身的描述信息之外,还会关注商品的评论信息,并根据商品的评论信息判断该商品的质量好坏,是否值得购买等等。其中,商品的评论信息都是由购买过该商品的消费者发表的,以将商品的质量、性价等信息进行分析,从而帮助其它要购买该商品的用户,更好的了解该商品的性价比。在实际应用中,由于互联网用户的数量巨大,从而使得商品的评论数量也非常多,这就导致用户不能从大量的评论中,快速找到优质的信息。对此,在相关技术中,大多数会通过人工标注的方式,将商品的精华评论进行标注,以使用户可以快速的从大量的评论数据中,获取到需要的信息。
但是,上述人工标注的方式,容易受到标注人员的主观性影响,使得精华评论标注准确性较低,并且在评论数量较多时,人工标注的方式耗时长,且成本高。
技术实现要素:
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种评论数据处理方法,该方法实现了根据评论数据的可信度及评论数据对应用户的可信度,对评论数据进行自动识别,不仅提高了对评论数据识别的准确性,而且提高了对评论数据识别的处理速度,降低了对评论数据处理的成本,为向用户提供可靠的评论数据提供了保障。
本发明的第二个目的在于提出一种评论数据处理装置。
本发明的第三个目的在于提出一种计算机设备。
本发明的第四个目的在于提出一种计算机可读存储介质。
为达上述目的,本发明第一方面实施例提出了一种评论数据处理方法,该方法包括:获取待处理的目标评论数据及所述目标评论数据对应的用户信息;根据所述用户信息,确定所述用户的可信度;对所述目标评论数据进行识别处理,确定所述目标评论数据的可信度;根据所述用户的可信度及所述目标评论数据的可信度,确定所述目标评论数据所属的类型。
本发明实施例提供的评论数据处理方法,首先获取待处理的目标评论数据及目标评论数据对应的用户信息,以根据用户信息,确定用户的可信度,并且对获取的目标评论数据进行识别处理,以确定目标评论数据的可信度,进而根据用户的可信度及目标评论数据的可信度,确定目标评论数据所属的类型。由此,实现了根据评论数据的可信度及评论数据对应用户的可信度,对评论数据进行自动识别,不仅提高了对评论数据识别的准确性,而且提高了对评论数据识别的处理速度,降低了对评论数据处理的成本,为向用户提供可靠的评论数据提供了保障。
另外,本发明上述实施例提出的评论数据处理方法还可以具有如下附加的技术特征:
可选的,在本发明的一个实施例中,所述确定所述用户的可信度,包括:基于所述用户信息,利用预设的用户评价模型,确定所述用户的可信度;或者,根据预设的用户信息与可信度的映射关系,确定与所述用户信息对应的用户可信度。
可选的,在本发明的另一个实施例中,所述确定所述目标评论数据的可信度,包括:对所述目标评论数据进行预处理,确定所述目标评论数据对应的特征信息,所述特征信息包括:包含的字符数量、图片数量、情感词数量、所述目标评论数据的转移概率和/或所述目标评论数据与已知评论数据的相似度;根据所述目标评论数据对应的特征信息,确定所述目标评论数据的可信度。
可选的,在本发明的另一个实施例中,确定所述目标评论数据与已知评论数据的相似度,包括:利用Simhash算法,从已知评论数据中抽取与所述目标评论数据相似的各评论数据;分别确定所述目标评论数据与所述相似的各评论数据间的各相似度;所述确定所述目标评论数据的可信度,包括:根据所述目标评论数据与相似的各评论数据间的最大相似度,确定所述目标评论数据的可信度。
可选的,在本发明的另一个实施例中,确定所述目标评论数据的转移概率之前,还包括:对评论样本数据库中的样本数据进行解析处理,确定词状态转移矩阵;所述确定目标评论数据的转移概率,包括:将所述目标评论数据进行分词,确定所述目标评论数据中包括的各词单元;根据所述词状态转移矩阵,确定所述目标评论数据中各词单元间的转移概率;根据所述目标评论数据中各词单元间的转移概率,确定所述目标评论数据的转移概率。
可选的,在本发明的另一个实施例中,所述确定所述目标评论数据所属的类型,包括:利用预设的分类模型,对所述用户的可信度及所述目标评论数据的可信度进行分类处理,确定所述目标评论数据所属的类型。
可选的,在本发明的另一个实施例中,所述确定所述目标评论数据所属的类型之后,还包括:获取修正指令,所述修正指令用于指示对所述目标评论数据所属的类型进行修正,所述修正指令中包括所述目标评论数据修正后的类型;根据所述目标评论数据修正后的类型及所述目标评论数据,对所述分类模型进行更新。
为达上述目的,本发明第二方面实施例提出了一种评论数据处理装置,该装置包括:获取模块,用于获取待处理的目标评论数据及所述目标评论数据对应的用户信息;第一确定模块,用于根据所述用户信息,确定所述用户的可信度;第二确定模块,用于对所述目标评论数据进行识别处理,确定所述目标评论数据的可信度;第三确定模块,用于根据所述用户的可信度及所述目标评论数据的可信度,确定所述目标评论数据所属的类型。
本发明实施例提供的评论数据处理装置,首先获取待处理的目标评论数据及目标评论数据对应的用户信息,以根据用户信息,确定用户的可信度,并且对获取的目标评论数据进行识别处理,以确定目标评论数据的可信度,进而根据用户的可信度及目标评论数据的可信度,确定目标评论数据所属的类型。由此,实现了根据评论数据的可信度及评论数据对应用户的可信度,对评论数据进行自动识别,不仅提高了对评论数据识别的准确性,而且提高了对评论数据识别的处理速度,降低了对评论数据处理的成本,为向用户提供可靠的评论数据提供了保障。
为达上述目的,本发明第三方面实施例提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,以实现第一方面实施例所述的评论数据处理方法。
本发明实施例提供的计算机设备,首先获取待处理的目标评论数据及目标评论数据对应的用户信息,以根据用户信息,确定用户的可信度,并且对获取的目标评论数据进行识别处理,以确定目标评论数据的可信度,进而根据用户的可信度及目标评论数据的可信度,确定目标评论数据所属的类型。由此,实现了根据评论数据的可信度及评论数据对应用户的可信度,对评论数据进行自动识别,不仅提高了对评论数据识别的准确性,而且提高了对评论数据识别的处理速度,降低了对评论数据处理的成本,为向用户提供可靠的评论数据提供了保障。
为达上述目的,本发明的第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时,以实现第一方面实施例所述的评论数据处理方法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明一个实施例的评论数据处理方法的流程示意图;
图2为本发明一个实施例的确定目标评论数据对应的目标评论数据与已知评论数据的相似度的流程示意图;
图3为本发明一个实施例的确定目标评论数据对应特征信息中,目标评论数据的转移概率的流程示意图;
图4为本发明另一个实施例的评论数据处理方法的流程示意图;
图5为本发明一个实施例的评论数据处理装置的结构示意图;
图6为本发明一个实施例的计算机设备的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
本发明中各实施例主要针对现有技术中,为了帮助用户可以快速的从大量评论数据中,获取到优质信息,通常通过人工标注的方式,将商品的精华评论进行标注,这不仅容易受到标注人员的主观性影响,使得精华评论标注准确性较低,并且在评论数量较多时,人工标注的方式耗时长,且成本高的问题,提出了一种评论数据处理方法。
本发明提出的评论数据处理方法,通过获取待处理的目标评论数据及目标评论数据对应的用户信息,以根据获取的目标评论数据对应的用户信息,确定用户的可信度,并对获取的待处理的目标评论数据进行识别处理,确定目标评论数据的可信度,然后根据用户的可信度及目标评论数据的可信对,对目标评述数据所属类型进行确定。由此,实现了根据评论数据的可信度及评论数据对应用户的可信度,对评论数据进行自动识别,不仅提高了对评论数据识别的准确性,而且提高了对评论数据识别的处理速度,降低了对评论数据处理的成本,为向用户提供可靠的评论数据提供了保障。
下面参考附图描述本发明实施例的评论数据处理方法、装置及设备。
首先结合附图1,对本发明实施例提供的评论数据处理方法进行具体说明。
图1为本发明一个实施例的评论数据处理方法的流程示意图。
如图1所示,本发明的评论数据处理方法可以包括以下步骤:
步骤101,获取待处理的目标评论数据及目标评论数据对应的用户信息。
其中,在本实施例中,目标评论数据可以是用户发表的包含任意内容的评论信息。例如,可以是对商品的评论信息,对影视内容的评论信息,对于文章的评论信息等等。比如,“电影很感人”、“使用很流畅”等,此处不作具体限定。
具体的,本发明实施例提供的评论数据处理方法,可以由本发明提供的评论数据处理装置执行,且该装置配置于本发明的计算机设备中,以实现对评论数据的处理过程进行控制。其中,计算机设备可以是任意具有数据处理功能的设备,比如,智能手机、电脑,个人数字助理等等,本实施例对此不作具体限定。
具体实现时,本实施例可通过从评论接收服务器中,获取待处理的目标评论数据及目标评论数据对应的用户信息,或者也可以通过其它方式,获取待处理的目标评论数据及目标评论数据对应的用户信息等等,此处不作具体限定。
需要说明的是,在本实施例中,用户信息可以包括用户的个人信息以及用户的历史数据。其中,用户的个人信息可以是用户的帐号、手机号码、地址信息等等,用户的历史数据可以包括历史浏览信息、发表过的评论数据等等。
步骤102,根据用户信息,确定用户的可信度。
具体的,在获取到待处理的目标评论数据及目标评论数据对应的用户信息后,评论数据处理装置可对目标评论数据对应的用户信息进行分析,以确定用户的可信度。
具体实现时,可通过以下方式对用户的可信度进行确定。举例说明如下:
第一种实现方式:
基于用户信息,利用预设的用户评价模型,确定用户的可信度。
其中,预设的用户评价模型可以是基于大量的样本数据训练生成的,此处对其不作具体限定。
具体实现时,可将获取的用户信息作为输入数据输入至预设的用户评价模型中,以使预设的用户评价模型利用训练时确定的权重值,对用户信息进行识别处理,得到用户的可信度。
例如,利用大量的用户信息组成的样本,对神经网络进行训练后,即可得到确定用户可信度的神经网络(即预设的用户评价模型),之后,该用户评价模型获取用户信息后,即可根据训练阶段确定的各权重值对用户信息进行识别处理,从而得到用户的可信度。
另外一种实现方式:
根据预设的用户信息与可信度的映射关系,确定与用户信息对应的用户可信度。
其中,预设的用户信息与可信度的映射关系可以是根据实际使用情况进行适应性设置,本实施例对此不作具体限定。
具体的,若获取的用户信息数据量较少时,为了提高确定用户可信度的速度,本实施例可以根据用户信息,从预设的信息与可信度的映射关系中,直接获取用户的可信度,从而有效减少确定用户可信度的花费时间。
需要说明的是,上述两种确定用户的可信度方式仅作为对本实施例的示例,不作为对本实施例的具体限定。
举例来说,若获取的用户是A应用的用户,那么评论数据处理装置根据获取的用户信息,对用户的可信度进行确定时,具体可包括:首先对用户信息进行分析处理得到包括:用户的个人信息数据、用户的历史评论数据以及用户的历史曝光数据的三个维度信息,然后对上述三个维度信息进行进一步的分析处理得到对应的21个特征,并且在得到上述21个特征后,利用Z-score标准化方法对上述21个特征进行归一化处理,然后使用德尔菲法(也称为:专家调查法)确定权重,从而使得评论数据处理装置根据确定的权重,对用户的可信度进行确定。
在本实施例中,使用德尔菲法确定权重的具体过程包括:对于使用的21个特征,若选择10个专家对每个特征进行打分,比如分数分别为:a1、a2、a3….a10,那么就可以依次确定出每个特征的权重为:其中,i代表第i个特征。
其中,根据用户的个人信息数据、用户的历史评论数据以及用户的历史曝光数据,确定的21个特征具体包括:用户历史评论数据所包括的13个特征,例如:用户的评论总数、删除的评论数、展现评论数、隐藏评论数、加精评论数、发表的评论中包含的图片数、评论被识别为水军评论等;用户的历史曝光数据所包括的4个特征,例如:用户的曝光总数、删除曝光数、通过曝光数、驳回曝光数。其中,曝光是指用户通过手机号认证后,对商家信息的曝光数据,且曝光需要提供截图等证据。用户的个人信息所包括的4个特征,例如:用户截至到目前为止累计总口碑币数、兑换口碑币、是否有手机号码和用户在口碑的签到天数。其中,口碑币是用户在口碑进行操作时,口碑系统给予用户的一种激励。上述手机号码具体是指用户在A应用上进行注册时填写的手机号码。
步骤103,对目标评论数据进行识别处理,确定目标评论数据的可信度。
具体的,在获取到待处理的目标评论数据之后,评论数据处理装置可对目标评论数据进行识别处理,以确定目标评论数据的可信度。
具体实现时,评论数据处理装置可通过对目标评论数据进行预处理,确定目标评论数据对应的特征信息,然后根据目标评论数据对应的特征信息,确定目标评论数据的可信度。其中,目标评论数据对应的特征信息可包括:包含的字符数量、图片数量、情感词数量、目标评论数据的转移概率和/或目标评论数据与已知评论数据的相似度。
其中,本实施例对目标评论数据进行预处理,确定目标评论数据包含的字符数量和图片数量,可以通过预设的规则得到。例如,确定目标评论数据包含的字符数量,可以根据文本长度直接进行计算。
具体的,可以提前设置字符数量阈值及图片数量阈值等。从而在对评论数据进行识别时,可以判断识别到的评论数据中包括的字符数量是否大于阈值,及图片数量是否大于阈值等,来判断评论数据是否为精华评论数据。
另外,目标评论数据包含的情感词数量,是指目标评论数据中包含的正向或负向的感情词的个数。
具体实现时,评论数据处理装置可以通过判断目标评论数据中包含的词,与预设的情感词库是否匹配,来确定目标评论数据中包含的情感词数量。
其中,预设的情感词库可以是评论数据处理装置通过以下方式生成的。首先从互联网上获取正向或者负向的情感词,然后使用word2vec得到情感词词语义相近的词作为情感词的扩充。比如,首先从互联网上获取情感词的词向量,以及从样本数据库中获取样本数据的情感词单元,然后使用余弦定理计算上述词的语义相似度,并将语义相似度大于0.9的词单元,作为情感词的扩充,从而形成最终的情感词库。
另外,对于确定目标评论数据对应的特征信息中,目标评论数据的转移概率,目标评论数据与已知评论数据的相似度,将在下面的示例中进行详细描述,在此不对其进行过多赘述。
可以理解的是,本实施例中确定的目标评论数据对应的特征信息,可以包括:包含的字符数量、图片数量、情感词数量、目标评论数据的转移概率;或者,也可以包括:包含的字符数量、图片数量、情感词数量、目标评论数据与已知评论数据的相似度;或者,还可以包括:包含的字符数量、图片数量、情感词数量、目标评论数据的转移概率以及目标评论数据与已知评论数据的相似度等等,此处对其不作具体限定。
需要说明的是,在本实施例中,执行步骤102和步骤103时,可以是先执行步骤102,然后再执行步骤103;或者,也可以是先执行步骤103,然后再执行步骤102;又或者,也可以是同时执行,本实施例对此不作具体限定。
步骤104,根据用户的可信度及目标评论数据的可信度,确定目标评论数据所属的类型。
具体的,当确定出用户的可信度及目标评论数据的可信度之后,评论数据处理装置可根据上述用户的可信度及目标评论数据的可信度,对目标评论数据所属类型进行确定。
具体实现时,可利用预设的分类模型,对用户的可信度及目标评论数据的可信度进行分类处理,以确定目标评论所属的类型。其中,目标评论所属的类型可以包括:优质类、普通类等。
其中,本实施例中预设的分类模型,可以是通过大量的样本数据训练生成的。
也就是说,本实施例通过将用户的可信度及目标评论数据的可信度输入至预设的分类模型中,以使上述分类模型根据训练阶段确定的权重值,对用户的可信度及目标评论数据的可信度进行分类处理,确定出目标评论所属的类型。
可以理解的是,本实施例通过根据用户的可信度及目标评论数据的可信度,共同对目标评论数据的所属类型进行确定,不仅能够提高对精华评论的识别准确度,而且还能有效降低人工识别所花费的成本,改善了用户体验。
进一步的,为了实现对目标评论数据整体结构进行分析,并在一定程度上防止对评论数据的过度拟合,且计算相对简单的目的,本实施例可使用逻辑回归模型对目标评论数据所属类型进行确定。
此外,本实施例在使用逻辑回归对目标评论数据所属类型进行确定时,可以使用两层逻辑回归模型对目标评论数据所属类型进行确定,以进一步节省对精华评论标注所消耗的人力。
具体在使用两层逻辑回归模型,对目标评论数据所属类型进行确定时,可以将第一层逻辑回归模型的准确率设置为较高,比如95%,以将与目标评论数据相差较大的类型进行滤除,然后设置第二层逻辑回归模型时,在保证召回率的前提下,将可能的提高准确率,从而实现了对目标评论数据所属类型的进行两次确定,从而保证了对目标评论数据所属类型的识别具有较高的准确性。
其中,在本实施例中,第一层逻辑回归模型对目标评论数据所属类型的识别无需经过人工判断,从而有效提升了对目标评论数据所属类型确定的效率。
本发明实施例提供的评论数据处理方法,首先获取待处理的目标评论数据及目标评论数据对应的用户信息,以根据用户信息,确定用户的可信度,并且对获取的目标评论数据进行识别处理,以确定目标评论数据的可信度,进而根据用户的可信度及目标评论数据的可信度,确定目标评论数据所属的类型。由此,实现了根据评论数据的可信度及评论数据对应用户的可信度,对评论数据进行自动识别,不仅提高了对评论数据识别的准确性,而且提高了对评论数据识别的处理速度,降低了对评论数据处理的成本,为向用户提供可靠的评论数据提供了保障。
为了更清楚的对本申请提供的评论数据处理方法进行说明,下面结合图2和图3,对评论数据处理方法中对目标评论数据对应的特征信息:目标评论数据的转移概率及目标评论数据与已知评论数据的相似度的确定过程进行详细说明:
首先结合图2,对确定目标评论数据对应的特征信息中,目标评论数据与已知评论数据的相似度进行具体说明。
如图2所示,确定目标评论数据对应的目标评论数据与已知评论数据的相似度可包括以下步骤:
步骤201,利用Simhash算法,从已知评论数据中抽取与目标评论数据相似的各评论数据。
步骤202,分别确定目标评论数据与相似的各评论数据间的各相似度。
其中,已知评论数据具体是指已确定评论数据所属类型的评论数据。
具体的,为了提高对目标评论数据的处理速度,本实施例在获取到目标评论数据之后,评论数据处理装置可先根据目标评论数据,利用Simhash算法从已知评论数据中抽取与目标评论数据具有相似性的多个评论数据,然后再利用余弦相似度,计算目标评论数据与相似的各评论数据间的各相似度。
也就是说,本实施例通过利用Simhash算法将目标评论数据与已知评论数据间的相似性进行大致确定,以将与目标评论数据不具有相似性的已知评论数据进行排除,然后利用准确性较高的余弦相似度对剩余与目标评论数据相似的已知评论数据,以及目标评论数据间的相似度进行计算,以计算出与目标评论数据具有最大相似度的已知评论数据,从而实现对目标评论数据与已知评论数据的相似度的快速计算。
在本发明的一个实施例中,在确定出目标评论数据与已知评论数据的相似度之后,本发明的评论数据处理装置,在确定目标评论数据的可信度时,还包括:
根据目标评论数据与相似的各评论数据间的最大相似度,确定目标评论数据的可信度。
也就是说,当确定出目标评论与相似的各评论数据间的相似度之后,评论数据处理装置可从多个相似度中,选择出最大的相似度,从而根据最大的相似度,对目标评论数据的可信度进行准确确定。
下面结合图3,对确定目标评论数据对应的特征信息中,目标评论数据的转移概率进行具体说明:
如图3所示,确定目标评论数据对应的特征信息中,目标评论数据的转移概率可包括以下步骤:
步骤301,将目标评论数据进行分词,确定目标评论数据中包括的各词单元。
具体的,为了能够提高确定目标评论数据的转移概率的速度,本实施例在执行步骤301之前,评论数据处理装置可先对评论样本数据库中的样本数据进行解析处理,以确定词状态转移矩阵。
具体实现时,可先从样本库数据库中选取大量的样本数据,比如500万个样本数据,并对上述500万的样本数据进行basic粒度的切词,以得到样本数据包括的各词单元,然后对上述样本数据包括的各词单元进行词转移矩阵的计算。其中,本实施例中确定的词状态转移矩阵包括词与词之间的概率值。
也就是说,本实施例基于词状态转移矩阵,可以确定评论数据中每个词,后面可能出现哪些词的转移概率。例如,在“服务”这个词后面,可能出现“好”、“不错”、“不好”、“质量”等词的概率。
进一步的,在确定出词状态转移矩阵之后,评论数据处理装置可基于字符串匹配的分词方法,或者基于理解的分词方法,又或者基于统计的分词方法,将目标评论数据进行分词,以确定目标评论数据中包括的各词单元。
步骤302,根据词状态转移矩阵,确定目标评论数据中各词单元间的转移概率。
具体的,在确定出目标评论数据中包括的各词单元之后,评论数据处理装置可根据各词单元,在词状态转移矩阵中查找对应的转移概率。例如,目标评论数据中包括的各词单元为“这家”、“餐厅”、“质量”、“好”,那么可根据“这家”、“餐厅”、“质量”、“好”在词状态转移矩阵中,查找“这家”和“餐厅”、“餐厅”和“质量”、“质量”和“好”的词单元,若找到,则将“这家”和“餐厅”、“餐厅”和“质量”、“质量”和“好”之间的转移概率,确定为目标评论数据中各词单元的转移概率。
步骤303,根据目标评论数据中各词单元间的转移概率,确定目标评论数据的转移概率。
具体的,在确定目标评论数据中各词单元间的转移概率之后,评论数据处理装置可将各词单元间的转移概率进行相乘,得到目标评论数据的转移概率。
例如,若确定出目标评论数据中“这家”和“餐厅”的转移概率为0.92、“餐厅”和“质量”的转移概率为0.95、“质量”和“好”的转移概率为0.98,那么就可以计算出目标评论数据:“这家餐厅服务质量好”的转移概率为:0.86。
也就是说,当目标评论数据的转移概率越大,则说明目标评论数据对应的文本内容就越通顺。
上述通过建立词状态转移矩阵,以使评论数据处理装置在确定目标评论数据的转移概率时,可直接根据目标评论数据中包括的各词单元,在词状态转移矩阵中查找对应的转移概率,以使目标评论数据转移概率的确定速度显著提高,从而节省了处理时间,提高了对目标评论数据的处理效率。
通过上述分析可知,本发明通过根据用户的可信度及目标评论数据的可信度,确定目标评论数据所属的类型。在具体实现时,预设的分类模型可能存在识别准确性低的问题,即用户利用预设的分类模型获取目标评论数据所属类型不准确。因此为了改善预设的分类模型的准确性,本实施例可对目标评论数据所属类型识别不准确时,提供人工修改功能,以使用户可以对识别不准确的目标评论数据所属类型进行修改,同时在对识别不准确的目标评论数据所属类型进行修正后,预设的分类模型还可根据目标评论数据修正后的类型及目标评论数据进行更新,以提高预设的分类模型的准确性。下面结合图4,对本发明的评论数据处理方法的上述情况进行详细的说明。
图4为本发明另一个实施例的评论数据处理方法的流程示意图。
如图4所示,本发明实施例的评论数据处理方法可以包括以下步骤:
步骤401,获取待处理的目标评论数据及目标评论数据对应的用户信息。
步骤402,根据用户信息,确定用户的可信度。
步骤403,对目标评论数据进行识别处理,确定目标评论数据的可信度。
步骤404,根据用户的可信度及目标评论数据的可信度,确定目标评论数据所属的类型。
其中,上述步骤401-404的具体实现过程及原理,可以参照上述实施例的详细描述,此处不再赘述。
步骤405,获取修正指令,修正指令用于指示对目标评论数据所属的类型进行修正,修正指令中包括目标评论数据修正后的类型。
具体的,由于预先训练生成的分类模型,是通过有限的样本数据训练生成的,因此可能使得对目标评论数据所属类别的识别存在误差。因此,若使用预设的分类模型获取到的目标评论数据所属类型与实际的所属类型不符时,用户可通过手动或者语音等方式触发设备的修正功能,以对目标评论数据所属的类型进行修正。
步骤406,根据目标评论数据修正后的类型及目标评论数据,对分类模型进行更新。
具体的,当接收到用户发送的修正指令之后,评论数据处理装置可对修正指令进行解析,以获取修正执行中携带的目标评论数据修正后的类型,然后对目标评论数据所属的类型进行修正。
同时,为了提高预设的分类模型的识别准确性,本实施例还可根据目标评论数据修正后的类型及目标评论数据,对分类模型进行重新训练,以使分类模型的识别准确性得到提高。
可以理解的是,本实施例通过将分类模型识别错误的评论数据加入训练集中,以对分类模型进行重训练,以修正分类模型识别错误的问题,防止下次出现类似的识别错误。
本发明实施例提供的评论数据处理方法,首先获取待处理的目标评论数据及目标评论数据对应的用户信息,以根据用户信息,确定用户的可信度,并且对获取的目标评论数据进行识别处理,以确定目标评论数据的可信度,进而根据用户的可信度及目标评论数据的可信度,确定目标评论数据所属的类型。由此,实现了根据评论数据的可信度及评论数据对应用户的可信度,对评论数据进行自动识别,不仅提高了对评论数据识别的准确性,而且提高了对评论数据识别的处理速度,降低了对评论数据处理的成本,为向用户提供可靠的评论数据提供了保障。并且还能对分类模型进行不断更新,从而有效提升对精华评论的识别准确性。
下面参照附图描述本发明实施例提出的评论数据处理装置。
图5为本发明一个实施例的评论数据处理装置的结构示意图。
如图5所示,该评论数据处理装置包括:获取模块11、第一确定模块12、第二确定模块13和第三确定模块14。
其中,获取模块11用于获取待处理的目标评论数据及所述目标评论数据对应的用户信息;
第一确定模块12用于根据所述用户信息,确定所述用户的可信度;
第二确定模块13用于对所述目标评论数据进行识别处理,确定所述目标评论数据的可信度;
第三确定模块14用于根据所述用户的可信度及所述目标评论数据的可信度,确定所述目标评论数据所属的类型。
需要说明的是,本实施例的评论数据处理装置的实施过程和技术原理参见前述对第一方面实施例的评论数据处理方法的解释说明,此处不再赘述。
本发明实施例提供的评论数据处理装置,首先获取待处理的目标评论数据及目标评论数据对应的用户信息,以根据用户信息,确定用户的可信度,并且对获取的目标评论数据进行识别处理,以确定目标评论数据的可信度,进而根据用户的可信度及目标评论数据的可信度,确定目标评论数据所属的类型。由此,实现了根据评论数据的可信度及评论数据对应用户的可信度,对评论数据进行自动识别,不仅提高了对评论数据识别的准确性,而且提高了对评论数据识别的处理速度,降低了对评论数据处理的成本,为向用户提供可靠的评论数据提供了保障。
为了实现上述实施例,本发明还提出一种计算机设备。
图6为本发明一个实施例的计算机设备的结构示意图。
如图6所示,上述计算机设备20包括:存储器21、处理器22及存储在存储器21上并可在处理器22上运行的计算机程序,所述处理器22执行所述程序时,实现第一方面实施例所述的评论数据处理方法。其中,评论数据处理方法,包括:获取待处理的目标评论数据及所述目标评论数据对应的用户信息;根据所述用户信息,确定所述用户的可信度;对所述目标评论数据进行识别处理,确定所述目标评论数据的可信度;根据所述用户的可信度及所述目标评论数据的可信度,确定所述目标评论数据所属的类型。
需要说明的是,本实施例的计算机设备的实施过程和技术原理参见前述对第一方面实施例的评论数据处理方法的解释说明,此处不再赘述。
本发明实施例提供的计算机设备,首先获取待处理的目标评论数据及目标评论数据对应的用户信息,以根据用户信息,确定用户的可信度,并且对获取的目标评论数据进行识别处理,以确定目标评论数据的可信度,进而根据用户的可信度及目标评论数据的可信度,确定目标评论数据所属的类型。由此,实现了根据评论数据的可信度及评论数据对应用户的可信度,对评论数据进行自动识别,不仅提高了对评论数据识别的准确性,而且提高了对评论数据识别的处理速度,降低了对评论数据处理的成本,为向用户提供可靠的评论数据提供了保障。
为实现上述目的,本发明还提出一种计算机可读存储介质。
其中该计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时,以实现第一方面实施例所述的评论数据处理方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。