一种评论质量分类的方法、装置、设备及可读介质与流程

文档序号:24121439发布日期:2021-03-02 11:41阅读:44来源:国知局
一种评论质量分类的方法、装置、设备及可读介质与流程

[0001]
本发明涉及评论质量评估技术领域,尤其涉及一种评论质量分类的方法、装置、设备及可读介质。


背景技术:

[0002]
随着电子商务的快速发展,商业化购物平台开始对用户评论数据进行收集,并对其进行排序、分类、重要性评级等操作后展示给客户,以便其能迅速在海量的评论中找到满足自己需求的评论。通过优化评论展示方式,提升用户体验,同时增加用户购买率。
[0003]
当前现有的评论质量评价技术大部分为纯软件实现,将其转变为分类和排序问题,通过从不同层面提取与评论有关的特征指标,使用有监督的机器学习方法来对其质量进行分类及预测,速率较低,占用cpu资源较大,需要定期维护;且对于非商业化平台的研究较少,用户评价通常较为随意,不能有效反映产品的真实价值;评价标准也大都仅基于有用性投票,较为片面单一。


技术实现要素:

[0004]
有鉴于此,本发明实施例的目的在于提出一种评论质量分类的方法、装置、设备及可读介质,构建了基于fpga的用户评论质量评价体系,在数据量逐渐增大的时候,能够保持较高的性能和处理速率;针对非商业化平台,评论质量较高且更加合理。
[0005]
基于上述目的,本发明实施例的一方面提供了一种评论质量分类的方法,包括以下步骤:获取评论数据,并根据评论数据的元数据特征分析得到质量评价参考指标;根据评论数据的语言特征构建质量评价指标体系;基于质量评价指标体系构建分类模型,并基于分类模型通过递归神经网络的最小二乘支持向量机对评论数据进行分类;以及基于质量评价参考指标对基于分类模型的分类结果进行评价。
[0006]
在一些实施方式中,根据评论数据的元数据特征分析得到质量评价参考指标包括:基于评论数据获取评论有用投票数和评论者历史评论有用率;基于评论有用投票数和评论者历史评论有用率计算得到有用评论指标。
[0007]
在一些实施方式中,根据评论数据的语言特征构建质量评价指标体系包括:基于中文词库中正面情感词和负面情感词标准分析评论数据中情感词和修饰词的数量指标;基于评论数据中的用户评分与平均分的差异值计算评论数据的评分差异指标。
[0008]
在一些实施方式中,根据评论数据的语言特征构建质量评价指标体系包括:基于自动化可读性指数计算评论数据的可读性指标。
[0009]
在一些实施方式中,根据评论数据的语言特征构建质量评价指标体系包括:基于评论对应的主题相似度最高的概率值作为评论数据的相关性指标。
[0010]
在一些实施方式中,基于分类模型通过递归神经网络的最小二乘支持向量机对评论数据进行分类包括:通过递归神经网络的最小二乘支持向量机对评论数据进行并行处理,并分类结果推送给用户。
[0011]
在一些实施方式中,基于质量评价参考指标对基于分类模型的分类结果进行评价包括:基于查准率、召回率、准确率和f值指标对分类结果进行分析和评价。
[0012]
本发明实施例的另一方面,还提供了一种评论质量分类的装置,包括:初始模块,配置用于获取评论数据,并根据评论数据的元数据特征分析得到质量评价参考指标;构建体系模块,配置用于根据评论数据的语言特征构建质量评价指标体系;分类模块,配置用于基于质量评价指标体系构建分类模型,并基于分类模型通过递归神经网络的最小二乘支持向量机对评论数据进行分类;以及分析模块,配置用于基于质量评价参考指标对基于分类模型的分类结果进行评价。
[0013]
本发明实施例的再一方面,还提供了一种计算机设备,包括:至少一个处理器;以及存储器,存储器存储有可在处理器上运行的计算机指令,指令由处理器执行时实现上述方法的步骤。
[0014]
本发明实施例的再一方面,还提供了一种计算机可读存储介质,计算机可读存储介质存储有被处理器执行时实现如上方法步骤的计算机程序。
[0015]
本发明具有以下有益技术效果:构建了基于fpga的用户评论质量评价体系,在数据量逐渐增大的时候,能够保持较高的性能和处理速率;针对非商业化平台,评论质量较高且更加合理。
附图说明
[0016]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
[0017]
图1为本发明提供的评论质量分类的方法的实施例的示意图;
[0018]
图2为本发明提供的评论质量分类的装置的实施例的示意图;
[0019]
图3为本发明提供的计算机设备的实施例的示意图;
[0020]
图4为本发明提供的计算机可读存储介质的实施例的示意图;
[0021]
图5为本发明提供的评论质量分类的分类评价的混淆矩阵的示意图。
具体实施方式
[0022]
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
[0023]
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
[0024]
基于上述目的,本发明实施例的第一个方面,提出了评论质量分类的方法的实施例。图1示出的是本发明提供的评论质量分类的方法的实施例的示意图。如图1所示,本发明实施例包括如下步骤:
[0025]
s01、获取评论数据,并根据评论数据的元数据特征分析得到质量评价参考指标;
[0026]
s02、根据评论数据的语言特征构建质量评价指标体系;
[0027]
s03、基于质量评价指标体系构建分类模型,并基于分类模型通过递归神经网络的最小二乘支持向量机对评论数据进行分类;以及
[0028]
s04、基于质量评价参考指标对基于分类模型的分类结果进行评价。
[0029]
在本实施例中,首先基于用户特征、评论内容、用户打分等信息提取出与评论质量相关的指标,进而构建一个基于该领域的评论质量评价体系,再通过fpga加速的支持向量机算法对评论进行分类,最后对分类结果进行分析和评价。
[0030]
在本发明的一些实施例中,根据评论数据的元数据特征分析得到质量评价参考指标包括:基于评论数据获取评论有用投票数和评论者历史评论有用率;基于评论有用投票数和评论者历史评论有用率计算得到有用评论指标。
[0031]
在本实施例中,获取原始评论数据,提取评论质量评价指标。将影响评论质量的特征分为两类:元数据特征、语言特征,从这两个类别分别提取相关指标。其中元数据特征包括:评论有用投票数、评分星级、评论者以往发表的评论有用率;语言特征包括评论长度、平均句长、相关性、修饰词数量、情感词数量和可读性。其中有用性投票数和评论者以往发表的评论有用率作为评论质量的评价标准。评价标准计算方式为:(该评论有用投票数/该产品所有评论投票数+评论者以往发表的评论有用率)/2,根据计算结果,判定高于某数值的评论为有用评论。
[0032]
在本发明的一些实施例中,根据评论数据的语言特征构建质量评价指标体系包括:基于中文词库中正面情感词和负面情感词标准分析评论数据中情感词和修饰词的数量指标;基于评论数据中的用户评分与平均分的差异值计算评论数据的评分差异指标。
[0033]
在本实施例中,构建在线评论质量评价指标体系。根据现有研究中的数据质量描述体系和非商业化平台评论特点,建立评论质量评价指标体系。可分为以下几个指标:评论长度和平均句长;情感词及修饰词数量、可读性;评分差异、相关性。
[0034]
在本实施例中,评论长度为评论包含的字符数,平均句长为评论所包含的句子数;情感词及修饰词的数量采用知网发布的中文词库hownet中的正面情感词和负面情感词作为情感词典进行统计;评分差异指标获取,首先记录用户评价星级,分别用数字1、2、3、4、5表示,再计算每个用户与平均评分的差异值后记录。
[0035]
在本发明的一些实施例中,根据评论数据的语言特征构建质量评价指标体系包括:基于自动化可读性指数计算评论数据的可读性指标。
[0036]
在本实施例中,可读性基于衡量英文的自动化可读性指数的值表示,即ari=4.71*(总字符数/总字数)+0.5*(总字数/总句数)-21.43。
[0037]
在本发明的一些实施例中,根据评论数据的语言特征构建质量评价指标体系包括:基于评论对应的主题相似度最高的概率值作为评论数据的相关性指标。
[0038]
在本实施例中,相关性的获取参考lda过程中的“文档—主题”概率矩阵构建相应的“评论一主题”的矩阵,用向量来表示某条评论的主题分布,定义θ
i
为第i条评论的主题分布,则θ
i
=(p
i1
,p
i2
,

,p
ik
),其中p
ik
为第i条评论在主题k上的概率分布,即该条评论属于主题k的概率,k为主题个数。在这里,我们选取每条评论对应的主题相似度最高的概率值作为评论相关度的代表性指标。
[0039]
在本发明的一些实施例中,基于分类模型通过递归神经网络的最小二乘支持向量机对评论数据进行分类包括:通过递归神经网络的最小二乘支持向量机对评论数据进行并
行处理,并分类结果推送给用户。
[0040]
在本实施例中,根据获得的评价指标体系,将评论数据按一定比例划分为训练集和测试集,使用基于fpga的svm硬件实现方法对评论数据进行分类。特别地,我们使用基于递归神经网络的最小二乘svm对其进行分类。将最小二乘支持向量机用递归神经网络实现,则该网络的连续动态方程为:
[0041][0042][0043]
其中α
i
为lagrange乘子;q
ij
=y
i
y
j
k
ij
,为核函数。由于fpga不能直接实现一个连续的微分方程,对其进行离散化处理:
[0044][0045][0046]
其中δt为采样周期。在fpga环境下,并行计算m个α,同时依据α的值计算b值。通过对评论数据进行并行处理,加快分类效率,在后期数据量增加时也能在短时间内完成分类,及时推送给用户。
[0047]
在本发明的一些实施例中,基于质量评价参考指标对基于分类模型的分类结果进行评价包括:基于查准率、召回率、准确率和f值指标对分类结果进行分析和评价。
[0048]
在本实施例中,基于查准率、召回率、准确率、f值指标对分类结果进行分析与评价。更具体地,查准率(precision)表示被正确分类为正样本的数量占所有分类器预测为正的样本的比例,召回率(recall)表示被正确分类为正样本的数量占所有正样本数量的比例,准确率(accuracy)表示整体结果中被准确分类的样本数量占所有数量的比例、f值说明模型分类效果的稳健性。计算方式如下:
[0049][0050]
其中,如图5所示,行表示实际的类别,列表示预测的类别。tp(true positives)即实际类别为正,预测类别也为正的样本数量;fp(false positive)表示实际类别为负,预测类别却为正的样本数量;fn(false negative)表示实际类别为正,预测类别却为负的样本数量;tn(true negative)表示实际类别为负,预测类别也为负的样本数量。
[0051]
需要特别指出的是,上述评论质量分类的方法的各个实施例中的各个步骤均可以相互交叉、替换、增加、删减,因此,这些合理的排列组合变换之于评论质量分类的方法也应
当属于本发明的保护范围,并且不应将本发明的保护范围局限在实施例之上。
[0052]
基于上述目的,本发明实施例的第二个方面,提出了一种评论质量分类的装置。图2示出的是本发明提供的评论质量分类的装置的实施例的示意图。如图2所示,本发明实施例包括如下模块:本发明实施例的另一方面,还提供了一种评论质量分类的装置,包括:初始模块s11,配置用于获取评论数据,并根据评论数据的元数据特征分析得到质量评价参考指标;构建体系模块s12,配置用于根据评论数据的语言特征构建质量评价指标体系;分类模块s13,配置用于基于质量评价指标体系构建分类模型,并基于分类模型通过递归神经网络的最小二乘支持向量机对评论数据进行分类;以及分析模块s14,配置用于基于质量评价参考指标对基于分类模型的分类结果进行评价。
[0053]
基于上述目的,本发明实施例的第三个方面,提出了一种计算机设备。图3示出的是本发明提供的计算机设备的实施例的示意图。如图3所示,本发明实施例包括如下装置:至少一个处理器s21;以及存储器s22,存储器s22存储有可在处理器上运行的计算机指令s23,指令由处理器执行时实现以上方法的步骤。
[0054]
本发明还提供了一种计算机可读存储介质。图4示出的是本发明提供的计算机可读存储介质的实施例的示意图。如图4所示,计算机可读存储介质存储s31有被处理器执行时执行如上方法的计算机程序s32。
[0055]
最后需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,评论质量分类的方法的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,程序的存储介质可为磁碟、光盘、只读存储记忆体(rom)或随机存储记忆体(ram)等。上述计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
[0056]
此外,根据本发明实施例公开的方法还可以被实现为由处理器执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被处理器执行时,执行本发明实施例公开的方法中限定的上述功能。
[0057]
此外,上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。
[0058]
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
[0059]
在一个或多个示例性设计中,功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现,则可以将功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质,该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的,该计算机可读介质可以包括ram、rom、eeprom、cd-rom或其它光盘存储设备、磁盘存储设备或其它磁性存储设
备,或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外,任何连接都可以适当地称为计算机可读介质。例如,如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(dsl)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件,则上述同轴线缆、光纤线缆、双绞线、dsl或诸如红外线、无线电和微波的无线技术均包括在介质的定义。如这里所使用的,磁盘和光盘包括压缩盘(cd)、激光盘、光盘、数字多功能盘(dvd)、软盘、蓝光盘,其中磁盘通常磁性地再现数据,而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。
[0060]
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
[0061]
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
[0062]
上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
[0063]
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0064]
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1