本发明涉及计算机互联网技术,尤其涉及一种数据处理方法、系统及其服务器。
背景技术:
随着互联网的发展,越来越多的客户端在购买商品前,都会连接计算机互联网,查询要购买的商品信息后,下订单购买商品,在完成整个商品的购买过程后,其中最重要的是对所购买的商品进行评价,比如,对商品特性、质量及使用心得等进行具体评价。有对互联网的商品评价调查表明:电子商务平台引入的商品评价对用户购买有着决定性的影响。因此,在计算机互联网中的电子商务平台上如何更有效地收集客户端对所购买商品的评价成为了计算机互联网中的电子商务企业竞争的关键点。
目前,电子商务平台收集客户端对所购买商品的评价信息过程为:首先,用户通过客户端,诸如计算机或移动终端与电子商务平台进行连接后,登录到电子商务平台提供的商品评价页面;然后,用户在该商品评价页面上进行输入,输入对应某一商品的评价信息。虽然有些网站会对评论文本做一些情感分析,但这种情感分析一般仅使用通用情感词来区分悲观、乐观等用户的情感倾向。由于电商商品的种类繁多,这种方法无法根据不同类商品的特点作出个性化的情感倾向分析,导致分析结果不够准确。
因此,需要一种新的数据处理方法、系统及其服务器。
在所述背景技术部分公开的上述信息仅用于加强对本发明的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现要素:
本发明提供一种数据处理方法、系统及其服务器,能够提高商品的评价信息与评分信息的一致性。
本发明的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。
根据本发明的一方面,提供一种数据处理方法,包括:获取用户输入的评论和评分信息;对所述评论信息进行情感倾向分析,其中所述情感倾向分析基于按照商品类别建立的组合型情感词库;根据该评论信息的情感倾向分析结果,判断所述评论信息与所述评分信息是否一致。
根据本发明的一实施方式,其中所述组合型情感词库包括通用情感词库和个性情感词库,将所述评论信息与相应的组合型情感词库进行比对,根据比对结果判断所述评论信息的情感倾向。
根据本发明的一实施方式,还包括:预设情感倾向与评分范围之间的映射关系,其中所述判断所述评论信息与所述评分信息是否一致是基于所述情感倾向分析结果与所述映射关系是否一致来判断的。
根据本发明的一实施方式,其中所述情感倾向包括第一情感倾向和第二情感倾向,其中所述第一情感倾向对应于一预设的第一评分范围,所述第二情感倾向对应于一预设的第二评分范围。
根据本发明的一实施方式,其中将所述评论信息与相应的组合型情感词库进行比对,根据比对结果判断所述评论信息的情感倾向包括:将所述评论信息与所述组合型情感词库中的第一情感倾向的词进行比对,统计所述评论信息中包含的第一情感倾向的词的数量获得一第一计数值;将所述评论信息与所述组合型情感词库中的第二情感倾向的词进行比对,统计所述评论信息中包含的第二情感倾向的词的数量获得一第二计数值;当所述第一计数值为正且所述第二计数值为零时,确定所述评论信息具有第一情感倾向;当所述第二计数值为正且所述第一计数值为零时,确定所述评论信息具有第二情感倾向。
根据本发明的一实施方式,还包括:当判断所述评论信息与所述评分信息不一致时,发送一用户提示信息,其中所述用户提示信息用于提示该用户是否重新评分。
根据本发明的再一个方面,提供一种数据处理系统,包括:接收模块, 用于获取用户输入的评论和评分信息;分析模块,用于对所述评论信息进行情感倾向分析,其中所述情感倾向分析基于按照商品类别建立的组合型情感词库;判断模块,用于根据该评论信息的情感倾向分析结果,判断所述评论信息与所述评分信息是否一致。
根据本发明的一实施方式,其中所述分析模块包括:词库建立单元,用于按照商品类别建立组合型情感词库,其中所述组合型情感词库包括通用情感词库和个性情感词库;比对单元,用于将所述评论信息与相应的组合型情感词库进行比对,根据比对结果判断所述评论信息的情感倾向。
根据本发明的一实施方式,还包括:映射模块,用于预设情感倾向与评分范围之间的映射关系,其中所述判断模块连接所述映射模块与所述分析模块,其基于所述情感倾向分析结果与所述映射关系是否一致来判断所述评论信息与所述评分信息是否一致。
根据本发明的一实施方式,其中所述情感倾向包括第一情感倾向和第二情感倾向,其中所述第一情感倾向对应于一预设的第一评分范围,所述第二情感倾向对应于一预设的第二评分范围。
根据本发明的一实施方式,其中所述比对单元包括:第一计数器,用于将所述评论信息与所述组合型情感词库中的第一情感倾向的词进行比对,统计所述评论信息中包含的第一情感倾向的词的数量获得一第一计数值;第二计数器,用于将所述评论信息与所述组合型情感词库中的第二情感倾向的词进行比对,统计所述评论信息中包含的第二情感倾向的词的数量获得一第二计数值;比较器,用于比较所述第一计数值和所述第二计数值,其中:当所述第一计数值为正且所述第二计数值为零时,确定所述评论信息具有第一情感倾向;当所述第二计数值为正且所述第一计数值为零时,确定所述评论信息具有第二情感倾向。
根据本发明的一实施方式,还包括:提示模块,用于当判断所述评论信息与所述评分信息不一致时,发送一用户提示信息,其中所述用户提示信息用于提示该用户是否重新评分。
根据本发明的另一个方面,还提供一种服务器,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:获取用户输入的评论和评分信息;对所述评论信息进行情感倾向分析,其中所述情 感倾向分析基于按照商品类别建立的组合型情感词库;根据该评论信息的情感倾向分析结果,判断所述评论信息与所述评分信息是否一致。
本发明通过创建按照商品类别划分的组合型情感词库,分析判断用户的评论信息与提交的评分信息是否保持一致,从而可以帮助其他用户根据显示的商品评论信息与评分信息更准确的判断是否选择某一商品。同时,该组合型情感词库采用通用情感词库与个性情感词库联合组成的方案,可以针对不同类别的商品,形成不同的个性化词库,从而避免了仅使用通用情感词库来判断用户情感的单一性,能从更大程度上准确判断出用户评价信息中包含的情感倾向。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1示意性示出根据本发明示例实施方式的数据处理方法的流程图;
图2示意性示出根据本发明示例实施方式的数据处理方法的流程图;
图3示意性示出根据本发明示例实施方式的数据处理方法的流程图;
图4示意性示出根据本发明示例实施方式的组合型情感词库的生成方法的示意图;
图5示意性示出根据本发明示例实施方式的数据处理系统的框图;
图6示意性示出根据本发明示例实施方式的数据处理系统的框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。附图仅为本发明的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本发明的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、系统、步骤等。在其它情况下,不详细示出或描述公知结构、方法、系统、实现、材料或者操作以避免喧宾夺主而使得本发明的各方面变得模糊。
附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器系统和/或微控制器系统中实现这些功能实体。
以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的系统和方法的例子。
图1示意性示出根据本发明示例实施方式的数据处理方法的流程图。
如图1所示,在步骤s110,获取用户输入的评论和评分信息。
在当前电商行业,各类商品的评论信息对商品的销售起着至关重要的作用,其中最重要的是已购买者对该商品的评论和/或评分信息,通常各大电商对评分分级为为0-10分,或者0-5分,或者按照星级分为一至五星。电商可以通过专门的评分portal(作为网关服务于因特网的一种web站点)来收集评分,并展示在网页上。用户可以查询到自己需要的商品的具体评分情况,通常情况下,评分能反应出商品的好坏。实现评分的技术是通过交互网页用户输入相应的分值或等级框对商品进行评分。如何保证评分的准确性是各电商收集评价信息中的一项关键技术。
现有用户输入的评价内容包含两部分:评论与评分,其可以通过页面技术实现收集。用户登录评价页面,输入评论文本或者评分内容,提交以后,评论会记录在商品评论页,而评分则会通过加权算法,计入到总体的商品评分。
很多用户喜欢填写评论内容,但是评分时却容易忽略,这样导致实际的评价与评分不匹配的问题。例如,用户的对某酒店的评论内容为“超值, 本来预定的普通沙屋却因满员被调整为豪华沙屋,房间有泳池,且临海,真是超值享受,非常感谢!”,从中可以看出评价很高,但是评分却只有2.0,这是个很低的分数(满分是10分),显然是由于用户评分失误导致的,从而拉低了该商品的总体评分,从而影响到其他用户的购买倾向。
在示例性实施例,还可以获取所述评论和评分信息相对于的商品信息,所述商品信息包括该商品的唯一标识,该唯一标识可以由商品的sku编号、采购批次及入库顺序号组成。例如,一个商品的sku编号为111,采购批次为001及入库顺序号002,则该商品的唯一标识为111001002。所述评论信息为用户填写的评价内容,可以输入多个字符,所述评分信息为按照商品评价分级。
电子商务平台得到商品评论和评分信息后,保存在电子商务平台的数据库中,并以数据表的形式保存的,商品名称可以从电子商务平台中对应的商品唯一标识获取。
需要说明的是,本发明实施例中的商品是一个广义上的概念,不仅包括通常的实体产品,还可以包括各种服务、软件程序等,只要可以用于交易且用户可以对其进行评价的物品均为本发明中的商品范围内。
在步骤s120,对所述评论信息进行情感倾向分析,其中所述情感倾向分析基于按照商品类别建立的组合型情感词库。
在示例性实施例,其中所述组合型情感词库包括通用情感词库和个性情感词库,将所述评论信息与相应的组合型情感词库进行比对,根据比对结果判断所述评论信息的情感倾向。
在示例性实施例,其中所述情感倾向包括第一情感倾向和第二情感倾向,其中所述第一情感倾向对应于一预设的第一评分范围,所述第二情感倾向对应于一预设的第二评分范围。
在示例性实施例,其中将所述评论信息与相应的组合型情感词库进行比对,根据比对结果判断所述评论信息的情感倾向包括:将所述评论信息与所述组合型情感词库中的第一情感倾向的词进行比对,统计所述评论信息中包含的第一情感倾向的词的数量获得一第一计数值;将所述评论信息与所述组合型情感词库中的第二情感倾向的词进行比对,统计所述评论信息中包含的第二情感倾向的词的数量获得一第二计数值;当所述第一计数 值为正且所述第二计数值为零时,确定所述评论信息具有第一情感倾向;当所述第二计数值为正且所述第一计数值为零时,确定所述评论信息具有第二情感倾向。
在步骤s130,根据该评论信息的情感倾向分析结果,判断所述评论信息与所述评分信息是否一致。
在示例性实施例,还包括:预设情感倾向与评分范围之间的映射关系,其中所述判断所述评论信息与所述评分信息是否一致是基于所述情感倾向分析结果与所述映射关系是否一致来判断的。
在示例性实施例,还包括:当判断所述评论信息与所述评分信息不一致时,发送一用户提示信息,其中所述用户提示信息用于提示该用户是否重新评分。
图2示意性示出根据本发明示例实施方式的数据处理方法的流程图。
如图2所示,在步骤s210,按照商品类别建立组合型情感词库,其中所述组合型情感词库包括通用情感词库和个性情感词库。
本发明实施例中,所述通用情感词库是日常使用表示情感的词库,可以包含乐观(正面、褒义)或者悲观(负面、贬义)的情感倾向,能直接表达一个人的情绪。所述个性情感词库是根据被评论的商品的特殊性质提取的,这些词不直接表示情感,却能表现出对商品好坏的判断,个性情感词库同样也可以分为乐观、悲观(针对具体商品)。
在示例性实施例,所述组合型情感词库采用的存储方法为:
所述组合型情感词库使用关系型数据库进行存储:假设词库模型命名为:t_emotion,词库在t_emotion中动态配置进行维护,能够支持增加、删除、更改等操作。
具体字段可以包括:
product:商品的唯一编号,保证唯一性;
kind:情感类型,可以分为乐观、悲观等,用于后续扫描的分类;
type:词库组合类别,包括通用、个性两种词库类别;
seq:顺序号,按照不同商品,区分乐观与悲观不同类型进行顺序递增;
value:保存具体的情感词。
假设商品为某个酒店,对该商品的组合型情感词库举例:
在步骤s220,预设情感倾向与评分范围之间的映射关系。
在步骤s230,获取用户输入的评论信息和评分信息。
当用户提交商品评价页时,首先读取评论中的文本内容。然后采用分词词库对所述文本内容进行分词,得到满足预设词性的用于比对的待匹配词及所述待匹配词的词频。
具体地,分词词库中包括了各种词语,以及词语的词性。用户的评论信息具体可以为一个句子,或者简单的描述。分词的初步结果会包含多种词性,存在标点符号等大量杂质,根据预设词性选取形容词、名词、动词等几种最有可能反映用户的情感倾向的待匹配词。
在步骤s240,将所述评论信息与相应的组合型情感词库进行比对,根据比对结果判断所述评论信息的情感倾向。
例如,从情感词库模表(t_motion)取出相应商品页中所有乐观词库,按顺序扫描。如果存在于该文本内容中,乐观计数器加1,最终乐观累计值为:
o_sum=∑count[seq]
其中,count表示对存在乐观相关词进行计数,seq为词库编号。
从情感词库模型表(t_emotion)中取出该评论信息对应的商品的所有悲观词库,按顺序扫描。如果存在于该文本内容中,悲观计数器加1、最终悲观累计值为:
p_sum=∑count[seq]
其中,count表示对存在悲观相关词进行计数,seq为词库编号。
当存在乐观词且没有悲观词:如果o_sum>0而且p_sum=0,认为这条评论的情感倾向是乐观的;存在悲观词且没有乐观词:如果p_sum>0且o_sum=0,认为这条评论的情感倾向是悲观的。
在示例性实施例,还可以根据所述待匹配词与相应的组合型情感词库中的词进行匹配,得到与所述组合型情感词库中的词匹配成功的词及所述匹配成功的词的情感倾向,根据所述待匹配词的词频,得到所述匹配成功的词的词频;根据所述匹配成功的词的词频和对应的情感倾向,确定与所述评论信息对应的情感倾向。
在示例性实施例,还可以将所述情感倾向划分为正面评价和负面评价。具体地,情感倾向包括用户对商品的好评或差评等。好评度=正面评价词频总和/(正面评价词频总和+负面评价词频总和)*100。好评度值越高,说明用户对商品满意;好评度值越低,说明用户对商品不满意。例如,可以根据对好评度按照100的满分划分为多个等级,不同的等级对应于不同的评分范围,例如一0-10分的评分设计为例,好评度在90-100时对应的评分范围为9-10分,好评度为80-90时对应的评分范围为8-9分,好评度为70-80时对应的评分范围为7-8分,好评度为60-70时对应的评分范围为6-7分,好评度为50-60时对应的评分范围为5-6分,好评度为40-50时对应的评分范围为4-5分,好评度为30-40时对应的评分范围为3-4分,好评度为20-30时对应的评分范围为2-3分,好评度为10-20时对应的评分范围为1-2分,好评度为0-10时对应的评分范围为0-1分。评分范围划分的等级越细,得到的评论信息与评分信息的一致性越高。
在步骤s250,基于所述评论信息的情感倾向与所述映射关系来判断所述评论信息与所述评分信息是否一致。
当所述评论信息与所述评分信息不一致时,弹出提示用户是否重新评分的提示框,如果用户选择“是”,跳转到重新评分页面,完成对评分的纠正流程。当用户重新提交评分信息时,页面更新用户评分。
图3示意性示出根据本发明示例实施方式的数据处理方法的流程图。
如图3所示,在步骤s310,预设组合型情感词库包括第一情感倾向,该第一情感倾向对应于一预设的第一评分范围。
例如,所述第一情感倾向为乐观。
在示例性实施例,所述第一评分范围可以根据不同的评分设计不同的映射关系:例如,针对0-10分的评分设计,可以将乐观情感倾向映射到6-10分范围;针对0-5星的评分设计,可以将乐观情感倾向映射到4-5星范围。当然,并不以此为限,可以根据不同的用户需求和系统的设计灵活设置。
在步骤s320,预设组合型情感词库包括第二情感倾向,该第二情感倾向对应于一预设的第二评分范围。
例如,所述第二情感倾向为悲观。
在示例性实施例,所述第二评分范围可以根据不同的评分设计不同的映射关系:例如,针对0-10分的评分设计,可以将悲观情感倾向映射到0-3分范围;针对0-5星的评分设计,可以将悲观情感倾向映射到0-2星范围。当然,并不以此为限,可以根据不同的用户需求和系统的设计灵活设置。
在步骤s330,获取用户输入的评论信息和评分信息。
可以通过构建分布式爬虫程序,对电商网站数据进行页面抓取。根据抓取到的html页面生成页面的dom树结构,根据标签提取爬到页面中包含的评论信息和评分信息并存储。
在示例性实施例,还可以对所述评论信息进行预处理。例如,利用布隆滤波(bloomfilter)去除重复的评论数据,首先对评论数据利用n个hash函数映射到位数组中,再对后面的评论计算n个hash值,然后判断该评论数据是否已经存在,如果后面的评论计算出的hash值存在位数组中,则说明该评论数据已经存在,并将其过滤掉。还可以利用下面的规则集对所述评论信息进一步预处理,去除符合规则1~2的评论数据:规则1:评论数据中含有特定的广告词;规则2:基于网络特定回复模板的自动回复;规则3:评论中含有网址的,去除网址后再重新判断是否符合规则1~2。利用匹配网址的正则表达式和制定的规则集去除垃圾广告信息。
在步骤s340,将所述评论信息与所述组合型情感词库中的第一情感倾向的词进行比对,统计所述评论信息中包含的第一情感倾向的词的数量获得一第一计数值。
在步骤s350,将所述评论信息与所述组合型情感词库中的第二情感 倾向的词进行比对,统计所述评论信息中包含的第二情感倾向的词的数量获得一第二计数值。
在步骤s360,判断所述第一计数值是否为正且所述第二计数值为零;如果是,则进入下一步;反之,跳转到步骤s390。
在步骤s370,确定所述评论信息具有第一情感倾向。
例如,如果评论内容中存在乐观词而且没有出现悲观词,则认为这条评论信息的情感倾向是乐观的,用户提交的评分应该在乐观情感倾向对应的评分范围内;如果提交的评分不匹配该评分范围,则自动弹出纠正提示框:
“尊敬的用户,您的评分过低,表示您对该商品持悲观态度,您是否确定?如果选择否可以重新评分。”
在步骤s380,判断所述评分信息是否与所述第一评分范围一致;如果是,则跳回到步骤s330重新获取下一次的用户输入的评论和评分信息;反之,则跳转到步骤s3120。
在步骤s390,判断所述第二计数值是否为正且所述第一计数值为零;如果是,则进入下一步;反之,则跳回到步骤s330重新获取下一次的用户输入的评论和评分信息。
在步骤s3100,确定所述评论信息具有所述第二情感倾向。
例如,如果评论内容存在悲观词而且没有出现乐观词,则认为这条评论信息的情感倾向是悲观的,用户提交评分应该在悲观情感倾向的评分范围内;如果提交的评分不匹配该评分范围,则自动弹出纠正提示框:
“尊敬的用户,您的评分过高,表示您对该商品持乐观态度,您是否确定?如果选择否可以重新评分。”
在步骤s3110,判断所述评分信息是否与所述第二评分范围一致;如果一致,则跳回到步骤s330重新获取下一次的用户输入的评论和评分信息;反之,跳转到步骤s3120。
在步骤s3120,发送一用户提示信息,用于提示该用户是否对当前商品重新评分。
通过组合型情感词库,分析用户提交的评论文本内容,判断用户实际的评分与评论中体现的情感倾向是否匹配,如果不匹配,则提示当前用户 是否对该商品重新评分或者重新评论等操作。
本发明提供一种数据处理方法,通过组合型情感词库来分析评论内容以纠正用户误评分的情况,加入了个性化情感词库来丰富情感词库的组成,通过扫描组合型情感词来判断评论内容的情感,达到最终降低如下两种场景出现的概率:1、用户评价很高但是评分很低的评论记录;2、用户评价很低但是评分却很高,从而保障用户评分与评论内容的匹配度,能够提高商品评分的准确性,解决了评分与评论实际内容不匹配的问题。
图4示意性示出根据本发明示例实施方式的组合型情感词库的生成方法的示意图。
如图4所示,假设某电子商务网站(例如,京东)包括商品a、商品b、商品c等,其中商品a对应于一商品a个性情感词库,商品b对应于一商品b个性情感词库,商品c对应于一商品c个性情感词库等等。还包括一通用情感词库,将所述商品a个性情感词库和所述通用情感词库组合生成商品a组合情感词库,将所述商品b个性情感词库和所述通用情感词库组合生成商品b组合情感词库,将所述商品c个性情感词库和所述通用情感词库组合生成商品c组合情感词库等等。
上述实施例中虽然仅列举了组合情感词库中的两种情感倾向:悲观和乐观,但本发明并限定于此,其可以区分为更多种类,例如中性。并且所述通用情感词库和所述个性情感词库中的词汇是可以动态配置录入的。
在示例性实施例,所述通用情感词库又可以分为通用乐观词库和通用悲观词库,所述个性情感词库又可以分为个性乐观词库和个性悲观词库。
例如,通用乐观词库中包括:喜欢、感谢、非常好、高兴等等;通用悲观词库包括:讨厌、太差、难受、失望等等。
例如,个性乐观词库中包括:豪华、整洁、视野开拓等等;个性悲观词库中包括:狭小、不干净、蟑螂等等。
假设商品为手机,对该商品的个性情感词库可以包括:个性乐观词库:照相好、待机长、结实等等;个性悲观词库:像素低、待机短、不结实等等。
在示例性实施例,词库中还可以各个词的同义词或近义词进行归类,并指定其中某一个词作为该组词的基础词。例如,“不好看”、“难看”、 “不漂亮”等词,都是用户对商品外观方面的评价,根据近义词或同义词的映射关系,得到的归类结果以“不好看”作为基础词。
在示例性实施例,所述组合型情感词库还可以进一步细分为否定词库、搭配情感词库、程度副词词库、停用词词库等。例如,否定词库包括否定词:不、不是、不用、不必、不曾、不够、没、没有、甭、未、未必、别、莫、勿、休、否、否认、无、非、并非、失、免、缺、禁、忌、戒、防、看不到等。搭配情感词是用来修饰名词,对名词加以补充说明的词汇。例如:“这件衣服在网上评价较高,价格也高”。上句中有搭配情感词“高”,只分析这个“高”是无法判断文本情感倾向的,必须根据它修饰的搭配特征词来判断情感倾向,当判断(评价,高)这个搭配的情感倾向时,文本的情感倾向是褒义的,而判断(价格,高)这个搭配的情感倾向时,文本的倾向是贬义的。这种修饰不同的名词时具有不同倾向的情感词在本文中被称作搭配情感词。收集程度副词,所述程度副词用于修饰情感词,并给各程度副词赋予强度级别和强度值(不同的分值),对文本的情感倾向会产生影响。可以按照程度轻重排序,例如:有点(0.5)、比较(1.2)、十分(2)、极其(3)等等。
例如:她是一个非常漂亮的女孩子。(漂亮是情感词,非常是程度副词)。
例如:这件衣服好看;这件衣服很好看;这件衣服最好看。这三句话的褒义程度发生了明显的变化,依次递增。
停用词对文档的含义没有任何意义,需要被过滤、屏蔽掉。一般来说,连词、冠词、介词都属于停用词。
总结出的中文停用词有:的、他的、你的、我的、一、一下、不、不仅、不会、不但、不光、不只、不得、与、与其、且、个、个人、为、为了、乃、乃至、么、之、之一、之前、之后、之类、也、也是、也罢、于、于是、人们、人家、什么、从、从而、了、就、以、以上、以下、何、何况、何为、其、其一、其实、几、几乎、即、即使、即便、又、及、及其、可、可以、可是、各、各个、各位、各自、吧、呀、呢、呵、咋、和、哈、哦、哎、哪、哪个、哪儿……
除了连词、冠词和连词是停用词外,一些动词、形容词和副词也可能 是停用词,信息检索系统可以设置一个停用词表用于过滤停用词。
电商的商品非常多,根据以上的方法,需要对不同的商品配置不同的情感词库,由于通用情感词库一般比较统一,初始阶段主要收集各商品的个性情感词库,再加上通用情感词库,则形成了每一类商品的组合型情感词库。
虽然目前有些网站会对评论文本做一些情感分析,但这种情感分析一般使用扫描通用情感词的方法,来区分出悲观、乐观等等。然而,有一些属于商品个性化的词汇也能体现出情感,而这部分在传统的方法中体现不出来。
本发明的词库采取了一种通用情感词库与个性情感词库联合组成的方案,可以针对不同类别的商品,形成不同的个性化词库,从而避免了仅使用通用情感词库来判断用户情感的单一性,能从更大程度上准确判断出用户评价信息中包含的情感倾向。
图5示意性示出根据本发明示例实施方式的数据处理系统的框图。
如图5所示,该数据处理系统包括:接收模块510,用于获取用户输入的评论和评分信息;分析模块520,用于对所述评论信息进行情感倾向分析,其中所述情感倾向分析基于按照商品类别建立的组合型情感词库;判断模块530,用于根据该评论信息的情感倾向分析结果,判断所述评论信息与所述评分信息是否一致。
本发明实施例中的模块对应于上述方法实施例中的具体内容,在此不再赘述。
图6示意性示出根据本发明示例实施方式的数据处理系统的框图。
如图6所示,该数据处理系统包括:接收模块610,用于获取用户输入的评论和评分信息;分析模块620,用于对所述评论信息进行情感倾向分析,其中所述情感倾向分析基于按照商品类别建立的组合型情感词库;判断模块630,用于根据该评论信息的情感倾向分析结果,判断所述评论信息与所述评分信息是否一致。其中所述分析模块620包括:词库建立单元621,用于按照商品类别建立组合型情感词库,其中所述组合型情感词库包括通用情感词库和个性情感词库;比对单元622,用于将所述评论信息与相应的组合型情感词库进行比对,根据比对结果判断所述评论信息的 情感倾向。
在示例性实施例,还包括:映射模块640,用于预设情感倾向与评分范围之间的映射关系,其中所述判断模块630连接所述映射模块640与所述分析模块620,其基于所述情感倾向分析结果与所述映射关系是否一致来判断所述评论信息与所述评分信息是否一致。
在示例性实施例,其中所述情感倾向包括第一情感倾向和第二情感倾向,其中所述第一情感倾向对应于一预设的第一评分范围,所述第二情感倾向对应于一预设的第二评分范围。
在示例性实施例,其中所述比对单元622包括:第一计数器,用于将所述评论信息与所述组合型情感词库中的第一情感倾向的词进行比对,统计所述评论信息中包含的第一情感倾向的词的数量获得一第一计数值;第二计数器,用于将所述评论信息与所述组合型情感词库中的第二情感倾向的词进行比对,统计所述评论信息中包含的第二情感倾向的词的数量获得一第二计数值;比较器,用于比较所述第一计数值和所述第二计数值,其中:当所述第一计数值为正且所述第二计数值为零时,确定所述评论信息具有第一情感倾向;当所述第二计数值为正且所述第一计数值为零时,确定所述评论信息具有第二情感倾向。
在示例性实施例,还包括:提示模块650,用于当判断所述评论信息与所述评分信息不一致时,发送一用户提示信息,其中所述用户提示信息用于提示该用户是否重新评分。
本发明实施例还提供一种服务器,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:获取用户输入的评论和评分信息;对所述评论信息进行情感倾向分析,其中所述情感倾向分析基于按照商品类别建立的组合型情感词库;根据该评论信息的情感倾向分析结果,判断所述评论信息与所述评分信息是否一致。
本发明实施例中其它内容参考上述发明实施例中的内容,在此不再赘述。
图1、2、3和4示出根据本发明示例实施方式的数据处理方法的流程图。该方法可例如利用如图5或6所示的数据处理系统实现,但本发明不限于此。需要注意的是,图1、2、3和4仅是根据本发明示例实施方式的 方法所包括的处理的示意性说明,而不是限制目的。易于理解,图1、2、3和4所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块/进程/线程中同步或异步执行的。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件商品的形式体现出来,该软件商品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本发明实施方式的方法。
本发明公开的数据处理方法、系统及其服务器,通过创建组合型情感词库,可以针对不同类别的商品,合成不同的个性情感词库,从而避免了使用通用情感词库来判断用户情感的单一性;并通过对评论内容的情感扫描与实际评分结合,能够纠正用户出现的误评分,从而保证实际评论内容与评分的匹配度,保证商品评分的准确性。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
以上具体地示出和描述了本发明的示例性实施方式。应可理解的是,本发明不限于这里描述的详细结构、设置方式或实现方法;相反,本发明意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。