一种评论数据处理方法和装置、一种搜索方法和系统的制作方法
【专利摘要】本申请提供了一种评论数据处理方法和装置,涉及网络【技术领域】。所述方法包括:预置特征词词库和情感词词库;基于所述特征词词库和情感词词库,对评论数据处理的步骤包括:根据商品信息,获取对应商品信息的各条评论数据;根据特征词词库,确定每条评论数据中的特征词;根据情感词词库,确定评论数据中与各特征词对应的有效的情感词及所述情感词的取向值;根据所述情感词与特征词的对应关系,及所述情感词的取向值,计算每条评论数据中各特征词的特征值。本申请可针对商品的不同方面的特征进行分析,获得评论者对所述商品的各方面的情感取向;还提高了对具有短文本、口语化偏重等特点的评论数据分析的准确率、可提高相关网络资源的利用率。
【专利说明】一种评论数据处理方法和装置、一种搜索方法和系统
【技术领域】
[0001]本申请涉及网络【技术领域】,特别是涉及一种评论数据处理方法和装置、一种搜索方法和系统。
【背景技术】
[0002]随着互联网的普及,网络以成为人们获取信息的一个非常重要的手段,但是随着信息的爆炸式增长,人们很难在较短时间内找到自己需要的信息。比如,对于一些商品的相关信息,这个商品质量的好坏,服务提供商提供的服务的好坏等等。用户一般是根据某个商品的评分或者评论,去了解自己需要的商品的相关信息。然而随着交易量的大幅提升,累积了巨量的商品的评论数据数量,就迫切需要对各评论数据进行分析(比如分析评论者对所述商品的情感倾向),以获得评论者对于所述商品的评价。比如,对于电子商务类网站中的某个卖家的一个商品,用户可以根据所述商品的评分或购买过所述商品的用户的评论数据去了解所述商品的信息。而对于评论数据数量巨大的商品,比如热销商品,其评论数据数能达到数万条,用户往往不可能逐一阅读分析,因此,需要对用户的评论数据进行情感分析,分析以获得能简单的让用户对商品进行了解的信息。
[0003]现有技术中对商品评论数据进行分析分析时,首先对文本进行单方面的情感取向进行分析,比如,对于一条评论数据,通常有三种情感取向,即,正面态度、中立态度和负面态度。现有技术对一条评论数据分析完后一般只是三者之一,即要么是正面态度,要么是中立态度,要么是负面态度,这种方式无法全面地反应出评论者对商品的评价。
[0004]由于现有技术是基于长文本和书面化语言的特点进行分析,因为长文本由于篇幅较长,包含的情感特征相对比较多,而相同场景下短文本描述特征、情感特征则比较稀疏,语义上存在不确定性。对于商品评论数据分析,描述特征是指文本所涵盖的对商品特征属性的描述,而情感特征为评论者的情感态度的表达;其次,长文本通常存在一定的上下文含义。从语义上说,与较短文本相比,长文本会显示更多的逻辑关系,基于所述逻辑关系特征的文本分析法不适用于短文本。再次长文本存在一定的文本结构;一般情况下,长文本的首句和结尾句(含有多个段落的文本亦然)含有更多涉及文本中心意义的描述特征和情感特征。基于所述特征的文本分析法不适用于短文本。
[0005]此外,由于短文本较长文本在措辞上显得更为随意和口语化,所述特点将使常规的文本分析算法的精度下降;虽然现有技术的分析方式对于长文本、书面语的文本(比如影视评论数据等)准确率较高,但对于文本较短,偏重口语化,涵盖内容广泛等特点的评论数据的分析效果比较差,不够精确。
[0006]另外现有技术中由于上述对于短文本的分析效果差,不够精确,导致在搜索引擎中基于短文本的分析结果对目标对象构建搜索引擎时效果不佳,返回给用户端的结果也不够精确,造成相关网络资源的浪费。
【发明内容】
[0007]本申请所要解决的技术问题之一是提供一种评论数据处理方法和装置,能更完整、更准确的对商品对应的偏重口语化、涵盖内容广泛等特点的评论数据进行分析,更精确的分析评论数据的各种特征词的情感倾向。
[0008]为了解决上述问题,本申请公开了一种评论数据处理方法,包括:
[0009]预置特征词词库和情感词词库;所述特征词词库包括特征词,所述特征词为名词或名词性语素;所述情感词词库包括情感词及对应的情感取向值,所述情感词为形容词或形容词性语素;
[0010]基于所述特征词词库和情感词词库,对评论数据处理的步骤包括:
[0011]根据商品信息,获取对应商品信息的各条评论数据;
[0012]根据特征词词库,确定每条评论数据中的特征词;
[0013]根据情感词词库,确定评论数据中与各特征词对应的有效的情感词及所述情感词的取向值;
[0014]根据所述情感词与特征词的对应关系,及所述情感词的取向值,计算每条评论数据中各特征词的特征值。
[0015]优选的,所述预置特征词词库步骤包括:
[0016]从商品所属类目的各商品的评论数据中,获取评论数据样本集;
[0017]从所述评论数据样本集中,提取符合阈值条件的名词和名词性语素;
[0018]将所获得的名词和名词性语素作为特征词,建立特征词库。
[0019]优选的,所述从所述评论数据样本集中,提取符合阈值条件的名词和名词性语素包括:
[0020]对每条评论数据进行分词和词性标注,并提取每条评论数据中的名词和名词性语素;
[0021]将获得的各条评论数据中的名词或者名词性语素进行汇总,获得各名词和名词性语素的出现的次数;
[0022]将出现次数小于最小支持度的名词或名词性语素去除;所述最小支持度通过评论数据总数乘以支持度阈值获得;
[0023]去除不代表商品特征的名词和名词性语素。
[0024]优选的,所述预置特征词词库步骤包括:
[0025]从商品所属类目的各商品的评论数据中,获取评论数据样本集;
[0026]根据所述评论数据样本集,提取形容词和形容词性语素作为情感词种子,并相应标注情感取向值;
[0027]根据所述情感词种子及相应情感取向值,结合同义词、和/或反义词词典构建情感词词库。
[0028]优选的,所述根据所述情感词种子及相应情感取向值,结合同义词、和/或反义词词典构建情感词词库包括:
[0029]以所述情感词种子及相应情感取向值构建初始情感词词库;
[0030]将各情感词种子,在同义词词典中查询与情感词种子的同义词,将所述同义词作为情感词加入情感词词库,并标注相应情感词种子的情感取向值;
[0031]和/或,将各情感词种子,在反义词词典中查询与情感词种子的反义词,将所述反义词作为情感词加入情感词词库,并标注相应情感词种子的相反的情感取向值;
[0032]判断当前情感词词库的数量是否小于阈值;如果小于,则将当前词库中未使用过的情感词作为情感词种子,继续查找同义词词典和/或反义词词典,获取情感词;如果不小于,则退出循环迭代,将当前词库作为最终的情感词词库。
[0033]优选的,根据情感词词库,确定评论数据中与各特征词对应的有效的情感词及所述情感词的取向值包括:
[0034]将所述条评论数据中的形容词和形容词性语素在情感词词库中进行匹配,当匹配上,则将所述形容词和形容词性语素作为所述条评论数据的情感词;
[0035]针对获得的每条评论数据的特征词,选取当前语句中与所述特征词距离最近的情感词作为所述特征词的有效的情感词。
[0036]优选的,还包括:
[0037]当针对每条评论数据的名词和名词性语素,遍历特征词词库,未能获得每条评论数据的特征词时,则针对每条评论数据的词,遍历情感词词库,判断是否存在情感词;
[0038]当存在时,则将距情感词距离最近的名词作为特征词,并将所述情感词作为对应所述特征词的有效情感词。
[0039]优选的,在所述根据情感词词库中情感词对应的情感取向值,以及每条评论数据的特征词及其对应的情感词,计算每条评论数据中特征词的特征值之后,还包括:
[0040]根据所述各特征词的特征值,及预置的各特征词与目标特征词的对应关系,计算所述目标特征词的第一特征值;
[0041]和/或,根据所述各特征词的特征值,计算商品信息的综合特征值。
[0042]优选的,根据所述获得的特征词的情感取向值,计算所述特征词对应的目标特征词的第一特征值时包括:
[0043]根据预置的特征词与目标特征词的多对一或者一对一关系,在同一目标特征词下,汇总不同情感取向值对应的评论数据条数;
[0044]对各情感取向值以评论数据条数为权重进行加权平均计算,获得目标特征词的第
一特征值。
[0045]优选的,根据所述获得的特征词的情感取向值,计算商品信息的综合特征值包括:
[0046]将各特征值的情感取向值乘以对应评论者的评论者资深系数得到各特征词的第二特征值;
[0047]根据所述各特征词的第二特征值计算所述商品信息的综合特征值。
[0048]优选的,所述对应评论者的评论者资深系数的获得步骤包括:
[0049]提取所述条评论数据的评论者在商品信息所属类目下的历史评论数据;
[0050]基于所述评论数据,结合情感词词库和/或特征词词库,分析所述评论者的评论者资深系数。
[0051]优选的,所述基于所述评论数据,结合情感词词库和/或特征词词库,分析所述评论者的评论者资深系数包括:
[0052]基于所述情感词词库,分析所述评论者各条评论数据的情感取向值;
[0053]统计情感取向值属于正面的评论数据的第一数量,与情感取向值属于负面的评论数据的第二数量;
[0054]当所述第一数量与第二数量之差小于阈值,则增加当前评论者资深系数值。
[0055]优选的,所述基于所述评论数据,结合情感词词库和/或特征词词库,分析所述评论者的评论者资深系数包括:
[0056]计算评论者的各评论数据中名词和名词性语素出现的总数与所述评论者的评论数据条数的第一比值;
[0057]计算目标商品的各的评论数据中名词和名词性语素出现的总数与所述目标商品的评论数据条数的第二比值;所述目标商品对应所述商品信息;
[0058]当所述第一比值大于所述第二比值时,则增加当前评论者资深系数值。
[0059]优选的,所述基于所述评论数据,结合情感词词库和/或特征词词库,分析所述评论者的评论者资深系数包括:
[0060]计算评论者的评论数据中属于特征词词库的名词或名词性语素的总数与所述评论者的评论数据条数的第三比值;
[0061]计算目标商品的各评论数据中属于特征词词库的名词或名词性语素的总数与所述目标商品的评论数据条数的第四比值;所述目标商品对应所述商品信息;
[0062]当所述第三比值大于所述第四比值时,则增加当前评论者资深系数值。
[0063]优选的,所述基于所述评论数据,结合情感词词库和/或特征词词库,分析所述评论者的评论者资深系数包括:
[0064]计算目标商品的每个评论者的平均评论数据条数,当一评论者的评论数据条数大于所述平均评论数据条数,则增加当前评论者资深系数值;所述目标商品对应所述商品信
肩、O
[0065]本申请还公开了,一种搜索方法,包括:接收用户端的查询词串;
[0066]根据所述查询词串在商品信息索引中进行检索,得到初始商品信息集合;
[0067]针对初始商品信息集合中每个商品信息,根据相应评论数据中的特征词的特征值,对所述商品信息进行排序;
[0068]将排序靠前的至少一个商品信息返回给用户端;
[0069]其中,所述特征词的特征值获得步骤包括:
[0070]预置特征词词库和情感词词库;所述特征词词库包括特征词,所述特征词为名词或名词性语素;所述情感词词库包括情感词及对应的情感取向值,所述情感词为形容词或形容词性语素;
[0071]基于所述特征词词库和情感词词库,对评论数据处理的步骤包括:
[0072]根据商品信息,获取对应商品信息的各条评论数据;
[0073]根据特征词词库,确定每条评论数据中的特征词;
[0074]根据情感词词库,确定评论数据中与各特征词对应的有效的情感词及所述情感词的取向值;
[0075]根据所述情感词与特征词的对应关系,及所述情感词的取向值,计算每条评论数据中各特征词的特征值。
[0076]优选的,所述基于所述特征词词库和情感词词库,对评论数据处理的步骤还包括:[0077]根据所述各特征词的特征值,及预置的各特征词与目标特征词的对应关系,计算所述目标特征词的第一特征值;
[0078]和/或,根据所述各特征词的特征值,计算商品信息的综合特征值。
[0079]优选的,所述根据相应评论数据中的特征词的特征值,对所述商品信息进行排序包括:
[0080]提取与商品信息的评论数据相关的目标特征词,并根据所述目标特征词的第一特征值对所述商品信息进行排序;
[0081]或者,根据所述商品信息的综合特征值对所述商品信息进行排序。
[0082]本申请还公开了,一种搜索方法,包括:
[0083]接收用户端的查询词串;
[0084]根据所述查询词串在卖家店铺索引中进行检索,得到初始卖家店铺集合;
[0085]针对初始卖家店铺,根据卖家店铺中各商品信息的评论数据的各特征词的特征值,对卖家店铺进行排序;
[0086]返回至少一个排序靠前的卖家店铺给用户端;
[0087]其中,所述特征词的特征值获得步骤包括:
[0088]预置特征词词库和情感词词库;所述特征词词库包括特征词,所述特征词为名词或名词性语素;所述情感词词库包括情感词及对应的情感取向值,所述情感词为形容词或形容词性语素;
[0089]基于所述特征词词库和情感词词库,对评论数据处理的步骤包括:
[0090]根据商品信息,获取对应商品信息的各条评论数据;
[0091]根据特征词词库,确定每条评论数据中的特征词;
[0092]根据情感词词库,确定评论数据中与各特征词对应的有效的情感词及所述情感词的取向值;
[0093]根据所述情感词与特征词的对应关系,及所述情感词的取向值,计算每条评论数据中各特征词的特征值。
[0094]本申请还公开了一种评论数据展示方法,包括:
[0095]接收用户端的对应商品信息的查看请求;
[0096]根据所述查看请求对应的商品信息,提取所述商品信息的评论数据的各特征词及特征值,并根据所述特征词及特征值进行展示;
[0097]其中,所述商品信息的各特征词及特征值获得步骤包括:
[0098]预置特征词词库和情感词词库;所述特征词词库包括特征词,所述特征词为名词或名词性语素;所述情感词词库包括情感词及对应的情感取向值,所述情感词为形容词或形容词性语素;
[0099]基于所述特征词词库和情感词词库,对评论数据处理的步骤包括:
[0100]根据商品信息,获取对应商品信息的各条评论数据;
[0101]根据特征词词库,确定每条评论数据中的特征词;
[0102]根据情感词词库,确定评论数据中与各特征词对应的有效的情感词及所述情感词的取向值;
[0103]根据所述情感词与特征词的对应关系,及所述情感词的取向值,计算每条评论数据中各特征词的特征值;
[0104]针对相同的特征词,将所述特征词的各特征值进行汇总。
[0105]相应的本申请公开了一种评论数据处理装置,包括:
[0106]特征词词库和情感词词库;所述特征词词库包括特征词,所述特征词为名词或名词性语素;所述情感词词库包括情感词及对应的情感取向值,所述情感词为形容词或形容词性语素;
[0107]数据获取模块,用于根据商品信息,获取对应商品信息的各条评论数据;
[0108]特征词获取模块,用于根据特征词词库,确定每条评论数据中的特征词;
[0109]情感词确认模块,用于根据情感词词库,确定评论数据中与各特征词对应的有效的情感词及所述情感词的取向值;
[0110]特征值计算模块,用于根据所述情感词与特征词的对应关系,及所述情感词的取向值,计算每条评论数据中各特征词的特征值。
[0111]相应的本申请还公开了一种搜索系统,包括:
[0112]所述搜索引擎和评论数据处理装置;
[0113]所述搜索引擎包括:
[0114]查询接收模块,用于接收用户端的查询词串;
[0115]检索模块,用于根据所述查询词串在商品信息索引中进行检索,得到初始商品信息集合;
[0116]排序模块,用于针对初始商品信息集合中每个商品信息,根据相应评论数据中的特征词的特征值,对所述商品信息进行排序;
[0117]返回模块,用于将排序靠前的至少一个商品信息返回给用户端;
[0118]所述评论数据处理装置包括:
[0119]特征词词库和情感词词库;所述特征词词库包括特征词,所述特征词为名词或名词性语素;所述情感词词库包括情感词及对应的情感取向值,所述情感词为形容词或形容词性语素;
[0120]数据获取模块,用于根据商品信息,获取对应商品信息的各条评论数据;
[0121]特征词获取模块,用于根据特征词词库,确定每条评论数据中的特征词;
[0122]情感词确认模块,用于根据情感词词库,确定评论数据中与各特征词对应的有效的情感词及所述情感词的取向值;
[0123]特征值计算模块,用于根据所述情感词与特征词的对应关系,及所述情感词的取向值,计算每条评论数据中各特征词的特征值。
[0124]优选的,所述评论数据处理装置还包括:
[0125]第一特征值计算模块,用于根据所述各特征词的特征值,及预置的各特征词与目标特征词的对应关系,计算所述目标特征词的第一特征值;
[0126]和/或,综合特征值计算模块,用于根据所述各特征词的特征值,计算商品信息的综合特征值。
[0127]优选的,所述根据相应评论数据中的特征词的特征值,对所述商品信息进行排序包括:
[0128]第一排序模块,用于提取与商品信息的评论数据相关的目标特征词,并根据所述目标特征词的第一特征值对所述商品信息进行排序;
[0129]或者,第二排序模块,用于根据所述商品信息的综合特征值对所述商品信息进行排序。
[0130]相应的本申请还公开了一种搜索系统,包括:
[0131]搜索引擎和评论数据处理装置;
[0132]所述搜索引擎包括:
[0133]第一查询接收模块,用于接收用户端的查询词串;
[0134]第一检索模块,用于根据所述查询词串在卖家店铺索引中进行检索,得到初始卖家店铺集合;
[0135]第一排序模块,用于针对初始卖家店铺,根据卖家店铺中各商品信息的评论数据的各特征词的特征值,对卖家店铺进行排序;
[0136]第一返回模块,用于返回至少一个排序靠前的卖家店铺给用户端;
[0137]所述评论数据处理装置包括:
[0138]特征词词库和情感词词库;所述特征词词库包括特征词,所述特征词为名词或名词性语素;所述情感词词库包括情感词及对应的情感取向值,所述情感词为形容词或形容词性语素;
[0139]数据获取模块,用于根据商品信息,获取对应商品信息的各条评论数据;
[0140]特征词获取模块,用于根据特征词词库,确定每条评论数据中的特征词;
[0141]情感词确认模块,用于根据情感词词库,确定评论数据中与各特征词对应的有效的情感词及所述情感词的取向值;
[0142]特征值计算模块,用于根据所述情感词与特征词的对应关系,及所述情感词的取向值,计算每条评论数据中各特征词的特征值。
[0143]相应的本申请还公开了一种评论数据展示装置,包括:
[0144]查看请求接收模块,用于接收用户端的对应商品信息的查看请求;
[0145]展示模块,用于根据所述查看请求对应的商品信息,提取所述商品信息的各特征词及特征值,并根据所述特征词及特征值进行展示;
[0146]其中,所述商品信息的各特征词及特征值获得的模块包括:
[0147]特征词词库和情感词词库;所述特征词词库包括特征词,所述特征词为名词或名词性语素;所述情感词词库包括情感词及对应的情感取向值,所述情感词为形容词或形容词性语素;
[0148]数据获取模块,用于根据商品信息,获取对应商品信息的各条评论数据;
[0149]特征词获取模块,用于根据特征词词库,确定每条评论数据中的特征词;
[0150]情感词确认模块,用于根据情感词词库,确定评论数据中与各特征词对应的有效的情感词及所述情感词的取向值;
[0151]特征值计算模块,用于根据所述情感词与特征词的对应关系,及所述情感词的取向值,计算每条评论数据中各特征词的特征值;
[0152]汇总模块,用于针对相同的特征词,将所述特征词的各特征值进行汇总。
[0153]与现有技术相比,本申请包括以下优点:
[0154]本申请针对每条评论数据的名词和名词性语素,遍历特征词词库,获得每条评论数据的特征词,并根据特征词确定所述特征词的有效情感词,然后根据所述特征词的有效情感词,查询情感词词库获得特征词的情感取向值。首先,通过本申请可以针对商品的不同方面的特征进行分析,获得评论者对所述商品的各方面的情感取向,比如评论者对商品的质量满意,但对商品的物流不满意,对商品的外观不满意等。其次,通过本申请,提高了对具有短文本、口语化偏重等特点的评论数据分析的准确率,具有更客观的分析结果,这提高了相关网络资源的利用率。
【专利附图】
【附图说明】
[0155]图1是本申请一种评论数据处理方法实施例一的流程示意图;
[0156]图2是本申请一种评论数据处理方法的特征词词库的建立流程示意图;
[0157]图3是本申请一种评论数据处理方法的情感词词库的建立流程示意图;
[0158]图4是本申请一种评论数据处理方法实施例二的流程示意图;
[0159]图5是本申请一种评论数据处理方法实施例三的流程示意图;
[0160]图6是本申请一种搜索方法实施例一的流程不意图;
[0161]图7是本申请一种搜索方法实施例二的流程不意图;
[0162]图8是本申请一种评论数据展示方法实施例一的流程示意图;
[0163]图9是本申请一种评论数据处理装置实施例一的结构示意图;
[0164]图10是本申请一种搜索系统实施例一的结构示意图;
[0165]图11是本申请一种搜索系统实施例二的结构示意图;
[0166]图12是本申请一种评论数据展示装置实施例一的结构示意图,
【具体实施方式】
[0167]为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和【具体实施方式】对本申请作进一步详细的说明。
[0168]方法实施例一
[0169]参照图1,其示出了本申请一种评论数据处理方法实施例一的流程示意图,具体可以包括:
[0170]步骤100,预置特征词词库和情感词词库;所述特征词词库包括特征词,所述特征词为名词或名词性语素;所述情感词词库包括情感词及对应的情感取向值,所述情感词为形容词或形容词性语素;
[0171]在本申请中,可预先建立特征词词库和情感词词库,然后再基于特征词词库进行评论数据的分析。所述特征词词库用户判断和获取评论数据中的特征词,所述情感词用于判断和获取评论数据中的有效情感词,并设置有效情感词的情感取向值。特征词词库中的词可以是名词和/或名词性语素,情感词词库中的词可以是形容词和/或形容词性语素。其中,所述名词性语素可以是动名词等,如“发货”,所述形容词性语素可以是副词+名词等,如“非常好”。
[0172]本申请的特征词词库和情感词词库可按商品的类目进行构建。比如抽样某个类目的50万件商品的评论数据作为基础数据,从这些基础数据中提取特征词和情感词,并对情感词进行情感取向值的设定。[0173]优选地,参照图2,所述预置特征词词库步骤包括:
[0174]步骤AlOI,从商品所属类目的各商品的评论数据中,获取评论数据样本集;
[0175]在选取商品所属类目的范围时,可以根据实际需求选取,比如,如果需要对某款笔记本电脑的评论数据进行分析,那么可以针对所有笔记本电脑这一层级的类目选取评论数据样本集。
[0176]比如获取得到下列评论数据样本集M:
[0177]I 质量非常好,物超所值,但就是发货很慢,物流太差。”
[0178]2:“质量一般。帮舅舅买的,他说还行。”
[0179]3:“发货慢,物流太差了。但是质量没得说。”
[0180]4: “等了一个星期才发货,急死人了。”
[0181]步骤A102,从所述评论数据样本集中,提取符合阈值条件的名词和名词性语素;
[0182]得到评论数据样本集后,则可基于所述评论样本集,根据预设的阈值条件对其中的名词和名称性语素进行提取。
[0183]优选的,所述从所述评论数据样本集中,提取符合阈值条件的名词和名词性语素包括:
[0184]步骤A1021,对每条评论数据进行分词和词性标注,并提取每条评论数据中的名词和名词性语素;
`[0185]比如对于前述的评论样本集M,在进行分词和词性标注,提取每条评论数据中的名词和名词性语素后的得到的项集为:
[0186]1:[质量,发货,物流]]
[0187]2:[质量,舅舅]
[0188]3:[发货,物流,质量]
[0189]4:[星期,发货,人]
[0190]步骤A1022,将获得的各条评论数据中的名词或者名词性语素进行汇总,获得各名词和名词性语素的出现的次数;
[0191]初始时每个项都被看成候选1-项集(即只包含一个词的项集),对各个名词或名词性语素的出现次数(也可理解为支持度)计数,如表一:
[0192]
【权利要求】
1.一种评论数据处理方法,其特征在于,包括: 预置特征词词库和情感词词库;所述特征词词库包括特征词,所述特征词为名词或名词性语素;所述情感词词库包括情感词及对应的情感取向值,所述情感词为形容词或形容词性语素; 基于所述特征词词库和情感词词库,对评论数据处理的步骤包括: 根据商品信息,获取对应商品信息的各条评论数据; 根据特征词词库,确定每条评论数据中的特征词; 根据情感词词库,确定评论数据中与各特征词对应的有效的情感词及所述情感词的取向值; 根据所述情感词与特征词的对应关系,及所述情感词的取向值,计算每条评论数据中各特征词的特征值。
2.根据权利要求1所述的方法,其特征在于,所述预置特征词词库步骤包括: 从商品所属类目的各商品的评论数据中,获取评论数据样本集; 从所述评论数据样本集中,提取符合阈值条件的名词和名词性语素; 将所获得的名词和名词性语素作为特征词,建立特征词库。
3.根据权利要求2所述的方法,其特征在于,所述从所述评论数据样本集中,提取符合阈值条件的名词和名词性语素包括: 对每条评论数据进行分词和词性标注,并提取每条评论数据中的名词和名词性语素;将获得的各条评论数据中的名词或者名词性语素进行汇总,获得各名词和名词性语素的出现的次数; 将出现次数小于最小支持度的名词或名词性语素去除;所述最小支持度通过评论数据总数乘以支持度阈值获得; 去除不代表商品特征的名词和名词性语素。
4.根据权利要求1所述的方法,其特征在于,所述预置特征词词库步骤包括: 从商品所属类目的各商品的评论数据中,获取评论数据样本集; 根据所述评论数据样本集,提取形容词和形容词性语素作为情感词种子,并相应标注情感取向值; 根据所述情感词种子及相应情感取向值,结合同义词、和/或反义词词典构建情感词词库。
5.根据权利要求4所述的方法,其特征在于,所述根据所述情感词种子及相应情感取向值,结合同义词、和/或反义词词典构建情感词词库包括: 以所述情感词种子及相应情感取向值构建初始情感词词库; 将各情感词种子,在同义词词典中查询与情感词种子的同义词,将所述同义词作为情感词加入情感词词库,并标注相应情感词种子的情感取向值; 和/或,将各情感词种子,在反义词词典中查询与情感词种子的反义词,将所述反义词作为情感词加入情感词词库,并标注相应情感词种子的相反的情感取向值; 判断当前情感词词库的数量是否小于阈值;如果小于,则将当前词库中未使用过的情感词作为情感词种子,继续查找同义词词典和/或反义词词典,获取情感词;如果不小于,则退出循环迭代,将当前词库作为最终的情感词词库。
6.根据权利要求1所述的方法,其特征在于,根据情感词词库,确定评论数据中与各特征词对应的有效的情感词及所述情感词的取向值包括: 将所述条评论数据中的形容词和形容词性语素在情感词词库中进行匹配,当匹配上,则将所述形容词和形容词性语素作为所述条评论数据的情感词; 针对获得的每条评论数据的特征词,选取当前语句中与所述特征词距离最近的情感词作为所述特征词的有效的情感词。
7.根据权利要求1所述的方法,其特征在于,还包括: 当针对每条评论数据的名词和名词性语素,遍历特征词词库,未能获得每条评论数据的特征词时,则针对每条评论数据的词,遍历情感词词库,判断是否存在情感词; 当存在时,则将距情感词距离最近的名词作为特征词,并将所述情感词作为对应所述特征词的有效情感词。
8.根据权利要求1所述的方法,其特征在于,在所述根据情感词词库中情感词对应的情感取向值,以及每条评论数据的特征词及其对应的情感词,计算每条评论数据中特征词的特征值之后,还包括: 根据所述各特征词的 特征值,及预置的各特征词与目标特征词的对应关系,计算所述目标特征词的第一特征值; 和/或,根据所述各特征词的特征值,计算商品信息的综合特征值。
9.根据权利要求8所述的方法,其特征在于,根据所述获得的特征词的情感取向值,计算所述特征词对应的目标特征词的第一特征值时包括: 根据预置的特征词与目标特征词的多对一或者一对一关系,在同一目标特征词下,汇总不同情感取向值对应的评论数据条数; 对各情感取向值以评论数据条数为权重进行加权平均计算,获得目标特征词的第一特征值。
10.根据权利要求8所述的方法,其特征在于,根据所述获得的特征词的情感取向值,计算商品信息的综合特征值包括: 将各特征值的情感取向值乘以对应评论者的评论者资深系数得到各特征词的第二特征值; 根据所述各特征词的第二特征值计算所述商品信息的综合特征值。
11.根据权利要求10所述的方法,其特征在于,所述对应评论者的评论者资深系数的获得步骤包括: 提取所述条评论数据的评论者在商品信息所属类目下的历史评论数据; 基于所述评论数据,结合情感词词库和/或特征词词库,分析所述评论者的评论者资深系数。
12.根据权利要求11所述的方法,其特征在于,所述基于所述评论数据,结合情感词词库和/或特征词词库,分析所述评论者的评论者资深系数包括: 基于所述情感词词库,分析所述评论者各条评论数据的情感取向值; 统计情感取向值属于正面的评论数据的第一数量,与情感取向值属于负面的评论数据的第二数量; 当所述第一数量与第二数量之差小于阈值,则增加当前评论者资深系数值。
13.根据权利要求11所述的方法,其特征在于,所述基于所述评论数据,结合情感词词库和/或特征词词库,分析所述评论者的评论者资深系数包括: 计算评论者的各评论数据中名词和名词性语素出现的总数与所述评论者的评论数据条数的第一比值; 计算目标商品的各的评论数据中名词和名词性语素出现的总数与所述目标商品的评论数据条数的第二比值;所述目标商品对应所述商品信息; 当所述第一比值大于所述第二比值时,则增加当前评论者资深系数值。
14.根据权利要求11所述的方法,其特征在于,所述基于所述评论数据,结合情感词词库和/或特征词词库,分析所述评论者的评论者资深系数包括: 计算评论者的评论数据中属于特征词词库的名词或名词性语素的总数与所述评论者的评论数据条数的第三比值; 计算目标商品的各评论数据中属于特征词词库的名词或名词性语素的总数与所述目标商品的评论数据条数的第四比值;所述目标商品对应所述商品信息; 当所述第三比值大于所述第四比值时,则增加当前评论者资深系数值。
15.根据权利要求11所述的方法,其特征在于,所述基于所述评论数据,结合情感词词库和/或特征词词库,分析所述评论者的评论者资深系数包括: 计算目标商品的每个评论 者的平均评论数据条数,当一评论者的评论数据条数大于所述平均评论数据条数,则增加当前评论者资深系数值;所述目标商品对应所述商品信息。
16.一种搜索方法,其特征在于,包括:接收用户端的查询词串; 根据所述查询词串在商品信息索引中进行检索,得到初始商品信息集合; 针对初始商品信息集合中每个商品信息,根据相应评论数据中的特征词的特征值,对所述商品信息进行排序; 将排序靠前的至少一个商品信息返回给用户端; 其中,所述特征词的特征值获得步骤包括: 预置特征词词库和情感词词库;所述特征词词库包括特征词,所述特征词为名词或名词性语素;所述情感词词库包括情感词及对应的情感取向值,所述情感词为形容词或形容词性语素; 基于所述特征词词库和情感词词库,对评论数据处理的步骤包括: 根据商品信息,获取对应商品信息的各条评论数据; 根据特征词词库,确定每条评论数据中的特征词; 根据情感词词库,确定评论数据中与各特征词对应的有效的情感词及所述情感词的取向值; 根据所述情感词与特征词的对应关系,及所述情感词的取向值,计算每条评论数据中各特征词的特征值。
17.根据权利要求16所述的方法,其特征在于,所述基于所述特征词词库和情感词词库,对评论数据处理的步骤还包括: 根据所述各特征词的特征值,及预置的各特征词与目标特征词的对应关系,计算所述目标特征词的第一特征值; 和/或,根据所述各特征词的特征值,计算商品信息的综合特征值。
18.根据权利要求17所述的方法,其特征在于,所述根据相应评论数据中的特征词的特征值,对所述商品信息进行排序包括: 提取与商品信息的评论数据相关的目标特征词,并根据所述目标特征词的第一特征值对所述商品信息进行排序; 或者,根据所述商品信息的综合特征值对所述商品信息进行排序。
19.一种搜索方法,其特征在于,包括: 接收用户端的查询词串; 根据所述查询词串在卖家店铺索引中进行检索,得到初始卖家店铺集合; 针对初始卖家店铺,根据卖家店铺中各商品信息的评论数据的各特征词的特征值,对卖家店铺进行排序; 返回至少一个排序靠前的卖家店铺给用户端; 其中,所述特征词的特征值获得步骤包括: 预置特征词词库和情感词词库;所述特征词词库包括特征词,所述特征词为名词或名词性语素;所述情感词词库包括情感词及对应的情感取向值,所述情感词为形容词或形容词性语素; 基于所述特征词词库和情感词词库,对评论数据处理的步骤包括: 根据商品信息,获取对应商品信息的各条评论数据; 根据特征词词库,确定每条评论数据中的特征词; 根据情感词词库,确定评论数据中与各特征词对应的有效的情感词及所述情感词的取向值; 根据所述情感词与特征词的对应关系,及所述情感词的取向值,计算每条评论数据中各特征词的特征值。
20.一种评论数据展示方法,其特征在于,包括: 接收用户端的对应商品信息的查看请求; 根据所述查看请求对应的商品信息,提取所述商品信息的评论数据的各特征词及特征值,并根据所述特征词及特征值进行展示; 其中,所述商品信息的各特征词及特征值获得步骤包括: 预置特征词词库和情感词词库;所述特征词词库包括特征词,所述特征词为名词或名词性语素;所述情感词词库包括情感词及对应的情感取向值,所述情感词为形容词或形容词性语素; 基于所述特征词词库和情感词词库,对评论数据处理的步骤包括: 根据商品信息,获取对应商品信息的各条评论数据; 根据特征词词库,确定每条评论数据中的特征词; 根据情感词词库,确定评论数据中与各特征词对应的有效的情感词及所述情感词的取向值; 根据所述情感词与特征词的对应关系,及所述情感词的取向值,计算每条评论数据中各特征词的特征值; 针对相同的特征词,将所述特征词的各特征值进行汇总。
21.一种评论数据处理装置,其特征在于,包括:特征词词库和情感词词库;所述特征词词库包括特征词,所述特征词为名词或名词性语素;所述情感词词库包括情感词及对应的情感取向值,所述情感词为形容词或形容词性语素; 数据获取模块,用于根据商品信息,获取对应商品信息的各条评论数据; 特征词获取模块,用于根据特征词词库,确定每条评论数据中的特征词; 情感词确认模块,用于根据情感词词库,确定评论数据中与各特征词对应的有效的情感词及所述情感词的取向值; 特征值计算模块,用于根据所述情感词与特征词的对应关系,及所述情感词的取向值,计算每条评论数据中各特征词的特征值。
22.一种搜索系统,其特征在于,包括: 所述搜索引擎和评论数据处理装置; 所述搜索引擎包 括: 查询接收模块,用于接收用户端的查询词串; 检索模块,用于根据所述查询词串在商品信息索引中进行检索,得到初始商品信息集合; 排序模块,用于针对初始商品信息集合中每个商品信息,根据相应评论数据中的特征词的特征值,对所述商品信息进行排序; 返回模块,用于将排序靠前的至少一个商品信息返回给用户端; 所述评论数据处理装置包括: 特征词词库和情感词词库;所述特征词词库包括特征词,所述特征词为名词或名词性语素;所述情感词词库包括情感词及对应的情感取向值,所述情感词为形容词或形容词性语素; 数据获取模块,用于根据商品信息,获取对应商品信息的各条评论数据; 特征词获取模块,用于根据特征词词库,确定每条评论数据中的特征词; 情感词确认模块,用于根据情感词词库,确定评论数据中与各特征词对应的有效的情感词及所述情感词的取向值; 特征值计算模块,用于根据所述情感词与特征词的对应关系,及所述情感词的取向值,计算每条评论数据中各特征词的特征值。
23.根据权利要求22所述的系统,其特征在于,所述评论数据处理装置还包括: 第一特征值计算模块,用于根据所述各特征词的特征值,及预置的各特征词与目标特征词的对应关系,计算所述目标特征词的第一特征值; 和/或,综合特征值计算模块,用于根据所述各特征词的特征值,计算商品信息的综合特征值。
24.根据权利要求23所述的系统,其特征在于,所述根据相应评论数据中的特征词的特征值,对所述商品信息进行排序包括: 第一排序模块,用于提取与商品信息的评论数据相关的目标特征词,并根据所述目标特征词的第一特征值对所述商品信息进行排序; 或者,第二排序模块,用于根据所述商品信息的综合特征值对所述商品信息进行排序。
25.一种搜索系统,其特征在于,包括:搜索引擎和评论数据处理装置; 所述搜索引擎包括: 第一查询接收模块,用于接收用户端的查询词串; 第一检索模块,用于根据所述查询词串在卖家店铺索引中进行检索,得到初始卖家店铺集合; 第一排序模块,用于针对初始卖家店铺,根据卖家店铺中各商品信息的评论数据的各特征词的特征值,对卖家店铺进行排序; 第一返回模块,用于返回至少一个排序靠前的卖家店铺给用户端; 所述评论数据处理装置包括: 特征词词库和情感词词库;所述特征词词库包括特征词,所述特征词为名词或名词性语素;所述情感词词库包括情感词及对应的情感取向值,所述情感词为形容词或形容词性语素; 数据获取模块,用于根据商品信息,获取对应商品信息的各条评论数据; 特征词获取模块,用于根据特征词词库,确定每条评论数据中的特征词; 情感词确认模块,用于根据情感词词库,确定评论数据中与各特征词对应的有效的情感词及所述情感词的取向值; 特征值计算模块,用于根据所述情感词与特征词的对应关系,及所述情感词的取向值,计算每条评论数据中各特征词的特征值。`
26.一种评论数据展示装置,其特征在于,包括: 查看请求接收模块,用于接收用户端的对应商品信息的查看请求; 展示模块,用于根据所述查看请求对应的商品信息,提取所述商品信息的各特征词及特征值,并根据所述特征词及特征值进行展示; 其中,所述商品信息的各特征词及特征值获得的模块包括: 特征词词库和情感词词库;所述特征词词库包括特征词,所述特征词为名词或名词性语素;所述情感词词库包括情感词及对应的情感取向值,所述情感词为形容词或形容词性语素; 数据获取模块,用于根据商品信息,获取对应商品信息的各条评论数据; 特征词获取模块,用于根据特征词词库,确定每条评论数据中的特征词; 情感词确认模块,用于根据情感词词库,确定评论数据中与各特征词对应的有效的情感词及所述情感词的取向值; 特征值计算模块,用于根据所述情感词与特征词的对应关系,及所述情感词的取向值,计算每条评论数据中各特征词的特征值; 汇总模块,用于针对相同的特征词,将所述特征词的各特征值进行汇总。
【文档编号】G06Q30/00GK103679462SQ201210320786
【公开日】2014年3月26日 申请日期:2012年8月31日 优先权日:2012年8月31日
【发明者】张辉, 陈志钊 申请人:阿里巴巴集团控股有限公司