基于情感倾向的产品评论主题搜索方法
【技术领域】
[0001 ]本发明涉及一种基于情感倾向的产品评论主题搜索方法。
【背景技术】
[0002] 目前的很多搜索服务中,有一些针对不同用户的个性化的信息搜索服务,如基于 用户行为分析的个性化搜索服务,对于不同用户的相同查询请求返回的查询结果也有所相 同,即系统能够在一定程度上识别不同用户个性信息需求上的差别。另外目前的主题搜索 中很少有对产品评价进行情感倾向性,仅仅只是搜索出相应产品的对应评价,但是搜索结 果却无法对用户如何做选择进行较好地帮助。因此如何在搜索中,不仅搜索出相应产品的 评价,还能对产品评价的情感倾向性进行分析即文本的情感分类,并对搜索结果进行排序 成为产品评价主题搜索领域中许多学者的研究热点。近十年来对文本主题分类的研究已经 比较深入,但是对文本情感分类的研究还处在一个较少。在文本情感倾向分类的研究中,文 本中情感倾向词语的选择和抽取是整个分类过程的关键,而词语的情感倾向判别是篇章级 情感倾向研究的基础。
[0003] 在很多主题元搜索方法中,对搜索结果一般采用提取特征向量的方法,然后采用 夹角余弦算法,计算搜索结果与主题的相符合程度。但是特征向量是离散的,可能无法正确 表达搜索结果文档,因此以此计算与主题的相似度就会不够准确,搜索结果的准确性就大 大受到影响。
【发明内容】
[0004] 本发明的目的在于提供一种基于情感倾向的产品评论主题搜索方法,能够在保证 查全率的前提下,根据产品的主题模型,抽取产品评价对象,并根据情感词词典分析产品评 价的情感倾向性,排序后输出,从而得到更高的查准率。
[0005] 为解决上述问题,本发明提供一种基于情感倾向的产品评论主题搜索方法,包括:
[0006] 建立各种产品的主题模型,其中,每个主题模型包括多个产品主题;
[0007] 对每个产品主题根据设定的种子网址进行爬行,对爬行采集到的网页进行处理, 提取产品对象及产品评价短语,根据产品主题模型,计算网页与主题的相关度,高于预设的 阈值的网页保留,然后再计算页面的产品评价的情感倾向值;
[0008] 用户在进行搜索时,选择要进行搜索的产品主题,然后根据关键词进行搜索,搜索 结果按照情感倾向性的降序排序。
[0009] 进一步的,在上述方法中,建立各种产品的主题模型,包括:
[0010] 主题模型采取三元组Topic(C,W,V)来表示,形成主题树结构,其中:C表示产品对 象;W表示产品评价短语;V表示产品评价的情感倾向值,C采用向量空间模型(VSM)来表示, 使用二元组Ci(Keyi,Weighti),其中,Keyi表示关键词,Weighti表示关键词的权重,产品评价 的情感倾向值V介于-1和1之间,正数表示对产品的正面评价,且值越大,情感倾向越高;负 数表示对产品的负面评价,且值越小,负面情感倾向就越高。
[0011] 进一步的,在上述方法中,对每个产品主题根据设定的种子网址进行爬行,包括:
[0012] 对每个产品主题设置几个爬行的种子网址,从网络上采集相关网页。
[0013] 进一步的,在上述方法中,对爬行采集到的网页进行处理,提取产品对象及产品评 价短语,根据产品主题模型,计算网页与主题的相关度,高于预设的阈值的网页保留,然后 再计算页面的产品评价的情感倾向值,包括:
[0014] 提取网页的正文,并提取网页的正文的特征向量;
[0015] 根据特征向量的夹角的余弦值来计算提取网页的相似度,去除重复的网页;
[0016] 从剩余的网页中抽取评价对象,根据所述评价对象计算与所述产品主题的相关 度;
[0017] 抽取未丢弃网页中的产品评价短语;
[0018] 据不同类型的产品评价短语分别计算其情感倾向值;
[0019] 计算每个未丢弃网页的情感倾向值。
[0020] 进一步的,在上述方法中,从剩余的网页中抽取评价对象,根据所述评价对象计算 与所述产品主题的相关度,包括:
[0021] 对剩余的网页中的文本进行分词,根据分词的词性标注的出现规则抽取候选评价 对象;
[0022]从召回率的角度出发,尽可能多的收集剩余的网页中评价对象的词性规则;
[0023] 网页采用产品对象及关系的特征向量来表示,产品主题的各个子类的概念也是特 征向量,根据向量空间模型,两特征向量夹角的余弦值表示它们的相关度,由此计算出一个 网页与主题的相关度,并记录下来;
[0024] 根据设定的相关度阈值,将低于相关度阈值的网页丢弃。
[0025] 进一步的,在上述方法中,抽取未丢弃网页中的产品评价短语,包括:
[0026] 根据情感词词典,以情感词为中心,通过所述评价对象、程度词和否定词的修饰成 分来识别评价短语。
[0027] 进一步的,在上述方法中,根据情感词词典,以情感词为中心,通过所述评价对象、 程度词和否定词的修饰成分来识别评价短语的步骤中,根据情感词、否定词、程度词及其他 成分,将产品评价短语划分为5类。
[0028] 进一步的,在上述方法中,计算每个未丢弃网页的情感倾向值,包括:
[0029] 通过每个未丢弃网页的各评价短语的权值之和,来判断每个未丢弃网页的情感倾 向性。
[0030] 进一步的,在上述方法中,通过每个未丢弃网页的各评价短语的权值之和中,
[0031] 通过公式计算每个未丢弃网页的各评价短语的权值之 和,其中,Ws(CT)表示一个未丢弃网页中评价短语的情感倾向值,Document表示一个未丢弃 网页的情感倾向值,若Document大于0,该文本为正面评价;若Document小于0,则该文本为 负面评价。
[0032] 进一步的,在上述方法中,用户在进行搜索时,选择要进行搜索的产品主题,然后 根据关键词进行搜索,搜索结果按照情感倾向性的降序排序,包括:
[0033] 用户输入关键字后,在选定的产品主题中进行搜索;
[0034] 根据用户选择的主题及关键字与采集到的网页进行匹配,然后根据与产品主题的 相关性的高低及网页的情感倾向值,按照情感倾向性的降序排序显示出相应的网页。
[0035] 与现有技术相比,本发明在保证查全率的前提下,根据产品的主题模型,抽取产品 评价对象,并根据情感词词典分析产品评价的情感倾向性,排序后输出,从而得到更高的查 准率。本发明对产品评价的主题采用产品对象、产品评价短语和情感倾向值的三元组表示, 能够更清楚地表达不同产品评价的情感倾向。另外,对采集的页面从两个方面进行评分,与 主题的相关度和产品评价的情感倾向值,更好地满足用户不仅对产品评价,还对评价的情 感倾向感兴趣的需要,因此提高了搜索的准确性。
【附图说明】
[0036] 图1是本发明一实施例的基于情感倾向的产品评论主题搜索方法的流程图。
【具体实施方式】
[0037] 为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实 施方式对本发明作进一步详细的说明。
[0038] 如图1所示,本发明提供一种基于情感倾向的产品评论主题搜索方法,包括:
[0039] 步骤S1,建立各种产品的主题模型,其中,每个主题模型包括多个产品主题;
[0040] 步骤S2,对每个产品主题根据设定的种子网址进行爬行,对爬行采集到的网页进 行处理,提取产品对象及产品评价短语,根据产品主题模型,计算网页与主题的相关度,高 于预设的阈值的网页保留,然后再计算页面的产品评价的情感倾向值;
[0041] 步骤S3,用户在进行搜索时,选择要进行搜索的产品主题,然后根据关键词进行搜 索,搜索结果按照情感倾向性的降序排序。
[0042] 优选的,步骤S1,建立各种产品的主题模型,包括:
[0043] 主题模型采取三元组Topic(C,W,V)来表示,形成主题树结构,其中:C表示产品对 象;W表示产品评价短语;V表示产品评价的情感倾向值,C采用向量空间模型(VSM)来表示, 使用二元组Ci(Keyi,Weighti),其中,Keyi表示关键词,Weighti表示关键词的权重,产品评价 的情感倾向值V介于-1和1之间,正数表示对产品的正面评价,且值越大,情感倾向越高;负 数表示对产品的负面评价,且值越小,负面情感倾向就越高。
[0044] 优选的,对每个产品主题根据设定的种子网址进行爬行,包括:
[0045] 对每个产品主题设置几个爬行的种子网址,从网络上采集相关网页。
[0046] 优选的,对爬行采集到的网页进行处理,提取产品对象及产品评价短语,根据产品 主题模型,计算网页与主题的相关度,高于预设的阈值的网页保留,然后再计算页面的产品 评价的情感倾向值,包括:
[0047] (1)提取