本发明属于信息检索技术领域,并且更具体地涉及用于检索关于项目的情感信息的技术。
背景技术:
因特网和/或其它信息网络上可用的丰富信息提供进行关于例如商业项目(诸如产品和服务)的明智决定的机会。这可以通过询问并且评论/分析由信息网络的多个用户/信息提供者关于感兴趣的商业项目输入的信息数据段来实现。
因此,近年来已经开发了用于探究信息网络并且从因特网检索推荐的多种技术。例如,美国公开出版物no.2009/282019公开了用于响应于对具有特征的产品的询问而向用户推荐产品的系统和方法。根据该技术,推荐伴随有表达关于特征或产品的情感的引语。
同样,美国公开出版物no.2011/078157公开了一种上面存储有计算机可执行指令的计算机可读存储介质,该指令在被计算机执行时,使得计算机实现意见搜索引擎。实现意见搜索引擎的指令使得计算机收集关于来自因特网的一个或更多个对象的意见数据,从意见数据提取关于意见数据的元数据,从元数据去除重复元数据,以生成结果元数据,根据来自因特网上的一个或更多个网站的一个或更多个分类法对针对类似对象的所得到的元数据进行分类,并且基于分类后的元数据对类似对象进行排序。
美国公开出版物no.2013/018685提出了结构化情感表达和管理系统和方法。该系统可以从至少两个有贡献用户接收情感内容,其中,所接收的内容根据特定人类感情、手势或感觉以及特定人类感情、手势或感觉的强度水平被结构化。该系统还在与特定人类感情、手势或感觉有关的预定义用户所选情感种类中显示所接收的内容。在一个实施方式中,该系统可以为了评价优胜者而发起要求情感内容的竞争。在一个实施方式中,接收来自请求者对众包任务的请求,并且基于所确定的社交影响评价,向用户分配任务。
美国公开出版物no.2013/054559公开了在线市场研究测量,该在线市场研究测量允许用户使用因特网上的现有数据导出和/或监测关于目标对象(诸如用户的品牌和/或产品)的知识度量,诸如认知度量、推荐度量、倡导度量等。调查中(如在传统调查中)不是要求从积极参与者请求的响应,而是可以收集驻留在因特网上未经请求的意见数据,并且处理该数据,以便导出各种类型的知识度量。推荐度量可以根据从因特网收集的意见数据导出,该推荐度量反映关于目标对象的推荐意见的测量。用户可以识别它们感兴趣的特定品牌。在发送出因特网爬虫以选择数据之后,引擎清理差质量数据的结果,根据适当的构造或变量对数据进行编码,然后使用系统的情感引擎对情感进行评分。
上述参考的确认在这里不被推断为意指这些以任何方式与本所公开主题的专利性相关。
技术实现要素:
在以下描述中,短语评论、推荐以及社交项目和/或社交帖子被用于指定因特网上通常可用的、稍微不同类型的情感指示文本数据段。术语评论在以下描述中应被解释为与商品(例如,诸如cnet上提供的那些商品)和/或其它正式发布/调查和/或因特网上可用的产品对比栏有关。术语推荐应被解释为关于产品或服务的用户诱导“个人”意见,这些个人意见由专门地点中的因特网用户在特定商业因特网网站(例如,通常在诸如amazon的电子商务网站中)中提交。术语社交项目/帖子与用户生成的数据内容有关,该数据内容不必须旨在提供对产品/服务的正式/有序/专门推荐,而是更致力于表达用户关于产品/服务的感觉/想法。社交帖子例如包括用户在互联网(诸如社交网络)上的社交媒体和/或网络上的其它位置中书写的出版物/帖子(例如,使得出版物/帖子被暴露至他/她在社交媒体中的朋友)。为此,应理解,短语社交网络可以指示社交出版物的各种源(社交源),诸如但不限于社交网站和问答网站。
在许多情况下,与产品/服务有关的各个文本数据项(诸如评论、推荐以及社交项目)偏向于对产品/服务的正面或负面意见。这可能是因为提交文本数据项的用户/实体可能对产品/服务的商业成功/失败感兴趣。为此,在许多商业/电子商务网站中输入的推荐常常由感兴趣的有偏见实体(诸如作为推荐对象的产品/服务的卖家和/或竞争产品的卖家)来输入。同样,随着社交媒体越来越流行,商业竞争者也在该领域中经营,以销售它们的产品和/或向竞争产品诱导负面宣传。因此,社交帖子有时也偏向或针对产品。关于对产品的评论和/或其它类型的所发布文章,这些可能有偏见或无偏见(这取决于发布者)。同样,虽然这种类型的信息在许多情况下在于具有详尽阐述的特定产品/服务,但它通常对最终用户意见不太有益,并且同样,该信息不能用于提供对多个最终用户的意见的统计。为此,这种评论常常由用户/买方在购买的早期阶段使用,在早期阶段,买方进行最初市场研究/调查,以便决定适合买方需要的产品/服务的一般类型。评论在最后购买阶段使潜在买方信服方面不太有效,在该最后购买阶段,将关于应购买一些产品(差不多适合潜在买方的需要的一个或更多个竞争产品)中的哪个产品进行最后决定。对于该最后决定阶段,潜在买方通常依赖来自体验产品的其他最终用户(可能是朋友)的意见。只有这种意见被感知为是无偏见的、明智的且可靠的,这种意见在最后购买阶段使潜在买方信服以决定购买他正在考虑的两个或更多个产品中的一个时才更有效。
商业网站(在这里关于在线(例如直接在网站上)交易商品的任意商业网站(诸如电子商务网站)的短语)的效力的已知测量是网站的转化率的测量。转化率例如可以被测量为网站访客的数量与支付顾客的数量之间的比率。即,它测量网站将访客转化成支付顾客的能力。电子商务网站性能的转化率测量通常是产业特定的。
存在目的在于改进商业网站的效力和转化率的许多技术。这包括例如商业智能数据挖掘技术和各种其它技术,商业智能数据挖掘技术用于监测用户在网站上的活动以识别并且可能改进网站上的“弱”点(在该点处,用户/潜在买方放弃);提供与网站的销售人员的在线聊天,以改进产品销售率;以及(即,通过给用户提供推荐产品的能力)引入对每个产品的最终用户推荐的列表。但是,仍然,“良好”商业/电子商务网站的转化率低,这考虑到网站访客中的许多带着购买特定商品的意图进入网站。
本发明的发明人已经注意到商业/电子商务网站用户的行为模式,该行为模式可以为至少一些商业网站中的相对低转化率的源。这种网站的潜在买方/用户通常带着购买/购买它们感兴趣的特定类型的产品的意图进入网站。潜在买方然后调查网站,寻找一些(两个或更多个)满足他们需要的类型的竞争产品。通常,这种潜在买方还读取对这种产品的最终用户进行的推荐。然后,在(与网站的转化率关联的)特定部分情况下,用户决定产品中的一个,并且继续购买它。然而,在大多数其它情况下,潜在买方离开商业网站,并且继续(例如,在因特网上或通过询问具有类似产品的朋友)调查别处的这些竞争产品。但是这些“离开”用户很少返回到同一商业网站来继续购买。这可能是因为他们未回想起网站的详情和/或因为在别处找到匹配/更好的提供物。
本发明的发明人已经理解,潜在买方离开商业网站的事实可能源于关于商业网站上的产品缺乏无偏见的可靠信息。因此,本领域中需要能够高效检索关于感兴趣的项目(产品/服务)的无偏见且可靠信息的新型信息检索(ir)技术。本领域中还需要一种技术,该技术用于在网站(例如,商业/电子商务网站)内检索并嵌入关于出现在网站中的项目的无偏见且可靠信息,以便改进用户/顾客在网站上的体验,从而还改进网站的转化率。
为此,应解释术语有偏见信息和术语可靠信息的含义。
有偏见信息涉及在没有/具有很少到产品的实际特性和优点的相关性的情况下为了推销特定产品/服务超过竞争者提交/发布的信息。为此,有偏见信息常常在各种位置(诸如以电子商务网站中的产品推荐形式)被注入到因特网中,注入到论坛中,被注入到社交媒体中等。有偏见信息在许多情况下还被隐藏以表现为中性信息。实际上,在许多情况下,人类以及详尽计算机算法无法区分因特网上发布的有偏见信息与无偏见信息。本发明例如可以利用信息源上的历史数据和发布位置来区分有偏见信息与无偏见信息以及出现在内容中的商业词。
可靠信息涉及可以被认为高概率是正确的信息。为此,有偏见信息通常可以被认为不如无偏见信息可靠。同样,从大量无偏见源收集的统计信息可以被认为比从更小数量源收集的信息更可靠。同样,从有用信息源(例如,知晓产品/服务详情和/或潜在买方的要求/特性的源)收集的信息可以被认为比来自匿名源的信息更可靠。因此,人们常常倾向于依赖已知发布者和/或已知人/朋友,而不是依赖匿名发布者。
鉴于上述情况,本发明在其特定方面提供了用于挖掘关于产品和/或服务(通常为商品)的大致无偏见且可靠信息的新技术。特别地,本发明提供了用于从关于产品和服务张贴的丰富社交帖子(例如,社交媒体中的帖子)提取关于这种产品和/或服务的情感信息的系统和方法。如上所述,社交帖子/项目通常平均来说不如关于通常在因特网上可用的产品/服务的其它类型的情感指示文本数据段(意见)(例如,可能带有商业意图发布的推荐和/或产品评论)那么有偏见。这是因为社交帖子/项目多数由没有推销特定商品/服务的特定意图的私人发布。同样,因为存在关于几乎每一个销售产品和/或服务的丰富社交帖子/项目,所以多个这种社交帖子的情感的统计分析可以产生关于对于产品的情感的可靠指示(例如,当检查大量样本时,减小统计方差,由此提供更可靠指示)。
由此,本发明的一个广泛方面致力于信息检索技术,并且特别致力于情感分析系统和方法。本发明的情感分析方法包括以下步骤:提供包括与关键短语有关的语言表达的社交帖子;以及处理社交帖子,以确定关于关键短语在社交帖子中表达的无偏见情感值。该处理包括:
-向社交帖子应用偏见处理,以确定社交帖子是否是商业上有偏见的,并且在确定社交帖子有偏见的情况下滤除该社交帖子;以及
-如果社交帖子没有偏见,则向社交帖子应用情感分析,以确定关于关键短语由此表达的情感值。
在本发明的特定实施方式中,该方法还包括以下步骤:提供多个社交帖子;以及包括并向多个社交帖子应用偏见处理,以在社交帖子中识别多个无偏见社交帖子。然后,该方法包括以下步骤:向多个无偏见社交帖子应用情感分析,以确定分别关于关键短语表达的多个情感值。处理多个情感值,以确定指示对于由关键短语描述的项目的情感的无偏见情感得分。
在本发明的特定实施方式中,偏见处理包括:向社交帖子应用词袋(bagofwords,bow)处理,以识别一个或更多个预定语言表达在社交帖子中的存在,以及利用所识别的语言表达来确定指示带有商业意图发布社交帖子的概率的偏见概率。该方法还可以包括以下步骤:在识别出社交帖子的偏见概率超过预定偏见阈值时,从另外处理滤除并去除该社交帖子。在特定实现中,偏见处理被应用于社交帖子的一个或更多个部分。偏见概率可以基于偏见表达在社交帖子的这些部分中的位置来确定。
在本发明的特定实施方式中,该方法包括以下步骤:提供指示在社交帖子中表达的情感值可以被确定具有足够置信水平的一个或更多个准则;以及基于这些准则中的至少一些向社交帖子应用质量处理,以确定社交帖子中的一个或更多个部分是否满足准则中的一个或更多个。然后,该方法包括以下步骤:滤除不满足一个或更多个准则的特定组合的社交帖子的至少部分或整个社交帖子。为此,在特定实施方式中,一个或更多个准则包括以下准则中的一个或更多个:
i、指示社交帖子的一个或更多个源的可靠性的源准则,其中,该方法包括以下步骤:确定发布社交帖子的社交帖子的源;以及将该源与和源准则关联的一个或更多个预定源进行比较,以确定是否满足源准则;
ii、与可靠情感评估关联的指示文本长度范围的长度准则,并且该方法包括以下步骤:确定社交帖子的文本长度;以及将文本长度与该范围进行比较,以确定是否满足长度准则;
iii、指示一个或更多个所要求的pos成分的词性(pos)准则,该方法包括以下步骤:向社交帖子应用pos自然语言处理(nlp),以确定出现在社交帖子中的pos的列表;以及将列表与一个或更多个所要求的pos成分进行比较,以确定是否满足pos准则;
iv、与一个或更多个否定词包括在社交帖子的句子中关联的否定极性句子准则;
v、与指示关键短语的短语包括在社交帖子的句子中关联的相关性准则;
vi、与社交帖子与预定质量的社交帖子的大语料库之间的相似度关联的语料库准则,该方法包括以下步骤:基于语料库的预定质量和社交帖子与语料库中的帖子的相似度估计社交帖子的质量;
vii、文本格式准则,该方法包括以下步骤:基于社交帖子的一个或更多个文本格式参数估计社交帖子的质量;
viii、与经由将情感分析应用至社交帖子来确定社交帖子的一个或更多个部分的情感值的置信水平关联的置信水平准则。
在特定实现中,向社交帖子的各个句子单独地应用上述准则ii至vii中的一个或更多个。该方法然后将包括以下步骤:滤除不满足特定准则或准则的组合的句子和/或包括这种句子的整个社交帖子。
为此,在本发明的特定实施方式中,该方法包括以下步骤:将社交帖子分解成作为社交帖子的成分的一个或更多个各个句子;以及应用情感分析,以关于关键短语确定这些句子中的一个或更多个的各个情感值。在一些情况下,为了降低处理要求,情感分析被应用于被认为最重要的预定最大数量的这种成分句。句子的重要性可以基于以下内容中的至少一个来确定:(i)上述准则中的一个或更多个;和(ii)句子在社交帖子中的位置(例如,接近社交帖子的末尾出现的句子比更接近社交帖子的开头出现的句子被分配更高的重要性)。其后,可以基于对于成分句中的特定或所有计算的情感值的统计(例如,平均值)确定社交帖子关于关键短语/项目的情感值/得分。平均值可以由句子的重要性被加权。
在一些实施方式中,为了降低处理要求,对社交帖子和/或其成分句的情感分析强加时间限制。该方法包括以下步骤:中断超过时间限制的情感分析处理。这使得情感处理常常以改进的可靠性高效地应用于多个社交帖子(因为在许多情况下,当情感分析花费太长时间时,这常常是因为所分析的文本复杂,因此所得到的分析不太可靠)。
根据本发明的又一广泛方面,提供了一种情感分析系统,该情感分析系统包括:
-社交帖子检索器模块,该社交帖子检索器模块适于获得指示对于其应该生成情感数据的关键短语,并且检索与关键短语有关的至少一个社交帖子;
-偏见过滤器模块,该偏见过滤器模块适于滤除在商业意图上变得有偏见的社交帖子;以及
-情感分析器处理器,该情感分析器处理器适于处理至少一个社交帖子的一个或更多个部分,以确定至少一个社交帖子对于关键短语的情感值。
在一些实施方式中,该系统被配置且可操作以用于实现并且执行上述情感分析方法,并且下面进一步更详细地描述。
在一些实施方式中,该系统还包括质量过滤器,该质量过滤器适于滤除情感值可以以低置信水平获得的社交帖子或其部分。
在该系统的一些实施方式中,情感分析器处理器与自然语言处理(nlp)模块和词袋处理(bow)模块关联,并且适于通过利用nlp和bow模块两者来处理社交帖子文本的一个或更多个部分,以获得基于nlp的情感值估计和基于bow的情感值估计。情感分析器处理器还适于通过使基于nlp的情感值和基于bow的情感值的极性匹配来确定一个或更多个句子关于关键短语具有高置信水平的情感值。
在一些情况下,质量过滤器适于滤除至少一个社交帖子的基于nlp的情感值和基于bow的情感值不匹配的部分。
在一些实施方式中,nlp模块适于提供所处理的社交帖子的文本部分关于给定关键短语的所估计情感值,并且还适于提供指示所估计情感值通过其由nlp模块确定的置信水平的数据。然后,质量过滤器适于滤除置信水平低于预定置信水平阈值的句子的情感值。
在一些情况下,情感分析系统包括句子分解器模块,该句子分解器模块适于将社交帖子分解成如上所述的一个或更多个成分句,并且确定一个或更多个句子关于关键短语的情感。情感分析系统还包括情感值积分器模块,该情感值积分器模块适于对从一个或更多个句子获得的情感值进行积分,以确定至少一个社交帖子关于关键短语的情感得分/值。
该系统可以包括句子相关性过滤器模块,该句子相关性过滤器模块适于处理成分句,以确定它们与关键短语的相关性,并且以滤除与关键短语不太相关的成分句。比如,这种句子相关性过滤器模块可以与词袋处理(bow)模块关联,并且与存储与关键短语有关的相关语言表达的关键短语数据储存库关联。句子相关性过滤器模块可以适于通过向成分句应用bow处理来估计每个成分句的相关程度,以确定成分句中的相关语言表达的存在,并且滤除相关程度低于特定相关性阈值的不相关成分句。
另选地或另外地,该系统可以包括句子极性过滤器模块,该句子极性过滤器模块适于处理成分句,以识别怀疑被否定极化的极句(polarsentence),并且滤除这样的极句。句子极性过滤器模块与词袋处理(bow)模块关联,并且与存储指示否定句子极性的语言表达的关键短语数据储存库关联。
在一些情况下,该系统包括时间限制器模块,该时间限制器模块被配置且可操作以用于限制情感分析器的操作持续时间,以便不超过用于处理单个句子和/或单个社交帖子的预定持续时间。
在一些实施方式中,质量过滤器利用与可以确定社交帖子的情感的置信水平关联的一个或更多个准则,并且确定是否满足一个或更多个准则,并且滤除不满足准则的特定组合的社交帖子的至少部分。一个或更多个准则例如可以包括上述准则。
在一些情况下,句子、社交帖子和/或文本部分的情感分析本身可以被执行且可以包括自然语言处理器(nlp)和词袋(bow)情感分析处理器。情感分析模块/系统适于基于从基于nlp的处理器和基于bow的处理器获得的情感值处理至少一个社交帖子中的一个或更多个部分,以确定至少一个社交帖子对于关键短语的情感值。
语言处理技术可以被分类为两个主要处理方法:(i)用于基于词计数统计处理语言表达的简化方法(例如,词袋(bagofwords,bow)方法),但是在该方法中,忽略词的顺序及它们的词性类型和它们在文本中的相互关系;和(ii)用于处理语言表达的复杂方法(例如,自然语言处理(nlp)技术),该方法通常目的在于通过不仅考虑给定文本中的词的内容而且考虑文本中的词的顺序、它们的类型(它们属于什么词性(pos))以及一般逻辑结构和从文本中的词的顺序和pos关系产生的所得到的含义来取得文本含义的更具体理解。
用于处理语言表达的简化技术的特定示例被称为词袋(bow)技术。在该技术中,出现在文本中的不同词的计数的统计处理在尝试将文本分类为一个或更多种类时使用,并且由此获得对文本内容的特定洞悉。词袋(bow)技术被用于在各种信息检索和文本分类系统中对语言表达和文档进行分类。语言表达(例如,诸如句子或文档的文本表达)被简化并且表示为其词成分(被称为bow表示(bowr))中的至少一些的袋(例如,作为数学多重集)。bowr可选地还包括表示给定文本中的词频率/多重性的数据。通常,在bow技术的简化表示中,忽视文本的词序和语法。
在许多情况下,bow技术被用于将文本分类为一个或更多种类。bow技术可以用于计算/估计给定文本与给定文本种类(例如,垃圾邮件/广告/商业通信文本)中的一个有关的概率和/或文本与特定给定短语有关的概率。一些bow技术利用预定/动态构造的词典将文本/语言表达分类为各种种类。词典可以分别包含通常出现在不同各个种类的文本中的词和它们出现在这种文本中的概率/频率。贝叶斯过滤器可以用于基于这种词典中的信息来处理给定文本,以确定文本属于每个种类的概率。
另外,bow技术可以用于确定给定文本/语言表达与给定短语/术语有关的概率。这例如可以通过利用术语词频-逆文档频率技术(tf-idf)来实现。
关于更复杂的nlp技术,这些技术致力于通过将文本块或其它语言表达转换成计算机程序更容易操纵的形式表示(诸如一阶逻辑结构)进行更系统和逻辑自然语言结构化。
nlp包括在各种情况下用于以形式逻辑表示来表示语言表达的各种构造块(buildingblock)技术。例如,语法分析技术(还被称为语法解析或仅被称为解析)在一些情况下被用于确定给定句子的解析树。通常,用于自然语言的语法模糊不清,并且典型句子具有多个可能语法分析。实际上,在许多情况下,这些语法分析中的一些或大多数对人类是无意义的,由此另外方法被用于帮助计算机区分有意义和无意义语法解释。nlp技术的另外构造块与词性(pos)标注技术有关,由该技术确定给定文本/句子中的词的词性(例如,名词、动词、形容词等)。因为许多词可能模糊不清地充当多个词性(例如,“book”可以为名词或动词,“set”可以为名词、动词或形容词,并且“out”可以为五种不同词性中的任一个),所以pos标注可能是复杂的语言特定任务。nlp的另外构造块致力于句子打破技术(即,句子边界消歧),由该技术在给定文本块中确定句子边界;以及关系提取技术,由该技术确定文本中的已命名实体之间的关系(例如,谁是谁的妻子)。
应注意,nlp处理通常比文本的简化统计处理和/或分类更复杂且耗时。这可能是由于以下原因:统计处理(诸如上述bow)通常基于词计数,并且统计分类基于给定静态或动态词典(例如,词典db)。这种任务由计算机相对容易地执行,这是因为它们涉及简单统计模型,统计模型涉及相对少量的数学/统计计算/运算。另一方面,nlp技术与通常用复杂系统/数学模型实现的人工智能技术有关,并且通常使用诸如神经网络的技术和/或其它及其学习技术来实现。自然地,这些技术要求比简化统计技术显著更大量的计算机计算和处理存储器,因此要求显著更高(例如,一个或更多个数量级)计算资源(例如,计算机/处理时间和存储器)。同样,在许多情况下,如与简化统计模型相反,nlp任务利用由于不同语言的语法结构和pos关系之间的差异而导致的语言特定算法和语言特定db/训练集。这可能使所使用的算法和/或所要求的存储器的复杂度倍增。
nlp及其构造块技术通常用于复杂语言处理任务,比可由诸如bow的更简单统计模型获得的那些技术更详尽。nlp通常用于自然语言理解、问题回答和情感分析目的。这些技术通常基于传统nlp能力(句子打破、语法分析、pos标注以及关系提取)连同文本中的词的语义处理以导出文本的貌似真实的想要表达的含义,该貌似真实的想要表达的含义可以用于问题回答和情感分析。为此,nlp情感分析技术被用于通常从一组文档/文本提取主观信息,以确定特定对象的“极性”。它对于识别社交媒体中的公众意见的倾向特别有用。为了理解主观句子,必须理解语义合成性(即,理解词如何相互作用且修改由其它词表达的情感)。
可由nlp实现的语义合成性对于准确情感分析比对于文本分类远远更重要。文本分成多个种类可经由更简化统计模型(诸如bow)来实现。因此,因为bow模型在情感分析中无法实现近人类水平性能,所以传统nlp技术被用于文本的情感分析的目的。
能够执行情感分析且可由本发明的系统和方法使用的已知nlp技术例如包括stanfordnlp和情感分析技术。
本发明的发明人已经注意到,即使现有nlp技术的状态通常在从否定句(即,包括一个或更多个否定极性词的句子,诸如,无、不、二者之一不、两者都不、不-、但是以及更多)确定情感时不太可靠。这是因为即使最详尽的nlp技术(例如,基于预定义极性反转规则和/或基于复杂解析树机器学习方案)在尝试攫取用于语义分析的否定句的语义合成性时经常失败。例如,包括若干否定词的句子可以表达否定或肯定情感(例如,“不是不可能的任务”),而且因为在许多情况下,在具有反极性的短语之后呈现的反极性短语对文本的整个情感极性更重要(例如,“善良的家伙,但是非常愚蠢”)。
为此,本发明的发明人还多次注意到,处理这种否定句所要求的平均计算资源高于在处理社交帖子时所要求的资源,而且注意到,在从这种否定句提取准确情感结果时的置信水平低于可在肯定句中可获得的置信水平(例如,肯定句不包括与否定意义关联的词)。因此,在本发明的特定实施方式中,识别否定极性句子(例如,利用bow技术和/或其它统计/词识别测量),并且包括否定词的预定集/词典的一个或更多个词的句子被滤除且不由nlp系统/方法进一步处理。这提供用于改进情感分析系统的效率。这是因为通常存在关于每个感兴趣的关键短语的由社交媒体发布的丰富社交帖子,这些社交帖子组成比实际可以处理的更多的内容。因此,因为否定句的情感分析不太可靠,并且因为由于社交帖子中的丰富的其它类型句子而导致不需要这种句子的nlp分析,并且还因为从这些句子提取情感要求相对高计算资源,所以在本发明的一些实施方式中过滤这些句子,以便总体上改进本发明的情感分析系统的效率和可靠性。
如上所述,潜在顾客更通常在从他们认为可靠的源接收到推荐产品/服务的有利意见之后被说服购买该产品或服务。可以被认为可靠的源通常满足以下条件中的一个或更多个:(i)他们知晓/体验过所论述的特定产品/服务的特性;(ii)他们对销售该特定产品/服务没有特定兴趣:(iii)他们“类似于”考虑购买产品服务的潜在顾客(例如,他们可以被分类到该产品/服务的类似社会用户组(例如,社交组可以基于产品/服务的详情来定义,并且可以基于年龄、性别、住址、语言、国籍、学历、婚姻状况和/或顾客的其它可能社交参数));(iv)源是潜在顾客的朋友和/或他们通常为他/她所知,因此他/她可以合适地访问并评价他们的意见。
鉴于上述内容,根据本发明的一些方面,提供了用于通过关于由此销售的项目(产品/服务)引入指示可以从这些项目的潜在顾客认为可靠的源收获/挖掘的意见的情感数据来改进商业网站的转化率。特别地,提供从社交帖子(例如,各种社交网络上的帖子/出版物)提取的情感指示形式的意见。如上所述,过滤社交帖子,以去除具有商业意图和/或其它基本兴趣的项目,并且还监测社交帖子的情感提取质量,以确保关于这些项目的可靠且无偏见情感值提取。因此,并且还因为根据从多个社交帖子提取的情感来统计地确定情感值,所以这样提取的情感值可以被认为是高度可靠的且无偏见的。
因此,在本发明的特定方面中,该情感值关于网站中的相关项目被呈现在商业网站中。这可以用于改进网站的转化率。
在特定实现中,与出现在网站中的项目有关的情感值可以根据从其提取情感值的社交帖子的发布者的社交/人口统计学参数(年龄、性别、住址和/或其它参数)被分割。这可以用于改进顾客对这些情感值的感知可靠性,这是因为顾客倾向于认为“类似于”他们自己的人的观点比仅一般观点更可靠。在特定实现中,与出现在网站中的项目有关的情感值可以根据它们的发布者与顾客之间的连接被分割(例如,可以为该目的开发社交网站中的友情连接,并且访问网站的潜在顾客可以选择“查看”由他们的朋友发布的情感和/或社交帖子)。因为顾客倾向于依赖朋友的观点多于依赖陌生人的观点,所以这可以用于改进网站的转化率。在特定实现中,不仅关于在商业网站中交易的项目呈现所提取的情感,而且访问网站的顾客还可以具有查看从其提取情感的实际社交帖子/出版物的选择。同样,社交出版物/帖子可以不仅包括文本数据(从文本数据提取情感值),而且包括关于所交易项目的其它类型有价值信息(诸如图片、视频和/或声音)。这可以给顾客提供关于它们正在考虑购买的产品的有价值信息,并且可以帮助顾客作出关于购买的明智决定。
因此,本发明的技术可以被实现以给商业网站的潜在用户/顾客呈现关于网站上销售的各种项目/产品服务的可靠且无偏见信息。该信息在电子商务网站中被现场呈现,并且可以以各种深度被浏览并分割成各种社交片段,以允许用户作出关于购买网站上的产品和服务的明智决定。因此,增加网站的转化率。
由此,本发明的一个广泛方面致力于信息检索技术,并且特别致力于用于评估指示公众的情感的情感数据、或对于出现在商业网站中的项目的特定公众片段且还可以将情感数据嵌入商业网站中的情感评价系统和方法。为此,本发明根据本发明的一些方面,提供了一种情感评价系统,该情感评价系统包括:
(i)关键短语跟踪器模块,该关键短语跟踪器模块适于处理至少一个网站,以确定描述存在于网站中的项目的一个或更多个关键短语;
(ii)社交数据挖掘模块,该社交数据挖掘模块被配置且可操以用于挖掘来自至少一个社交网络的指示一个或更多个关键短语中的至少一个关键短语的社交帖子;
(iii)情感分析模块,该情感分析模块适于处理社交帖子,以确定关于由此指示的关键短语在社交帖子中表达的一个或更多个各个情感值;
(iv)关键短语情感处理器,该关键短语情感处理器适于基于从社交帖子确定的情感值中的一个或更多个确定针对关键短语的至少一个情感得分;以及
(v)发布者模块,该发布者模块适于将情感得分与由关键短语描述的项目关联地嵌入网站内。
在特定实施方式中,关键短语跟踪器模块适于将关键短语存储在数据储存库中,并且社交数据挖掘模块包括执行以下处理的一个或更多个网络爬虫模块:(1)从数据储存库获得关键短语;(2)获得要挖掘的一个或更多个社交网络的列表;(3)连接到社交网络,以从社交网络获得其中发布且与关键短语关联的社交帖子;以及(4)将社交帖子与关键短语关联地存储在数据储存库中。
在本发明的特定实施方式中,关键短语情感处理器适于处理情感值,以确定指示关于关键短语由社交帖子表达的情感的总情感得分;并且,发布者模块适于将总情感得分嵌入网站中。
另选地或另外地,在本发明的特定实施方式中,关键短语情感处理器适于基于情感值源于的各个社交帖子的参数对情感值应用分割,以将情感值分割成多个片段,并且确定指示关于关键短语由每个片段表达的情感的各个片段情感得分。例如,一个或更多个参数可以包括以下参数中的一个或更多个:(i)与社交帖子的各个发布者的个人人口统计特性关联的人口统计参数;(ii)社交帖子的语言;以及(iii)社交帖子在社交网络中的发布时间。
在本发明的特定实施方式中,该系统包括用户配置文件检索器模块,该用户配置文件检索器模块适于获得指示网站的用户特定呈现被暴露到的用户的一个或更多个特征的用户配置(profile)文件数据。为此,关键短语情感处理器可以适于确定情感值的至少一个用户特定片段,在该用户特定片段中,用户特定片段的情感值的一个或更多个预定参数与用户配置文件数据的对应特征匹配,然后基于至少一个用户特定片段中所包括的情感值确定至少一个用户特定情感得分。发布者模块可以适于将至少一个用户特定情感得分嵌入网站的用户特定呈现中。一个或更多个特征可以包括用户的以下人口统计特征中的一个或更多个:性别、年龄、住址、婚姻状况、父母状况(即,子女数量)以及国籍。确定至少一个用户特定片段包括使用户的人口统计特征中的至少一个与社交帖子的发布者的对应人口统计特征匹配。另选地或另外地,一个或更多个特征包括用户的一个或更多个社交特征(例如,用户在一个或更多个社交网络中的熟人)。为此,确定至少一个用户特定片段可以包括使用户的社交特征中的至少一个与社交帖子的发布者匹配。
另外地或另选地,发布者模块可以适于处理片段情感得分,并且适于呈现指示以下内容中的至少一个的数据:(i)基于社交帖子的发布者的人口统计特性分割的情感得分;和(ii)项目的情感得分随着时间的演变。
在本发明的特定实施方式中,发布者模块适于在网站中发布与各个关键短语关联的一个或更多个社交帖子。该系统可以包括呈现处理器,该呈现处理器适于处理情感得分源于的一个或更多个社交帖子,以确定针对一个或更多个社交帖子的呈现质量评价。发布者模块可以选择呈现质量高于特定阈值的预定数量的社交帖子,并且使得能够在网站中呈现这些社交帖子。社交帖子的呈现质量评价可以基于针对社交帖子确定的以下特性中的一个或更多个来确定:(i)社交帖子的情感质量评价;(ii)社交帖子的偏见评价;(iii)社交帖子的发布时间;(iv)社交帖子中所包括的多媒体内容。
在本发明的特定实现中,该系统包括:(a)后台处理工具,该后台处理工具被配置且可操以用于执行第一阶段处理(通常是计算更密集的处理),以处理指示至少一个关键短语的多个社交帖子,以确定分别指示关于关键短语在社交帖子中表达的多个情感值的情感数据;和(b)前台处理工具,该前台处理工具被配置且可操以用于向情感值应用第二阶段处理,以确定针对与关键短语关联的项目的至少一个情感得分。第一阶段处理可以包括以下操作中的一个或更多个:从关键短语数据储存库获得一个或更多个预定关键短语;连接到一个或更多个社交网络,以用于从社交网络接收指示由社交网络的用户发布的社交帖子的原始数据;处理原始数据,以识别分别指示一个或更多个关键短语的社交帖子的子集;向帖子的子集应用情感分析,以关于与子集关联的关键短语对于子集中的每个帖子评估其情感值;以及在情感数据储存器中存储情感数据。第二阶段处理可以包括以下操作中的一个或更多个:识别指示将被评价的项目的关键短语;获得与关键短语关联地存储在情感数据储存器中的关键短语相关情感数据;向关键短语相关情感数据中所包括的情感值应用统计处理,以确定针对项目的一个或更多个情感得分;以及与项目关联地在网站中呈现一个或更多个情感得分。
根据本发明的特定实施方式,该系统适于与一个或更多个网站集成,并且被配置且可操作以用于在这样的网站中嵌入分别与存在于网站中的项目关联的情感得分。该系统可以包括一个或更多个软件组件,该一个或更多个软件组件被配置为与一个或更多个网站集成,并且适于在这样的网站与情感评价系统之间建立数据通信,从而适于执行以下中的一个或更多个:(a)给系统提供指示以下内容中的至少一个的数据:(i)指示描述存在于网站中的各个项目的多个关键短语的数据;和(ii)指示网站要被呈现给的用户的配置文件的一个或更多个特性的数据;(b)从情感评价系统获得指示与项目关联的情感得分的情感数据。
在本发明的特定实施方式中,情感分析模块包括偏见过滤器模块,该偏见过滤器模块适于滤除在商业意图上变得有偏见的社交帖子。
在本发明的特定实施方式中,情感分析模块包括基于nlp的情感分析处理器和基于bow的情感分析处理器,并且这两者被用于根据关键短语确定社交帖子的情感值。
根据本发明的另一个广泛方面,提供了一种软件组件,该软件组件适于与呈现多个项目的网站集成,并且被配置且可操作以用于与情感评价系统(例如,诸如上面指示且下面更详细描述的情感评价系统)建立数据通信,以执行以下中的一个或更多个:(a)给情感评价系统提供指示以下中的至少一个的数据:描述存在于网站中的各个项目的多个关键短语;和网站要呈现给的用户的配置文件的一个或更多个特性;(b)从情感评价系统获得指示与网站中的项目关联的情感得分的情感数据。软件组件可以被配置且可操作以用于将至少一些情感得分的呈现与对应于所述情感得分的项目关联地嵌入网站的呈现内。如上所述,情感数据基于用户的一个或更多个人口统计和/或社交特性被分割成一个或更多个片段。软件组件可以适于将至少一个片段的呈现与对应于所述片段的项目关联地嵌入网站的用户特定呈现内。另外地或另选地,软件组件可以适于嵌入与一个或更多个项目有关的至少一个社交帖子的呈现。
根据本发明的又一广泛方面,提供了一种情感评价方法,该情感评价方法包括以下操作:
(a)确定描述存在于一个或更多个网站中的项目的一个或更多个关键短语;
(b)挖掘一个或更多个社交网络,以收获指示一个或更多个关键短语中的至少一个关键短语的社交帖子;
(c)向社交帖子应用情感分析,以确定关于关键短语在社交帖子中表达的一个或更多个各个情感值;
(d)处理一个或更多个各个情感值,以确定关于关键短语由社交帖子指示的至少一个情感得分;以及
(e)将要呈现的至少一个情感得分与由关键短语描述的项目关联地嵌入呈现项目的一个或更多个网站中。
如上所述,该方法可以适于确定与项目有关的情感得分,并且可以包括以下中的一个或更多个:总情感得分;基于各个社交帖子的一个或更多个参数分割的情感得分,情感得分从所述一个或更多个参数得出;基于至少一个用户特定片段分割的至少一个情感得分片段(例如,至少一个用户特定片段从由其一个或更多个特征与网站的用户匹配的发布者发布的帖子得出)。本发明的另一个广泛方面涉及在上述评价系统的特定实现中提供且使用的情感分析模块/系统和方法的配置和操作。用于向社交帖子应用情感分析以确定关于给定关键短语在社交帖子中表达的一个或更多个各个情感值的方法可以包括以下步骤:处理社交帖子,以确定关于关键短语表达的无偏见情感值;以及使用这些无偏见情感值来确定情感得分。更具体地,该处理可以包括:
-向社交帖子应用偏见处理,以确定社交帖子是否是商业上有偏见的,并且在确定社交帖子是有偏见的情况下滤除该社交帖子;以及
-在社交帖子没有偏见的情况下向社交帖子应用情感分析,以确定关于关键短语表达的情感值。
附图说明
为了更好地理解这里所公开的主题且为了举例说明在实践中如何执行该主题,现在将参照附图仅用非限制性示例的方式描述实施方式,附图中:
图1a和图1b分别是示意性地示出根据本发明的实施方式配置且可操作的用于将关于项目的情感得分嵌入网站内的情感评价系统和方法的框图和流程图。
图1c至图1e是呈现通过本发明的一些实施方式的系统和方法嵌入情感数据/得分的商业网站的示例的屏幕截图。
图2a和图2b分别是示意性示出根据本发明的实施方式配置且可操作的情感分析系统和方法的框图和流程图。
具体实施方式
现在对图1a作出参考,图1a是例示根据本发明的一些实施方式配置且可操作的情感评价系统100的框图。该系统100包括关键短语跟踪器模块110,该关键短语跟踪器模块110适于处理至少一个网站(例如,商业网站),以确定指示存在于网站上的项目的一个或更多个关键短语,并且可能将所述关键短语存储在与系统100关联的关键短语数据储存库115中。该系统100还包括社交数据挖掘模块120,该社交数据挖掘模块被配置且可操作以用于在网络中挖掘指示由关键短语跟踪器模块110获得的一个或更多个关键短语的社交帖子,并且可选地将所挖掘的帖子且可能还将与该帖子有关的数据(例如,多媒体数据)存储在与系统关联的可选社交帖子数据储存库125中。指示社交帖子的存储数据通常还包括指示与社交帖子相关的关键短语的数据。该系统100还包括情感分析系统/模块130,该情感分析系统/模块130被配置且可操作以处理社交帖子,以关于由此指示的关键短语确定社交帖子的各个情感值。该系统可以可选地包括情感数据储存库135或与情感数据储存库135关联,该情感数据储存库135适于关于一个或更多个关键短语存储指示社交帖子的情感的数据。优选地,在本发明的一些实施方式中,情感分析模块130能够评价并且过滤有偏见帖子(例如,以显式和/或隐式商业意图发布的帖子)和/或评价并且过滤“低质量”的社交帖子(即,从该帖子无法以高置信水平提取情感值)。关于图2a和图2b描绘并且描述可以在系统100中有效地使用的根据本发明的一些实施方式的新型情感分析系统300和方法400的特定示例。该系统100还包括关键短语情感处理器140和发布者模块150。关键短语情感处理器140通常被配置且可操作以基于从多个社交帖子计算且可能存储在情感数据储存库135中的情感确定与由模块110获得的关键短语关联的情感得分/评价。关键短语情感处理器140可以适于将指示出现在感兴趣的网站上的关键短语/项目的情感得分/评价的数据存储在关键短语情感数据储存库145(该储存库可以与系统关联)中,以便将来使用。发布者模块可以适于将关键短语情感数据嵌入(即,并入)网站内的关键短语情感数据。
本领域普通技术人员通常将理解,如上所述的本发明的新型技术可以在不偏离如所附权利要求中限定的本发明的范围的情况下以各种修改例来实现。然而,在下文中,描述实现本发明的特定具体实施方式,并且在一些情况下实现本发明的另外发明特征。应理解,本发明不受以下描述限制,并且本领域普通技术人员将理解,各种技术和配置可以用于实现为本发明基础的原理。
术语模块、处理器在这里用于指示由以下中的任一个或其组合形成的计算机化系统(诸如计算装置)的任意部分:(i)可由计算机化系统执行的硬编码或软编码计算机可读代码;(ii)模拟电路,和/或(iii)数字硬件/电路,当这些部件由计算机化系统(诸如服务器系统和客户站点(例如,个人计算机/膝上型电脑/平板电脑))执行/操作时,提供与本发明的系统和方法关联的预定功能。术语计算设备是指任意类型的计算机,该计算机包括能够执行硬/软编码计算机可读代码/指令的数字处理器。术语数据储存库是指任意数据承载结构或能够承载和/或存储数据的设备,诸如数据库(例如,关系数据库)、数据存储文件(例如,xml)和/或能够承载(接收和/或提供)到/来自数据储存器的数据的数据流连接。
在此使用短语指示特定实体的数据以指示从其可以定性或定量地评价特定实体的一个或更多个特性的数据。
术语项目和商业项目在这里可互换地使用,主要指示在网站中呈现和/或交易的项目(诸如商品、产品和/或服务)。术语关键短语涉及这种项目,并且在这里用于指示用于描述和/或命名有关项目的语言表达。
在这一点上,短语语言表达涉及包含一个或更多个词的任意表达,并且可以指示词、短语、句子和/或任意其它文本块。术语社交帖子在这里用于通常指示在因特网上发布/张贴/呈现的文本块,诸如通常由社交网络用户在社交网络中发布的帖子。
短语情感值在这里用于指示关于关键短语且因此关于关键短语命名或描述的项目在社交帖子和/或任意其它文本块中表达的情感的值。对于关键短语的情感值可以通过向文本应用情感分析从给定文本确定/估计。在一些情况下,所产生的情感值是肯定、否定或中性的极化值(例如,1、-1或0)。短语情感得分和情感评价在这里可互换地使用,以指定由多个文本数据段的情感分析(例如,通过考虑(求平均/求和)在多个社交帖子或其它文本块中表达的情感值)确定的对于项目/关键短语的总情感。
参照图1b,在流程图200中例示了根据本发明的实施方式的用于评价项目的情感的方法。该方法适于实现本发明的特定方面,以用于在网站(诸如电子商务网站和/或其它网站)上发布的关于项目(产品/服务)的无偏见、可靠且最新情感数据的无缝和自动集成。
为了实现这一点,在本发明的特定实施方式中,系统100和方法200可以在两种模式下被配置且可操作:分别为后台模式202和前台模式204。系统100通常可以包括后台处理工具102(例如,服务器),该后台处理工具可选地包括模块110、120以及130,模块110、120以及130在后台模式下操作以执行例如如下描述的方法200的步骤/操作210-230。
操作210包括访问网站(例如,要通过由本发明的系统100获得的情感得分加强的商业/电子商务网站),以获得一个或更多个关键短语(该关键短语为网站中交易的品牌和/或项目(产品/服务)的名称)的列表且可能将该列表存储在储存库115中。操作210例如可以由上述模块110来实现,并且下面更详细地进一步描述。要由关于网站中呈现的项目的情感信息增强的网站可以随着时间而变化(例如,可以被更新,以可能包括另外和/或不同的项目)。因此,操作210可以在后台中操作,以监测这种网站的更新,并且更新其情感数据需要从网站挖掘并处理的项目/关键短语的列表。
为此,关键短语跟踪器模块110可以包括一个或更多个商业网站分析器112(诸如解析器和/或db询问接口)和/或与其关联,该商业网站分析器能够分析(例如,通过询问/解析)期望商业网站以在商业网站中识别应关于其提取情感信息的项目/关键短语。商业网站分析器112可以为一般解析器/db接口模块,该一般解析器/db接口模块可以可选地每网站可配置,网站需要被分析以用于解析/分析网站以确定其中的关键短语。另选地或另外地,商业网站分析器112可以包括网站专用/顾客接口,该网站专用/顾客接口可以为系统的一部分和/或网站的一部分,并且可以提供与关键短语跟踪器模块110的通信,以由此提供指示网站上的关键短语的列表的数据。
商业网站分析器112例如可以包括网站解析器/建立器(例如,html/xml/ssl/script解析器和/或建立器),该网站解析器/建立器能够(例如,通过穷举处理)执行商业/电子商务网站的文本分析和处理,以例如通过识别指示关于其在预定相对位置中的相关关键短语的定界符/标签(诸如html/xml/ssl标签/元素,例如“classid”标签)确定网站中的相关关键短语。另选地或另外地,商业网站分析器112例如可以包括数据库接口,该数据库接口可配置和/或适于与系统关联的各个商业/电子商务网站的合适表格/数据储存库/数据库的直接或间接访问,以从其中提取指示相关关键短语的数据。在任一情况下,商业网站分析器112可以包括配置工具和配置数据储存器(附图中未具体示出),该配置工具和配置数据储存器适于提供用于接收并存储配置数据的接口,该配置数据使得商业网站分析器112能够(不管是经由解析和/或经由数据访问)适当地访问并分析不同商业网站,以便使得系统100能够与不同网站通信。应理解,商业网站分析器112的上述配置仅被提供为两个技术的示例,这两个技术可以用于访问并且分析网站,以确定网站中感兴趣的关键短语,并且应理解,其它技术也可以在不偏离本发明的范围的情况下由上述系统100和/或由方法200来实现。
方法200的操作220包括连接到一个或更多个社交网站,以便从社交网站接收/获得指示由这种网络中的用户/发布者发布的社交帖子的数据。操作220还包括识别与在210中获得的预定关键短语有关(即,指示该关键短语)的社交帖子的子集,针对其确定情感信息。通常存在在各种社交网络中每秒发布的丰富社交帖子。因此且为了(关于各个关键短语)各个感兴趣的项目中的情感信息始终最新,操作220可以被执行作为用于接收与所要求的关键短语有关的所发布的社交帖子的后台处理。
社交数据挖掘模块120可以包括一个或更多个社交网络接口层122(例如,编程应用接口(api))或与其关联,社交网络接口层122适于给社交数据挖掘模块120提供在它们的社交网络上发布的帖子。用于访问各种社交网络的接口和功能通常由社交网络公司/运营商(诸如facebook、twitter以及其它)发布且定期更新。实际上,各种社交网络可以经由它们发布的接口提供不同功能和不同统计和分析能力。因此,一方面,可以使用社交网络接口层122经由它们的各个接口与多个不同社交网络通信,同时另一方面给社交数据挖掘模块120提供用于检索并且可能分析从不同社交网络获得的社交帖子的统一/一般功能。社交网络接口层可以适于每帖子产生类似格式化数据结构。类似格式化数据结构例如包括:(i)文本发布详情(例如,标题、主体/内容、长度和/或另外/其它参数(诸如发布的语言和时间));(ii)发布者的详情/参数(例如,发布者的个人人口统计参数(诸如国籍、年龄、性别、住址、母语)和/或另外/其它参数(诸如发布者的身份和/或朋友));(iii)多媒体内容(例如,图像/声音/视频);和/或可能的其它另外信息。类似格式的数据结构可以用于一般处理存储和帖子的存储(例如,由社交数据挖掘模块120进行处理和关于与帖子有关的关键短语存储在专用数据储存库125中)。
比如,社交数据挖掘模块120可以包括适于在网络和/或特定社交网站/网络爬行的一个或更多个爬虫(crawler)(例如,网络/网站爬虫,附图中未具体示出)。爬虫可以被配置为独立操作,以用于可能通过利用多个服务器平台进行网络的同时爬行。在特定实施方式中,数据挖掘模块120和/或其爬虫可以利用社交网络接口层122。一个或更多个爬虫模块被配置为执行以下操作:爬虫模块例如从存储感兴趣的关键短语的数据储存库115获得关键短语,并且获得指示至少一个感兴趣的社交数据源(例如,由系统100挖掘的一个或更多个社交网络的预定列表之外的至少一个社交网络)的数据。爬虫模块例如经由与社交网络关联的各个社交网络接口层连接到所述社交网络,并且从而从社交网络获得包括与关键短语有关的数据(例如,文本)的一个或更多个发布的社交帖子。社交帖子与关键短语关联地存储在数据储存库(例如,125)中。
另外地或另选地,社交网络接口层122或社交数据挖掘模块120可以被提供有用于识别分别指示感兴趣的一个或更多个关键短语的社交帖子的子集且用于滤除或不接收不包括或不指示感兴趣的关键短语的社交帖子的功能。这可以通过利用由各个社交网络的api提供的直接功能来实现(如果这种功能存在)。另选地或另外地,社交网络接口层122或社交数据挖掘模块120可以包括过滤模块(例如,关键短语过滤模块,附图中未具体示出),该过滤模块被配置用于过滤不感兴趣的社交帖子(这些社交帖子不包括一个或更多个关键短语)。
方法200的操作230包括向社交帖子应用情感分析,以关于由此指示的关键短语确定/评价社交帖子的情感值。因为通常存在与感兴趣的每个关键短语有关的丰富社交帖子,所以可以针对情感处理系统地优先考虑与特定关键短语有关的帖子的每个子集中的帖子的处理,以便将每个关键短语的情感评价保持为最新,同时优化每关键短语投入的处理量。情感分析/处理通常是计算密集型任务。因此,本发明的该特征可以用于可以促进用于评价多个关键短语的情感的系统100的高效且成本有效操作,这是因为在存在丰富帖子时否则在关键短语中将投入多得多的处理时间,同时关于更少帖子被公布的关键短语可能产生情感评价的远远更少时间且因此降低的准确度。
同样,因为情感分析处理可能是计算密集型的,所以在本发明的特定实施方式中,操作230(例如,由模块130)在后台处理中被执行,并且结果(即,社交帖子的情感评价)可以关于相关关键短语和从其提取相关关键短语的帖子被存储在情感数据储存库135中。
应注意,在本发明的特定实施方式中,使用顾客nlp/情感处理引擎和/或bow引擎。另选地或另外地,在本发明的特定实施方式中,一般/标准语言处理引擎132(诸如stanfordnlp/情感处理引擎和可容易获得的bow处理模块可以与情感分析模块130关联/包括有情感分析模块130)。然而,如上面指示且如下面进一步地更详细描述的,即使在这种可容易获得的语言处理器在本发明的系统100中使用的情况下,处理器也通常仅充当用于在230中(例如,由模块130)执行的情感分析的初步构造块(preliminarybuildingblock)。虽然这些构造块仅提供指示从每个社交帖子提取的情感值的初步结果,但是可以根据本发明实现且执行另外操作(例如,参见下面描述的方法流程图400和系统300),以便促进关键短语的计算高效情感分析,具有高可靠性且由有偏见帖子产生的情感结果的降低偏见(例如,商业偏见)。
出于上述原因,操作210-230可以在后台处理中执行(例如,不是每个需求都执行,而是在所谓的“后台”处理中执行),操作的结果被存储在合适数据储存库中。为了提供准确且最新的结果且使得能够根据结果接收实体(例如,根据接收人/用户的特性)分割结果,操作240和250可以在前台处理中执行(例如,对关于项目的情感数据的每个需求/请求、和/或实时的)。实际上,将操作210至250分割为后台(210-230)操作和前台操作(240-250)提供在快速执行不太计算密集型操作240-250的同时在后台中实现计算密集型且耗时操作以提供准确且最新且可选地每用户分割结果。然而,应理解,计算任务分成后台任务21-230和前台任务240-250不是必要的,并且在系统的一些实现中,可以根据特定实现的系统的优化实现这些任务到前台操作和后台操作的不同划分。例如,在一些情况下,任务中的所有或多数可以整体在后台中或在前台中执行。
在可以由关键短语情感处理器模块140在前台阶段204中执行的操作240中,确定针对出现在网站(例如,电子商务网站)上的一个或更多个项目的情感评价。操作240可以包括以下子操作:(i)识别与要在网站中被情感评价的至少一个各个项目关联的至少一个关键短语;(ii)例如从情感数据储存库135或直接从情感分析模块130获得与包括对该关键短语的指示的所发布的社交帖子关联的情感数据/值;以及(iii)向那些情感值应用统计处理,以确定针对关键短语的所述一个或更多个情感评价。
通常,操作240包括子操作241,在该子操作241中,关键短语情感处理器140生成指示对于与关键短语关联的项目的总/平均情感的至少一个总情感评价/得分。总情感评价可以由关于关键短语从多个社交帖子获得的情感值的统计处理来获得。
例如,关键短语情感处理器140可以适于利用简单求平均和/或利用加权求平均来对这些情感值中的一些或全部求平均。在加权求平均中,从情感分析模块130获得的情感值的质量/置信水平例如可以用作加权因子。因此,以较高置信水平获得的较高质量情感值可以在最终情感得分中具有较高重要性,由此可以改进情感得分的可靠性。另选地或另外地,从其可以分别提取情感值的社交帖子的发布时间也可以用作加权因子。在这种情况下,从更多新近帖子提取的情感值可以在最终情感得分中具有更高重要性,由此保持得分最新。在一些情况下,基于质量/置信水平和发布时间这两者的公式来确定求平均加权因子,以提供具有高置信水平的高最新情感得分。应理解,在一些实现中,还可以使用其它加权因子。
在特定实施方式中,操作240包括由关键短语情感处理器140实现的子操作242。在这种实施方式中,关键短语情感处理器140适于通过向关于关键短语从多个社交帖子获得的多个情感值应用人口统计分割来提取另外情感评价/得分。人口统计分割可以通过利用如例如可以在操作220中获得且存储在数据储存库125中的帖子的发布者的人口统计个人数据来应用。例如,关键短语情感处理器140可以包括人口统计情感分析器142或与其关联,该人口统计情感处理器被配置且可操作以根据人口统计参数(诸如年龄范围、性别、居住国家/地区/位置、国籍、语言、经济状态、学历和/或其它人口统计参数)与从其提取这些值的社交帖子的发布者关联地分割情感值。根据其分割情感值的确切人口统计参数和范围可以被预先确定,和/或可以为系统100的配置参数。因此,基于从人口统计分析器142获得的分割,关键短语情感处理器140可以应用统计处理(诸如上述简单和/或加权求平均),以确定针对情感值的每个这种人口统计片段确定人口统计得分。同样,这里可以使用基于发布时间和/或质量/置信水平和/或其它参数的加权因子。
在特定实施方式中,操作240包括由关键短语情感处理器140实现的子操作244。在这种实施方式中,关键短语情感处理器140适于提取附加类型的情感评价/得分,其是项目的用户特定情感评价。短语用户特定情感评价与对于通过分析来自发布者的社交帖子获得的项目的情感评价有关,发布者以某些方式与情感评价可以被提供给的特定用户相关。这些例如可以是由特定用户的朋友(例如,社交网络连接)发布的帖子,和/或由其人口统计特性/个人特征与特定用户的个人特征匹配的发布者的帖子发布的帖子。用户的个人特征可以包括与例如年龄、性别等关联的人口统计特征、以及指示一个或更多个社交网络中的用户的熟人(朋友、联系人)的一个或更多个社交特征。用户特定片段可以使用用户的社交特征中的至少一个与将包括在所述至少一个用户特定片段中的社交帖子的发布者的匹配来确定。
为此,关键短语情感处理器140可以包括和/或与用户配置文件检索器模块152关联,该用户配置文件检索器模块用于从关键短语情感处理器接收指示商业网站被呈献给的特定用户的用户配置文件数据。下面更详细地描述用户配置文件检索器模块152的各种技术和示例配置,由该技术和示例配置可以动态地检索这种用户配置文件数据(例如,当与系统100集成的网站被加载在特定用户的计算机化平台(例如,计算机/智能电话/平板电脑)上时)。用户配置文件可以包括关于特定用户的人口统计特性/个人特征数据。该数据可以包括识别用户的数据和/或该数据可以包括指示与一个或更多个社交网络中的用户关联的朋友/社交网络联系人(下文中还被称为朋友/联系人)的数据。后者可以是第一程度联系人和/或更高程度的更不同联系人,诸如取决于系统100的特定配置的第二和第三程度联系人。
由此,在本发明的一些实施方式中,关键短语情感处理器140适于执行以下操作/步骤:关于在加载在特定用户的计算机化客户平台/站点处的网站上出现的项目获得用户特定情感评价/得分。关键短语情感处理器140获得指示情感评价将被呈现/提供给的特定用户的个人信息的用户配置文件数据,并且获得关于与项目有关的社交帖子的发布者的人口统计信息。处理器140操作以基于用户配置文件数据中所包括的至少一个特征/参数(例如,年龄/性别/婚姻状况等)与关于帖子的特征的发布者的人口统计信息中的对应特征之间的匹配,将社交帖子分成一个或更多个片段。由此确定包括具有与特定用户类似的一个或更多个特征的发布者发布的帖子的社交帖子的一个或更多个用户特定片段。这些用户特定片段中的一个或更多个(例如,以与上述方式类似的方式)被处理以分别确定与用户匹配的一个或更多个用户特定情感评价。
因此,关键短语情感处理器140可以适于基于特定用户配置文件中的一个或更多个特征/特性与帖子的发布者的人口统计特征之间的“人口统计”匹配来获得用户特定情感得分/评价。
另选地或另外地,如上所述,用户特定情感得分/评价可以基于从由特定用户的一个或更多个朋友/联系人发布的帖子提取的情感。例如,关键短语情感处理器140可以包括和/或与朋友的情感分析器模块144关联,该朋友的情感分析器模块直接或间接连接到用于从情感分析器模块接收用户配置文件数据的用户配置文件检索器模块152。朋友的情感分析器模块144基于由暴露到商业网站的用户的朋友(例如,熟人/联系人)发布的帖子,在帖子中,他们关于关键短语叙述/表达他们的意见。
在用户配置文件包括用户身份的情况/实施方式中(例如,在这种情况下,用户配置文件可以或可以不包括指示用户联系人的数据),朋友的情感分析器模块144可以被配置且可操作以处理社交帖子数据(例如,该数据可以被存储在数据储存库125中),并且使用关于与相关关键短语关联的社交帖子存储的发布者信息,以确定/评价哪些发布者是用户在一个或更多个社交网络中的朋友/联系人,并且可能确定它们的联系程度。然后,建立与关键短语有关且由用户的朋友/联系人发布的社交帖子的列表。
另选或另外地,在用户配置文件包括指示用户联系人的情况/实施方式中,朋友的情感分析器模块144可以被配置且可操作以处理社交帖子数据(例如,该数据可以存储在数据储存库125中),并且使用关于与相关关键短语关联的社交帖子存储的发布者信息,以确定/评价社交帖子的发布者的朋友/联系人的列表,并且确定他们中的哪个与用户匹配。因此,也可以建立与关键短语有关且由用户的朋友/联系人发布的社交帖子的列表。
此后,朋友的情感分析器模块144可以适于利用由用户的朋友/联系人发布的与关键短语有关的社交帖子的列表,来处理在230中关于关键短语从这些帖子获得的情感值,以估计由用户的联系人关于关键短语和关键短语提及的项目获得的情感得分/评价(下文中为朋友情感评价)。同样,如上所述,诸如简单和/或加权求平均的统计处理可以由关键短语情感处理器140应用于朋友的情感值,以便获得所谓的朋友情感得分/评价。
由此,鉴于上述内容,在本发明的特定实施方式中,关键短语情感处理器140可以被配置且可操作以获得从以下类型中的一个或更多个选择的情感得分:(i)指示通过已经发布关于项目的帖子的社交网络用户/发布者的总人口(generalpopulation)指示对于关键短语和基础项目的总/全局情感的总/全局情感得分;(ii)由已经发布关于项目的帖子的社交网络用户/发布者的不同人口统计片段指示对于关键短语和基础项目的情感的人口统计分割情感得分;以及(iii)从由商业网站被呈现到的特定用户的朋友发布的帖子获得的指示对于关键短语和基础项目的朋友情感得分。
如上所述,发布者模块150通常适于将由关键短语情感处理器140获得的情感得分/评价并入(assimilate)到商业网站中、并入在商业网站(在该网站中,情感各个项目(关键短语)与情感得分关联地出现)处的特定相关位置中。为此,发布者模块150可以被配置且可操作以执行如在下文中描述的方法200的操作250,并且可选地实现并且执行可选子操作252和254。
可选地,在特定实施方式中,发布者模块150还适于实现并且执行子操作256,以例如连同关于每个项目的情感得分一起发布与每个项目有关的多个社交帖子,例如发布用于导出情感得分的一个或更多个社交帖子。通常,大多数有用/代表性社交帖子关于尤其从帖子导出的各个情感得分关联地发布或并入在网站上。
由此,在250中,发布者模块150(例如,经由链接、或实际文本和/或多媒体数据)将情感得分且可选地还将指示相关社交帖子的内容的数据并入到将由系统100增强的商业网站中。图1c是通过在商业网站中引入/发布到与网站上发布/销售的各个项目(在本示例中为度假服务-酒店)关联的情感得分数据的链接由本发明的技术100增强的这种商业网站的屏幕截图(图像)的自我解释示例。如所示,图像捕获包括为“one&onlyoceanclub”和“harborsideresortatatlantis”的两个项目item1和item2。商业网站示出项目的详情(该详情在图像中由围绕item1和item2的虚线框来标记),该详情包括项目的特性和用户介绍的对项目的评论。附图还示出了关于项目由网站提供的各个报价(offer)的参数,这些参数在附图中分别由deal1和deal2以及围绕虚线框、和在附图中分别由img1和img2以及围绕虚线框标记的项目的图像来标记。另外,附图示出了到指示对于项目item1和item2的情感的情感数据(情感得分并且可能地还有社交项目)的链接。情感数据在示例中由有特色的图标大写字母m来呈现,并且在附图中由分别与在该示例中呈现的两个项目关联的sentiment1和sentiment2来标记。
关于项目item1和item2,例如标记用于提取情感的关键短语kph1和kph2。在本示例中,通过分析网站(例如,解析或分析网站的数据),以识别在系统100的配置中被指示为指示项目的标题/名称的预定义html/xml标签,来提取210关键短语kph1和kph2(例如,通过商业网站分析器模块112)。
为此,商业网站分析器112可以包括网站分析器部件(例如,网站脚本和/或插件,附图中未清楚例示),该网站分析器部件可以与网站集成(在一些实施方式中,网站分析器部件还可以是浏览器插件)。该部件例如可以为计算机可读代码的形式,该部件适于与系统100的商业网站分析器通信,以给商业网站分析器提供指示相关关键短语(例如,商业网站中的kph1和kph2)的数据。如上所述,该部件可以被预配置(例如,要分析的每个商业网站)以基于网站的预定义数据库脚本/结构/指示符和/或基于网站的标记语言和/或脚本的预定义且预配置的结构来识别相关关键短语。
图1d是在用户与链接sentiment1和sentiment2中的一个相互作用(例如,经由鼠标点击或悬停)时打开的帧/表格/窗口的示例。在该示例中,以自我解释方式示出了弹出窗口,该窗口示出了关于对于项目item1的情感得分(scrs)。得分scrs在图像上由边界虚线框来标记。在本示例中,情感得分scrs包括由上述模块140(例如,在操作241中)获得的总/全局情感得分g-scr(例如,在操作242中)、以及根据社交帖子的发布者的人口统计参数(这里根据年龄和性别)分割的人口统计情感得分d-scr的呈现。
在图1d的本示例中,网站/弹出菜单示出了用户配置文件组件up的非限制性示例,用户配置文件组件up使得系统100(例如,用户配置文件检索器模块152)能够获得指示查看商业网站的用户的特定配置文件/参数的数据。用户配置文件组件up可以为用户配置文件检索器模块152的一部分或与其关联,并且可以与用户配置文件检索器模块152结合/通信地操作。在本示例中,用户配置文件组件up是计算机/浏览器可读代码,该可读代码呈现网站/弹出菜单(例如,数据输入形式)内的表格up,该表格up与网站集成,并且使得用户能够提交许可用户配置文件检索器模块152访问各个社交网络并检索关于用户的人口统计参数和/或检索指示用户朋友的数据的详情(例如,社交网络类型/名称、用户名和密码)。
因此,用户配置文件检索器模块152可以操作以执行用于获得为其加载网站的用户的配置文件的操作252。如何在本发明的特定实施方式中实现这一点的示例在图1d中以自我解释方式呈现。这里,用户配置文件检索器模块152包括用户配置文件组件up,该用户配置文件组件up呈现使得用户主动地输入可以检索特定用户详情的数据的表格。该表格包括用于向社交网络输入用户联系人详情(用户名和密码)的多个社交网络图标和输入框的矩阵呈现。通过输入用户详情并点击社交网络图标中的一个,用户许可配置文件检索器模块152访问各个社交网络来获得关于他的特定详情。在这种情况下,用户配置文件组件up与用户配置文件检索器模块152通信,以给用户配置文件检索器模块提供指示联系人详情的数据,并且用户配置文件检索器模块152访问用户的社交网络,以确定用户的人口统计特性和/或朋友。这些可以如上所述用于基于用户的配置文件分割关于网站中的项目张贴的情感得分和/或社交帖子,并且给用户提供情感得分且提供由“像”他的人发布的和/或由用户的朋友发布的帖子。
应理解,在一些实施方式中,可以整个消除用户配置文件组件up(该用户配置文件组件可以被认为是客户侧模块/组件),并且操作252中的用户配置文件/参数的检索可以整个由用户配置文件检索器模块152执行(例如,在服务器侧处理中)。还应注意,在一些实施方式中,可以不请求用户主动提供使得用户配置文件检索器模块152能够获得用户配置文件/参数的数据,并且注意,一个或更多个这种参数可以在没有用户主动参与的情况下由用户配置文件检索器模块152来提取。例如,用户配置文件检索器模块152可以适于访问存储在客户的计算机上的“cookies”和/或其它可访问数据段,并且分析由此指示的这种cookies和/或链接(例如,超链接/数据链接),以确定关于用户的特定详情。
子操作254包括并入情感得分和/社交帖子,所述情感得分和/或社交帖子与项目item1有关,并且从与用户配置文件匹配的人口统计片段和/或从用户朋友的帖子获得。这一点在图1e中以自我解释方式例示,图1e示出在示出与项目item1有关的全局情感得分g-scr和情感得分的人口统计分割d-scr的意义上与图1d类似的弹出菜单/呈现。然而,这里,在已经由用户配置文件检索器模块152获得用户配置文件参数之后,显示情感的该弹出菜单/呈现。因此,呈现从与用户的特定配置文件详情匹配(标题为“像你”)的人口统计片段获得的社交得分l-scr(例如,这里例示了与用户的婚姻状况和子女数量匹配的片段)。另外,在该示例中呈现了示出了社交帖子的框psts(标题为“你的朋友”),在该框中,还呈现了关于项目item1由用户的朋友发布的帖子f-pts。应理解,虽然附图中未具体示出,但在一些实施方式中还可以呈现从用户的朋友获得的情感得分和/或从在人口统计学上“像”用户的社交网络发布者获得的帖子。
可选地,不管用户的配置文件如何,子操作258还可以由发布者模块150来执行,以并入/发布与网站上的项目有关(例如,与itme1和item2有关)的特定数量的最有用/代表性社交帖子。在特定实施方式中,发布者模块150包括呈现处理器158,该呈现处理器158适于处理一个或更多个社交帖子,从该一个或更多个社交帖子已经导出关于每个项目的情感得分(例如,全局情感得分和/或其它得分),以确定这些社交帖子中的至少一些的呈现质量评价。发布者模块150可以被配置且可操作以选择呈现质量高于特定阈值的预定数量的社交帖子,并且在258中操作以与项目关联地(例如,与关于项目发布的情感得分关联地)在网站中呈现从特定(例如,预定)数量的这种社交帖子获得的数据。例如,社交帖子的呈现质量评价可以基于针对社交帖子确定的以下特性中的一个或更多个来确定:(i)社交帖子的情感质量评价;(ii)社交帖子的偏见评价;(iii)社交帖子的发布时间;和/或(iv)社交帖子中所包括的多媒体内容。下面将更详细地说明可以针对社交帖子确定情感质量和偏见评价的方式。在这一点上,低有偏见评价和高情感质量可以分别指示帖子以低/可忽略商业意图被发布和已经以高置信水平针对帖子确定情感值。因此,参数可以用作关于帖子客观上多么可靠且相关的测量。同样,帖子的发布时间可以指示其为对于项目的当前情感多么有代表性,因此指示其多么相关(最近帖子通常比更老帖子更相关)。然而,另外,包括诸如图像/视频和/或声音的多媒体数据的帖子通常对于呈现更有用且更吸引人,因此帖子中的多媒体内容且可能还有社交帖子和/或其多媒体内容已经被提供给的网络用户的查看次数也可以充当帖子多么相关且有用的测量。
因此,呈现处理器158可以适于计算和/或使用关于各种帖子的这些特性(例如,可能使用用于基于帖子的这些特性中的一个或更多个测量/估计帖子的相关性的预定公式),并且在258中操作以在商业网站中呈现最相关帖子。
在特定实施方式中,发布者模块150的呈现处理器158还适于准备指示关于项目的情感得分随着时间的演变的统计呈现。为此,关键短语情感处理器140可以利用不同社交帖子的发布时间来将帖子分割成多个时间帧,并且对于每个时间帧独立地计算社交得分。然后,呈现处理器158可以适于准备关于项目的情感随着时间的演变的图形呈现,并且发布者模块150可以关于项目在网站中呈现该图形,因此用户可以访问各个项目的群体的任意变化。
在并入/发布情感数据(关于项目的社交得分和可能还有相关社交帖子)时,操作250可以包括与商业网站(例如,利用存储商业网站的网页服务器和/或利用当在客户的站点/浏览器上执行/加载时网站的用户特定呈现的外观)通信,以在网站中的相关位置中引入社交数据。在该连接中,在一些实施方式中,发布者模块150包括和/或与特定一个或更多个发布组件(附图中未具体示出)关联,该发布组件可以与一个或更多个各个商业网站集成,并且可以适于与发布者模块150通信,以从发布者模块获得相关情感数据,并且引入这种数据,以在它们的各个网站上的合适位置中被呈现。发布组件例如可以通过利用合适服务器侧和/或客户侧脚本来实现,实现用于修改与脚本关联的各个商业网站的网站建立/修改技术。实际上,组件可以利用一般脚本(诸如java脚本和/或服务器侧脚本)来实现,利用用于访问各种商业网站的代码(例如,标记/脚本语言代码)的配置参数来实现,以将代码修改到服务器/客户,以便呈现社交数据。例如,发布组件可以被预配置(例如,每商业网站)以识别相关预定义结构/指示符/标记,以识别不同项目在网站中呈现的地点,并且其中引入用于呈现相关社交数据的数据或代码。
比如,在图1c例示的示例中,在呈现项目item1和item2的每个“表格”中引入具有超链接的图标,其中,超链接致力于与系统100的发布者模块150提及(refer)/连接/通信。发布者模块150可以包括或与网页服务器(例如,具有网页服务器功能)关联,该网页服务器对接收关于项目的社交数据的请求(其请求在启动图标/链接时被发送)进行响应,通过在商业网站中生成并加载合适网页(例如,图1d和图1e的弹出菜单)来对这种请求进行响应。因此,在这种实现中,情感数据不必须由它自己并入在商业网站中,但是实现使得该数据在网站中提供并呈现的链接/脚本。
本发明的一些实施方式提供一个或更多个组件(诸如软件组件/脚本),该组件适于集成在网站内,并且被配置且可操作以用于与情感评价系统100通信,以传送以下中的至少一个:(i)指示由网站指示的多个关键短语/项目的数据;和(ii)指示网站要呈现到的用户的配置文件的一个或更多个特性的数据;并且组件适于从情感评价系统100获得指示与所述关键短语/项目关联的情感得分的情感数据。可选地,情感数据基于一个或更多个社交网络中的用户特性和/或用户的朋友中的一个或更多个来分割。可能地,情感数据还包括指示与项目/关键短语有关的社交帖子的数据。可选地,一个或更多个组件还被配置且可操作以用于将情感数据中的至少一些的呈现与社交帖子中的关键短语/项目关联地嵌入网站的呈现内。
应理解,在系统的其它实施方式中,可以使用用于在商业网站中呈现情感数据的其它技术。在这种技术中,数据实际上可以被放在网站本身中,和/或到网站的链接可以与在上述示例中一样地被引入。还应注意,可以使用其它发布组件/脚本和/或可能地可以整个消除这种发布组件/脚本。网站建立领域中的技术人员将容易地想到,可以由本发明的技术实现的用于关于各种网站中的项目并入数据(诸如本发明的情感数据)的各种可能技术。
现在一起对图2a和图2b作出参考,图2a和图2b分别示出了根据本发明的一些实施方式的用于执行情感分析的系统和方法。图2a是情感分析系统300的框图,该情感分析系统可以根据本发明的实施方式被配置且可操作,并且图2b是可以根据本发明的一些实施方式操作的情感分析方法400的流程图。通常,系统300可以适于实现方法400或其变体,然而应理解,通常,方法400还可以由其它系统配置来实现,并且应理解,系统300可以在某种程度上实现不同方法。
还应注意,根据本发明的一些实施方式,上面详细描述的情感评价系统100和方法200可以分别实现/包括实现情感分析系统300和方法400的模块和/或方法操作。例如,系统100的情感分析系统/模块130和方法200的情感分析操作230可以包括下面描述的情感分析系统300和/或方法400,和/或可以被形成为该系统300和/或方法400,和/或可以实现该系统300和/或方法400,和/或与该系统300和/或方法400关联,以便提供社交帖子的高效可靠情感分析。
更具体地,情感分析系统300和方法400实现情感分析技术,该情感分析技术适于识别并过滤以下中的一个或更多个:有偏见社交帖子(例如,商业上有偏见)和/或低质量社交帖子、和/或从其以低置信水平提取情感的帖子。因此,可以从无偏见社交帖子以高置信水平高效地提取高质量情感值。这可以在系统100和方法200中使用,来确定关于在至少一个网站中交易的商业项目的可靠且无偏见情感得分,并且在网站中呈现这些得分,以便改进与这些项目的交易关联的网站转化率。
根据本发明的一些实施方式,情感分析方法400包括操作410、420以及450。操作410包括提供至少一个社交帖子,该社交帖子包括与感兴趣的预定关键短语有关的至少一个语言表达。操作420包括向社交帖子应用偏见处理,以确定社交帖子是否是商业上有偏见的,并且在确定社交帖子是有偏见的情况下滤除该社交帖子。操作450包括在社交帖子没有偏见的情况下向社交帖子应用情感分析,以确定关于所述关键短语在社交帖子中表达的情感值。该方法从而提供用于处理无偏见社交帖子,以确定/估计关于关键短语由此表达的无偏见情感值。
方法400可以被执行以评价对于感兴趣的给定/预定关键短语的情感(例如,在因特网网络中或在特定网站中表达的情感)。在操作410中,提供与感兴趣的预定关键短语有关的至少一个社交帖子(通常为多个社交帖子)(例如,从网络提取的或从存储之前从网络提取的社交帖子的数据存储器检索的)。在这一点上,处理在410中检索的社交帖子(在操作410期间或之前),以使它们与感兴趣的关键短语(例如,存储在关键短语数据储存库115中的关键短语)中的相关关键短语关联。这种关联例如可以被存储在社交帖子数据储存库125中。因此,在410中,仅提供包括与感兴趣的预定关键短语有关的语言表达的社交帖子。
在本发明的一些实施方式中,操作410包括可选子操作417(该子操作可以在操作410期间和/或之前被执行)或与其关联,以向要在410中检索的出现在社交帖子中的关键短语和/或向特定语言表达(诸如项目名称(产品/服务的名称))应用名称规范化。
因为(例如,从电子商务网站提取的)关键短语以及社交帖子(与关键短语有关的产品/服务的社交情况)在各种网站和/或社交帖子中很少用统一措辞/名称来表达/提及,所以名称规范化在一些实施方式中很重要。比如,在许多领域中,对特定产品/服务的提及可能存在几个不同名称。用于相同产品/服务的不同名称可能按名称中的字的顺序和/或关于产品/服务的名称包含的详情/描述词而变化。
比如,“appleiphone5”产品在各种网站和帖子中可以以所有以下外观变化来命名:
-iphone5
-appleiphone5
-具有黑盖的appleiphone5
然而,所有这些产品名称在准备/评价对于产品的情感时都应被当作单个产品。因此,在特定实施方式中执行名称规划化操作417,以规范化提及相同产品的社交帖子中的各种名称。比如,在上述示例中,名称规范化可以由规范化名称“appleiphone5”代替由系统检索的社交帖子中的对iphone5的提及。同样,关键短语数据储存库中的与该产品有关的关键短语也将被规范化为相同名称。
这将有利地产生对于产品/服务的情感的更好评价,这是因为当规范化名称时,合并与相同产品有关的不同名称/提及,由此存在每一产品检查的更多社交帖子。同样,这使得在相同产品出现在不同名称下时避免对相同产品进行重复评价。
在特定实施方式中,名称规范化基于一个或更多个规范化方案进行。比如,对于产品,名称规范化方案可以为字符串,该字符串包括品牌名和产品名(例如,“<品牌><产品><模型>”),同时修正其它不太相关的描述符、产品的这种规范详情(例如,产品的颜色)。应注意,不同名称规范化方案可以用于产品和服务,和/或不同可选定制名称规范化方案可以在不同种类的产品和服务中使用。
在一些实施方式中,以下资源被用于应用名称规范化(例如,根据用于给定项目的所选/预定名称规范化方案):
(i)品牌名列表:品牌列表可能与它们各个产品关联地由系统维持(例如,存储在数据储存库中)。在操作417中,可以利用品牌列表来将品牌名置于存在缺失的关键短语/社交帖子中,置于适当位置处(所有都根据所使用的名称规范化方案)。
(ii)规格/描述符列表:不被包括在规范化名称中的规格描述符的列表可以由系统来维持(例如,存储在数据储存库中)。描述符列表可以被配置为层次列表。描述符列表可以根据由系统处理的项目/服务的种类及其子类按层次布置。比如,对于计算机化系统(诸如智能电话、平板电脑以及膝上型电脑)的种类,描述符列表可以包括诸如颜色和存储器大小的描述符,这些描述符通常不太可能对对于这种产品的情感具有影响。因此,在方法操作417中,系统利用描述符列表从关键短语和社交帖子剥去/修整/去除包括在关键短语/帖子提及的项目(产品/服务)的种类下的列表中的描述符。
(iii)正规表达:在一些实施方式中,正规表达被用于识别在被规范化时应缩短/截短的长产品名称。该系统使用关键短语的长度以及词的计数,针对垃圾词列表(像颜色)进行比较,对每个词在关键短语中的位置进行加权,并且选择用于省略的词。这可以基于上述列表和/或其它列表的数据来执行。
在一些实施方式中,操作417与另一个后台操作/处理关联或包括该后台操作/处理,下文中被称为名称规范化方案构造,该构造被执行以构造和/或填充上面涉及的列表:品牌名、规格/描述符和/或正规表达;并且可能自动地或部分自动地构造用于每个产品/服务或其种类的名称规范化方案。
比如,在一些实施方式中,在规范化方案中,构造操作可以包括在因特网中(例如,经由搜索引擎)和/或在特定预定网站(诸如维基百科(wikipedia))中搜索其给定关键短语和/或其部分。这种搜索的结果还被处理以在因特网中识别以关键短语为特征的产品/服务的各种名称外观,并且检测/确定应去除的规格/描述符和/或应添加的品牌名,以便规范化关键短语的名称。因此,可以针对不同项目构造品牌名列表和/或描述符列表和/或规范化名称方案。
比如,搜索结果可以包含与关键短语关联的类似项目(产品/服务)但包括不同规格/描述符的名称的列表。过滤搜索结果,以仅留下以高置信水平与关键短语关联的名称的列表。例如,搜索结果使用来自初始关键短语的令牌被过滤,同时强制现有令牌的最小阈值(例如,在关键短语中使用针对每个令牌的权重)。因此,仅与关键短语(具有高置信水平)关联的名称保留在列表中。然后,从列表中的剩余名称识别用于描述关键短语的最常见词(出现在大多数名称中的那些词)和那些词的最常见顺序。这些常见词及其顺序然后被识别为用于项目的规范化名称/名称方案。该规范化名称方案被用于规范化与该项目有关的社交帖子中的关键短语和名称。因此,处理这种搜索的结果,以填充/构造应被添加到各种项目的规范化名称的品牌名;和/或填充/构造具有应从各种项目的规范化名称去除的描述符的描述符列表;和/或识别用于各种项目的合适规范化名称方案中的词的正确顺序。
应注意,在一些实施方式中,处理从网页搜索返回的结果包括处理返回的那些结果的url。出于各种原因(例如,与搜索引擎优化(seo)有关的原因),许多网站(例如,商业网站)以可以用于唯一识别在网页上销售/宣传的产品/服务的最短方式来命名它们的网页(这通常在网站中进行,以改进以其各种形式、规格以及配置搜索该产品的用户的流量)。因此,产品/服务通常以人们通常提及它的方式(例如,这不是必须为产品的正式名称)在这种网页/url中命名。因此,识别用于给定关键短语/项目的合适名称规范化方案在一些实施方式中通过在搜索结果的url部分找到用于项目的最频繁名称提及来实现。
注意,在一些实现中,当分析url时,也将url的源域考虑在内,这是因为一些域可以比其它提供更准确/可靠的结果。因此,操作410可以包括从特定域滤除/忽略被认为不太可靠的url/网站或使用特定域,该特定域使用可以从其提取可靠名称方案的准确产品名称。
方法400包括以下步骤:向多个社交帖子应用偏见处理420,以在社交帖子中识别多个无偏见社交帖子。然后,向多个无偏见社交帖子应用情感分析450,以便确定分别由多个无偏见社交帖子表达的多个情感值。然后可以根据从多个无偏见社交帖子提取的情感值确定指示对于由关键短语描述/命名的项目的无偏见情感的情感得分。
根据本发明的一些实施方式,情感分析系统300包括:(i)社交帖子检索器模块310,该社交帖子检索器模块310适于执行方法400的操作410以获取指示关于其应生成情感数据的关键短语的数据,并且检索包括与关键短语有关的至少一个社交帖子的文本数据;(ii)偏见/商业过滤器模块320,该偏见/商业过滤器模块适于执行方法400的操作420,以滤除有偏见的(例如,商业上有偏见,诸如以显式或隐式推销/宣传商品的商业意图发布的帖子)的社交帖子;以及(iii)情感分析器处理器350,该情感分析器处理器适于处理至少一个社交帖子的一个或更多个句子,以关于关键短语确定至少一个社交帖子的情感值。
社交帖子检索器模块310适于(例如,从实际上可以为上述储存库115的关键短语储存库315)获得指示其情感应由系统300分析的关键短语的数据,并且适于(例如,从这种帖子的任意合适源(例如,直接来自社交网络和/或来自存储这种帖子(诸如上述125)的数据储存库325))获得指示要由系统处理的社交帖子的数据。
如上所述,关于方法400的操作417,在一些实施方式中,根据特定名称规范化方案规范化由所请求的关键短语提及的项目的名称提及。因此,可以包括对相同项目的提及的社交帖子也需要被规范化。为此,在本发明的一些实施方式中,系统300可选地包括名称规范化器模块317,该名称规范化器模块317可以被配置且可操作以规范化输入到数据储存库315的关键短语中的名称。另选地或另外地,因为关键短语中的产品/服务名称可以不与提及它的社交帖子中相同,因此在特定实施方式中,还规范化社交帖子中的项目名。比如,可以规范化提及特定类似计算机化产品(该产品仅由它们具有的存储量来区分(例如,分别为32gb和64gb))的帖子,以从规范化名称去除该描述符,这是因为这不需要影响产品的情感评价。
名称规范化模块317可以为计算机化模块(例如,与处理器、数据储存库以及网络连接关联)。名称规范化模块317可以包括用于实现上述方法操作417的软件和/或硬件模块。另选地或另外地,名称规范化模块317可以包括/或与外部模块/服务(例如,诸如
偏见过滤器模块320适于滤除有偏见的社交帖子。有偏见帖子(例如,商业上有偏见)的过滤致力于生成对于项目/关键短语的大致中性情感得分/指示,同时降低商业发布对由系统300生成的情感得分的偏见影响。在更广泛的意义上,包括偏见过滤器模块320的系统300配置目的在于提供情感分析,该情感分析可靠地反映公众对于项目/关键短语的情感,同时降低利用推销特定项目的商业兴趣进行的发布的影响。
为此,偏见过滤器320可以被配置且可操作以用于执行用于向社交帖子应用偏见处理的方法400的操作420。在本发明的特定实施方式中,向社交帖子应用偏见处理(bow处理),以识别指示带有商业意图发布的社交帖子的一个或更多个预定语言表达的存在。每个这种语言表达可以与它被包括在带有商业意图发布的文本中的概率关联地存储在词典中。然后420还可以包括基于所识别的语言表达确定指示社交帖子有偏见的概率的偏见概率,并且在偏见概率超过预定偏见阈值的情况下,滤除这种有偏见的社交帖子,以从另外处理去除它们。应注意,在一些实施方式中,向社交帖子的一个或更多个部分(例如,标题部分、主体部分和/或发布者部分)独立地应用偏见处理,并且根据偏见表达被识别的地点确定偏见概率。例如,诸如“购买”的偏见表达的存在在它出现在标题部分时可以比它出现在其它部分(诸如主题部分)时给予更高的权重(即,更高偏见概率)。为此,存储偏见词的词典数据还可以包括当偏见词出现在社交帖子的各种位置中时它们各自的偏见概率的数据。
由此,在本发明的特定实施方式中,偏见过滤器320包括和/或与偏见指示符数据储存库327关联,该偏见指示符数据储存库327包括更经常出现在商业发布和/或其它类型的有偏见发布中的多个偏见术语/短语(例如,购买、提供、交易、经营)。偏见过滤器320可以处理由社交帖子检索器模块310提供的社交帖子,以识别它们中的一个或更多个是否出现在被检查的社交帖子中,并且因此评定被检查的社交帖子是否是以推销项目的特定意图(商业意图)发布的有偏见帖子。
更具体地,例如,在本发明的一些实施方式中,bow技术被用于将社交帖子分成各种种类。具体地,在一些实施方式中,偏见过滤器329可以基于bow技术,并且可以利用bow处理器362将帖子分成中性(无偏见)种类和诸如商业上有偏见种类的一个或更多个“有偏见”种类。另选地或另外地,其它分类技术可以用于将帖子分成有偏见种类和无偏见种类。
在该连接中,偏见过滤器320可以包括或被实现为概率过滤器,诸如适于将帖子分成有偏见种类和无偏见种类的贝叶斯过滤器。系统300可以包括可连接到偏见过滤器320的偏见指示符数据储存库327。偏见指示符数据储存库327可以包含预定和/或动态构造的词典,该词典包括出现在各种社交帖子中的多个语言表达(词/术语/短语)和它们出现在有偏见社交帖子和/或无偏见社交帖子中的概率。偏见过滤器320可以适于基于从327中所存储的不同各个词典攫取给定社交帖子的语言表达的概率来评定各个给定社交帖子是否有偏见。
在一些实施方式中,偏见过滤器320包括/维持词和/或正规表达(例如,像“便宜”的词)的黑名单,该词和/或正规表达包括在社交帖子中指示社交帖子有偏见或可能有偏见(例如,以商业意图张贴)。偏见过滤器320可以处理由系统检索的社交帖子,以识别词与词的黑名单中的词/正规表达匹配的社交帖子,并且将它们识别为有偏见的或可能有偏见的(这种帖子可以被过滤/不用于提取情感)。在一些实施方式中,偏见过滤器320根据贝叶斯过滤器技术来操作bow处理器362。偏见指示符数据储存库327例如可以包括至少两个词典,一个词典包含以高概率出现在有偏见帖子中的词,并且另一个词典包含正常出现在无偏见/中性帖子中的词。虽然在两个词典中可以找到任意给定词,但是“有偏见”词典例如包含以更高频率/概率出现在商业上有偏见帖子中的语言表达(词/短语)(例如,购买、经营以及其它),而正规/中性社交帖子词典例如可以包含更多的个人词(例如,与用户的家庭、朋友以及工作地点有关的词语)。然后,可以(例如,使用贝叶斯概率)分析被检查的社交帖子的词/术语/短语的出现概率,以确定被检查的社交帖子是否有偏见。例如,偏见过滤器320可以基于偏见指示符数据储存库327中所存储的词典利用bow处理器362的贝叶斯过滤功能。为此,bow处理器362可以将给定社交帖子制定为已经从“有偏见”和“中性”词典中的一个挑出的词堆,并且基于贝叶斯概率确定给定社交帖子更可能根据词典中的哪一个被构造的概率。如果社交帖子更可能根据有偏见词典来构造,则确定帖子是有偏见的,并且反之亦然,如果帖子词更可能从无偏见/中性词典来攫取,则确定帖子是中性的。
关于滤除有偏见社交帖子,本发明的发明人已经注意到商业内容的最有效指示符之一是帖子内存在到特定商业网站的链接(超链接)。这是因为一些商业网站(诸如amazon)鼓励由任何人张贴到它们商店且来自任何地方的链接(比如amazon联盟计划)。
由此,在一些实施方式中,偏见过滤器320包括或与url/域名的词典/黑名单关联,该url/域名与这种联盟计划关联。偏见过滤器320处理社交帖子,以识别黑名单的url/域名是否包括在帖子中,并且将包括这些url/域名的帖子分类为有偏见的。url的黑名单可以手动或由各种方法/系统300中的模块更新。比如,系统可以包括超链接分析模块(未示出),该超链接分析模块监测包括在由系统检索的所有社交帖子中的url/域名,并且向黑名单输入最频繁出现在社交帖子或最频繁出现在社交帖子中的那些域名,社交帖子由其它手段(例如,由上述bow技术)识别为商业上有偏见的。
应注意,在本发明的一些实施方式中,用于将文本数据/社交帖子分类为一个或更多种类的词典可以在处理社交帖子期间被动态地构造。例如,一旦社交帖子被分类到特定种类(例如,有偏见/中性帖子种类),则可以基于帖子中的所有词/短语/术语更新与该特定种类关联的词/短语的所存储词典。例如,该特定种类的词典可以被更新以(i)将出现在帖子中但不包括在特定种类的帖子的词典的词引入到词典中;和/或(ii)根据帖子的词/短语内容更新词典中的词的概率(例如,通过增加出现在当前给定帖子中的词的出现概率来更新帖子种类的词典,这还减小不出现在帖子中的词的出现的概率)。通过动态地更新分类词典,系统300可以以改进的准确度“学习”将帖子分类成各个种类。
如上所述,情感分析器处理器350适于处理至少一个社交帖子的一个或更多句子,以确定至少一个社交帖子关于关键短语的情感值。情感分析器处理器350可以被配置且可操作以用于执行向社交帖子的文本数据应用情感分析的方法400的操作450。这可以包括分别经由bow和nlp情感分析技术处理文本的子操作452和454。为此,在本发明的一些实施方式中,情感分析器处理器350包括词袋(bow)情感引擎352和自然语言处理(nlp)情感引擎362,这两个引擎能够独立地操作以处理社交帖子和/或文本部分(例如,其句子),以确定它们关于特定关键短语的情感。可选地,情感分析器处理器350可以与自然语言处理器(nlp)模块364和词袋处理器(bow)模块362关联,或者可以包括这两者,这两者可以提供一般nlp和bow功能。例如,nlp模块364可以基于可容易获得的stanfordnlp模块和/或bow模块可以基于在本领域中传统/已知的bow技术。另选地或另外地,特别设计的bow和/或nlp功能可以由模块362和364实现并提供。
bow技术可以用于确定给定文本(诸如出现在社交帖子中的文本)与给定短语/术语有关的概率。这例如可以通过利用术语词频-逆文档频率技术(tf-idf)来实现。因此,在系统的特定实施方式中,bow技术在初始步骤/操作中使用,其目标在于确定给定社交帖子实际上是否与感兴趣的关键短语有关。如果给定社交帖子与关键短语有关,则可以执行另外情感分析,并且如果与感兴趣的关键短语不相关,则系统可以进行到分析另一个社交帖子。因为bow处理是要求适度计算资源的相对有效统计处理,所以将该技术用于初步过滤非相关社交帖子改进了系统的效力。
如上所述,bow模块362可以用于将文本分类成一个或更多个种类。例如,假设存在指示各种语言表达在不同文本种类中出现的频率/概率的合适数据,则bow可以将给定文本分类成一个或更多个种类。
因此,bow模块362在本发明的一些实施方式中被用于提供关于给定文本是与肯定、否定和/或中性情感关联的相对粗略估计。这可以由包含与“肯定”、“否定”以及可选地还有“中性”情感关联的语言表达的预定/动态更新的数据(诸如词典)来实现。在特定实施方式中,传统bow技术被用于获得社交帖子和/或其句子的bow情感极性分类。即,bow情感分析可以产生肯定、否定和/或中性bow情感极性。例如,以确定社交帖子的偏见的类似方式,这里还通过利用关于“肯定”和“否定”词典中的语言表达的统计信息(频率/概率)根据贝叶斯概率处理社交帖子/句子来执行情感的bow估计。为此,情感(例如,“肯定”和/或“否定”词典)可以包括通常(例如,以相对高频率)出现在各个“肯定”、“否定”以及可选地“中性”情感的句子中的语言表达和它们出现在这样的各个情感极性的句子中的频率/概率。
应注意,在本发明的技术中,包含“肯定”、“否定”表达/词的词典可以由自动/机器学习处理来构造、维持和/或更新,这些处理在网页上爬行,以收获并分析来自评论网站的评论。为此,本发明的方法/系统可以被配置且可操作以通过收获特定/特别选择的评论网站(列表例如可以被存储在存储可靠网站的列表的特定数据库中)来执行该机器学习,并且可以被配置且可操作以处理来自这种网站的内容,以识别频繁用于表达肯定情感的词(频繁出现在肯定评论中或评论的肯定部分中的词),和/或识别否定情感的词(频繁出现在否定评论或评论的否定部分中的词)。
另选地或另外地,在特定实施方式中,包含“肯定”、“否定”表达/词的词典还可以通过接收来自外部源(例如,来自系统的人类运营商的手动输入)的输入来构造、维持和/或更新。在一些实现中,系统提供人机接口,该人机接口允许个人分配多个情感极性得分(例如,五个不同情感得分:强肯定词、肯定词、中性词、否定词以及强否定词)中的一个。因此,个人可以监测肯定/否定词的词典,向存在于词典中的词分配情感得分和/或添加指示肯定/否定情感的新词。
肯定/否定词词典的自动构造(例如,如上所述,通过机器学习)具有能够在短时间内处理大量数据的优点。使用手动人类输入提供对不总是由自动处理识别的词和/或含义模糊不清的词的洞察。因此,本发明的系统的特定实现包括实现用于收集并维持肯定/否定词词典的自动技术的模块、以及使得能够接收人类输入以在该词典中添加/去除/更新词和/或它们的情感极性含义/得分的模块/接口。
通常,系统300还包括nlp模块364,该nlp模块364实现能够语义合成性分析文本块并生成文本结构的正式和系统表示的nlp方法,与更简化的bow处理技术相比,可以以改进的准确度且以减少的错误结果估计关于给定关键短语的特定文本含义和/或情感。
在各种实施方式中,nlp模块364适于分析诸如社交帖子的给定文本/句子,以提供以下功能中的一个或更多个(在下文中还被称为法律层面nlp功能):(i)给定文本/句子的语法分析/解析(例如,以确定/输出解析树);(ii)通过利用pos标记技术来确定给定文本/句子中的词性(pos,例如,名词、动词、形容词);以及(iii)提供能够确定给定文本中的语言表达之间的关系且将长文本分成多个句子成分的句子分割功能的关系提取。
通常,在本发明的一些实施方式中,nlp模块364还适于执行一些更高级功能,这些更高级功能通常至少包括适于提取/确定关于特定一个或更多个感兴趣的关键短语在文本(社交帖子和/或其句子)中表达的情感的情感分析功能。nlp情感分析通常比bow情感分析更准确且可靠,这是因为nlp情感分析通常依赖上述更低级nlp功能来正式表示文本组成和被分析文本中的各种语言表达之间的关系)。同样,nlp可以利用诸如语义处理的另外功能来获得被分析文本的可靠解释。nlp语义合成性处理(例如,基于低级nlp功能且可选地还基于文本中的词/语言表达的语义处理)被用于确定文本中的词如何相互作用,并且修改关于给定短语在文本中所表达的情感。因此,nlp提供关于给定短语导出文本的预表达含义/情感。通常,nlp情感极性值因此基于指示给定文本关于关键短语表达肯定、否定和/或中性情感来确定。
应注意,在本发明的特定实施方式中,nlp处理器364包括传统nlp组件(例如,软件模块)(诸如stanfordnlp系统),并且可以利用这种模块的功能来提供更高和/或更低级nlp功能。特别地,nlp处理器364在一些实施方式中还可以提供指示由nlp提供的nlp情感值是正确/准确且可靠的概率的nlp置信水平数据。nlp模块364还可以包括合适数据储存库和/或提供nlp处理所要求的数据的数据通信。鉴于这里的描述,本领域技术人员将容易想到使用并且实现本发明的系统300中的这种nlp模块364以提供上述低级和/或更高级功能的一些或所有。
如上所述,本发明的特定实施方式目的在于通过处理多个社交帖子来关于给定关键短语提取高度可靠的情感得分和高度可靠的情感值。这里,短语情感得分或评价应被理解为关于关键短语从多个社交帖子提取的情感值(例如,通过如上所述求平均),而短语情感值应被解释为与从一个社交帖子和/或从其部分/句子提取的情感(例如,极化值)有关。因为情感得分应充当公众对于关键短语和基础项目的情感的指示符,所以情感得分的可靠性很重要。同样,因为在特定实施方式中,各个帖子本身连同指示它们的情感值一起被发布,所以与各个社交帖子关联的情感值的可靠性很重要。因此,在情感值不正确的情况下,可以由查看具有他们的情感值的各个帖子的发布的用户识别出,这可能降低系统在改进网站的转化率时的有效性(因为在这种情况下,用户可能感觉由系统产生的情感得分和值不可靠)。
因此,本发明的这种实施方式利用nlp和bow技术这两者来独立地分析并确定社交帖子或其句子关于感兴趣的特定关键短语的情感值。这产生:(i)nlp情感值;和(ii)bow情感值;这两者通常为表达对于感兴趣的关键短语的肯定/否定/中性情感极性的极化值。因为基于bow和nlp之一的情感提取可能产生错误结果,所以致力于提供以改进的一般化置信水平从文本高度可靠地提取情感值的本发明的特定实施方式(优于可以由nlp或bow中之一实现的实施方式)包括bow情感引擎352和nlp情感引擎354两者。后者分别应用bow和nlp情感处理(例如经由bow和nlp处理器362和364)来提取bow和nlp情感值。然后,可以从bow和nlp情感值的组合以改进的置信水平产生一般化情感值(例如,指示给定文本块/句子关于给定关键短语的情感的极化情感值)。下面关于可选质量过滤器模块并且特别是关于可选质量过滤器模块370的后处理部分更详细地描述该特征的特定具体实现。
实际上,通常,nlp情感在许多情况下更准确,并且通常比bow情感更准确。这可能是因为bow仅依赖于被分析文本中的词的统计分析,而nlp在许多情况下包括语义合成性处理,包括分析文本中的词之间的关系、词pos、文本的语法,并且还可能分析语义。然而,nlp处理通常也比由如bow的这种统计技术提供的文本的简化统计处理和/或分类更复杂且耗时。
如上所述,本发明的特定实施方式目的在于高效力/效率地从文本提取情感值。这是因为通常存在可以关于感兴趣的任意关键短语从因特网收获的丰富社交帖子,并且为了提供关于关键短语的可靠情感得分,优选的是系统300能够高效力地处理与关键短语有关的丰富社交帖子或其至少大部分。
为此,本发明的发明人已经认识到,因为存在与任意关键短语有关的多个可用社交帖子,所以向与感兴趣的任意给定关键短语有关的所有帖子应用情感分析处理不是必须要求的且还可以不被应用。因此,本发明系统300的特定实施方式包括优先级排序器模块355,该优先级排序器模块355被配置且可操作以用于应用情感处理的帖子和/或剔除特定社交帖子或其部分。这种优先化可以致力于向期望以更短处理持续时间来处理和/或期望产生更高置信水平的情感值的社交帖子/文本的处理分配更高的优先权。另选地或另外地,优先级排序器模块355可以被配置且可操作以用于剔除处理超过给定时间阈值或期望产生低置信水平(例如,低于特定阈值)的社交帖子/句子。
为此,本发明的发明人已经注意到,在许多情况下,nlp处理时间延伸相对长持续时间(例如,超过可以基于文本长度确定的特定时间阈值)的文本通常产生提供有低置信水平的nlp情感值(例如,具有从nlp处理器产生的低nlp置信水平)。因此,向这种文本(社交帖子/其句子)应用情感处理可以将系统300的效率/效力降低至所需相对长处理时间,而且降低情感得分的质量/置信水平。因此,在本发明的特定实施方式中,优先级排序器模块355包括/或由时间限制器模块356来实现,该时间限制器模块适于将给定文本的nlp处理的时间限制到低于特定持续时间阈值。时间阈值可以为预定阈值和/或它可以基于例如被处理文本的长度来设置。因此,时间限制器356可以由指示给定文本的nlp处理已被初始化且处理时间的计数/监测已经开始的第一信号/数据来触发。在接收到指示nlp处理结束的第二触发之前经过特定持续时间阈值的情况下,则时间限制器模块356中断/停止处理并且剔除由系统300进一步处理的文本(例如,社交帖子和/或其句子/块)。因此,优先级排序器模块355可以提供用于改进由系统300提供的情感处理的效率以及可靠性和置信水平。还应注意,在特定实施方式中,系统300适于仅在应用nlp处理之后向社交帖子/文本应用其它情感处理(诸如bow处理)。因为这样的其它处理将不存在应用至在nlp处理期间可能最终被剔除的文本的优先级,所以这可以进一步改进系统的效率。
如上所述,本发明的特定实施方式包括质量过滤器,该质量过滤器适于确保本发明的系统300提供以高置信水平指示对于给定关键短语的由系统分析的文本中的情感的高度可靠情感值。在本发明的特定实施方式中,质量过滤器适于执行方法400的操作440以用于向与社交帖子关联的数据应用质量处理,以确定是否可以以高置信度从社交帖子提取可靠情感。为此,操作440目的在于确定针对社交帖子的质量评价。在图2a的非限制性示例中,质量过滤器被划分成前处理质量过滤器375和后处理质量过滤器370。然而,应注意,虽然这种划分与高效处理关联,但是它不是必要的,并且应注意,在已经执行实际情感分析之后,在前处理中执行的操作中的一些也可以在后处理中执行。
由此,方法的操作440可以被分成前处理操作440.1和后处理操作440.2,这两个操作可以分别在情感分析处理450执行之前和之后/期间执行。因为情感分析处理450通常是计算密集型的,所以执行前处理质量过滤440.1使得能够改进本发明的系统300和方法400的可靠性和效力两者,这是因为它提供用于在执行计算密集型操作450之前去除/滤除无法以足够可靠性从其提取情感值的文本(例如,社交帖子或其部分)。后处理操作440.2可以用于基于操作450的结果通过评定情感分析的可靠性和置信水平来进一步改进系统的可靠性。
在本发明的特定实施方式中,操作440包括提供指示文本块(社交帖子或其部分)的质量的一个或更多个预定准则,其中,术语质量在这里用于指示可以从文本块提取情感值的可靠性。操作440包括基于预定准则处理社交帖子或其部分,以通过确定文本块/社交帖子的一个或更多个部分是否满足一个或更多个准则并滤除不满足这些一个或更多个准则的特定组合的社交帖子的至少部分来评定文本的质量(可靠性)。
在本发明的特定实施方式中,用于评定文本块的质量的一个或更多个准则包括以下准则中的一个或更多个:
i、指示社交帖子的一个或更多个源的可靠性的源准则。方法400可选地包括操作441,操作441用于确定发布帖子的所述社交帖子的源并且将所述源与和源准则关联的所述一个或更多个预定源进行比较,以确定是否满足所述源准则。
ii、与可靠情感评估关联的指示文本长度范围的长度准则(例如,这里短语范围可以指示包括在可以从其提取可靠情感的文本中的词的数量的下限和/或上限和/或两者)。方法400可选地包括操作442,操作442用于确定文本(社交帖子/其部分)的文本长度,并且将所述文本长度与所述范围进行比较,以确定是否满足长度准则。
iii、与包括指示社交帖子的句子/其它文本部分中的关键短语的短语关联的相关性准则。方法400可选地包括操作443,操作443用于滤除与感兴趣的关键短语不相关的文本部分。
iv、极性句子准则(例如,这里还被称为否定极性)。该准则与社交帖子的句子/文本部分中的一个或更多个否定词/短语的包括关联。方法400可选地包括操作444,操作444用于确定是否否定极化(例如,包括否定词)由情感分析引擎分析的文本,并且用于从另外处理过滤这种句子。
v、指示通常应包括在文本中以使得能够从文本可靠地提取情感的一个或更多个pos成分的词性(pos)准则。方法400可选地包括操作447,操作447用于向社交帖子/文本应用词性(pos)自然语言处理(nlp),以确定出现在社交帖子中的pos的列表,并且将列表与一个或更多个所要求的pos成分进行比较,以确定是否满足pos准则。为此,文本的名词、动词以及其它词性的分布可以用于确定其质量。更具体地,在一些情况下,(例如,通过测量出现在文本中的各种pos的频率)确定/计算给定文本中的pos的分布的定量测量,并且将测量与预定阈值进行比较,如果超过该阈值,则词性之间的关系指示低质量文本。
vi、指示社交帖子与预定(优先级已知)质量的社交帖子的大语料库(例如,高质量社交帖子的语料库和/或低质量社交帖子的语料库)之间的相似度的语料库准则。在可选操作447中,质量过滤器基于语料库的预定质量和社交帖子与语料库中的帖子的相似度估计社交帖子的质量。为此,方法400可选地包括以下步骤:提供预先确定为高或低质量的社交帖子的一个或更多个大语料库。语料库可以存储在数据库中,并且在本发明的一些情况下,每个语料库为源特定的(即,各个语料库包括仅从一个或更多个特定源收获的社交帖子)。方法400可选地包括以下步骤:执行操作447以基于贝叶斯/bow分类对社交帖子进行分类,以确定它与高质量或低质量社交帖子的语料库的相似度/差异。然后,可以根据由此确定的社交项目与高/低质量社交帖子的语料库的相似度(例如通过将相似度乘以语料库的质量)来确定/估计社交项目的质量。在特定情况下,语料库与特定社交网络关联,并且根据分别在特定社交网络中发布的社交帖子来建立。因此,社交帖子仅与和从其收获社交帖子的特定社交网络关联的特定语料库匹配/分类到特定语料库。
vii、文本格式准则。有时用于评定给定文本的质量的另外准则与文本的格式有关。在特定实现中,方法400包括由质量过滤器(附图中未具体示出)执行的可选操作,该可选操作用于基于一个或更多个文本格式参数(诸如文本的大写和标点)估计社交帖子的质量。质量过滤器可以使用文本大写来评定文本的“语气”。比如,以大写字母书写的文本可以被认为是高喊文本(例如,可以被认为强调),并且以小写字母书写的文本(或句子开头)可以被认为是规范/民用文本。例如,“thisisshouting”和“thisisbeingcivil”。另选地或另外地,在一些实施方式中,质量过滤器可以使用文本标点(例如,逗号(,)、句号(。)以及其它文本标点的存在和/或位置)来确定评定文本质量。比如,计数文本标点(例如,根据它们各个的类型)与文本的长度之间的比值被计算且用于评定文本的质量。在一些实施方式中,系统包括经训练的分类器(例如,经训练的神经网络模块和/或其它类型的“可训练”模块),该分类器被实现为接收指示文本标点的数据(例如,上述比值)并使用这种数据来将文本分类成两个或更多个质量组。
viii、与经由对其的情感分析的应用确定所述社交帖子的一个或更多个部分的情感值的置信水平关联的置信水平准则。方法400可选地包括操作448,操作448用于将从情感分析处理450获得的置信水平进行比较,以确定置信水平是否高于特定阈值。另选地或另外地,为了满足这些准则,可能要求经由不同情感分析技术(诸如基于nlp的技术和bow的技术)获得的情感值具有类似极性。
在本发明的特定实施方式中,应注意,操作441至445以及可选地还有操作447可以在前处理质量过滤步骤440.1中执行。操作446由此可以包括过滤不满足操作441至445和/或447中的一个或更多个的准则的文本。因此,操作448且可选地还有操作447可以在后处理质量过滤步骤440.2中(例如,在操作450之后或期间)被执行。操作449由此可以包括过滤不满足操作448和/或447中的一个或更多个的准则的文本。
应注意,准则ii至vii可以应用于社交帖子的各个句子,并且在各个句子中的一个或更多个不满足这些准则的特定组合的情况下,至少滤除各个句子或整个社交帖子。
如上所述,在本发明的特定实施方式中,紧接着从多个社交帖子(例如,包括数百、数千或更多帖子)计算/确定用于商业项目的情感得分,本发明的技术还提供用于选择将在网站中显示的一些记录(通常不多于数十个社交帖子;例如,多达20个)。对于这种呈现,有利的是识别指示感兴趣的商业项目的最佳可表示社交帖子。为此,可以使用上面关于操作258指示的呈现质量评价。应注意,在本发明的特定实施方式中,尤其基于如在上面由准则i至vii中的任一个或更多个在操作440中估计的社交帖子的质量评价来确定所指示的呈现质量评价。
在本发明的特定实施方式中,质量过滤器的后处理部分370适于执行方法操作448,并且包括nlp/bow置信水平过滤器372和/或nlp对bow比较器过滤器374。
如上所述,常见nlp情感分析技术/模块在许多情况下连同指示情感值的所得到数据一起还提供指示所获得的置信水平(即,这里被称为nlp置信水平)的数据。另选地或另外地,同样,bow技术或类似统计词处理技术也可以产生类似置信水平数据(即,这里被称为bow置信水平)。nlp置信水平和/或bow置信水平通常可以表示或指示由这种技术获得的各个nlp/bow情感值的极性正确的概率。例如,由nlp情感处理技术分析给定句子来确定对于关键短语的情感可以产生以下数据:{情感极性:肯定;置信水平:51%},该数据意味着情感被确定为肯定的但具有低可靠性,并且意味着存在49%的机会该结果不正确。因此,本发明的特定实施方式包括nlp/bow置信水平过滤器372,该过滤器适于滤除nlp置信水平和/或bow置信水平(如果可用)低于给定各个置信水平阈值的这种结果。这样,仅考虑且进一步使用从其以高可靠性提取情感的文本(例如,以确定对于关键短语的情感得分)。
另选地或另外地,在本发明的特定实施方式中,质量过滤器370包括nlp对bow比较器过滤器374。该模块374可以仅应用在nlp情感处理和bow情感处理(或其它统计情感处理)被应用的本发明的实施方式中,这产生独立地指示被分析文本对于关键短语的情感的两个不同情感值,nlp情感值和bow情感值。nlp情感值和bow情感值可能不总是一致,例如,一个可能指示肯定情感,并且一个可能指示否定情感。因此,nlp对bow比较器过滤器374可以适于将这些值进行比较并确定它们是否匹配。否则,在基于nlp的情感值和所述基于bow的情感值不匹配的情况下(例如,并且可能考虑所获得的置信水平),质量过滤器3709适于滤除这些结果,并且从而防止它们在将来处理关键短语的情感得分时使用。
nlp/bow置信水平过滤器372和/或nlp对bow比较器过滤器374通常仅在已经执行nlp和bow情感处理中的至少一个之后可操作。
在本发明的一些实施方式中,质量过滤器还包括前处理质量过滤器部分,该前处理质量过滤器部分可以实现方法步骤440.1的子操作中的一些或全部,以识别从其无法以高置信水平提取情感得分的低质量社交帖子和/或其文本部分,以用于滤除那些社交帖子和/或文本部分。例如,前处理过滤器375可操作以用于过滤被估计为产生不太可靠的结果的不太相关文本部分和/或文本。
在本发明的特定实施方式中,前处理过滤器375包括句子极性过滤器378,该句子极性过滤器适于处理社交帖子的文本部分(例如,整个文本和/或文本块,诸如成分句),以识别怀疑被否定极化的极化文本,并且滤除极化文本。本发明的发明人已经认识到,在许多情况下,通过情感分析技术(诸如nlp和bow)错误地解释包含否定情感的词(诸如:不、但是、以及其它)的文本的情感。这种文本/句子在这里被称为否定极化句子,但应理解,它们实际上也可以被肯定极化。为此,在本发明的特定实施方式中,具体在存在可以关于感兴趣的关键短语分析的丰富文本的情况下,可以优选的是从另外情感分析剔除这种否定极化句子,从而改进质量和由系统获得的情感得分这两者。
因此,在这种实施方式中,系统300包括句子极性过滤器378,该句子极性过滤器适于识别否定极化文本/句子且过滤它们。例如,句子极性过滤器378可以与存储指示否定句子极性的语言表达(例如,诸如不、但是等)的否定词数据储存库(未具体示出)关联。句子极性过滤器378可以包括文本解析器(未具体示出),和/或它可以与bow处理器模块362关联,并且可以适于操作文本解析器和/或bow处理器模块362,以识别来自否定词数据储存库的一个或更多个词在文本中的存在。在确定这种词存在的情况下,文本不再由系统进一步处理。
应注意,由系统300分析的每个社交帖子和/或其它文本可以由一个或更多个部分(例如,标题、主体和/或发布者)组成,和/或由构成它的一个或更多个句子组成。实际上,通常,文本的特定部分不必须包括与感兴趣的关键短语有关的任意指示,因此优选的是跳过/剔除这种部分的分析,以便改进系统的效力。另外,在一些情况下,在文本中存在与关键短语有关的两个或更多个句子/部分,并且该两个或更多个句子/部分可以独立地指示关于关键短语的类似或不同情感极性。
因此,在本发明的特定实施方式中,系统300包括分解器模块330,该分解器模块在下文中被称为句子分解器,适于执行方法400的可选操作430以将(例如,来自社交帖子的)文本分割/分解成文本的一个或更多个句子/部分成分。前处理/句子过滤器375、情感分析器模块350以及质量过滤器370可以被配置为在文本的每个成分部分/句子中独立地操作,以确定它们关于关键短语的情感值/得分或使它们不再被进一步处理。在这种实施方式中,系统300还可以包括情感值积分器模块380,该情感值积分器模块380适于对从所述一个或更多个句子获得的情感值进行积分,以确定整个社交帖子/文本关于关键短语的全局情感得分/值。
如上所述,相同文本的不同句子可以产生类似情感值和/或相反值。在特定实施方式中,情感值积分器模块380可以被配置且可操作以通过执行方法400的操作480来确定文本/社交帖子的情感值。即,从社交帖子的一个或更多个句子/文本成分获得的情感值的积分被用于确定社交帖子关于关键短语的全局情感值。例如,社交帖子的全局情感值可以通过对从被分析文本的多个句子获得的值求平均来确定。求平均可以为简单求平均或可以为加权求平均。可选地,与不同句子的情感值的确定关联的置信水平/可靠性得分被用作求平均时的权重。另选地或另外地,指示社交帖子中的句子的重要性的重要性得分被用于确定求平均权重。
例如,在特定实施方式中,情感分析被应用于社交帖子/被分析文本的预定最大数量的句子。重要性得分可以分别关于社交帖子/文本的句子来确定。例如,这种重要性得分可以基于以下中的至少一个针对文本的每个给定句子来确定:(i)句子与上面关于操作440指示的一个或更多个质量准则测量的符合性;和/或(ii)给定句子在文本/社交帖子中的位置。在特定实施方式中,预定数量的最重要句子(其重要性得分以上述方式被计算)由情感分析器来处理,以确定它们的情感值,并且进一步由积分器模块380处理,以确定社交帖子的全局情感值。
在本发明的特定实施方式中,在给定文本/社交帖子的不同部分/句子产生相反极性的情感值的情况下,积分器模块380可以不再考虑整个社交帖子/文本,并且帖子的全局情感可以被设置为中性和/或不确定的。这是因为在文本模糊不清且表达对于给定项目/短语的好坏情感两者的情况下,情感值结果可能不正确。
在这一点上,应注意,在文本社交帖子由模块330分解的情况下,并且虽然模块375和370可以独立地对文本的每个成分部分/句子操作,但是在本发明的各种实施方式中,这些模块的过滤效果可以仅应用于由此分析的特定句子/文本部分,或应用于从其攫取被分析成分句的整个文本/社交帖子。这取决于系统300的特定配置。比如,在极性过滤器378和/或质量过滤器370识别否定极化句子和/或句子的情感以低置信水平被获得的情况下,情况可能是这样:仅特定成分句考虑从文本/社交帖子的全局/最终情感值被剔除,或者剔除整个文本/社交帖子,并且忽略文本/社交帖子的全局情感值(例如,不被计算和/或不被存储在数据储存库385中)。
还应注意,在文本被分解成其成分部分/句子的实施方式中,前处理过滤器375可以包括相关性过滤器模块376(下文中为“句子相关性过滤器”),该句子相关性过滤器模块被配置且可操作以处理文本/社交帖子的成分句/部分,以确定它们与感兴趣的关键词的相关性,并且从另外处理滤除/剔除与关键短语不相关的那些句子(下文中为“不相关成分句/部分”)。因此,仅相关句子被保留且由情感分析器350进一步处理,由此改进系统的效力。
为此,相关性过滤器模块376可以与bow模块362关联,和/或与另一个文本解析器(附图中未具体示出)关联,并且可以适于处理文本/社交帖子的成分部分/句子,以确定关键短语是否出现在成本/社交帖子中,因此确定它们是否与关键短语相关。例如,相关性过滤器376模块可以适于通过向每个成分句应用bow处理来估计每个成分句的相关性程度,适于确定成分句中与成分句中的关键短语关联的相关语言表达的存在,并且适于滤除相关性程度低或低于特定相关性阈值的不相关成分句。这例如可以通过利用术语词频-逆文档频率技术(tf-idf)识别给定文本与关键短语多么有关来实现。