本发明涉及文本识别领域,具体而言,涉及一种基于三元组的词云展示方法及装置。
背景技术:
传统的词云展示多为基于关键词词频的展示,无法更细粒度的从中了解到产品的其他信息,例如:针对于某一产品,如何高效的在词云中展示该产品最近的谈论趋势以及情感走向?
传统的意见挖掘多为从评论文本中抽取提及的观点及其情感二元组信息。但是,对于评论文本中涉及多产品时,观点情感二元组方式则无法更细粒度的划分产品以及其对应的观点信息。
技术实现要素:
本发明实施例提供了一种基于三元组的词云展示方法及装置,以至少解决相关技术中词云展示无法更细粒度的划分产品以及其对应的观点信息的问题。
根据本发明的一个实施例,提供了一种基于三元组的词云展示方法,包括:识别文本中的产品实体;抽取所述文本中的观点信息,其中,所述观点信息包括观点情感二元组信息;将所述产品实体与所述观点信息中的观点词进行二分类,生成产品观点情感三元组信息;将所述三元组信息用于词云优化展示。
可选地,识别文本中提及的产品实体包括:对所述文本进行预处理;通过识别模型对所述文本中的产品实体进行识别;将识别出的产品实体进行可视化展示。
可选地,抽取所述文本中的观点信息包括:根据依存句法分析构建抽取观点情感的规则模型;基于所述规则模型对所述文本进行观点信息抽取;通过观点词词典或者打分模型去除抽取的所述观点信息中非观点词的二元组,获取观点情感二元组信息;对所述观点情感二元组信息进行可视化展示。
可选地,将所述产品实体与所述观点信息中的观点词进行二分类,生成产品观点情感三元组信息包括:标注训练文本中产品实体与观点词之间的关联关系,生成训练样本数据;将所述训练样本数据作为输入,产品与观点词是否具有关联关系作为输出,对关系分类模型进行训练;基于训练后的关系分类模型对所述产品实体与所述观点信息中的观点词进行分类,以抽取具有关联关系的产品观点情感三元组信息。
可选地,生成产品观点情感三元组信息之后,还包括:对生成的产品观点情感三元组信息中的产品名称进行实体消歧。
根据本发明的另一个实施例,提供了一种基于三元组的词云展示装置,包括:实体识别模块,用于识别文本中的产品实体;观点抽取模块,用于抽取所述文本中的观点信息,其中,所述观点信息包括观点情感二元组信息;分类模块,用于将所述产品实体与所述观点信息中的观点词进行二分类,生成产品观点情感三元组信息;展示模块,用于将所述三元组信息用于词云优化展示。
可选地,所述实体识别模块包括:预处理单元,用于对所述文本进行预处理;识别单元,用于通过识别模型对所述文本中的产品实体进行识别;第一展示单元,用于将识别出的产品实体进行可视化展示。
可选地,所述观点抽取模块包括:构建单元,用于根据依存句法分析构建抽取观点情感的规则模型;抽取单元,用于基于所述规则模型对所述文本进行观点信息抽取;过滤单元,用于通过观点词词典或者打分模型过滤抽取的所述观点信息中非观点词的二元组,获取观点情感二元组信息;第二展示单元,用于对所述观点情感二元组信息进行可视化展示。
可选地,所述分类模块包括:标注单元,用于标注训练文本中产品实体与观点词之间的关联关系,生成训练样本数据;训练单元,用于将所述训练样本数据作为输入,产品与观点词是否具有关联关系作为输出,对关系分类模型进行训练;分类单元,用于基于训练后的关系分类模型对所述产品实体与所述观点信息中的观点词进行分类,以抽取具有关联关系的产品观点情感三元组信息。
可选地,所述装置还包括:消歧模块,对生成的所述产品观点情感三元组信息中的产品名称进行实体消歧。
根据本发明的又一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明,在传统观点挖掘的基础上,更细粒度的加入了产品信息,从而从文本中获得产品观点情感三元组信息,并应用于词云的展示中。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的基于三元组的词云展示方法流程图;
图2是根据本发明实施例的细粒度的基于产品的意见挖掘方法流程图;
图3是根据本发明实施例的实体识别数据的标注方式示意图;
图4是根据本发明实施例的产品实体展示示意图;
图5是根据本发明可选实施例的观点情感二元组展示示意图;
图6是根据本发明可选实施例的产品观点情感三元组展示示意图;
图7是根据本发明实施例的基于三元组的词云展示装置结构示意图;
图8是根据本发明实施例的基于三元组的词云展示装置结构示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
在本实施例中提供了一种基于三元组的词云展示方法,图1是根据本发明实施例的方法流程图,如图1所示,该流程包括如下步骤:
步骤s102,识别文本中的产品实体;
步骤s104,抽取所述文本中的观点信息,其中,所述观点信息包括观点情感二元组信息;
步骤s106,将所述产品实体与所述观点信息中的观点词进行二分类,生成产品观点情感三元组信息;
步骤s108,将所述三元组信息用于词云优化展示。
在本实施例的步骤s102中,可包括步骤:对所述文本进行预处理;通过识别模型对所述文本中的产品实体进行识别;将识别出的产品实体进行可视化展示。
在本实施例的步骤s104中,可包括步骤:根据依存句法分析构建抽取观点情感的规则模型;基于所述规则模型对所述文本进行观点信息抽取;通过观点词词典或者打分模型去除抽取的所述观点信息中非观点词的二元组,获取观点情感二元组信息;对所述观点情感二元组信息进行可视化展示。
在本实施例的步骤s106中,可包括步骤:标注训练文本中产品实体与观点词之间的关联关系,生成训练样本数据;将所述训练样本数据作为输入,产品与观点词是否具有关联关系作为输出,对关系分类模型进行训练;基于训练后的关系分类模型对所述产品实体与所述观点信息中的观点词进行分类,以抽取具有关联关系的产品观点情感三元组信息。
在本实施例的步骤s106之后,可包括步骤:包括:对生成的产品观点情感三元组信息中的产品名称进行实体消歧。
为了便于对本发明所提供的技术方案的理解,下面将结合具体应用场景的实施例进行详细描述。
本实施例提供了一种细粒度的基于产品的意见挖掘方法,并应用于词云展示。
如图2所示,本实施例的方法包括如下步骤:
步骤s201,识别文本中提及的所有产品实体。即,进行产品命名实体的识别。在本步骤的中,可包括如下处理步骤:
1.数据的准备,实体识别数据的标注可选择多种不同的标注体系,如图3所示的bio或者bilou标注方式。
2.模型训练与预测。模型输入为预处理之后的文本信息,识别该文本中出现的产品实体。
3.识别的产品实体可视化展示,如图4所示。
步骤s202,抽取文本中所有的观点信息,该观点信息包括观点和情感。即,进行观点信息的挖掘。在本步骤的中,可包括如下处理步骤:
1.基于依存句法分析的观点挖掘。分析依存句法与pos结构,构建自动化抽取观点情感的规则模型。例如:
名词词组:四驱(n)+抓地力(n)、导航(n)+系统(n),可以构成观点词。
主谓结构:“动力相对来说比较强劲”中的动力->强劲。
2.非观点词过滤。可使用观点词词典或者打分模型(用于评估观点情感的质量),在上述模型抽取的结果之上,剔除非观点词的二元组。最终得到该句中正确的观点情感二元组信息。
3.可视化展示。如图5所示。
步骤s203,将提及的产品实体与观点信息中的观点词进行二分类(涉及/未涉及)。即,进行产品实体与观点信息的分类,在本步骤的中,可包括如下处理步骤:
1.关系分类模型的数据准备。标注原始文本中,产品实体与观点词之间的关联关系,生成训练样本数据。
2.模型训练与预测。输入为1.原始句子,2产品实体,3.观点词,最终分类产品与观点词是否具有关联关系。
3.可视化展示。如图6所示。
步骤s204,生成基于产品观点情感的三元组信息(产品,观点,情感)。即,产品观点情感的三元组信息生成。
将上述步骤中具有关联关系的三元组信息抽取出来,可得到该句的产品观点情感三元组信息:
(奥迪a6,动力,强劲)
(宝马5系,内饰,奢华)。
步骤s205,实体消歧。由于产品名称可能存在多种别名,故而对上述步骤s204中生成的三元组的产品名称进行实体消歧。例如,可使用知识图谱+实体链接模型或者规则模型来得到实体统一的标准名称。
步骤s206,将该三元组信息用于词云优化展示。即,基于该三元组的词云优化展示。
针对某一产品a,过滤产品名称为a的三元组信息,并对观点情感进行频率统计,最终在词云中展示,例如,针对某一产品,统计观点及情感,输出topn的观点情感。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
在本实施例中还提供了一种基于三元组的词云展示装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”或“单元”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图7是根据本发明实施例的基于三元组的词云展示装置的结构框图,如图7所示,该装置包括实体识别模块10、观点抽取模块20、分类模块30和展示模块40。
实体识别模块10,用于识别文本中的产品实体。
观点抽取模块20,用于抽取所述文本中的观点信息,其中,所述观点信息包括观点情感二元组信息。
分类模块30,用于将所述产品实体与所述观点信息中的观点词进行二分类,生成产品观点情感三元组信息。
展示模块40,用于将所述三元组信息用于词云优化展示。
图8是根据本发明可选实施例的基于三元组的词云展示装置的结构框图,如图8所示,该装置除包括图7所示的所有模块外,所述装置还包括:消歧模块50,对生成的所述产品观点情感三元组信息中的产品名称进行实体消歧。
在本实施例中,所述实体识别模块10还包括:预处理单元101,用于对所述文本进行预处理;识别单元102,用于通过识别模型对所述文本中的产品实体进行识别;第一展示单元103,用于将识别出的产品实体进行可视化展示。
在本实施例中,所述观点抽取模块20包括:构建单元201,用于根据依存句法分析构建抽取观点情感的规则模型;抽取单元202,用于基于所述规则模型对所述文本进行观点信息抽取;过滤单元203,用于通过观点词词典或者打分模型过滤抽取的所述观点信息中非观点词的二元组,获取观点情感二元组信息;第二展示单元204,用于对所述观点情感二元组信息进行可视化展示。
在本实施例中,所述分类模块30包括:标注单元301,用于标注训练文本中产品实体与观点词之间的关联关系,生成训练样本数据;训练单元302,用于将所述训练样本数据作为输入,产品与观点词是否具有关联关系作为输出,对关系分类模型进行训练;分类单元303,用于基于训练后的关系分类模型对所述产品实体与所述观点信息中的观点词进行分类,以抽取具有关联关系的产品观点情感三元组信息。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以包括但不限于:u盘、只读存储器(read-onlymemory,简称为rom)、随机存取存储器(randomaccessmemory,简称为ram)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。