构念的分析方法及装置与流程

文档序号:29034162发布日期:2022-02-25 16:55阅读:182来源:国知局
构念的分析方法及装置与流程

1.本技术涉及营销分析技术领域,具体而言,涉及一种构念的分析方法及装置。


背景技术:

2.产品和品牌心理构念在营销分析中有着重要地位。这些构念,作为产品和品牌的抽象特征,包括但不限于产品的享乐和功能属性、品牌人格、产品的体验价值,可以用于对产品和品牌进行分类和评分。具体地,分类和评分作为对产品和品牌抽象特征的刻画和度量,既可以输入数据库系统用于描述性分析和数据可视化,也可以作为指标输入到下游模型,例如推荐系统。
3.由于心理构念是理论界总结归纳出来的抽象概念,而且基于消费者脑海中的感知认知,因此这些构念不能被直接观测,其测量依赖招募真人被试填写量表。为了获取产品和品牌的心理构念,相关技术中主要采用问卷调查形式进行投放,通过量表测定具体产品和品牌的心理构念。
4.需要说明的是,产品和品牌的心理构念既是产品的一种固有特性,也基于人们的感知与观念,融合了产品的客观特性和消费者的主观态度,无法大规模测量,由此,产品数量较多时,对单个产品或品牌测定的结果仅适用于对应产品和品牌,无法简单推广,因而测量全量产品和品牌需要大量的人工投入,所需成本高昂且可操作性差,例如,各大电商平台拥有海量产品,无法做到对每一个产品进行人工标记。因而,消费行为理论学者开发出的这些重要心理构念,始终无法在如今网络电商的场景中发挥其应有的指导作用。
5.为了解决上述问题,相关技术中出现了计算机训练自动化分类模型,例如,可以在已知部分产品功能和享乐属性的分类情况下,以产品评论和商品介绍等描述文本为输入,通过对产品文本中的词语构建特征,建立的分类模型,可用于其他产品功能和享乐属性的分类。但是,相关技术中模型在依据文本中的词语构建特征时,需要依赖预定义词典,而预定义词典存在灵活性差、覆盖率低和构建成本高等劣势。同时,在模型训练时需要已知部分产品功能和享乐属性的分类情况,未考虑优化获取训练数据的成本。且相关技术中的模型只能获得产品和品牌的属性分类,难以对分类的程度进行定量评分。
6.针对相关技术中难以采用较低的数据成本对产品及品牌的构念进行准确分析的问题,目前尚未提出有效的解决方案。


技术实现要素:

7.本技术提供一种构念的分析方法及装置,以解决相关技术中难以采用较低的数据成本对产品及品牌的构念进行准确分析的问题。
8.根据本技术的一个方面,提供了一种构念的分析方法。该方法包括:将目标对象的描述文本转换为目标文本特征,其中,目标对象至少包括以下之一:目标产品、目标品牌;将目标文本特征输入分析模型,处理得到目标对象的构念归属于目标构念类型的度量结果,其中,基于预设类型对象的描述文本特征、预设类型对象的构念的度量结果训练得到分析
模型,预设类型对象由预设规则抽取得到,预设类型对象的构念的度量结果由测量的方式获取得到。
9.可选地,将目标对象的描述文本转换为目标文本特征包括:对目标对象的描述文本进行句子切分,得到多条句子,并对多条句子进行分词处理,得到多个词语;采用语义学习模型对多条句子和多个词语进行处理,得到描述文本的向量表示;对描述文本的向量表示进行聚合处理,得到目标文本特征。
10.可选地,采用语义学习模型对多条句子和多个词语进行处理,得到描述文本的向量表示包括:采用上下文无关的语义表示学习模型训练得到多个词语对应的多个词向量;计算多个词向量的平均值,得到描述文本的向量表示;或采用上下文有关的语义表示学习模型对多个词语中每个词语的词向量、每个词向量对应的位置向量以及多条句子中每个句子的句向量进行训练,得到描述文本的向量表示。
11.可选地,描述文本包括目标对象的评价文本和目标对象的介绍文本,描述文本的向量表示包括评价文本的向量表示和介绍文本的向量表示,对描述文本的向量表示进行聚合处理,得到目标文本特征包括:在描述文本包括多条评价文本时,对多条评价文本对应的多个向量表示进行平均,得到评价文本的向量表示;将评价文本的向量表示与介绍文本的向量表示进行拼接,得到目标文本特征。
12.可选地,将目标文本特征输入分析模型,处理得到目标对象的构念归属于目标构念类型的度量结果包括:将目标文本特征输入第一分析模型,处理得到目标对象的构念是否归属于目标构念类型的结果,其中,基于预设类型对象的描述文本特征、预设类型对象的构念归属的构念类型训练得到第一分析模型,预设类型对象由预设规则抽取得到,预设类型对象的构念归属的构念类型由测量的方式获取得到。
13.可选地,将目标文本特征输入分析模型,处理得到目标对象的构念归属于目标构念类型的度量结果包括:将目标文本特征输入目标构念类型对应的第二分析模型,处理得到目标对象的构念归属于目标构念类型的程度量化结果,其中,基于预设类型对象的描述文本特征、预设类型对象的构念归属于目标构念类型的程度量化结果训练得到第二分析模型,预设类型对象由预设规则抽取得到,预设类型对象的构念归属于目标构念类型的程度量化结果由测量的方式获取得到。
14.可选地,在将目标文本特征输入分析模型,处理得到目标对象的构念归属于目标构念类型的度量结果之前,该方法还包括:选取目标类型的初始分析模型;采用多次迭代训练的方式训练初始分析模型,得到分析模型,其中,在每次迭代训练的过程中,筛选预设类型对象,并获得预设类型对象的构念的度量结果,将预设类型对象的描述文本转化为第一预设文本特征,并将第一预设文本特征以及度量结果添加至当前次训练的训练集数据,其中,当前次训练的训练集数据还包括:当前次训练之前获取的已知构念的度量结果的对象以及该对象的描述文本特征。
15.可选地,筛选预设类型对象,并获得预设类型对象的构念的度量结果包括:从待测的样本中随机抽取多个对象,并采用测量的方式获取多个对象的构念的度量结果;或通过机器学习模型确定度量结果的预设指标,根据预设指标对待测的样本进行排序,获取排序结果中的前预设数目的对象,并采用测量的方式获取预设数目的对象的构念的度量结果。
16.可选地,在通过机器学习模型确定度量结果的预设指标之前,该方法还包括:选取
预设机器学习模型;采用多次迭代训练的方式训练预设机器学习模型,得到机器学习模型,其中,在每次迭代训练的过程中,获取初始分析模型本次迭代中采用的训练集数据,并至少采用本次迭代中的训练集数据训练预设机器学习模型。
17.可选地,在采用多次迭代训练的方式训练初始分析模型,得到分析模型之后,该方法还包括:将测试集数据输入分析模型,得到测试度量结果;将测试度量结果,与目标对象的构念归属于目标构念类型的度量结果进行对比,得到分析准确率结果;将当前分析准确率结果,与多次迭代训练中的最高分析准确率结果进行对比,确定准确率的提升数值;判断准确率的提升数值是否小于目标阈值;在准确率的提升数值小于目标阈值时,停止训练分析模型。
18.根据本技术的另一方面,提供了一种构念的分析装置。该装置包括:转化单元,用于将目标对象的描述文本转换为目标文本特征,其中,目标对象至少包括以下之一:目标产品、目标品牌;处理单元,用于将目标文本特征输入分析模型,处理得到目标对象的构念归属于目标构念类型的度量结果,其中,基于预设类型对象的描述文本特征、预设类型对象的构念的度量结果训练得到分析模型,预设类型对象由预设规则抽取得到,预设类型对象的构念的度量结果由测量的方式获取得到。
19.根据本发明实施例的另一方面,还提供了一种非易失性存储介质,非易失性存储介质包括存储的程序,其中,程序运行时控制非易失性存储介质所在的设备执行一种构念的分析方法。
20.根据本发明实施例的另一方面,还提供了一种电子装置,包含处理器和存储器;存储器中存储有计算机可读指令,处理器用于运行计算机可读指令,其中,计算机可读指令运行时执行一种构念的分析方法。
21.通过本技术,采用以下步骤:将目标对象的描述文本转换为目标文本特征,其中,目标对象至少包括以下之一:目标产品、目标品牌;将目标文本特征输入分析模型,处理得到目标对象的构念归属于目标构念类型的度量结果,其中,基于预设类型对象的描述文本特征、预设类型对象的构念的度量结果训练得到分析模型,预设类型对象由预设规则抽取得到,预设类型对象的构念的度量结果由测量的方式获取得到,解决了相关技术中难以采用较低的数据成本对产品及品牌的构念进行准确分析的问题。通过将目标对象的描述文本转化为目标文本特征,并采用分析模型对文本特征进行处理,得到目标对象的构念归属于目标构念类型的度量结果,进而达到了采用较低的数据成本对产品及品牌的构念进行准确分析的效果。
附图说明
22.构成本技术的一部分的附图用来提供对本技术的进一步理解,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
23.图1是根据本技术实施例提供的构念的分析方法的流程图;以及
24.图2是根据本技术实施例提供的构念的分析装置的示意图。
具体实施方式
25.需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相
互组合。下面将参考附图并结合实施例来详细说明本技术。
26.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分的实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本技术保护的范围。
27.需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
28.根据本技术的实施例,提供了一种构念的分析方法。
29.图1是根据本技术实施例的构念的分析方法的流程图。如图1所示,该方法包括以下步骤:
30.步骤s101,将目标对象的描述文本转换为目标文本特征,其中,目标对象至少包括以下之一:目标产品、目标品牌。
31.具体地,目标对象可以为某一特定品牌,也可以为特定品牌下的特定产品,描述文本可以为目标对象相关的主观描述文本以及客观描述文本,在目标对象为某一特定品牌时,其描述文本可以包括品牌的介绍文本以及用户对品牌的评论文本;在目标对象为某一特定产品时,其描述文本可以包括产品的介绍文本、以及用户对产品的评论文本。
32.进一步的,在将描述文本转换为目标文本特征时,可以采用预训练的模型从描述文本中学习得到目标文本特征。
33.步骤s102,将目标文本特征输入分析模型,处理得到目标对象的构念归属于目标构念类型的度量结果,其中,基于预设类型对象的描述文本特征、预设类型对象的构念的度量结果训练得到分析模型,预设类型对象由预设规则抽取得到,预设类型对象的构念的度量结果由测量的方式获取得到。
34.可选地,将目标文本特征输入分析模型,处理得到目标对象的构念归属于目标构念类型的度量结果包括:将目标文本特征输入第一分析模型,处理得到目标对象的构念是否归属于目标构念类型的结果,其中,基于预设类型对象的描述文本特征、预设类型对象的构念归属的构念类型训练得到第一分析模型,预设类型对象由预设规则抽取得到,预设类型对象的构念归属的构念类型由测量的方式获取得到。
35.具体地,第一分析模型为分类模型,目标对象为产品或品牌时,分类模型可以对产品或品牌的描述文本对应的文本特征进行分析处理,得到该产品或品牌的构念归属于哪些目标构念类型的结果,例如,产品或品牌的目标构念类型包括但不限于产品的享乐和功能属性等。
36.可选地,将目标文本特征输入分析模型,处理得到目标对象的构念归属于目标构念类型的度量结果包括:将目标文本特征输入目标构念类型对应的第二分析模型,处理得到目标对象的构念归属于目标构念类型的程度量化结果,其中,基于预设类型对象的描述
文本特征、预设类型对象的构念归属于目标构念类型的程度量化结果训练得到第二分析模型,预设类型对象由预设规则抽取得到,预设类型对象的构念归属于目标构念类型的程度量化结果由测量的方式获取得到。
37.具体地,第二分析模型为评分模型,目标对象的构念归属于目标构念类型的程度量化结果即为目标对象的构念归属于目标构念类型的评分结果,目标对象为产品或品牌时,评分模型可以对产品或品牌的描述文本对应的文本特征进行分析处理,得到该产品或品牌的构念在特定目标构念类型下的评分结果,该评分结果用于表征该产品或品牌的构念归属于特定目标构念类型的程度。
38.需要说明的是,在构建第一分析模型或第二分析模型的数据集时,可以采用问卷形式测量产品和品牌心理构念,具体地,先筛选特定类型的产品和品牌,再通过问卷形式测量其心理构念,并以主动学习方法从获取的数据中选择最具有信息价值的样本进行标注和学习,从而在保障模型具备同等预测准确率的情况下,以更小的样本量、更低的测量成本构建训练集。
39.本技术实施例提供的构念的分析方法,通过将目标对象的描述文本转换为目标文本特征,其中,目标对象至少包括以下之一:目标产品、目标品牌;将目标文本特征输入分析模型,处理得到目标对象的构念归属于目标构念类型的度量结果,其中,基于预设类型对象的描述文本特征、预设类型对象的构念的度量结果训练得到分析模型,预设类型对象由预设规则抽取得到,预设类型对象的构念的度量结果由测量的方式获取得到,解决了相关技术中难以采用较低的数据成本对产品及品牌的构念进行准确分析的问题。通过将目标对象的描述文本转化为目标文本特征,并采用分析模型对文本特征进行处理,得到目标对象的构念归属于目标构念类型的度量结果,进而达到了采用较低的数据成本对产品及品牌的构念进行准确分析的效果。
40.可选地,在本技术实施例提供的构念的分析方法中,将目标对象的描述文本转换为目标文本特征包括:对目标对象的描述文本进行句子切分,得到多条句子,并对多条句子进行分词处理,得到多个词语;采用语义学习模型对多条句子和多个词语进行处理,得到描述文本的向量表示;对描述文本的向量表示进行聚合处理,得到目标文本特征。
41.具体地,目标对象可以为产品或品牌,首先对每一条与产品或品牌相关的主客观描述文本进行句子切分,并对每一条句子,进行分词处理,然后将分词结果和/或分句结果转化为语义表示。
42.需要说明的是,将描述文本转化为语义表示即为文本特征转换,语义表示为一个固定维度的向量,文本的语义表示可以用于比较两段文本是否具有语义相似性。本技术实施例通过预训练的语义学习模型进行文本特征转换,预训练的语义学习模型是一类无监督或半监督学习模型,通过对大量未标注的文本进行学习,获取语言在这些文本中语义表示方法,得到模型a,然后模型a可以应用到具体的监督学习场景,用于训练模型b,例如产品和品牌心理构念的分类或评分模型,也即,将某个领域或任务上学习到的知识或模式应用到不同但相关的领域或问题中,实现了迁移学习。
43.进一步的,在描述文本包含多个的情况下,得到各个描述文本的向量表示后,进行聚合处理,得到目标文本特征。
44.预训练模型的类型有多种,可选地,在本技术实施例提供的构念的分析方法中,采
用语义学习模型对多条句子和多个词语进行处理,得到描述文本的向量表示包括:采用上下文无关的语义表示学习模型训练得到多个词语对应的多个词向量;计算多个词向量的平均值,得到描述文本的向量表示;或采用上下文有关的语义表示学习模型对多个词语中每个词语的词向量、每个词向量对应的位置向量以及多条句子中每个句子的句向量进行训练,得到描述文本的向量表示。
45.具体的,可以采用上下文无关的语义表示学习模型进行文本特征转换,也可以采用上下文有关的语义表示学习模型进行文本特征转换。
46.本技术实施例可以采用上下文无关的语义表示学习模型进行文本特征转换,模型可以包括word2vec模型和glove模型等,例如,采用word2vec模型用于训练获得词语的向量表示,word2vec模型为浅层模型,由输入层,单层隐藏层和输出层表示,word2vec模型有两种,分别是cbow(continuous bag of words model)模型和skip-gram(continuous skip-gram model)模型,其中cbow模型利用词w(t)前后各k个词去预测当前词;而skip-gram模型恰好相反,它利用词w(t)去预测它前后各k个词。
47.具体地,以cbow模型为例,输入层是词w(t)的前后各k个词向量(维度为d),单层隐藏层为这些词向量的累加和,输出层是以训练集中出现过的词语作为叶子节点,以各词在语料库中出现的次数作为权值构造出的一棵huffman树。通过随机梯度上升算法对隐藏层的结果进行预测,使得值最大化。经过word2vec模型中的cbow模型的训练,模型对每个词语生成维度为d的词向量,在得到词向量后,通过词语向量的平均值计算获得文本的向量表示。
48.本技术实施例还可以采用上下文相关的语义表示学习模型进行文本特征转换,模型可以包括gpt2模型、elmo模型和基于转换器的双向编码器(bert,bidirectional encoder representations from transformers)表征。
49.以bert模型为例,bert模型由输入层,嵌入层,多层编码层,池化层和输出层组成。输入层为三类向量,词向量、句向量和位置向量,其中,词向量为词语的语义表示;句向量区分文本中的各个句子,同一句子的词语获得相同的句向量;位置向量为文本中词语的位置表示,所有文本中相同位置的词语(例如第一个词)获得相同的位置向量。嵌入层为三类向量的和。编码层为多个具有编码功能的层组成,每一层包含两个子层:一个多头自注意力编码层和一个前向反馈全连接层,其中每个子层都增加了残差连接和归一化处理。输出层为根据具体任务类型,定义不同的目标函数。一种预训练方式包括同时训练两种模型,通过随机挑选遮盖输入层的部分词语训练语言模型,可用于捕捉词语级别的语义表示;训练语言模型根据输入两个句子,预测两个句子是否为文本中的上下句,可用于捕捉词语在句子级别的语义表示。
50.其中,多层编码层数量l,多头自注意力编码的数量h,和每一层的向量维度d,为bert模型的主要参数,多头自注意力编码的数量h需要能被每一层的向量维度d整除,例如常用的参数组合为l=2,h=2,d=128;l=4,h=4,d=256;l=4,h=8,d=512;l=8,h=8,d=512;l=12,h=12,d=768;l=24,h=16,d=768。从多层编码层中进行抽取,即可得到文本的向量表示。
51.通过本技术实施例,在构建输入分类模型或评分模型的文本的特征时,无需预定义词典,通过迁移学习方法,以预训练模型提供的现有知识进行文本特征映射,由于预训练
模型提供了文本在人类语言表达的全局性特征,预训练模型的数据来源广泛,具有更强的样本外预测能力和更低的样本需求,可以对新产品的分类与评分,提升了预测的灵活度和准确度。
52.描述文本可以包括多条,可选地,在本技术实施例提供的构念的分析方法中,描述文本包括目标对象的评价文本和目标对象的介绍文本,描述文本的向量表示包括评价文本的向量表示和介绍文本的向量表示,对描述文本的向量表示进行聚合处理,得到目标文本特征包括:在描述文本包括多条评价文本时,对多条评价文本对应的多个向量表示进行平均,得到评价文本的向量表示;将评价文本的向量表示与介绍文本的向量表示进行拼接,得到目标文本特征。
53.需要说明的是,对产品或品牌相关的多来源的主客观描述文本,需要对每一类文本进行单独的特征转换并聚合成为对单一产品或品牌的一系列文本特征。
54.例如,在单一产品具备多条评论的情况下,可以对多条评论特对应的文本特征进行平均,得到该单一产品的评论文本特征。再例如,在一个产品存在产品介绍和产品评论,可以对描述文本特征和评论文本特征拼接,得到该单一产品的文本特征,具体地,拼接的文本特征的维度为描述文本特征和评论文本特征各自维度之和。
55.需要提前训练分析模型,可选地,在本技术实施例提供的构念的分析方法中,在将目标文本特征输入分析模型,处理得到目标对象的构念归属于目标构念类型的度量结果之前,该方法还包括:选取目标类型的初始分析模型;采用多次迭代训练的方式训练初始分析模型,得到分析模型,其中,在每次迭代训练的过程中,筛选预设类型对象,并获得预设类型对象的构念的度量结果,将预设类型对象的描述文本转化为第一预设文本特征,并将第一预设文本特征以及度量结果添加至当前次训练的训练集数据,其中,当前次训练的训练集数据还包括:当前次训练之前获取的已知构念的度量结果的对象以及该对象的描述文本特征。
56.可选地,在本技术实施例提供的构念的分析方法中,在初始分析模型为初始第一分析模型的情况下,初始分析模型至少为以下之一:正则化逻辑斯蒂回归模型、集成学习分类器以及高斯过程分类器;在初始分析模型为初始第二分析模型的情况下,初始第二分析模型至少为以下之一:正则化线性回归模型、集成学习回归模型以及高斯过程回归模型。
57.需要说明的是,第一分析模型为分类模型,分类模型提供文本特征到心理构念分类的映射关系,输入文本特征可以获得心理构念的对应分类。
58.在本技术实施例中,分类模型可以为正则化逻辑斯蒂回归(regularized logistic regression),常用的正则化方式为:l1-regularization,l2-regularization以及elasticnet,这类分类模型可以对文本特征各维度进行加权,对分类更重要的文本特征提供更高的权重。分类模型还可以为集成学习分类器(ensemble classifier),常用的集成学习分类器由随机森林(random forest),梯度提升决策树(gradient boosting decision trees),这些分类器可以对重要的文本特征和重要的样本进行筛选。此外,分类模型还可以为高斯过程分类器(gaussian process classifier)。
59.此外,需要说明的是,第二分析模型为评分模型,评分系统提供文本特征到心理构念评分的映射关系,输入文本特征可以获得心理构念的对应分数,用于定量表达该产品和品牌与某一类型的接近程度。
60.在本技术实施例中,第一分析模型为分类模型,评分模型可以为正则化线性回归(regularized linear regression),常用的正则化方式为:l1-regularization,l2-regularization以及elasticnet,其特点是可以对文本特征各维度进行加权,对评分更重要的文本特征提供更高的权重。分类模型还可以为集成学习回归(ensemble regressor),常用的集成学习回归:随机森林(random forest),梯度提升决策树(gradient boosting decision trees),其特点是可以对重要的文本特征和重要的样本进行筛选。此外,评分模型还可以为高斯过程回归(gaussian process regressor),其特点是可以输出评分标准差,用以表示评分的不确定性程度。
61.迭代训练的过程中需要进行模型评估,可选地,在本技术实施例提供的构念的分析方法中,在采用多次迭代训练的方式训练初始分析模型,得到分析模型之后,该方法还包括:将测试集数据输入分析模型,得到测试度量结果;将测试度量结果,与目标对象的构念归属于目标构念类型的度量结果进行对比,得到分析准确率结果;将当前分析准确率结果,与多次迭代训练中的最高分析准确率结果进行对比,确定准确率的提升数值;判断准确率的提升数值是否小于目标阈值;在准确率的提升数值小于目标阈值时,停止训练分析模型。
62.具体地,模型评估采用样本外测试集进行估计,根据最新的模型,采用分类模型和评分模型执行对产品或品牌文本输入的自动化分类与评分,将分类与评分结果与测试集已知结果进行对比,计算分类或评分准确度,保存准确度结果。并将当前轮次准确度结果与前k轮的最优准确度进行对比,计算准确度的提升数值,当准确度的提升数值低于某一阈值时,停止训练,从而在保证模型预测准确度的同时控制训练成本。
63.为了用尽可能少的成本高效率地训练分类模型以及评分模型,需要对已测量的样本进行合理的抽样。可选地,在本技术实施例提供的构念的分析方法中,筛选预设类型对象,并获得预设类型对象的构念的度量结果包括:从待测的样本中随机抽取多个对象,并采用测量的方式获取多个对象的构念的度量结果;或通过机器学习模型确定度量结果的预设指标,根据预设指标对待测的样本进行排序,获取排序结果中的前预设数目的对象,并采用测量的方式获取预设数目的对象的构念的度量结果。
64.在分类模型或评分模型的每一轮迭代中,训练数据集不同,训练数据集中的数据可以通过对多人发放测量量表结合抽样的方式进行获取,从而在模型达到同样预测准确率的情况下,可以更有效地降低问卷测量所需成本。
65.在本技术实施例中,可以采用被动抽样模块进行抽样,具体地,被动抽样执行简单随机抽样或分层随机抽样,其特点是待评估的产品或品牌为随机选择,不依赖于特定指标。简单随机抽样是给定每一轮测量的样本数n,简单随机抽样从待评估的产品或品牌中随机抽取n个样本对多人发放测量量表,测量其心理构念。而分层随机抽样则是将待评估的产品或品牌按照一个或多个分类标签进行分组,对每一组随机抽取n/p个样本,其中,p为分组数量。
66.在本技术实施例中,还可以采用主动抽样模块进行抽样,具体地,主动抽样模块则通过主动学习模型,对待评估的产品或品牌输出特定指标,然后依据指标的排序,选取前n个样本对多人发放测量量表,测量其心理构念。主动抽样模块也可采用分层抽样,将待评估的产品或品牌按照一个或多个分类标签进行分组,对每一组分别排序,抽取n/p个样本,p为分组数量。
67.具体的,主动抽样方式包括以下至少之一:不确定性抽样(uncertainty sampling),根据分类和评分的不确定性程度排序进行筛选,优先选择不确定程度高的样本;投票委员会算法(query by committee),根据多个弱分类器的分类和评分,按照分歧程度排序进行筛选,优先选择分歧程度高的样本。
68.在采用不确定性抽样实现主动抽样时,对于分类模型,按照分类器输出每个分类的概率预测,计算信息熵,信息熵越大,则不确定性越高,不确定性抽样的分类模型可以为正则化逻辑斯蒂回归(regularized logistic regression)、集成学习分类器(ensemble classifier)以及高斯过程分类器(gaussian process classifier)。对于评分模型,需要采用输出评分不确定性的模型,例如高斯过程回归(gaussian process regressor)。
69.在主动抽样模块通过投票委员会算法实现时,对于分类模型,按照多个弱分类器输出每个分类的概率预测,计算多个弱分类器预测的分歧程度。分歧程度算法可以为基于相对熵的算法,其具体实现为,对每个样本i,k个分类器各输出一个概率向量ck,其元素为该样本属于各个类别的概率。分歧程度d(i)可以由每个分类器输出的概率向量ck和所有分类器概率向量的平均值之间的kullback-leibler散度(kullback-leibler divergence)的平均值获得,即可用于分歧程度评估的分类模型为集成学习分类器(ensemble classifier)。对于评分模型,按照多个弱模型输出的评分标准差,作为多个弱模型预测的分歧程度。可用于分歧程度评估的评分模型为集成学习回归(ensemble regressor)。
70.为了提高主动抽样的准确性,需要迭代训练机器学习模型,可选地,在本技术实施例提供的构念的分析方法中,在通过机器学习模型确定度量结果的预设指标之前,该方法还包括:获取初始分析模型本次迭代中采用的训练集数据,并至少采用本次迭代中的训练集数据训练预设机器学习模型。
71.具体地,主动抽样对应的机器学习模型即为主动学习模型,迭代训练主动学习模型的过程可以提升系统分类和评分准确度的过程。在每一轮迭代中,采用分类模型或评分模型在本次迭代时获取到的训练集数据训练主动学习模型,也即,,采用通过问卷形式对筛选部分产品或品牌进行测量获得心理构念分类及评分结果训练主动学习模型,从而使得主动抽样模块的抽样结果更合理。
72.需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
73.本技术实施例还提供了一种构念的分析装置,需要说明的是,本技术实施例的构念的分析装置可以用于执行本技术实施例所提供的用于构念的分析方法。以下对本技术实施例提供的构念的分析装置进行介绍。
74.图2是根据本技术实施例的构念的分析装置的示意图。如图2所示,该装置包括:转化单元10、处理单元20。
75.具体地,转化单元10,用于将目标对象的描述文本转换为目标文本特征,其中,目标对象至少包括以下之一:目标产品、目标品牌。
76.处理单元20,用于将目标文本特征输入分析模型,处理得到目标对象的构念归属
于目标构念类型的度量结果,其中,基于预设类型对象的描述文本特征、预设类型对象的构念的度量结果训练得到分析模型,预设类型对象由预设规则抽取得到,预设类型对象的构念的度量结果由测量的方式获取得到。
77.本技术实施例提供的构念的分析装置,通过转化单元10将目标对象的描述文本转换为目标文本特征,其中,目标对象至少包括以下之一:目标产品、目标品牌;处理单元20将目标文本特征输入分析模型,处理得到目标对象的构念归属于目标构念类型的度量结果,其中,基于预设类型对象的描述文本特征、预设类型对象的构念的度量结果训练得到分析模型,预设类型对象由预设规则抽取得到,预设类型对象的构念的度量结果由测量的方式获取得到,解决了相关技术中难以采用较低的数据成本对产品及品牌的构念进行准确分析的问题,通过将目标对象的描述文本转化为目标文本特征,并采用分析模型对文本特征进行处理,得到目标对象的构念归属于目标构念类型的度量结果,进而达到了采用较低的数据成本对产品及品牌的构念进行准确分析的效果。
78.可选地,在本技术实施例提供的构念的分析装置中,转化单元10包括:切分模块,用于对目标对象的描述文本进行句子切分,得到多条句子,并对多条句子进行分词处理,得到多个词语;处理模块,用于采用语义学习模型对多条句子和多个词语进行处理,得到描述文本的向量表示;聚合模块,用于对描述文本的向量表示进行聚合处理,得到目标文本特征。
79.可选地,在本技术实施例提供的构念的分析装置中,处理模块包括:第一训练子模块,用于采用上下文无关的语义表示学习模型训练得到多个词语对应的多个词向量;计算子模块,用于计算多个词向量的平均值,得到描述文本的向量表示;或第二训练子模块,用于采用上下文有关的语义表示学习模型对多个词语中每个词语的词向量、每个词向量对应的位置向量以及多条句子中每个句子的句向量进行训练,得到描述文本的向量表示。
80.可选地,在本技术实施例提供的构念的分析装置中,描述文本包括目标对象的评价文本和目标对象的介绍文本,描述文本的向量表示包括评价文本的向量表示和介绍文本的向量表示,聚合模块征包括:平均子模块,用于在描述文本包括多条评价文本时,对多条评价文本对应的多个向量表示进行平均,得到评价文本的向量表示;拼接子模块,用于将评价文本的向量表示与介绍文本的向量表示进行拼接,得到目标文本特征。
81.可选地,在本技术实施例提供的构念的分析装置中,处理单元20包括:第一处理单元,用于将目标文本特征输入第一分析模型,处理得到目标对象的构念是否归属于目标构念类型的结果,其中,基于预设类型对象的描述文本特征、预设类型对象的构念归属的构念类型训练得到第一分析模型,预设类型对象由预设规则抽取得到,预设类型对象的构念归属的构念类型由测量的方式获取得到。
82.可选地,在本技术实施例提供的构念的分析装置中,处理单元20包括:第二处理单元,用于将目标文本特征输入目标构念类型对应的第二分析模型,处理得到目标对象的构念归属于目标构念类型的程度量化结果,其中,基于预设类型对象的描述文本特征、预设类型对象的构念归属于目标构念类型的程度量化结果训练得到第二分析模型,预设类型对象由预设规则抽取得到,预设类型对象的构念归属于目标构念类型的程度量化结果由测量的方式获取得到。
83.可选地,在本技术实施例提供的构念的分析装置中,该装置还包括:第一选取单
元,用于在将目标文本特征输入分析模型,处理得到目标对象的构念归属于目标构念类型的度量结果之前,选取目标类型的初始分析模型;第一训练单元,用于采用多次迭代训练的方式训练初始分析模型,得到分析模型,其中,在每次迭代训练的过程中,筛选预设类型对象,并获得预设类型对象的构念的度量结果,将预设类型对象的描述文本转化为第一预设文本特征,并将第一预设文本特征以及度量结果添加至当前次训练的训练集数据,其中,当前次训练的训练集数据还包括:当前次训练之前获取的已知构念的度量结果的对象以及该对象的描述文本特征。
84.可选地,在本技术实施例提供的构念的分析装置中,训练单元还用于:从待测的样本中随机抽取多个对象,并采用测量的方式获取多个对象的构念的度量结果;或通过机器学习模型确定度量结果的预设指标,根据预设指标对待测的样本进行排序,获取排序结果中的前预设数目的对象,并采用测量的方式获取预设数目的对象的构念的度量结果。
85.可选地,在本技术实施例提供的构念的分析装置中,该装置还包括:第二选取单元,用于在通过机器学习模型确定度量结果的预设指标之前,选取预设机器学习模型;第二训练单元,用于采用多次迭代训练的方式训练预设机器学习模型,得到机器学习模型,其中,在每次迭代训练的过程中,获取初始分析模型本次迭代中采用的训练集数据,并至少采用本次迭代中的训练集数据训练预设机器学习模型。
86.可选地,在本技术实施例提供的构念的分析装置中,在采用多次迭代训练的方式训练初始分析模型,得到分析模型之后,该装置还包括:测试单元,用于将测试集数据输入分析模型,得到测试度量结果;第一对比单元,用于将测试度量结果,与目标对象的构念归属于目标构念类型的度量结果进行对比,得到分析准确率结果;第二对比单元,用于将当前分析准确率结果,与多次迭代训练中的最高分析准确率结果进行对比,确定准确率的提升数值;判断单元,用于判断准确率的提升数值是否小于目标阈值;停止单元,用于在准确率的提升数值小于目标阈值时,停止训练分析模型。
87.所述构念的分析装置包括处理器和存储器,上述转化单元10、处理单元20等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
88.处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来解决相关技术中难以采用较低的数据成本对产品及品牌的构念进行准确分析的问题。
89.存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram),存储器包括至少一个存储芯片。
90.本技术实施例还提供了一种非易失性存储介质,非易失性存储介质包括存储的程序,其中,程序运行时控制非易失性存储介质所在的设备执行一种构念的分析方法。
91.本技术实施例还提供了一种电子装置,包含处理器和存储器;存储器中存储有计算机可读指令,处理器用于运行计算机可读指令,其中,计算机可读指令运行时执行一种构念的分析方法。本文中的电子装置可以是服务器、pc、pad、手机等。
92.本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实
施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
93.本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
94.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
95.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
96.在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
97.存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。存储器是计算机可读介质的示例。
98.计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
99.还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
100.本领域技术人员应明白,本技术的实施例可提供为方法、系统或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形
式。
101.以上仅为本技术的实施例而已,并不用于限制本技术。对于本领域技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本技术的权利要求范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1