1.本公开涉及数据处理技术领域,具体为大数据和人工智能技术领域,尤其涉及一种分类信息获取、分类方法、装置、电子设备和存储介质。
背景技术:2.在搜索技术中,需要对查询语句进行意图识别,并基于识别的意图进行搜索,将搜索结果呈现给用户。
3.通常可以采用预先生成的词语对查询语句进行分类,以确定查询语句的意图。
技术实现要素:4.本公开提供了一种分类信息获取、分类方法、装置、电子设备和存储介质。
5.根据本公开的一方面,提供了一种分类信息获取方法,包括:
6.获取第一词语;
7.在查询语句中,确定与所述第一词语对应的第二词语,并建立所述第一词语与所述第二词语之间的相关关系;
8.将所述相关关系、所述第一词语和所述第二词语,确定为查询分类信息,用于对查询语句进行分类。
9.根据本公开的另一方面,提供了一种分类方法,包括:
10.获取用户输入的输入语句;
11.在查询分类信息中,查询与所述输入语句对应的目标词语以及所述目标词语相关的词语,确定所述输入语句的类型,所述查询分类信息根据如本公开任一实施例所述的分类信息获取方法获取。
12.根据本公开的一方面,提供了一种分类信息获取装置,包括:
13.第一词语获取模块,用于获取第一词语;
14.词语及关系确定模块,用于在查询语句中,确定与所述第一词语对应的第二词语,并建立所述第一词语与所述第二词语之间的相关关系;
15.查询分类信息生成模块,用于将所述相关关系、所述第一词语和所述第二词语,确定为查询分类信息,用于对查询语句进行分类。
16.根据本公开的另一方面,提供了一种分类装置,包括:
17.输入语句获取模块,用于获取用户输入的输入语句;
18.输入语句分类模块,用于在查询分类信息中,查询与所述输入语句对应的目标词语以及所述目标词语相关的词语,确定所述输入语句的类型,所述查询分类信息根据如本公开任一实施例所述的分类信息获取方法获取。
19.根据本公开的另一方面,提供了一种电子设备,包括:
20.至少一个处理器;以及
21.与所述至少一个处理器通信连接的存储器;其中,
22.所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开任一实施例所述的分类信息获取方法,或本公开任一实施例所述的分类方法。
23.根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行本公开任一实施例所述的分类信息获取方法,或本公开任一实施例所述的分类方法。
24.根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开任一实施例所述的分类信息获取方法,或本公开任一实施例所述的分类方法。
25.本公开实施例可以增加分类信息,提高分类准确性。
26.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
27.附图用于更好地理解本方案,不构成对本公开的限定。其中:
28.图1是根据本公开实施例公开的一种分类信息获取方法的流程图;
29.图2是根据本公开实施例公开的另一种分类信息获取方法的流程图;
30.图3是根据本公开实施例公开的一种分类方法的流程图;
31.图4是根据本公开实施例公开的另一种应用场景的示意图;
32.图5是根据本公开实施例公开的一种分类信息获取装置的结构图;
33.图6是根据本公开实施例公开的一种分类装置的结构图;
34.图7是用来实现本公开实施例的分类信息获取方法或分类方法的电子设备的框图。
具体实施方式
35.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
36.图1是根据本公开实施例公开的一种分类信息获取方法的流程图,本实施例可以适用于生成分类信息的情况。本实施例方法可以由分类信息获取装置来执行,该装置可采用软件和/或硬件的方式实现,并具体配置于具有一定数据运算能力的电子设备中,该电子设备可以是客户端设备或服务器设备,客户端设备例如手机、平板电脑、车载终端和台式电脑等。
37.s101,获取第一词语。
38.第一词语用于作为查询分类信息的基准分类词,扩展出更加细分领域的词语,以对查询语句进行更精准的分类。第一词语可以从查询语句中提取,也可以是用户输入。可选的,获取第一词语,包括下述至少一项:获取兴趣信息,并提取第一词语;和获取中长尾查询语句,并提取第一词语。兴趣信息可以是指用户的感兴趣的信息。中长尾查询语句是指搜索
量较少,但长时间都存在搜索量的查询语句。中长尾查询语句的搜索量少于热点查询语句的搜索量。长时间存在搜索量可以是指在预设时长的时间段内,都存在搜索量。具体的,可以多个用户的兴趣信息进行聚类,根据每类提取的代表该类型的词语,确定为第一词语。或者,对收集的中长尾查询语句进行筛选,得到没有产生点击且页面浏览量(page view,pv)较大的中长尾查询语句,并从中进行分词或实体抽取,得到第一词语。其中,兴趣信息可以是企业用户输入的信息。中长尾查询语句可以在搜索系统中获取企业用户的查询语句中筛选。
39.s102,在查询语句中,确定与所述第一词语对应的第二词语,并建立所述第一词语与所述第二词语之间的相关关系。
40.查询语句(query)是指用户输入的需要进行查询的语句。其中,查询语句为个人用户输入的查询语句。可以预先收集大量的查询语句,并针对每个查询语句,确定第二词语。其中,需要说明的是,收集的查询语句是经过用户授权,并符合相关法律法规的规定,且不违背公序良俗。第二词语是指查询语句中与第一词语相关的词语,具体是对第一词语进行扩展并具有一定区分度的词语。第二词语用于对第一词语所代表的分类信息进一步进行分类。第一词语与第二词语匹配,可以是指第一词语与第二词语相似,但语义不同。相关关系可以是指第一词语和第二词语之间的关系。相关关系用于根据词语确定对应的另一个词语,例如,根据第二词语确定第一词语,或者是根据第一词语,进一步进行分类,确定第二词语。其中,第二词语可以理解为第一词语关联的更具体分类的查询分类信息。实际上,第二词语和第一词语不是孤立存在的,可以将第一词语和第二词语之间的相关关系采用树形结构表示,此时,第一词语可以理解为根节点,第一词语对应的多个第二词语,均为该第一词语的子节点。
41.s103,将所述相关关系、所述第一词语和所述第二词语,确定为查询分类信息,用于对查询语句进行分类。
42.查询分类信息包括词语,以及词语与词语之间的相关关系。对查询语句进行分类,可以在查询分类信息中,查询与查询语句对应的目标词语,并根据查询分类信息中相关关系,确定目标词语相关的词语,并筛选处与查询语句对应的扩展词语。从而,可以将查询语句的类型确定为目标词语以及扩展词语,丰富查询语句的类型,从而实现对查询语句更加精准的分类。
43.在现有技术中,对查询语句进行分类,通常是按照现有的分类词对查询语句进行区分,当需要建设一个新的行业的情况下,需要投入大量的资源提取新的行业中的词语,作为分类词,在对查询语句按照新的分类词进行分类。
44.根据本公开的技术方案,通过获取第一词语,并在查询语句中,提取第一词语对应的第二词语,并建立第一词语和第二词语之间的相关关系,将词语和词语的相关关系,确定为查询分类信息,以对查询语句进行分类,可以增加查询分类信息的分类词,增加查询语句的分类范围,提高查询语句的分类准确性,而且可以根据实时获取的查询语句添加用于分类的词语,提高查询分类信息的实时性。
45.图2是根据本公开实施例公开的另一种分类信息获取方法的流程图,基于上述技术方案进一步优化与扩展,并可以与上述各个可选实施方式进行结合。所述在查询语句中,确定与所述第一词语对应的第二词语,具体化为:在查询语句中识别第一实体;根据所述第
一实体,获取与所述第一词语对应的目标关键词;根据所述目标关键词,确定第二词语。
46.s201,获取第一词语。
47.s202,在查询语句中识别第一实体。
48.在查询语句中识别实体,确定为第一实体。第一实体通常是指专有名词。具体的,第一实体可以是指查询语句中的名词。其中,实体识别方法可以是基于词典的方法、基于统计的方法和基于理解的方法等。更具体的,基于词典的方法,是指基于词典中的字符串与查询语句中字符串匹配,得到实体。基于统计的方法,例如是基于隐马尔可夫模型(hidden markov model,hmm),对相邻出现概率高的多个字,确定为实体。基于理解的方法可以是基于语义信息和句法信息对文本进行识别,例如,基于预先训练的神经网络模型,输入查询语句,输出查询语句中的实体。第一实体用于筛选出与第一词语关联的词语,添加到查询分类信息中。
49.示例性的,查询语句为:降糖药a的效果怎么样?识别到的第一实体为:降糖药和a。
50.此外,有些查询语句与第一词语无关,此时无法从这些查询语句中提取处目标关键词。示例性的,第一词语为血糖,查询语句为:xx路口附近哪里有厕所?查询语句与第一词语无关,该查询语句中无法提取出与第一词语对应的词语。可选的,在查询语句中识别第一实体,可以包括:对预先收集的多个查询语句进行筛选,在筛选得到的查询语句中识别第一实体。其中,筛选方法可以是,将与第一词语相似的查询语句确定为筛选得到的查询语句。其中,与第一词语相似的查询语句,可以通过预先训练的深度学习模型计算第一词语与查询语句之间的相似度,还可以通过提取第一词语的文本特征,和查询语句的文本特征,计算相似度,将相似度值大于等于预设相似度阈值的查询语句,确定为第一词语相似的查询语句。其中,深度学习模型可以是神经网络模型,例如,可以是卷积神经网络模型,又如,可以语言模型,如通过知识整合增强代表性(enhanced representation through knowledge integration,ernie)模型,或如来自transformer的双向编码器表示(bidirectional encoder representations from transformers,bert)模型等。相似度阈值可以是0.7,最高相似度为1,最低相似度为0。需要说明的是,相似度阈值不能太高,与第一词语相似的查询语句通常是与第一词语相似,但存在一定区分度的查询语句。
51.通过对预先收集的查询语句进行筛选,并在筛选得到的查询语句中,进行识别,得到第一实体,以筛选目标关键词,减少第一词语的扩展词的检测数据量,提高第一词语的扩展词的检测准确性。
52.s203,根据所述第一实体,获取与所述第一词语对应的目标关键词。
53.目标关键词是指在多个第一实体中,与第一词语关联但又有一定区分度的词语。目标关键词可以是指第一词语的扩展词语。目标关键词用于确定第二词语。示例性的,第一词语为血糖,如前例的查询语句,与第一词语对应的目标关键词为降糖药和a。又如,第一词语为手机,查询语句为:xx品牌的手机性能怎么样?第一实体包括xx品牌和手机,与第一词语对应的目标关键词为手机。
54.可以根据第一词语与第一实体之间的相似度值,在多个第一实体中,筛选出与第一词语相似的第一实体,确定为与第一词语对应的目标关键词。此外,目标关键词与第一词语不同。还可以在第一实体中剔除与第一词语相同的词语。
55.可选的,所述根据所述第一实体,获取与所述第一词语对应的目标关键词,包括:
对所述第一词语进行扩展,得到相似语句;分别对所述第一词语和所述相似语句进行特征提取,形成第一特征向量;根据各所述第一特征向量,得到平均特征向量;对所述第一实体进行特征提取,形成第二特征向量;根据所述平均特征向量与各所述第二特征向量,在各所述第一实体中,筛选得到与所述第一词语对应的目标关键词。
56.相似语句是指与第一词语相似的语句,其中,语句包括下述至少一项:词语和句子等。对第一词语进行扩展可以是获取一些语句,从中查询与第一词语相似的语句,确定为第一词语的相似语句,或者获取用户输入的语句,确定为相似语句,或者是获取历史确定的第二词语,以及获取第一词语相似的查询语句,确定为第一词语的相似语句等。此外,第一词语相似的查询语句,可以是前述筛选得到的查询语句。
57.对第一词语进行特征提取,得到第一特征向量,对相似语句进行特征提取,得到第一特征向量,对第一实体进行特征提取,得到第二特征向量。平均特征向量可以是第一特征向量的平均值,用于描述第一词语的特征。特征向量可以是表示文本的特征,具体是描述词语的语义和字形等特征。对文本进行特征提取,可以用将文本进行标准的字符化表示。其中,特征向量提取,可以通过特征提取模型实现,示例性的,特征提取模型可以是支持向量机、卷积神经网络模型、bert模型或ernie模型等。
58.实际上,第一词语只有一个词语,提取的第一特征向量,难以代表第一词语的特征。而仅采用第一词语提取的第一特征向量,与各第一实体的第二特征向量进行匹配,导致匹配结果准确率低。可以增加第一词语的相似语句,分别提取第一特征向量,并计算平均特征向量,可以提高平均特征向量针对第一词语的代表性,泛化第一词语的语义信息,丰富第一词语的特征信息。
59.根据平均特征向量和第二特征向量,在第一实体筛选目标关键词,可以是计算平均特征向量与每个第二特征向量之间的相似度,将相似度大于等于预设相似度阈值的第二特征向量的第一实体,确定为目标关键词。其中,两个向量的相似度,可以通过这两个向量之间的距离计算。
60.通过获取第一词语的相似语句,并分别对第一词语和相似语句进行特征提取,得到第一特征向量,并取平均得到平均特征向量,可以丰富第一词语的特征信息,提高平均特征向量针对第一词语的代表性,同时,基于丰富了第一词语的特征信息的平均特征向量,与各第一实体特征提取得到的第二特征向量,在各第一实体中筛选得到目标关键词,可以增加第一词语相关的目标关键词的检测范围,提高目标关键词的检测准确性。
61.s204,根据所述目标关键词,确定第二词语,并建立所述第一词语与所述第二词语之间的相关关系。
62.根据目标关键词确定第二词语,可以是将目标关键词确定为第二词语,还可以是对目标关键词进行进一步处理,得到第二词语。建立第一词语与查询语句确定的第二词语之间的相关关系。实际上,可以收集有多个查询语句,不同查询语句可以确定多个字形相同或语义相同的目标关键词,可以对多个查询语句确定的目标关键词进行去重,减少冗余的目标关键词的数量,根据去重后的目标关键词,确定第二词语。
63.可选的,所述根据所述目标关键词,确定第二词语,包括:在所述查询语句中提取与所述目标关键词对应的第二实体;根据所述目标关键词和所述第二实体,确定第二词语。
64.第二实体通常是指专有名词。具体的,第二实体是指产品名词。目标关键词对应的
第二实体,可以是指属于目标关键词的类型的第二实体。根据目标关键词和第二实体确定第二词语,可以是将目标关键词和第二实体均确定为第二词语,或者是将第二实体确定为第二词语。示例性的,查询语句为:a可以降血糖吗?目标关键词为降糖药,目标关键词对应的第二实体为a。又如,查询语句包括:某某血糖仪效果怎么样?目标关键词为血糖仪,提取的第二实体包括某某血糖仪。此外,第二实体还可以包括光电型血糖仪、光化学血糖仪或xx牌子的血糖仪等。
65.示例性的,可以基于预先训练神经网络模型实现,在查询语句中提取目标关键词对应的第二实体。模型的输入为查询语句和目标关键词,模型的输出为查询语句中的第二实体。例如,神经网络模型包括卷积神经网络、生成对抗网络和图像神经网络等。更具体的,神经网络模块为混合密度网络模型(mixture density networks)。
66.在查询语句中提取与目标关键词对应的第二实体,实际是对目标关键词进一步进行扩展,确定需要进行查询的第二实体,并与目标关键词以及第一词语建立相关关系,进一步丰富查询分类信息。
67.其中,查询语句有至少一个,每个查询语句确定的目标关键词为至少一个。可以汇总目标关键词,并采用每个关键词,分别对各查询语句进行实体抽取,得到第二实体。
68.通过基于目标关键词,在查询语句中识别第二实体,对目标关键词进一步扩展,并作为第一词语的相关的第二词语,添加到查询分类信息中,可以增加第一词语相关的分类信息,增加查询分类信息的范围和精度,以提高查询语句的分类准确性。
69.可选的,所述建立所述第一词语与所述第二词语之间的相关关系,包括:建立所述第一词语与所述目标关键词之间的第一级相关关系;建立所述目标关键词与对应的第二实体之间的第二级相关关系。
70.相关关系可以包括多个级别的相关关系。第一级相关关系用于表示目标关键词是第一词语的扩展分类词,第二级相关关系用于表示第二实体是目标关键词的扩展分类词。实际上,第一词语细分出更具体的多个目标关键词,每个目标关键词又可以细分出更具体的多个第二实体。可以将第一词语理解为父节点,目标关键词是第一词语的子节点,第二实体是目标关键词的子节点,目标关键词是第二实体的父节点。
71.示例性的,在确定查询语句的类型为目标第二实体的情况下,该查询语句的类型还可以包括该目标第二实体相关的目标关键词,以及该目标关键词相关的目标第一词语,从而可以增加查询语句的分类信息。此外,在确定查询语句的类型为目标关键词的情况下,可以针对目标关键词相关的第二实体进一步检测该查询语句的第二实体,从而,增加查询语句的分类信息,并且更加精准的确定查询语句,从而增加查询语句的分类粒度,灵活调整查询语句的分类。
72.通过将第一词语、目标关键词和第二实体建立多个层级的相关关系,可以丰富查询分类信息的分类词之间的相关关系,以对查询语句进行精准分类。
73.s205,将所述相关关系、所述第一词语和所述第二词语,确定为查询分类信息,用于对查询语句进行分类。
74.根据本公开的技术方案,通过对查询语句进行分词,得到第一实体,并在第一实体中,筛选得到第一词语对应的目标关键词,确定第二词语,可以从实时的查询语句中准确与第一词语相关的目标关键词,并确定第二词语,以用于作为分类词对查询语句进行分类,可
以准确获取第一词语扩展的分类词,丰富第一词语的具体分类分支,增加分类范围,提高查询语句的分类准确性。
75.图3是根据本公开实施例公开的一种分类方法的流程图,本实施例可以适用于根据查询分类信息,对查询语句进行分类的情况。本实施例方法可以由分类装置来执行,该装置可采用软件和/或硬件的方式实现,并具体配置于具有一定数据运算能力的电子设备中,该电子设备可以是客户端设备或服务器设备,客户端设备例如手机、平板电脑、车载终端和台式电脑等。
76.s301,获取用户输入的输入语句。
77.输入语句要用户输入的查询语句。可以获取大量的用户的输入语句。其中,用户的输入语句的获取是符合相关法律法规的规定,且不违背公序良俗。
78.s302,在查询分类信息中,查询与所述输入语句对应的目标词语以及所述目标词语相关的词语,确定所述输入语句的类型,所述查询分类信息根据如本公开任一实施例所述的分类信息获取方法获取。
79.查询分类信息中包括词语,以及词语与词语之间的相关关系。需要说明的是,该查询分类信息中可以是部分词语存在相关关系的词语。具体的,查询分类信息包括第一词语,以及第一词语与第二词语存在相关关系。查询分类信息还可以包括第三词语,第三词语与其他词语不存在相关关系。目标词语可以是指输入语句相似的词语,用于确定输入语句的类型。查询分类信息可以理解为分类词库,按照查询分类信息查询输入语句的目标词语,实际是对输入语句进行分类,确定输入语句的类型为目标词语。
80.在查询分类信息中查询与输入语句对应的目标词语,并根据目标词语对应的相关关系,确定该目标词语相关的词语。将目标词语与相关的词语,确定为输入语句类型。此外,还可以根据目标词语相关的词语对应的相关关系,继续查询该词语相关的词语,并将该相关的词语,同样确定为目标词语相关的词语,用于确定输入语句的类型。
81.示例性的,可以采用基于规则的分类方法和/或基于模型的分类方法,查询输入语句对应的目标词语。其中,基于规则的分类方法可以是,对输入语句进行分词,并将划分得到的词语,分别与查询分类信息中的词语进行匹配,确定划分得到的词语对应的词语,并将对应的词语以及相关的词语,确定为该输入语句的目标词语。其中,划分得到的词语对应的词语,是指与划分得到词语相同的词语。基于模型的分类方法可以是,预先训练机器学习模型,并将输入语句输入至训练完成的机器学习模型中,得到输入语句对应的目标词语。采用两种方式,分别确定输入语句对应的目标词语,可以对输入语句对应的目标词语进行处理,例如去重,减少目标词语中的重复词语,更新输入语句对应的目标词语。
82.可选的,所述分类方法,还包括:根据所述输入语句的类型,对所述用户进行分类。
83.将输入语句对应的目标词语作为输入该输入语句的用户对应的目标词语。目标词语可以理解为用户的标签信息,按照用户对应的目标词语,对用户进行分类。对大量的用户进行分类,可以得到不同类型的用户集群,同时用户集群的类型可以采用该用户集群中各用户对应的同一目标词语表示。也即,可以将用户集群中的用户对应的目标词语,确定为该用户集群的标签信息,可以精准为用户进行分类,并确定用户的类型。用户集群可以表示关注同一主题的用户,可以具体根据应用场景,对用户集群中的用户进行处理,例如,该用户集群中用户推送用户对应的目标词语关联的信息,又如,可以根据用户集群中的用户的数
量,确定推送的频率。又如,存在待推送的信息,可以确定待推送的信息,根据用户集群对应的目标词语,查询与待推送的信息对应的用户集群,并向用户集群中的用户分别发送待推送的信息,实现精准信息推送。此外,还有其他应用场景,可以具体根据实际场景,进行相应处理。
84.通过输入语句的类型,对提供输入语句的用户进行分类,可以实现用户的精准分类,并适配应用场景对关注同一主题的用户进行处理,提高数据处理的准确性。
85.可选的,所述查询分类信息包括词语和词语之间的相关关系;所述查询与所述输入语句对应的目标词语以及所述目标词语相关的词语,包括:根据词语长短和词语语义,在所述查询分类信息包括的词语中确定待更新词语;根据所述词语之间的相关关系,在所述待更新词语中添加相关的词语,更新所述待更新词语;将所述输入语句输入预先训练的分类模型中,并根据更新后的待更新词语输出所述输入语句对应的目标词语。
86.实际上,适合基于规则的分类词和适合基于模型的分类词是不同的。通常,短语和语义单一的词语适合作为基于规则的分类方法采用的分类词。而较长的词语和一词多义的词语适合作为基于模型的分类方法采用的分类词。例如,xx为品牌,但同时还可以理解为一种食物。可以将适合基于规则的分类方法的分类词,确定为规则词,将适合基于模型的分类方法的分类词确定为模型词。其中,由于基于模型的分类方法通常是按照词语的语义信息进行分类,针对一词多义的分类的准确率较低,由此,可以对模型词添加约束信息,以使模型词的语义单一,以及更加清楚,提高模型的分类准确性。示例性的,xx添加食物,得到xx食物,从而可以确定xx食物是代表一种食物的语义。
87.根据查询分类信息中各词语的词语长短和词语语义,对各词语进行分类,可以得到待更新词语和非待更新词语。其中,待更新词语为词语较短和/或一词多义的词语;非待更新词语包括词语较长和语义单一的词语。待更新词语可以理解为前述的模型词,非待更新词语可以理解为前述的规则词。
88.针对待更新词语,可以根据查询分类信息中的词语与词语之间的相关关系,基于相关关系,在待更新词语添加相关的词语,实现对待更新词语添加语义约束,使得待更新词语的语义更加准确。具体的,相关关系中包括第一级相关关系和第二级相关关系,可以预设相关关系的优先级,选择优先级高的相关关系,确定待添加的相关的词语,添加到待更新词语中。示例性的,获取待更新词语对应的优先级高的相关关系,确定为该待更新词语相关的相关词语,此外还可以获取相关词语对应的优先级高的相关关系,确定该相关词语相关的词语,同样确定为该待更新词语相关的相关词语。可以理解为,将待更新词语的父节点的词语添加到待更新词语中,而不是将待更新词语的子节点的词语添加到待更新词语中。
89.示例性的,血糖分别与血糖仪和降糖药之间存在第一级相关关系,血糖仪与光电型血糖仪之间存在第二级相关关系,降糖药与a之间存在第二级相关关系。例如,待更新词语为a,a相关的词语为降糖药,将降糖药添加到a中,得到降糖药a。又如,待更新词语为血糖仪,第一级相关关系的优先级高于第二级相关关系,血糖仪的第一级相关关系中相关的词语为血糖,因此可以将血糖添加到血糖仪中,得到血糖血糖仪。
90.预先分类的分类模型用于多个词语中查询与输入语句对应的目标词语,将对应的目标词语确定为输入语句的类型。在本公开实施例中,分类模型用于在查询分类信息和更新后的待更新词语中查询与输入语句对应的目标词语。其中,在查询语句对应的目标词语
为更新后的待更新词语的情况下,还可以根据更新前该待更新词语在查询分类信息中对应的相关关系,确定该待更新词语对应的词语,并将该对应的词语同样确定为该查询语句对应的目标词语。其中,分类模型可以是深度学习模型,示例性的,可以是ernie模型。
91.通过根据词语长短和语义对查询分类信息中词语进行分类,确定待更新词语,并基于查询分类信息中待更新词语相关的词语,添加到该待更新词语中,为待更新词语添加语义约束,使得待更新词语的语义更加准确,从而基于更新后的待更新词语进行查询语句分类,可以提高分类模型的分类准确率。
92.此外,在查询目标词语相关的词语的情况下,可以查询目标词语中优先级高的相关关系,确定目标词语相关的词语。示例性的,血糖分别与血糖仪和降糖药之间存在第一级相关关系,血糖仪与光电型血糖仪之间存在第二级相关关系,降糖药与a之间存在第二级相关关系。第一级相关关系的优先级高于第二级相关关系,目标词语为a,a相关的词语为降糖药,降糖药的第一级相关关系中相关的词语为血糖,从而可以将血糖、降糖药和a确定为输入语句对应的类型。又如,目标词语为血糖仪,血糖仪的第一级相关关系中相关的词语为血糖,因此血糖为血糖仪相关的词语。
93.根据本公开的技术方案,通过获取的查询分类信息,并确定输入语句的目标词语,确定为输入语句的类型,可以提高输入语句的分类准确性,同时,基于丰富的查询分类信息包括的词语,对输入语句进行分类,可以提高分类的精度。
94.图4是根据本公开实施例公开的另一种应用场景的示意图。方法可以包括:
95.首先是查询分类信息建设:
96.获取第一词语:在企业用户中近期搜索的查询语句中收集没有产生点击的中长尾查询语句,并筛选出页面浏览量大于预设浏览量阈值的查询语句。以及获取企业用户输入的兴趣信息。从筛选的查询语句和兴趣信息等至少一项,提取第一词语。下面以“血糖”这个第一词语的关注人群为例子做详细阐述。
97.实际上,单单以“血糖”第一词语与查询语句做相似判别,那么对于例如“胰岛素”、“糖尿病”或者某些降糖药产品的召回是不够的,这会导致人群集群的覆盖不够,导致用户分类不准确。因此,需要对第一词语做语义扩展。
98.对预先收集的多个查询语句进行筛选,在筛选得到的查询语句中识别第一实体。还是以“血糖”为例:将“血糖”与单天的全量的查询语句进行相似判别,具体可以采用面向任务的ernie-sim模型计算第一词语与收集的查询语句之间的相似度,选择相似度值大于相似阈值(例如0.7)的查询语句,确定为第一词语的基础扩展的查询语句,以进行后续的第一实体识别。为了获得与第一词语“血糖”有一定区分度的扩展词,相似阈值不应取得过高。在得到基础扩展的查询语句之后,从中抽取第一实体。例如三条查询语句分别为:“现行血糖标准”、“高血糖降糖药”和“电子血糖仪价格”。可以识别出“降糖药”和“血糖仪”这两个第一实体。
99.根据第一实体,获取与第一词语对应的目标关键词。具体是,对第一词语进行扩展,得到相似语句;分别对第一词语和相似语句进行特征提取,形成第一特征向量;根据各第一特征向量,得到平均特征向量;对第一实体进行特征提取,形成第二特征向量;根据平均特征向量与各第二特征向量,在各第一实体中,筛选得到与第一词语对应的目标关键词。
100.第一实体与第一词语“血糖”做相似度判别,这一步是为了抽到与“血糖”这个第一
词语相关的别的实体。其中,单纯的第一词语“血糖”的特征向量难以表达第一词语“血糖”所蕴含的所有信息,因此将在筛选得到的与第一词语“血糖”有一定相似性的查询语句,即相似语句,作为第一词语“血糖”的补充信息,提取筛选得到的查询语句的特征向量。为了保证后续计算相似性时,特征向量的维度一致性,将所有的特征向量求和后取平均,得到平均特征向量,作为第一词语“血糖”的特征向量。将平均特征向量与目标关键词特征提取的第二特征向量进行相似度判别。相似度判别方法和相似度阈值可以采用前述的ernie-sim模型和相似度阈值。
101.示例性的,第一词语“血糖”,在未扩展相似语句,直接进行第一词语“血糖”的第一特征向量与目标关键词的第二特征向量进行相似度判别的情况下,筛选出第一词语“血糖”对应的目标关键词,并确定为变换前得到的目标关键词。与在扩展相似语句,进行第一词语“血糖”的平均特征向量与目标关键词的第二特征向量进行相似度判别的情况下,筛选出第一词语“血糖”对应的目标关键词,确定为变换后的目标关键词。下面展示一下第一词语“血糖”,变换前得到的目标关键词和变换后的目标关键词之间的对比,具体如表1所示:
102.表1
103.变换前变换后低血糖低血糖降糖药降糖药高血糖高血糖高血糖的症状高血糖的症状测血糖测血糖空腹血糖空腹血糖糖尿病糖尿病糖尿病的治疗糖尿病的治疗葡萄糖血糖仪
104.由表1可知,变换前得到的目标关键词和变换后的目标关键词是存在区别的,由最后一行可知,变换后的目标关键词与血糖更相似。
105.在查询语句中提取与目标关键词对应的第二实体;根据目标关键词和第二实体,确定第二词语。这一步主要是通过实体抽取的方式在筛选得到的查询语句中识别目标关键词所对应的产品实体,确定为第二实体。例如“降糖药”这个目标关键词可以抽取到对应的具体产品名称,例如a和b等。示例性的,可以采用基于c语言的自然语言处理任务(natural language processing c,nlpc)中的实体识别算子nlpc-monet算子,实现自定义实体识别,输入筛选得到的查询语句和目标关键词,nlpc-monet算子根据目标关键词,在筛选得到的查询语句中识别第二实体。例如,可以在查询语句中“a可以降血糖吗”中抽取得到“a”第二实体。表2列举根据目标关键词识别查询语句中的第二实体:
106.表2
107.实体词品牌词血糖仪三型血糖仪血糖仪三诺血糖仪血糖仪乐普血糖仪
血糖仪光化学血糖仪血糖仪光电型血糖仪血糖仪光电式血糖仪降糖药度拉糖肽降糖药吡格列酮降糖药安达唐
108.本公开实施例可以自动化的探测网站上有无某种沟通工具,并且监控相应沟通行为数据。
109.建立第一词语与目标关键词之间的第一级相关关系;建立目标关键词与对应的第二实体之间的第二级相关关系;将相关关系、第一词语和第二词语,确定为查询分类信息,用于对查询语句进行分类。根据第一词语得到了一批与第一词语对应的目标关键词和第二实体。此外,还可以获取多个第一词语,针对每个第一词语都可以扩展出一批对应的目标关键词和第二实体。
110.在建设查询分类信息之后,可以根据用户输入的输入语句,对用户进行分类。在分类的过程中,可以采用基于规则的分类方法和基于模型的分类方法,查询与输入语句对应的目标词语以及目标词语相关的词语,确定为输入语句的类型,并根据输入语句的类型对用户进行分类。将同一类的用户,确定为一个用户集群,并根据用户输入的输入语句的类型,确定该用户集群的类型或标签信息等。
111.在查询分类信息中,适于规则分类的词语与适于模型分类的词语不同。一般来说,适于模型分类的词语是包含适于规则分类的词语。
112.针对规则词:在第一词语“血糖”这个例子中,目标关键词基本都可以用于规则判别,在第二实体中,一些降糖药产品或者血糖仪的产品也是可以当做规则的判别词。
113.其中,基于规则的分类方法,该方法不能简单的使用包含(in)的方式进行判别,例如,在建设“脱发关注人群”的时候,会扩展出一个第二实体“生发”,如果只是使用包含(in)作为判断方式,很容易扩展出“学生发展”这一类的错误的词语(badcase),影响实际效果。因此在对查询语句进行规则的分类时,需要对查询语句先做一次分词。“学生发展”这里会被切分为“学生”和“发展”,然后再去和规则词匹配,这样就可以过滤掉由于分词不当匹配出的错误的词语。也即,对输入语句进行分词,并根据划分得到的词语,在查询分类信息中进行词语查询,确定各划分得到的词语相同的词语,确定为输入语句对应的目标词语。
114.针对模型词:目标关键词都可以作为模型词,但是要注意,由于识别出来的第二实体较多,在这一步容易产生一些容易误判的词语(badcase)。因此,在使用第二实体时需要加上抽取的目标关键词的前缀与第二实体本身拼接,作为相似判别的依据,降低容易误判的词语的影响。相当于是在建设好的查询分类信息中确定待更新词语,也即模型词,并根据查询分类信息中的相关关系,确定待更新词语相关的词语,并添加到待更新词语中。分类模型基于更新后的待更新词语进行输入语句的分类。
115.基于模型的分类方法,可以基于更新后的待更新词语和查询分类信息,确定输入语句对应的目标词语,并根据目标词语在查询分类信息中的相关关系,确定先相关的词语,同样确定为输入语句的类型。
116.经过以上操作,可以根据用户输入的查询语句,判断该用户的类型,检测该用户是
否属于特定关注主题(词语)的用户集群。
117.根据本公开的技术方案,可以增加分类信息,并使得划分的用户集群可以覆盖许多细分领域,并实时基于热点信息,自动生成热点对应的领域,并快速确定与该热点对应的类型的用户,从而生成关注该热点的用户集群,提高用户分类的准确性和实时性,以及增加用户分类的灵活性。
118.根据本公开的实施例,图5是本公开实施例中的分类信息获取装置的结构图,本公开实施例适用于生成分类信息的情况。该装置采用软件和/或硬件实现,并具体配置于具备一定数据运算能力的电子设备中。
119.如图5所示的一种分类信息获取装置500,包括:第一词语获取模块501、词语及关系确定模块502和查询分类信息生成模块503;其中,
120.第一词语获取模块501,用于获取第一词语;
121.词语及关系确定模块502,用于在查询语句中,确定与所述第一词语对应的第二词语,并建立所述第一词语与所述第二词语之间的相关关系;
122.查询分类信息生成模块503,用于将所述相关关系、所述第一词语和所述第二词语,确定为查询分类信息,用于对查询语句进行分类。
123.根据本公开的技术方案,获取第一词语,并在查询语句中,提取第一词语对应的第二词语,并建立第一词语和第二词语之间的相关关系,将词语和词语的相关关系,确定为查询分类信息,以对查询语句进行分类,可以增加查询分类信息的分类词,增加查询语句的分类范围,提高查询语句的分类准确性,而且可以根据实时获取的查询语句添加用于分类的词语,提高查询分类信息的实时性。
124.进一步的,所述词语及关系确定模块,包括:第一实体获取单元,用于在查询语句中识别第一实体;关键词筛选单元,用于根据所述第一实体,获取与所述第一词语对应的目标关键词;第二词语确定单元,用于根据所述目标关键词,确定第二词语。
125.进一步的,所述第二词语确定单元,包括:第二实体获取单元,用于在所述查询语句中提取与所述目标关键词对应的第二实体;第二词语生成子单元,用于根据所述目标关键词和所述第二实体,确定第二词语。
126.进一步的,所述词语及关系确定模块,包括:第一级相关关系建立单元,用于建立所述第一词语与所述目标关键词之间的第一级相关关系;第二级相关关系建立单元,用于建立所述目标关键词与对应的第二实体之间的第二级相关关系。
127.进一步的,所述关键词筛选单元,包括:第一词语扩展子单元,用于对所述第一词语进行扩展,得到相似语句;第一特征提取子单元,用于分别对所述第一词语和所述相似语句进行特征提取,形成第一特征向量;平均向量计算子单元,用于根据各所述第一特征向量,得到平均特征向量;第二特征提取子单元,用于对所述第一实体进行特征提取,形成第二特征向量;目标关键词确定子单元,用于根据所述平均特征向量与各所述第二特征向量,在各所述第一实体中,筛选得到与所述第一词语对应的目标关键词。
128.上述分类信息获取装置可执行本公开任意实施例所提供的分类信息获取方法,具备执行分类信息获取方法相应的功能模块和有益效果。
129.根据本公开的实施例,图6是本公开实施例中的分类装置的结构图,本公开实施例适用于对输入语句进行分类的情况。该装置采用软件和/或硬件实现,并具体配置于具备一
定数据运算能力的电子设备中。
130.如图6所示的一种分类装置600,包括:输入语句获取模块601和输入语句分类模块602;其中,
131.输入语句获取模块601,用于获取用户输入的输入语句;
132.输入语句分类模块602,用于在查询分类信息中,查询与所述输入语句对应的目标词语以及所述目标词语相关的词语,确定所述输入语句的类型,所述查询分类信息根据如本公开任一实施例所述的分类信息获取方法获取。
133.根据本公开的技术方案,通过获取的查询分类信息,并确定输入语句的目标词语,确定为输入语句的类型,可以提高输入语句的分类准确性,同时,基于丰富的查询分类信息包括的词语,对输入语句进行分类,可以提高分类的精度。
134.进一步的,所述分类装置,还包括:用户分类模块,用于根据所述输入语句的类型,对所述用户进行分类。
135.进一步的,所述查询分类信息包括词语和词语之间的相关关系;所述输入语句分类模块602,包括:待更新词语获取单元,用于根据词语长短和词语语义,在所述查询分类信息包括的词语中确定待更新词语;分类信息更新单元,用于根据所述词语之间的相关关系,在所述待更新词语中添加相关的词语,更新所述待更新词语;语句分类单元,用于将所述输入语句输入预先训练的分类模型中,并根据更新后的待更新词语输出所述输入语句对应的目标词语。
136.上述分类装置可执行本公开任意实施例所提供的分类方法,具备执行分类方法相应的功能模块和有益效果。
137.本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
138.根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
139.图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性区域图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
140.如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(rom)702中的计算机程序或者从存储单元708加载到随机访问存储器(ram)703中的计算机程序,来执行各种适当的动作和处理。在ram 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、rom 702以及ram 703通过总线704彼此相连。输入/输出(i/o)接口705也连接至总线704。
141.设备700中的多个部件连接至i/o接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
142.计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如分类信息获取方法或分类方法。例如,在一些实施例中,分类信息获取方法或分类方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由rom 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到ram 703并由计算单元701执行时,可以执行上文描述的分类信息获取方法或分类方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行分类信息获取方法或分类方法。
143.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、复杂可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
144.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或区域图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
145.在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
146.为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
147.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据
服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
148.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
149.应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
150.上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。