信息差异的识别方法和存储介质、电子设备与流程

文档序号:28934772发布日期:2022-02-16 15:53阅读:91来源:国知局
信息差异的识别方法和存储介质、电子设备与流程

1.本公开涉及信息抓取技术领域,尤其是一种信息差异的识别方法和存储介质、电子设备。


背景技术:

2.信息抓取是企业信息化的根基和第一步,只有利用先进的技术作好了信息抓取工作,才能为信息化带来最大的价值;在房产领域中,楼盘知识是已有房产信息的一种保存形式;因为房产信息会随时间变化,所以需要存量信息更新、增量信息获取和信息验证的环节,例如,从经纪人对话信息中获得房产相关信息;当获取的多个针对同一房产进行描述的信息不同时,为避免信息错误,需要通过人工分析确定确定哪些信息可以获取,无法实现信息的自动识别和获取。


技术实现要素:

3.为了解决上述技术问题,提出了本公开。本公开的实施例提供了一种信息差异的识别方法和存储介质、电子设备。
4.根据本公开实施例的一个方面,提供了一种信息差异的识别方法,包括:
5.获得目标主体对应的问答数据;
6.对所述问答数据进行意图识别和槽位值识别,得到所述问答数据对应的问答意图和回答槽位值;
7.确定所述问答意图中目标问答意图对应的回答槽位值;
8.将所述回答槽位值与所述目标问答意图对应的标准槽位值进行匹配,确定所述问答槽位值与所述标准槽位值之间的差异。
9.可选地,所述问答数据为问答文本;
10.所述对所述问答数据进行意图识别和槽位值识别,得到所述问答数据对应的问答意图和回答槽位值,包括:
11.对所述问答文本执行分词操作,得到至少一个文本词;
12.基于所述至少一个文本词得到所述问答文本的文本特征;
13.利用编码器对所述文本特征进行处理得到意图嵌入和槽位值嵌入;
14.利用第一解码器对所述意图嵌入进行处理,得到所述问答数据对应的问答意图;利用第二解码器对所述槽位值嵌入进行处理,得到所述问答数据对应的回答槽位值。
15.可选地,所述利用编码器对所述文本特征进行处理得到意图嵌入和槽位值嵌入,包括:
16.基于所述编码器的第一网络分支对所述文本特征进行处理,得到第一意图特征、第二意图特征和第三意图特征;
17.基于所述编码器的第二网络分支对所述文本特征进行处理,得到第一槽位特征、第二槽位特征和第三槽位特征;
18.对所述第一意图特征与所述第一槽位特征执行融合处理,得到第一融合特征;
19.对所述第二意图特征与所述第二槽位特征执行融合处理,得到第二融合特征;
20.将所述第一融合特征的转置与所述第二融合特征执行矩阵相乘和归一化处理,得到权重特征;
21.基于所述权重特征与所述第三意图特征执行矩阵相乘,得到所述意图嵌入;
22.基于所述权重特征与所述第三槽位特征执行矩阵相乘,得到所述槽位值嵌入。
23.可选地,所述问答数据为问答语音;
24.所述对所述问答数据进行意图识别和槽位值识别,得到所述问答数据对应的问答意图和回答槽位值,包括:
25.对所述问答语音执行切分操作,得到至少一个语音片段;
26.基于所述至少一个语音片段得到所述问答语音的语音特征;
27.利用编码器对所述语音特征进行处理得到意图嵌入和槽位值嵌入;
28.利用第一解码器对所述意图嵌入进行处理,得到所述问答数据对应的问答意图;利用第二解码器对所述槽位值嵌入进行处理,得到所述问答数据对应的回答槽位值。
29.可选地,所述利用编码器对所述语音特征进行处理得到意图嵌入和槽位值嵌入,包括:
30.基于所述编码器的第一网络分支对所述语音特征进行处理,得到第一意图特征、第二意图特征和第三意图特征;
31.基于所述编码器的第二网络分支对所述语音特征进行处理,得到第一槽位特征、第二槽位特征和第三槽位特征;
32.对所述第一意图特征与所述第一槽位特征执行融合处理,得到第一融合特征;
33.对所述第二意图特征与所述第二槽位特征执行融合处理,得到第二融合特征;
34.将所述第一融合特征的转置与所述第二融合特征执行矩阵相乘和归一化处理,得到权重特征;
35.基于所述权重特征与所述第三意图特征执行矩阵相乘,得到所述意图嵌入;
36.基于所述权重特征与所述第三槽位特征执行矩阵相乘,得到所述槽位值嵌入。
37.可选地,所述将所述回答槽位值与所述目标问答意图对应的标准槽位值进行匹配,确定所述问答槽位值与所述标准槽位值之间的差异,包括:
38.对所述回答槽位值进行筛选,确定与所述标准槽位值之间匹配的至少一个匹配槽位值;其中,所述标注槽位值为所述目标问答意图对应的历史问答数据对应的回答槽位值;
39.基于所述标准槽位值对应的第一分布和所述至少一个匹配槽位值对应的第二分布,确定所述至少一个匹配槽位值与所述标准槽位值之间的差异。
40.可选地,所述对所述回答槽位值进行筛选,确定与所述标准槽位值之间匹配的至少一个匹配槽位值,包括:
41.确定多个所述回答槽位值与所述标准槽位值之间的余弦相似度值;
42.确定多个所述回答槽位值与所述标准槽位值之间的最大公共子序列计算结果;
43.基于所述余弦相似度值和所述最大公共子序列计算结果,从多个所述回答槽位值中确定所述至少一个匹配槽位值。
44.可选地,所述基于所述标准槽位值对应的第一分布和所述至少一个匹配槽位值对
应的第二分布,确定所述至少一个匹配槽位值与所述标准槽位值之间的差异,包括:
45.确定所述标准槽位值对应的第一分布,确定所述至少一个匹配槽位值对应的第二分布;
46.利用相对熵确定所述第一分布与所述第二分布之间的相似度差异;
47.基于所述相似度差异确定所述至少一个匹配槽位值与所述标准槽位值之间的差异。
48.可选地,在确定所述问答意图中目标问答意图对应的回答槽位值之前,还包括:
49.确定所述问答数据对应的问答意图对应的槽位值类别;
50.基于所述问答数据对应的回答槽位值与所述槽位值类别之间的匹配关系,确定所述问答意图与所述回答槽位值是否匹配;
51.响应于所述问答意图与所述回答槽位值匹配,确定所述问答意图为有效问答意图。
52.根据本公开实施例的另一方面,提供了一种信息差异的识别装置,包括:
53.数据获取模块,用于获得目标主体对应的问答数据;
54.数据识别模块,用于对所述问答数据进行意图识别和槽位值识别,得到所述问答数据对应的问答意图和回答槽位值;
55.槽位值确定模块,用于确定所述问答意图中目标问答意图对应的回答槽位值;
56.差异确定模块,用于将所述回答槽位值与所述目标问答意图对应的标准槽位值进行匹配,确定所述问答槽位值与所述标准槽位值之间的差异。
57.可选地,所述问答数据为问答文本;
58.所述数据识别模块,具体用于对所述问答文本执行分词操作,得到至少一个文本词;基于所述至少一个文本词得到所述问答文本的文本特征;利用编码器对所述文本特征进行处理得到意图嵌入和槽位值嵌入;利用第一解码器对所述意图嵌入进行处理,得到所述问答数据对应的问答意图;利用第二解码器对所述槽位值嵌入进行处理,得到所述问答数据对应的回答槽位值。
59.可选地,所述数据识别模块在利用编码器对所述文本特征进行处理得到意图嵌入和槽位值嵌入时,用于基于所述编码器的第一网络分支对所述文本特征进行处理,得到第一意图特征、第二意图特征和第三意图特征;基于所述编码器的第二网络分支对所述文本特征进行处理,得到第一槽位特征、第二槽位特征和第三槽位特征;对所述第一意图特征与所述第一槽位特征执行融合处理,得到第一融合特征;对所述第二意图特征与所述第二槽位特征执行融合处理,得到第二融合特征;将所述第一融合特征的转置与所述第二融合特征执行矩阵相乘和归一化处理,得到权重特征;基于所述权重特征与所述第三意图特征执行矩阵相乘,得到所述意图嵌入;基于所述权重特征与所述第三槽位特征执行矩阵相乘,得到所述槽位值嵌入。
60.可选地,所述问答数据为问答语音;
61.所述数据识别模块,还用于对所述问答语音执行切分操作,得到至少一个语音片段;基于所述至少一个语音片段得到所述问答语音的语音特征;利用编码器对所述语音特征进行处理得到意图嵌入和槽位值嵌入;利用第一解码器对所述意图嵌入进行处理,得到所述问答数据对应的问答意图;利用第二解码器对所述槽位值嵌入进行处理,得到所述问
答数据对应的回答槽位值。
62.可选地,所述数据识别模块在利用编码器对所述语音特征进行处理得到意图嵌入和槽位值嵌入时,用于基于所述编码器的第一网络分支对所述语音特征进行处理,得到第一意图特征、第二意图特征和第三意图特征;基于所述编码器的第二网络分支对所述语音特征进行处理,得到第一槽位特征、第二槽位特征和第三槽位特征;对所述第一意图特征与所述第一槽位特征执行融合处理,得到第一融合特征;对所述第二意图特征与所述第二槽位特征执行融合处理,得到第二融合特征;将所述第一融合特征的转置与所述第二融合特征执行矩阵相乘和归一化处理,得到权重特征;基于所述权重特征与所述第三意图特征执行矩阵相乘,得到所述意图嵌入;基于所述权重特征与所述第三槽位特征执行矩阵相乘,得到所述槽位值嵌入。
63.可选地,所述差异确定模块,包括:
64.匹配单元,用于对所述回答槽位值进行筛选,确定与所述标准槽位值之间匹配的至少一个匹配槽位值;其中,所述标注槽位值为所述目标问答意图对应的历史问答数据对应的回答槽位值;
65.分布差异单元,用于基于所述标准槽位值对应的第一分布和所述至少一个匹配槽位值对应的第二分布,确定所述至少一个匹配槽位值与所述标准槽位值之间的差异。
66.可选地,所述匹配单元,具体用于确定多个所述回答槽位值与所述标准槽位值之间的余弦相似度值;确定多个所述回答槽位值与所述标准槽位值之间的最大公共子序列计算结果;基于所述余弦相似度值和所述最大公共子序列计算结果,从多个所述回答槽位值中确定所述至少一个匹配槽位值。
67.可选地,所述分布差异单元,具体用于确定所述标准槽位值对应的第一分布,确定所述至少一个匹配槽位值对应的第二分布;利用相对熵确定所述第一分布与所述第二分布之间的相似度差异;基于所述相似度差异确定所述至少一个匹配槽位值与所述标准槽位值之间的差异。
68.可选地,所述装置还包括:
69.意图识别模块,用于确定所述问答数据对应的问答意图对应的槽位值类别;基于所述问答数据对应的回答槽位值与所述槽位值类别之间的匹配关系,确定所述问答意图与所述回答槽位值是否匹配;响应于所述问答意图与所述回答槽位值匹配,确定所述问答意图为有效问答意图。
70.根据本公开实施例的又一方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述任一实施例所述的信息差异的识别方法。
71.根据本公开实施例的还一方面,提供了一种电子设备,所述电子设备包括:
72.处理器;
73.用于存储所述处理器可执行指令的存储器;
74.所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述任一实施例所述的信息差异的识别方法。
75.根据本公开实施例的再一方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述任一实施例所述的信息差异
的识别方法的步骤。
76.基于本公开上述实施例提供的一种信息差异的识别方法和存储介质、电子设备,包括:获得目标主体对应的问答数据;对所述问答数据进行意图识别和槽位值识别,得到所述问答数据对应的问答意图和回答槽位值;确定所述问答意图中目标问答意图对应的回答槽位值;将所述回答槽位值与所述目标问答意图对应的标准槽位值进行匹配,确定所述问答槽位值与所述标准槽位值之间的差异;本实施例通过提取问答数据中的问答意图和回答槽位值,实现回答槽位值与标准槽位值之间的相互印证,提高了获取的槽位值信息的可信度,基于可信度对槽位值进行数据获取,实现了自动数据获取,提高了数据获取的效率。
77.下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
78.通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
79.图1是本公开一示例性实施例提供的信息差异的识别方法的流程示意图。
80.图2是本公开图1所示的实施例中步骤104的一个流程示意图。
81.图3是本公开图2所示的实施例中步骤1043的一个流程示意图。
82.图4是本公开图1所示的实施例中步骤104的另一流程示意图。
83.图5是本公开图1所示的实施例中步骤108的一个流程示意图。
84.图6是本公开一示例性实施例提供的信息差异的识别装置的结构示意图。
85.图7是本公开一示例性实施例提供的电子设备的结构图。
具体实施方式
86.下面,将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
87.应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
88.本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
89.还应理解,在本公开实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
90.还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
91.另外,本公开中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。本公开中所指数据可
以包括文本、图像、视频等非结构化数据,也可以是结构化数据。
92.还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
93.同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
94.以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
95.对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
96.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
97.本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
98.终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
99.示例性方法
100.图1是本公开一示例性实施例提供的信息差异的识别方法的流程示意图。本实施例可应用在电子设备上,如图1所示,包括如下步骤:
101.步骤102,获得目标主体对应的问答数据。
102.其中,不同问答数据对应不同问答主体。
103.可选地,获得的多组问答数据可以是设定时间段内从问答系统中获取的多个不同问答主体针对同一目标主体进行交互的问答数据,其中,目标主体可以是房屋等可描述物体,而问答主体可以是经纪人、用户等相关人员。
104.步骤104,对问答数据进行意图识别和槽位值识别,得到问答数据对应的问答意图和回答槽位值。
105.在一实施例中,可通过深度学习技术领域的深度神经网络实现对问答数据意图识别和槽位值识别,例如,通过意图识别网络模型对问答数据进行处理,得到问答意图,可选地,意图识别网络模型可以为分类网络;通过槽位值识别网络模型对问答数据进行处理,得到回答槽位值。
106.步骤106,确定问答意图中目标问答意图对应的回答槽位值。
107.本实施例中,针对同一目标主体可能存在多种问答意图,可将其中某一问答意图
作为目标问答意图,例如,针对房屋的问答意图识别得到:楼龄和楼层,当以楼龄为目标问答意图,获得该目标问答意图对应的多个回答槽位值(例如,2000年、2002年等)。
108.步骤108,将回答槽位值与目标问答意图对应的标准槽位值进行匹配,确定问答槽位值与标准槽位值之间的差异。
109.可选地,标准槽位值可以是基于历史问答数据确定的该目标问答意图对应的槽位值,本实施例通过将回答槽位值与标准槽位值进行匹配,确定回答槽位值是否可信,或者可依据回答槽位值对标准槽位值进行更新。
110.本公开上述实施例提供的一种信息差异的识别方法,获得对目标主体对应的问答数据;对所述问答数据进行意图识别和槽位值识别,得到所述问答数据对应的问答意图和回答槽位值;确定所述问答意图中目标问答意图对应的回答槽位值;将所述回答槽位值与所述目标问答意图对应的标准槽位值进行匹配,确定所述问答槽位值与所述标准槽位值之间的差异;本实施例通过提取问答数据中的问答意图和回答槽位值,实现回答槽位值与标准槽位值之间的相互印证,提高了获取的槽位值信息的可信度,基于可信度对槽位值进行数据获取,实现了自动数据获取,提高了数据获取的效率。
111.如图2所示,在上述图1所示实施例的基础上,问答数据为问答文本;针对问答文本,执行以下步骤104包括如下步骤:
112.步骤1041,对问答文本执行分词操作,得到至少一个文本词。
113.可选地,可采用现有分词技术对问答文本执行分词,本实施例不限制实现分词的具体分词方式。
114.步骤1042,基于至少一个文本词得到问答文本的文本特征。
115.可选地,可通过深度神经网络中实现文本特征提取的网络模型实现对文本词的特征提取,得到文本特征,本实施例中,可连接每个文本词对应的特征得到问答文本对应的文本特征。
116.可选地,基于每个文本词的特征得到文本特征可基于以下公式(1)实现:
117.input=concat(xi,x
{i+1}
,...,x
{i+k-1}
)
ꢀꢀꢀꢀꢀꢀ
公式(1)
118.其中,input表示文本特征;xi表示第i个文本词对应的特征,通过concat(连接字符串)函数实现特征连接,得到文本特征;k表示文本词的总数。
119.步骤1043,利用编码器对文本特征进行处理得到意图嵌入和槽位值嵌入。
120.本实施例中采用的编码器部分实现了两部分独立对文本特征分别进行处理,并在处理过程中对中间处理结果进行交互,实现了意图和槽位值信息的即相互独立、又共享部分信息的技术效果。
121.步骤1044,利用第一解码器对意图嵌入进行处理,得到问答数据对应的问答意图;利用第二解码器对槽位值嵌入进行处理,得到问答数据对应的回答槽位值。
122.嵌入(embedding)是把高维原始数据(图像,句子)映射到低维流形,使得高维的原始数据被映射到低维流形之后变得可分,而这个映射就叫嵌入,本实施例中中将基于文本特征映射得到的低维流形(表征向量)作为嵌入。本实施例通过意图嵌入和槽位值嵌入分别对意图和槽位值进行表征,再经过对应的解码器对其进行处理,即可得到问答数据对应的问答意图,以及问答数据中的回答槽位值。例如,在一些可选示例中,目标主体为房源,此时问答意图以及对应的回答槽位值可以包括但不限于:

房源-楼龄(问答文本中的问题可以
是,例如:这是哪年盖的房子,这是次新房吗),对应的槽位值为:年份、年数等;例如:

房源-楼层(问答文本中的问题可以是,例如:这是中间层吗,顶层),对应的槽位值为:层数等;

房源-价格(问答文本中的问题可以是,例如:总价多少?400万够吗?单价多少),对应的槽位值为:价格数值;

房源-税费(问答文本中的问题可以是,例如:有哪些税,契税多少,中介费多少),对应的槽位值为:税费种类和金额;

房源-月供(问答文本中的问题可以是,例如:买这个房子的话,月供多少),对应的槽位值为:月供金额;

房源-电梯(问答文本中的问题可以是,例如:有电梯吗,一梯几户),对应的槽位值为:是否;

房源-公摊(问答文本中的问题可以是,例如:公摊面积公摊多少),对应的槽位值为:面积值;

房源-户型(问答文本中的问题可以是,例如:几室几厅),对应的槽位值为:数值;

房源-装修(问答文本中的问题可以是,例如:精装还是毛坯),对应的槽位值为:是否。
123.如图3所示,在上述图2所示实施例的基础上,步骤1043可包括如下步骤:
124.步骤301,基于编码器的第一网络分支对文本特征进行处理,得到第一意图特征、第二意图特征和第三意图特征。
125.步骤302,基于编码器的第二网络分支对文本特征进行处理,得到第一槽位特征、第二槽位特征和第三槽位特征。
126.本实施例中分别通过不同的网络分支分别对文本特征进行处理,得到针对文本整体意图分析的第一意图特征、第二意图特征和第三意图特征,以及对文本特征中体现具体数值的第一槽位特征、第二槽位特征和第三槽位特征。
127.步骤303,对第一意图特征与第一槽位特征执行融合处理,得到第一融合特征。
128.本实施例中,经过前馈神经网络ffn处理后,再将网络内部输出的维度调整为整个网络最原始的输入维度,实现维度对齐,将第一意图特征与第一槽位特征进行维度对齐后,通过融合操作(例如,通过add网络层实现残差连接,并增加norm(normalization)操作防止数据最大最小极值溢出或数据均值漂移)。可选地,在一可选示例中,可通过以下公式(2)获得第一融合特征;
129.k=add&norm(ffn(ki),ks)
ꢀꢀꢀꢀꢀ
公式(2)
130.其中,k表示第一融合特征,ki表示第一意图特征,ks表示第一槽位特征,ffn表示前馈神经网络,add&norm表示融合操作。
131.步骤304,对第二意图特征与所述第二槽位特征执行融合处理,得到第二融合特征。
132.该步骤中的融合处理过程与步骤303的融合过程类似,可参照理解,在此不再赘述。可选地,在一可选示例中,可通过以下公式(3)获得第二融合特征;
133.q=add&norm(ffn(qi),qs)
ꢀꢀꢀ
公式(3)
134.其中,q表示第二融合特征,qi表示第二意图特征,qs表示第二槽位特征,ffn表示前馈神经网络,add&norm表示融合操作。
135.步骤305,将第一融合特征的转置与第二融合特征执行矩阵相乘和归一化处理,得到权重特征。
136.本实施例通过对第一融合特征的转置和第二融合特征执行矩阵相乘,得到了第一融合特征与第二融合特征之间的相似度,对得到的相似度做归一化处理得到权重特征。
137.步骤306,基于权重特征与第三意图特征执行矩阵相乘,得到意图嵌入。
138.可选地,在一可选示例中,可通过以下公式(4)确定意图嵌入:
[0139][0140]
其中,vi表示第三意图特征,可以基于第一意图特征和第二意图特征点乘后得到的实数值确定;k表示第一融合特征;q表示第二融合特征;outputi表示意图嵌入;attention表示自注意力处理,可通过自注意力网络实现;qk
t
表示权重特征;dk是一个数字,代表网络(自注意力网络)中一般向量的长度,结合softmax实现对权重特征的归一化。
[0141]
步骤307,基于权重特征与第三槽位特征执行矩阵相乘,得到槽位值嵌入。
[0142]
可选地,在一可选示例中,可通过以下公式(5)确定槽位值嵌入:
[0143][0144]
其中,vs表示第三槽位值特征,可以基于第一槽位值特征和第二槽位值特征点乘后得到的实数值确定;k表示第一融合特征;q表示第二融合特征;outputs表示槽位值嵌入;attention表示自注意力处理,可通过自注意力网络实现;qk
t
表示权重特征;dk是一个数字,代表网络(自注意力网络)中一般向量的长度,结合softmax实现对权重特征的归一化。
[0145]
本实施例中,保证了编码器中两部分独立处理的同时,又在输出前共享了部分信息,提升了编码器得到的意图嵌入和槽位值嵌入的准确性,并且,编码器的输入和输出特征的维度一致,方便实现多层堆叠,即意图嵌入、槽位值嵌入的维度与文本特征的维度一致。
[0146]
如图4所示,在上述图1所示实施例的基础上,问答数据为问答语音;针对问答语音,执行以下步骤104包括如下步骤:
[0147]
步骤1045,对问答语音执行切分操作,得到至少一个语音片段。
[0148]
可选地,可通过音素分割或设定时间段分割等方式将问答语音切分为至少一个语音片段,即,可通过切分操作得到至少一个包含音素数量相同或者时间长度相同的语音片段。
[0149]
步骤1046,基于至少一个语音片段得到问答语音的语音特征。
[0150]
步骤1047,利用编码器对语音特征进行处理得到意图嵌入和槽位值嵌入。
[0151]
步骤1048,利用第一解码器对意图嵌入进行处理,得到问答数据对应的问答意图;利用第二解码器对槽位值嵌入进行处理,得到问答数据对应的回答槽位值。
[0152]
本实施例提供的问答语音处理与图2提供的实施例区别仅在于处理对象为问答语音,可选地,可通过将语音片段处理为文本数据再利用图2提供的方法进行处理,或者,直接利用神经网络对语音片段进行处理,得到语音特征,再基于语音特征得到对应的意图嵌入和槽位值嵌入,本实施例通过对问答语音直接处理,无需增加额外的将语音处理为文本的过程,实现了从语音到问答意图和回答槽位值的端到端的处理,提高了处理效率。
[0153]
可选地,上述实施例中步骤1047可以包括:
[0154]
基于编码器的第一网络分支对语音特征进行处理,得到第一意图特征、第二意图特征和第三意图特征;
[0155]
基于编码器的第二网络分支对语音特征进行处理,得到第一槽位特征、第二槽位特征和第三槽位特征;
[0156]
对第一意图特征与第一槽位特征执行融合处理,得到第一融合特征;
[0157]
对第二意图特征与第二槽位特征执行融合处理,得到第二融合特征;
[0158]
将第一融合特征的转置与第二融合特征执行矩阵相乘和归一化处理,得到权重特征;
[0159]
基于权重特征与第三意图特征执行矩阵相乘,得到意图嵌入;
[0160]
基于权重特征与第三槽位特征执行矩阵相乘,得到槽位值嵌入。
[0161]
本实施例中对语音特征的处理与图3提供的实施例中对文本特征的处理过程类似,区别仅在于处理的特征为语音特征,可参照理解,在此不再赘述。
[0162]
如图5所示,在上述图1所示实施例的基础上,步骤108可以包括如下步骤:
[0163]
步骤1081,对回答槽位值进行筛选,确定与标准槽位值之间匹配的至少一个匹配槽位值。
[0164]
其中,标注槽位值为目标问答意图对应的历史问答数据对应的回答槽位值。
[0165]
可选地,确定多个回答槽位值与标准槽位值之间的余弦相似度值;
[0166]
确定多个回答槽位值与标准槽位值之间的最大公共子序列计算结果;
[0167]
基于余弦相似度值和最大公共子序列计算结果,从多个回答槽位值中确定至少一个匹配槽位值。
[0168]
本实施例中,通过余弦相似度和最大公共子序列,保证了确定的匹配槽位值与标准槽位值之间语义级别和字符级别都相似。
[0169]
步骤1082,基于标准槽位值对应的第一分布和至少一个匹配槽位值对应的第二分布,确定至少一个匹配槽位值与标准槽位值之间的差异。
[0170]
可选地,确定标准槽位值对应的第一分布,确定至少一个匹配槽位值对应的第二分布;
[0171]
利用相对熵确定第一分布与第二分布之间的相似度差异;
[0172]
基于相似度差异确定至少一个匹配槽位值与标准槽位值之间的差异。
[0173]
本实施例中,对标准槽位值和匹配槽位值求并集,对并集构造两组概率分布:q、p,其中,p为标准槽位值概率分布:使用标准槽位值对应的重要性权重对分布p中对应位置赋值,其中重要性权重基于确定该标准槽位值时得到的槽位值嵌入对应的概率确定;q表示匹配槽位值概率分布:对标准槽位位置,使用最大相似度*标准槽位重要性对q进行赋值;第一分布与第二分布之间的相似度差异越小表示匹配槽位值越接近标准槽位值,可信度越高,本实施例基于差异实现了自动识别槽位值的可信度,可对可信度较高的数据进行抓取,无需人为判断抓取的数据的可信度,提高了数据获取的效率。在一可选示例中,相对熵的计算可基于以下公式(6)实现:
[0174][0175]
其中,d(p||q)表示相对熵结果;p为标准槽位值概率分布;q表示匹配槽位值概率分布;该计算公式为相对熵通用计算公式;相对熵用模拟分布q去编码真实分布p所需要的额外比特个数,以该结果即可确定第一分布和第二分布之间的相似度差异。
[0176]
可选地,在执行步骤106之前,还可以包括:
[0177]
确定问答数据对应的问答意图对应的槽位值类别;
[0178]
基于问答数据对应的回答槽位值与槽位值类别之间的匹配关系,确定问答意图与回答槽位值是否匹配;
[0179]
响应于问答意图与回答槽位值匹配,确定问答意图为有效问答意图。
[0180]
还可以包括,响应于问答意图与回答槽位值不匹配,确定问答意图不是有效问答意图;本实施例是为了将问答数据中答非所问的数据进行剔除,仅保留回答槽位值与槽位值类别相匹配的问答数据进行差异识别,而对于答非所问的数据不进行处理,进一步提高了数据获取的效率。
[0181]
本公开实施例提供的任一种信息差异的识别方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:终端设备和服务器等。或者,本公开实施例提供的任一种信息差异的识别方法可以由处理器执行,如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种信息差异的识别方法。下文不再赘述。
[0182]
示例性装置
[0183]
图6是本公开一示例性实施例提供的信息差异的识别装置的结构示意图。如图6所示,本实施例提供的装置包括:
[0184]
数据获取模块61,用于获得对目标主体对应的问答数据。
[0185]
其中,不同问答数据对应不同问答主体。
[0186]
数据识别模块62,用于对问答数据进行意图识别和槽位值识别,得到问答数据对应的问答意图和回答槽位值。
[0187]
槽位值确定模块63,用于确定问答意图中目标问答意图对应的回答槽位值。
[0188]
差异确定模块64,用于将回答槽位值与目标问答意图对应的标准槽位值进行匹配,确定问答槽位值与标准槽位值之间的差异。
[0189]
本公开上述实施例提供的一种信息差异的识别装置,获得对目标主体对应的问答数据;对所述问答数据进行意图识别和槽位值识别,得到所述问答数据对应的问答意图和回答槽位值;确定所述问答意图中目标问答意图对应的回答槽位值;将所述回答槽位值与所述目标问答意图对应的标准槽位值进行匹配,确定所述问答槽位值与所述标准槽位值之间的差异;本实施例通过提取问答数据中的问答意图和回答槽位值,实现回答槽位值与标准槽位值之间的相互印证,提高了获取的槽位值信息的可信度,基于可信度对槽位值进行数据获取,实现了自动数据获取,提高了数据获取的效率。
[0190]
在一些可选的实施例中,问答数据为问答文本;
[0191]
数据识别模块62,具体用于对问答文本执行分词操作,得到至少一个文本词;基于至少一个文本词得到问答文本的文本特征;利用编码器对文本特征进行处理得到意图嵌入和槽位值嵌入;利用第一解码器对意图嵌入进行处理,得到问答数据对应的问答意图;利用第二解码器对槽位值嵌入进行处理,得到问答数据对应的回答槽位值。
[0192]
可选地,数据识别模块62在利用编码器对文本特征进行处理得到意图嵌入和槽位值嵌入时,用于基于编码器的第一网络分支对文本特征进行处理,得到第一意图特征、第二意图特征和第三意图特征;基于编码器的第二网络分支对文本特征进行处理,得到第一槽位特征、第二槽位特征和第三槽位特征;对第一意图特征与第一槽位特征执行融合处理,得到第一融合特征;对第二意图特征与第二槽位特征执行融合处理,得到第二融合特征;将第一融合特征的转置与第二融合特征执行矩阵相乘和归一化处理,得到权重特征;基于权重
特征与第三意图特征执行矩阵相乘,得到意图嵌入;基于权重特征与第三槽位特征执行矩阵相乘,得到槽位值嵌入。
[0193]
在另一些可选的实施例中,问答数据为问答语音;
[0194]
数据识别模块62,还用于对问答语音执行切分操作,得到至少一个语音片段;基于至少一个语音片段得到问答语音的语音特征;利用编码器对语音特征进行处理得到意图嵌入和槽位值嵌入;利用第一解码器对意图嵌入进行处理,得到问答数据对应的问答意图;利用第二解码器对槽位值嵌入进行处理,得到问答数据对应的回答槽位值。
[0195]
可选地,数据识别模块62在利用编码器对语音特征进行处理得到意图嵌入和槽位值嵌入时,用于基于编码器的第一网络分支对语音特征进行处理,得到第一意图特征、第二意图特征和第三意图特征;基于编码器的第二网络分支对语音特征进行处理,得到第一槽位特征、第二槽位特征和第三槽位特征;对第一意图特征与第一槽位特征执行融合处理,得到第一融合特征;对第二意图特征与第二槽位特征执行融合处理,得到第二融合特征;将第一融合特征的转置与第二融合特征执行矩阵相乘和归一化处理,得到权重特征;基于权重特征与第三意图特征执行矩阵相乘,得到意图嵌入;基于权重特征与第三槽位特征执行矩阵相乘,得到槽位值嵌入。
[0196]
可选地,差异确定模块64,包括:
[0197]
匹配单元,用于对回答槽位值进行筛选,确定与标准槽位值之间匹配的至少一个匹配槽位值;其中,标注槽位值为目标问答意图对应的历史问答数据对应的回答槽位值;
[0198]
分布差异单元,用于基于标准槽位值对应的第一分布和至少一个匹配槽位值对应的第二分布,确定至少一个匹配槽位值与标准槽位值之间的差异。
[0199]
可选地,匹配单元,具体用于确定多个回答槽位值与标准槽位值之间的余弦相似度值;确定多个回答槽位值与标准槽位值之间的最大公共子序列计算结果;基于余弦相似度值和最大公共子序列计算结果,从多个回答槽位值中确定至少一个匹配槽位值。
[0200]
可选地,分布差异单元,具体用于确定标准槽位值对应的第一分布,确定至少一个匹配槽位值对应的第二分布;利用相对熵确定第一分布与第二分布之间的相似度差异;基于相似度差异确定至少一个匹配槽位值与标准槽位值之间的差异。
[0201]
可选地,本实施例提供的装置还包括:
[0202]
意图识别模块,用于确定问答数据对应的问答意图对应的槽位值类别;基于问答数据对应的回答槽位值与槽位值类别之间的匹配关系,确定问答意图与回答槽位值是否匹配;响应于问答意图与回答槽位值匹配,确定问答意图为有效问答意图。
[0203]
示例性电子设备
[0204]
下面,参考图7来描述根据本公开实施例的电子设备。该电子设备可以是第一设备100和第二设备200中的任一个或两者、或与它们独立的单机设备,该单机设备可以与第一设备和第二设备进行通信,以从它们接收所采集到的输入信号。
[0205]
图7图示了根据本公开实施例的电子设备的框图。
[0206]
如图7所示,电子设备70包括一个或多个处理器71和存储器72。
[0207]
处理器71可以是中央处理单元(cpu)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备70中的其他组件以执行期望的功能。
[0208]
存储器72可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各
种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(ram)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(rom)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器71可以运行所述程序指令,以实现上文所述的本公开的各个实施例的信息差异的识别方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
[0209]
在一个示例中,电子设备70还可以包括:输入装置73和输出装置74,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
[0210]
例如,在该电子设备是第一设备100或第二设备200时,该输入装置73可以是上述的麦克风或麦克风阵列,用于捕捉声源的输入信号。在该电子设备是单机设备时,该输入装置73可以是通信网络连接器,用于从第一设备100和第二设备200接收所采集的输入信号。
[0211]
此外,该输入装置73还可以包括例如键盘、鼠标等等。
[0212]
该输出装置74可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出装置74可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
[0213]
当然,为了简化,图7中仅示出了该电子设备70中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备70还可以包括任何其他适当的组件。
[0214]
示例性计算机程序产品和计算机可读存储介质
[0215]
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的信息差异的识别方法中的步骤。
[0216]
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如java、c++等,还包括常规的过程式程序设计语言,诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
[0217]
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的信息差异的识别方法中的步骤。
[0218]
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0219]
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的
各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
[0220]
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0221]
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
[0222]
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
[0223]
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
[0224]
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
[0225]
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1