一种意图识别的方法、装置及计算机可读存储介质与流程

文档序号:21930967发布日期:2020-08-21 14:55阅读:110来源:国知局
一种意图识别的方法、装置及计算机可读存储介质与流程

本发明涉及自然语言处理技术领域,具体涉及一种意图识别的方法、装置及计算机可读存储介质。



背景技术:

随着互联网规模不断增加,智能化地为用户提供网络服务成为了热门的趋势。在这样的趋势下,能够更好的识别出用户的意图就能够真正的了解用户想要的是什么,从而能够为用户提供更贴心的服务,使用户的体验度提升,提高产品的市场竞争力。因此,对用户的操作意图的识别就尤为重要。

传统的意图识别方法主要分为三类,分别是导航类,信息类,事务类。导航类是指用户期望找到某个网站的首页。信息类是指用户期望找到一些满足需求的网页,这些网页往往是内容型的,例如新闻,百科类的网页。通过阅读这些页面,用户可以得到满意的信息。事务类是指用户期望找到某个网页能够完成某项事务。例如银行转账,购买商品,查询机票信息等。

但是,随着信息采集技术的发展,简单地对意图进行分类已经无法满足为用户提供服务时对用户意图的识别要求,用户输入的信息往往简短但表达的内容很复杂,传统的意图识别方法识别出的结果往往不是用户真正想要表达的,这就需要更加智能的意图识别方法来对用户的复杂信息进行识别。

现有技术目前主流的意图识别方法,通常存在着模型的识别准确度不高的问题。针对相关技术中对用户的意图进行识别时识别准确度低的问题,目前还没有有效的解决方案。



技术实现要素:

本发明实施例要解决的技术问题是提供一种意图识别的方法、装置及计算机可读存储介质,用以提升意图识别模型的识别准确度。

为解决上述技术问题,本发明实施例提供的意图识别的方法,包括:

基于语料样本,生成异构文本网络,其中,所述语料样本包括意图已标注的多个标注语料和意图未标注的多个未标注语料,所述异构文本网络包括:所述语料样本与词之间的第一共现关系,以及,词与词之间的第二共现关系;

利用图嵌入算法,对所述异构文本网络进行学习,得到所述语料样本及词的向量表示,并根据所述语料样本与所述语料样本的词之间的向量相似度,确定所述语料样本的关键词;

利用所述多个语料样本的关键词,训练意图识别模型,直至满足预设的训练结束条件后,得到训练完成的所述意图识别模型,其中,所述意图识别模型包括多个不同语言层级的意图识别分类器;

接收查询语料,并利用训练完成的所述意图识别模型,识别所述查询语料的意图。

优选的,所述利用所述多个语料样本的关键词,训练意图识别模型的步骤,包括:

利用所述标注语料的关键词,训练意图识别分类器;

在所述训练结束条件满足时,结束训练过程,否则,利用训练得到的多个意图识别分类器,预测得到所述未标注语料的意图和预测置信度;

获取所述标注语料的特征向量的概率分布,从所述未标注语料中,选择出预测置信度大于预设第一门限,且特征向量对应的概率小于预设第二门限的目标语料,并根据预测得到的意图和预测置信度,对所述目标语料进行标注;

从所述未标注语料中删除所述目标语料,并在所述标注语料中添加所述目标语料,返回利用所述标注语料,训练所述意图识别分类器的步骤。

优选的,所述利用所述标注语料的关键词,训练所述意图识别分类器的步骤,包括:

根据所述意图识别分类器的语言层级,将所述标注语料的关键词,转换为所述语言层级的输入序列;以及,将所述输入序列输入至所述意图识别分类器,对所述意图识别分类器进行训练;

其中,在所述语言层级为词级时,所述输入序列为所述标注语料中的关键词所组成的序列;在所述语言层级为字符级时,所述输入序列为所述标注语料中的关键词拆分得到的字符所组成的序列;在所述语言层级为短语级时,所述输入序列为所述标注语料中的短语组成的序列,且所述短语由所述标注语料中的位置关系满足预定条件的关键词所组成。

优选的,所述基于语料样本,生成异构文本网络的步骤,包括:

对语料样本进行字符串预处理,得到预处理后的语料样本,所述预处理包括数据清洗、去停用词,纠错处理和词干化处理;

抽取出所述语料文本中的词,建立所述语料文本与抽取出的词之间的第一共现关系;以及,抽取出存在于同一语料文本中的两个词,建立词与词之间的第二共现关系;

生成包括所述第一共现关系和第二共现关系的异构文本网络。

优选的,所述根据所述语料样本与所述语料样本的词之间的向量相似度,确定所述语料样本的关键词的步骤,包括:

计算所述语料样本与所述语料样本的各个词之间的向量相似度;

选择出向量相似度最高的预设数量的词,作为所述语料样本的关键词。

优选的,所述语言层级包括以下级别中的至少两个:字符级、词级和短语级。

本发明实施例还提供了一种意图识别装置,包括:

文本网络生成单元,用于基于语料样本,生成异构文本网络,其中,所述语料样本包括意图已标注的多个标注语料和意图未标注的多个未标注语料,所述异构文本网络包括:所述语料样本与词之间的第一共现关系,以及,词与词之间的第二共现关系;

向量生成单元,用于利用图嵌入算法,对所述异构文本网络进行学习,得到所述语料样本及词的向量表示,并根据所述语料样本与所述语料样本的词之间的向量相似度,确定所述语料样本的关键词;

模型训练单元,用于利用所述多个语料样本的关键词,训练意图识别模型,直至满足预设的训练结束条件后,得到训练完成的所述意图识别模型,其中,所述意图识别模型包括多个不同语言层级的意图识别分类器;

意图识别单元,用于接收查询语料,并利用训练完成的所述意图识别模型,识别所述查询语料的意图。

优选的,所述模型训练单元包括:

第一训练单元,用于利用所述标注语料的关键词,训练意图识别分类器;

判断单元,用于在所述训练结束条件满足时,结束训练过程,否则,触发第二训练单元;

第二训练单元,用于根据所述判断单元的触发,利用训练得到的多个意图识别分类器,预测得到所述未标注语料的意图和预测置信度;

语料更新单元,用于获取所述标注语料的特征向量的概率分布,从所述未标注语料中,选择出预测置信度大于预设第一门限,且特征向量对应的概率小于预设第二门限的目标语料,并根据预测得到的意图和预测置信度,对所述目标语料进行标注;从所述未标注语料中删除所述目标语料,并在所述标注语料中添加所述目标语料,并触发所述第一训练单元继续训练所述意图识别分类器。

优选的,所述第一训练单元,具体用于:根据所述意图识别分类器的语言层级,将所述标注语料的关键词,转换为所述语言层级的输入序列;以及,将所述输入序列输入至所述意图识别分类器,对所述意图识别分类器进行训练;

其中,在所述语言层级为词级时,所述输入序列为所述标注语料中的关键词所组成的序列;在所述语言层级为字符级时,所述输入序列为所述标注语料中的关键词拆分得到的字符所组成的序列;在所述语言层级为短语级时,所述输入序列为所述标注语料中的短语组成的序列,且所述短语由所述标注语料中的位置关系满足预定条件的关键词所组成。

优选的,所述文本网络生成单元,具体用于:对语料样本进行字符串预处理,得到预处理后的语料样本,所述预处理包括数据清洗、去停用词,纠错处理和词干化处理;抽取出所述语料文本中的词,建立所述语料文本与抽取出的词之间的第一共现关系;以及,抽取出存在于同一语料文本中的两个词,建立词与词之间的第二共现关系;生成包括所述第一共现关系和第二共现关系的异构文本网络。

本发明实施例还提供了一种意图识别装置,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的意图识别的方法的步骤。

本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的意图识别的方法的步骤。

与现有技术相比,本发明实施例提供的意图识别的方法、装置及计算机可读存储介质,基于图嵌入算法进行关键词的抽取,可以获取相关共现关系的更好表示,在此基础上能够更加高效准确的抽取关键词,从而可以训练得到一种半监督的意图识别模型,该意图识别模型对标注数据的数量依赖性较小,并且识别准确度较高。另外,本发明实施例在进行语料样本的更新时,基于多样性采样的原则,使得标注语料的概率分布更加平衡,由此训练得到的意图识别模型更加鲁棒且有效。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例的意图识别的方法的一种应用场景示意图;

图2为本发明实施例的意图识别的方法的一种流程示意图;

图3为本发明实施例中包括有第一共现关系的共现网络的一个示例图;

图4为本发明实施例中包括有第二共现关系的共现网络的一个示例图;

图5为本发明实施例的意图识别装置的训练过程的一种示意图;

图6为本发明实施例的意图识别装置的一种结构示意图;

图7为本发明实施例的意图识别装置的另一种结构示意图;

图8为本发明实施例的意图识别装置的又一种结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。在下面的描述中,提供诸如具体的配置和组件的特定细节仅仅是为了帮助全面理解本发明的实施例。因此,本领域技术人员应该清楚,可以对这里描述的实施例进行各种改变和修改而不脱离本发明的范围和精神。另外,为了清楚和简洁,省略了对已知功能和构造的描述。

应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。

在本发明的各种实施例中,应理解,下述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。

本发明实施例提出了一种意图识别的方法以及意图识别装置,可以降低意图识别模型对标注数据的依赖度,提升意图识别模型的识别准确度。该方法可以应用于涉及自然语言的意图识别的多种场景,例如,应用于对话机器人或搜索引擎中。图1给出了可以应用本申请的意图识别的方法的实施例的示例性系统架构100。如图1所示,系统架构100可以包括终端设备101、102和103,网络104和服务器105。网络104用以在终端设备101、102和103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102和103通过网络104与服务器105交互,以发送查询语料等信息。终端设备101、102和103上可以安装有各种通讯客户端应用,例如文件编辑应用、信息搜索类应用、信息传输应用等。终端设备101、102和103可以是具有显示屏并且可以发送信息和文件的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。服务器105可以进行意图识别处理。具体的,服务器105可以从终端设备处接收查询语料,将查询语料输入至预先训练得到的意图识别模型,从而预测查询语料的意图,然后,向终端设备返回所述意图的预测结果。

需要说明的是,本申请实施例所提供的所述意图识别的方法可以由服务器105执行,相应地,所述意图识别装置可以设置于服务器105中。当然,本申请实施例所提供的所述意图识别的方法也可以由终端设备执行,相应地,所述意图识别装置可以设置于终端设备中。

应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。

请参照图2,给出了本发明实施例提供的意图识别的方法的一种流程示意图,该意图识别的方法可以降低意图识别模型对标注数据的依赖度,提升意图识别模型的识别准确度。如图2所示,该意图识别的方法可以包括:

步骤201,基于语料样本,生成异构文本网络。

这里,所述语料样本可以包括意图已标注的多个标注语料和意图未标注的多个未标注语料。所述异构文本网络(heterogeneoustextgraph)可以包括:所述语料样本与词之间的第一共现关系,以及,词与词之间的第二共现关系。

具体的,在上述步骤201中,本发明实施例可以对语料样本进行字符串预处理,得到预处理后的语料样本,所述预处理包括数据清洗、去停用词,纠错处理和词干化处理等;然后,抽取出所述语料文本中的词,建立所述语料文本与抽取出的词之间的第一共现关系;以及,抽取出存在于同一语料文本中的两个词,建立词与词之间的第二共现关系;进而生成包括所述第一共现关系和第二共现关系的异构文本网络。

本发明实施例在步骤201中所生成的是一种异构文本网络,不仅包括有词与词之间的共现关系,还包括有词与语料文本之间的共现关系。上述词与词之间的共现关系是指两个词出现在同一个语料文本中,上述语料样本与词之间的第一共现关系是指该词出现在该语料文本中。

图3给出了包括有语料样本与词之间的第一共现关系的一种共现网络的示例,其中词包括:phone、wallpaper和screen,语料文本包括有doc_1和doc_2,如图3所示,每个词和每个语料文本分别为该网络中的一个节点,若某个词出现在某个语料样本中,则通过一个连线,连接该词和该语料样本,用以表示该连线两端的词和语料文本之间存在共现关系,即该连线一端的词,出现在该连线另一端的语料文本中。

图4给出了包括有词与词之间的第二共现关系的一种共现网络的示例,其中包括有多个词,如size、repair和screen等,如图4所示,每个词均为该网络中的一个节点,若某两个词出现在同一个语料样本中,则通过一个连线,连接该两个词,用以表示该连线两端的词之间存在共现关系,即该连线一端的词,与该连线另一端的词,存在于同一个语料文本中。

步骤202,利用图嵌入算法,对所述异构文本网络进行学习,得到所述语料样本及词的向量表示,并根据所述语料样本与所述语料样本的词之间的向量相似度,确定所述语料样本的关键词。

本发明实施例中,可以利用现有的各种图嵌入算法,对步骤201中得到的异构文本网络进行学习,得到所述语料样本及词的向量表示。在获得向量表示后,可以基于向量表示,计算所述语料样本与所述语料样本的各个词之间的向量相似度,然后,选择出向量相似度最高的预设数量的词,作为所述语料样本的关键词。具体的,所述预设数量可以根据需要预先设置,可以设置为1个或多个。例如,在样本语料包括的词较多时,所述预设数量可以设置得较大,反之,在样本语料包括的词较少时,所述预设数量可以设置得较小。又例如,也可以设置所述预设数量为固定值,如均为1个或2个等。

步骤203,利用所述多个语料样本的关键词,训练意图识别模型,直至满足预设的训练结束条件后,得到训练完成的所述意图识别模型,其中,所述意图识别模型包括多个不同语言层级的意图识别分类器。

本发明实施例引入了不同语言层级的多个意图识别分类器,以提高意图识别的鲁棒性。具体的,所述语言层级可以包括以下级别中的至少两个:字符级、词级和短语级。上述语言层级的设置可以参考现有技术实现,本发明实施例对此不做具体限定。一种可能的设置为:

对于英文等语言,其单词是由字母组成的,单词可以包括有词根。因此,字符级的语言层级可以是字母或字母组成的词根;词级的语言层级可以是单词;短语级的语言层级可以是至少2个单词组成的短语。

对于中文等语言,字符级的语言层级可以是单个汉字;词级的语言层级通常为由至少2个汉字组成的词语;短语级的语言层级可以是包括至少2个词语的短语或者是包括至少1个汉字和1个词语的短语。

需要说明的是,训练意图识别模型时,对于意图识别模型中的各个语言层级的意图识别分类器,需要将语料样本中的关键词进行对应处理,使之与该意图识别分类器的语言层级相匹配。具体的,在上述步骤203中,可以根据所述意图识别分类器的语言层级,将所述标注语料的关键词,转换为所述语言层级的输入序列;以及,将所述输入序列输入至所述意图识别分类器,对所述意图识别分类器进行训练。

例如,在所述语言层级为词级时,所述输入序列为所述标注语料中的关键词所组成的序列;在所述语言层级为字符级时,所述输入序列为所述标注语料中的关键词拆分得到的字符所组成的序列;在所述语言层级为短语级时,所述输入序列为所述标注语料中的短语组成的序列,且所述短语由所述标注语料中的位置关系满足预定条件的关键词所组成。例如,所述预定条件可以是关键词在所述标注语料中位置相邻,即由在所述标注语料中位置相邻的关键词组成的短语;又例如,所述预定条件还可以是关键词在所述标注语料中距离不超过某个预设数值,这里,两个关键词之间的距离可以用该两个关键词之间存在的关键词的数量来表示,比如,在两个关键词位置相邻时,该两个关键词的距离则为0;在两个关键词间仅存在1个关键词时,该两个关键词的距离为1。

在上述步骤203中,可以利用所述标注语料的关键词,训练意图识别分类器;然后判断是否满足预设的训练结束条件:在所述训练结束条件满足时,结束训练过程,否则,利用训练得到的多个意图识别分类器,预测得到所述未标注语料的意图和预测置信度;此时,可以将预测置信度较高(如达到预设可信度以上)的未标注语料,按照意图的预测结果进行标注,并将这些新标注的未标注语料添加到标注语料中,以对标注语料进行更新;然后,返回上述的利用所述标注语料的关键词,训练意图识别分类器,以进行重复训练,直至满足所述训练结束条件。

在意图识别模型的训练满足预设的训练结束条件后,可以结束训练,此时得到训练完成的意图识别模型。所述训练结束条件可以是训练次数达到预设次数,训练时间达到预定时长,意图识别模型收敛度达到预设要求等。

步骤204,接收查询语料,并利用训练完成的所述意图识别模型,识别所述查询语料的意图。

在获得步骤203的意图识别模型后,本发明实施例可以利用该意图识别模型,对接收到的查询语料进行意图识别,预测所述查询语料的意图,并将预测结果进行输出。

从以上步骤可以看出,本发明实施例提供的意图识别的方法,基于词之间的共现关系以及词与语料样本之间的共现关系,生成异构文本网络,并基于图嵌入算法进行关键词的抽取,可以获取相关共现关系的更好表示,在此基础上能够更加高效准确的抽取关键词,从而可以训练得到一种半监督的意图识别模型,该意图识别模型对标注数据的数量依赖性较小,并且识别准确度较高。

这里,需要说明的是,本发明实施例的意图识别模型包括多个意图识别分类器,在利用语料进行训练或对语料进行意图识别时,每个意图识别分类器均会输出一个意图预测结果及其预测置信度。本发明实施例可以在多数(超过半数)意图识别分类器的预测结果相同时,将该多个意图识别分类器的意图预测结果,作为所述语料的预测结果,并基于该多个意图识别分类器的预测置信度,确定该预测结果的预测置信度。例如,对该多个意图识别分类器的预测置信度进行平均值计算,将计算结果作为该预测结果的预测置信度。又例如,可以将多个意图识别分类器的预测置信度中的最大者或最小者,作为该预测结果的预测置信度。

语料样本的数据分布,反应了不同类别语料样本多样性的特征。传统的半监督意图识别模型中,样本选择倾向于选择预测结果较高的未标注语料。这一过程中易忽略标注数据的数据分布,导致样本选择后数据分布难以体现数据多样性,不利于模型泛化。本发明实施例进一步引入了多样性采样的特征,旨在考虑当前标注样本的数据分布情况下进行未标注样本的选择,从而对标注语料的数据库进行扩充,实现基于少量标注语料达到意图识别的目的。

具体的,为了进一步通过训练得到的意图识别模型的鲁棒性和有效性,本发明实施例在上述步骤203中,在进行语料样本的更新时,可以基于多样性采样的原则,使得标注语料的概率分布更加平衡,由此训练得到的意图识别模型更加鲁棒且有效。

结合图5所示的意图识别模型,介绍上述步骤203的一种训练过程。图5中的意图识别模型包括意图识别分类器1~n共n个分类器,每个分类器具体可以是基于长短期记忆网络(lstm,longshort-termmemory)模型的分类器,也可以是基于其他模型的分类器,本发明实施例对此不做具体限定。具体的,上述步骤203可以包括:

步骤203a,利用所述标注语料的关键词,训练意图识别分类器,然后判断所述训练结束条件是否满足,并在满足时结束训练过程,否则,进入步骤203b。

这里,基于当前的标注语料执行一次训练过程,具体的,可以将所有的标注语料输入至各个意图识别分类器,并利用标注语料的标注数据对各个意图识别分类器进行训练,并在本次训练结束后,判断是否满足所述训练结束条件,如果满足,则可以输出训练得到的意图识别模型,否则,可以进入后续步骤203b以更新标注语料的样本数据。

步骤203b,利用训练得到的多个意图识别分类器,预测得到所述未标注语料的意图和预测置信度。

在上述步骤203b中,利用步骤203a中训练得到的意图识别分类器,预测各个未标注语料的意图,得到意图的预测结果及其预测置信度。这里,可以将满足预测结果满足预定条件的未标注语料添加到一候选集合中。具体的,所述预定条件可以是,所述多个意图识别分类器中的半数以上的意图识别分类器,对该未标注语料的预测结果均相同,此时将该半数以上的意图识别分类器的预测结果作为所述未标注语料的意图预测结果;还可以是所述多个意图识别分类器的预测结果存在着置信度高于某个预设置信度门限值的预测结果,此时可以将具有最高置信度的意图识别分类器的预测结果作为所述未标注语料的意图预测结果。所述未标注语料的意图预测结果的预测置信度,可以按照前文的方式确定,此处不再赘述。

步骤203c,获取所述标注语料的特征向量的概率分布,从所述未标注语料中,选择出预测置信度大于预设第一门限,且特征向量对应的概率小于预设第二门限的目标语料,并根据预测得到的意图和预测置信度,对所述目标语料进行标注。

这里,所选择的目标语料,其预测置信度大于预设第一门限,且该目标语料的特征向量,在所述标注语料的特征向量的概率分布中的对应概率小于第二门限。也就是说,本发明实施例在对标注语料中的语料数据进行补充时,优先选择当前标注语料中特征向量分布概率较低的未标注语料,从而可以使得用于训练模型的标注语料的分布更为合理,这样训练得到的模型更加鲁棒和有效。另外,在上述步骤203c中,可以从所述候选集中选择满足上述条件的目标语料,以减少语料选择时的计算量。

步骤203d,从所述未标注语料中删除所述目标语料,并在所述标注语料中添加所述目标语料,从而实现了对标注语料的补充更新,然后返回步骤203a继续下一次的训练过程。

通过以上步骤,本发明实施例可以使得标注语料的特征向量分布更加平衡,从而可以使得训练得到的意图识别模型的鲁棒性和有效性得到提高。

基于以上方法,本发明实施例还提供了实施上述方法的装置,请参考图6,本发明实施例提供的意图识别装置500,包括:

文本网络生成单元501,用于基于语料样本,生成异构文本网络,其中,所述语料样本包括意图已标注的多个标注语料和意图未标注的多个未标注语料,所述异构文本网络包括:所述语料样本与词之间的第一共现关系,以及,词与词之间的第二共现关系;

向量生成单元502,用于利用图嵌入算法,对所述异构文本网络进行学习,得到所述语料样本及词的向量表示,并根据所述语料样本与所述语料样本的词之间的向量相似度,确定所述语料样本的关键词;

模型训练单元503,用于利用所述多个语料样本的关键词,训练意图识别模型,直至满足预设的训练结束条件后,得到训练完成的所述意图识别模型,其中,所述意图识别模型包括多个不同语言层级的意图识别分类器;

意图识别单元504,用于接收查询语料,并利用训练完成的所述意图识别模型,识别所述查询语料的意图。

优选的,如图7所示,所述模型训练单元503包括:

第一训练单元5031,用于利用所述标注语料的关键词,训练意图识别分类器;

判断单元5032,用于在所述训练结束条件满足时,结束训练过程,否则,触发第二训练单元;

第二训练单元5033,用于根据所述判断单元的触发,利用训练得到的多个意图识别分类器,预测得到所述未标注语料的意图和预测置信度;

语料更新单元5034,用于获取所述标注语料的特征向量的概率分布,从所述未标注语料中,选择出预测置信度大于预设第一门限,且特征向量对应的概率小于预设第二门限的目标语料,并根据预测得到的意图和预测置信度,对所述目标语料进行标注;从所述未标注语料中删除所述目标语料,并在所述标注语料中添加所述目标语料,并触发所述第一训练单元继续训练所述意图识别分类器。

优选的,所述第一训练单元5031,具体用于:根据所述意图识别分类器的语言层级,将所述标注语料的关键词,转换为所述语言层级的输入序列;以及,将所述输入序列输入至所述意图识别分类器,对所述意图识别分类器进行训练;

其中,在所述语言层级为词级时,所述输入序列为所述标注语料中的关键词所组成的序列;在所述语言层级为字符级时,所述输入序列为所述标注语料中的关键词拆分得到的字符所组成的序列;在所述语言层级为短语级时,所述输入序列为所述标注语料中的短语组成的序列,且所述短语由所述标注语料中的位置关系满足预定条件的关键词所组成。

优选的,所述文本网络生成单元501,具体用于:对语料样本进行字符串预处理,得到预处理后的语料样本,所述预处理包括数据清洗、去停用词,纠错处理和词干化处理;抽取出所述语料文本中的词,建立所述语料文本与抽取出的词之间的第一共现关系;以及,抽取出存在于同一语料文本中的两个词,建立词与词之间的第二共现关系;生成包括所述第一共现关系和第二共现关系的异构文本网络。

优选的,所述向量生成单元502,具体用于计算所述语料样本与所述语料样本的各个词之间的向量相似度;选择出向量相似度最高的预设数量的词,作为所述语料样本的关键词。

优选的,所述语言层级包括以下级别中的至少两个:字符级、词级和短语级。

通过以上单元,本发明实施例的意图识别装置500,可以降低意图识别模型对标注数据的依赖度,提升意图识别模型的识别准确度。

请参考图8,本发明实施例还提供了意图识别装置的一种硬件结构框图,如图8所示,该意图识别装置700包括:

处理器702;和

存储器704,在所述存储器704中存储有计算机程序指令,

其中,在所述计算机程序指令被所述处理器运行时,使得所述处理器702执行以下步骤:

基于语料样本,生成异构文本网络,其中,所述语料样本包括意图已标注的多个标注语料和意图未标注的多个未标注语料,所述异构文本网络包括:所述语料样本与词之间的第一共现关系,以及,词与词之间的第二共现关系;

利用图嵌入算法,对所述异构文本网络进行学习,得到所述语料样本及词的向量表示,并根据所述语料样本与所述语料样本的词之间的向量相似度,确定所述语料样本的关键词;

利用所述多个语料样本的关键词,训练意图识别模型,直至满足预设的训练结束条件后,得到训练完成的所述意图识别模型,其中,所述意图识别模型包括多个不同语言层级的意图识别分类器;

接收查询语料,并利用训练完成的所述意图识别模型,识别所述查询语料的意图。

进一步地,如图8所示,该意图识别装置700还可以包括网络接口701、输入设备703、硬盘705、和显示设备706。

上述各个接口和设备之间可以通过总线架构互连。总线架构可以是包括任意数量的互联的总线和桥。具体由处理器702代表的一个或者多个中央处理器(cpu),以及由存储器704代表的一个或者多个存储器的各种电路连接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其它电路连接在一起。可以理解,总线架构用于实现这些组件之间的连接通信。总线架构除包括数据总线之外,还包括电源总线、控制总线和状态信号总线,这些都是本领域所公知的,因此本文不再对其进行详细描述。

所述网络接口701,可以连接至网络(如因特网、局域网等),从网络中接收信息,并可以将接收到的信息保存在硬盘705中,例如,将收集到的语料样本保存在硬盘705中。

所述输入设备703,可以接收操作人员输入的各种指令,并发送给处理器702以供执行。所述输入设备703可以包括键盘或者点击设备(例如,鼠标,轨迹球(trackball)、触感板或者触摸屏等)。

所述显示设备706,可以将处理器702执行指令获得的结果进行显示,例如显示语料的意图预测结果及其置信度等。

所述存储器704,用于存储操作系统运行所必须的程序和数据,以及处理器702计算过程中的中间结果等数据。

可以理解,本发明实施例中的存储器704可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(rom)、可编程只读存储器(prom)、可擦除可编程只读存储器(eprom)、电可擦除可编程只读存储器(eeprom)或闪存。易失性存储器可以是随机存取存储器(ram),其用作外部高速缓存。本文描述的装置和方法的存储器704旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中,存储器704存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:操作系统7041和应用程序7042。

其中,操作系统7041,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序7042,包含各种应用程序,例如浏览器(browser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序7042中。

本发明上述实施例揭示的方法可以应用于处理器702中,或者由处理器702实现。处理器702可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器702中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器702可以是通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器704,处理器702读取存储器704中的信息,结合其硬件完成上述方法的步骤。

可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑设备(pld)、现场可编程门阵列(fpga)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现,可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

具体地,所述计算机程序被处理器702执行时还可实现如下步骤:

利用所述标注语料的关键词,训练意图识别分类器;

在所述训练结束条件满足时,结束训练过程,否则,利用训练得到的多个意图识别分类器,预测得到所述未标注语料的意图和预测置信度;

获取所述标注语料的特征向量的概率分布,从所述未标注语料中,选择出预测置信度大于预设第一门限,且特征向量对应的概率小于预设第二门限的目标语料,并根据预测得到的意图和预测置信度,对所述目标语料进行标注;

从所述未标注语料中删除所述目标语料,并在所述标注语料中添加所述目标语料,返回利用所述标注语料,训练所述意图识别分类器的步骤。

具体地,所述计算机程序被处理器702执行时还可实现如下步骤:

根据所述意图识别分类器的语言层级,将所述标注语料的关键词,转换为所述语言层级的输入序列;以及,将所述输入序列输入至所述意图识别分类器,对所述意图识别分类器进行训练;

其中,在所述语言层级为词级时,所述输入序列为所述标注语料中的关键词所组成的序列;在所述语言层级为字符级时,所述输入序列为所述标注语料中的关键词拆分得到的字符所组成的序列;在所述语言层级为短语级时,所述输入序列为所述标注语料中的短语组成的序列,且所述短语由所述标注语料中的位置关系满足预定条件的关键词所组成。

具体地,所述计算机程序被处理器702执行时还可实现如下步骤:

对语料样本进行字符串预处理,得到预处理后的语料样本,所述预处理包括数据清洗、去停用词,纠错处理和词干化处理;

抽取出所述语料文本中的词,建立所述语料文本与抽取出的词之间的第一共现关系;以及,抽取出存在于同一语料文本中的两个词,建立词与词之间的第二共现关系;

生成包括所述第一共现关系和第二共现关系的异构文本网络。

计算所述语料样本与所述语料样本的各个词之间的向量相似度;

选择出向量相似度最高的预设数量的词,作为所述语料样本的关键词。

优选的,所述语言层级包括以下级别中的至少两个:字符级、词级和短语级。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的意图识别的方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、rom、ram、磁盘或者光盘等各种可以存储程序代码的介质。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1