一种文本查询方法、装置、设备及存储介质与流程

文档序号:21848441发布日期:2020-08-14 17:18阅读:118来源:国知局
一种文本查询方法、装置、设备及存储介质与流程

本申请涉及计算机技术领域中的智能检索技术领域,尤其涉及一种文本查询方法、装置、设备及存储介质。



背景技术:

目前对文本查询的方式主要是用户手动查询的方式,具体为用户在页面和输入框等组件中,进行一系列的点击、拖拽和文字输入等操作,然后才能找到相应的查询功能并进行相应的查询。可见,目前文本查询的查询效率较低。



技术实现要素:

本申请提供了一种文本查询方法、装置、设备及存储介质,以解决文本查询的查询效率较低的问题。

根据第一方面,提供了一种文本查询方法,包括:

识别查询文本的意图信息和特征信息,所述意图信息用于表示所述查询文本的意图;

依据意图信息,确定用于查询所述意图的查询接口;

通过所述查询接口,在所述意图对应的信息中查询与所述特征信息匹配的查询结果。

根据第二方面,提供了一种文本查询装置,包括:

识别模块,用于识别查询文本的意图信息和特征信息,所述意图信息用于表示所述查询文本的意图;

确定模块,用于依据意图信息,确定用于查询所述意图的查询接口;

查询模块,用于通过所述查询接口,在所述意图对应的信息中查询与所述特征信息匹配的查询结果。

根据第三方面,提供了一种电子设备,其特征在于,包括:

至少一个处理器;以及

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请提供的文本查询方法。

根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行申请提供的文本查询方法。

根据本申请的技术方案提高了文本查询的查询效率。

应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案,不构成对本申请的限定。其中:

图1是本申请提供的本申请提供的一种文本查询方法的流程图;

图2是本申请提供的一种语言模型的示意图;

图3是本申请提供的一种时间信息解析的示意图;

图4是本申请提供的本申请提供一种文本查询装置的结构图;

图5是用来实现本申请实施例的多媒体内容检索方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

请参见图1,图1是本申请提供的一种文本查询方法的流程图,如图1所示,包括以下步骤:

步骤s101、识别查询文本的意图信息和特征信息,所述意图信息用于表示所述查询文本的意图。

其中,上述意图可以表示上述查询文本的查询意图,而上述意图信息可以是从查询文本中提取的意图信息,例如:查询文本“上周李四的出行记录”,则意图信息可以包括出行、人、记录等意图信息;又例如:查询文本“上周住宿条件怎么”,则意图信息可以包括住宿等意图信息。进一步的,上述意图信息还可以包括从查询文本中分析出的意图信息,例如:查询文本“上周住宿条件怎么”,则可以识别该查询文本的意图信息可以包括酒店。

而上述特征信息可以包括查询文本的时间、实体等信息。

另外,上述查询文本可以是自由文本查询语句、自然文本查询语句或者规则查询语句。

进一步的,上述查询文本可以是将输入语音进行转换得到的文本,或者是输入的文本。

步骤s102、依据意图信息,确定用于查询所述意图的查询接口。

本申请中,可以预先配置多个查询接口,不同查询接口用于查询不同意图的查询结果。

本申请查询接口可以是应用程序接口(applicationprogramminginterface,api)

步骤s103、通过所述查询接口,在所述意图对应的信息中查询与所述特征信息匹配的查询结果。

上述意图对应的信息可以是与该意图关联信息的,例如:以出行意图为例,该意图对应的信息可以包括出行相关的信息,如路线、天气、航班等信息。

而上述与所述特征信息匹配的查询结果可以是,在上述意图对应的信息与上述特征信息获取的信息,如文本、图片或者视频等信息,当然,这些信息的组合。进一步的,上述特征信息也可以理解为上述接口的查询参数。

本申请中,通过上述步骤可以实现直接通过意图对应的查询结果查询与特征信息匹配的查询结果,以提高文本查询的效率。

例如:对于如下查询文本:

最近张三同行的人?

上周李四的出行记录?

小张的父亲是谁?

查询结果可以包括:具体的记录信息、相关人员的基本信息、相关文章的全文检索信息、关系图谱、行为轨迹等。

进一步,本申请还可以对查询结果按照与查询文本相似度得分对查询结果进行排序。

需要说明的是,本申请提供的文本查询方法可以应用于电子设备,如服务器、计算机、手机等电子设备。

作为一种可选的实施方式,上述特征信息包括如下至少一项:

实体信息和时间信息。

其中,上述实体信息可以表示上述查询文本中的实体,这些实体可以是人、事、地、物、案等实体类别。

而上述时间信息可以表示上述查询文本对应的时间,如时间点或者时间段。

该实施方式中,可以查询与上述意图对应的信息中查询与实体信息和时间信息中至少一项匹配的查询结果,从而可以提高查询结果的精度。

可选的,所述实体信息为通过语言模型识别的所述查询文本的实体信息。

其中,上述语言模型可以是深度学习神经网络模型、递归神经网络模型。例如:如图2所示的网络模型,当然,图2仅是举例,本申请对语言模型不作限定。

另外,上述语言模型可以是通过深度学习或者条件随机场(crf)的方式建立的语言模型。

以深度学习建立的语言模型为例,可以在训练过程中可以对语句的每个字或者单词都有对应标注,具体可以采用序列到序列(sequencetosequence)模型。

以长短期记忆网络(longshort-termmemory,lstm)语言模型为例,训练可以有监督的语料库。

例如:针对“上周李四的出行记录”,其中,上周->“时间”;李四->“人名”;出行->“行为类型”;记录->“default”。

那么这个样例则为一条有监督的标注数据,lstm语言模型可以直接对分词后的语料建立语言模型,也可以不通过分词,直接用字向量建立语言模型。

而条件随机场的方法,可以采用分词后的语料建立语言模型。

该实施方式中,由在语言模型识别实体信息,这样可以提高实体信息的准确性,且还可以快速识别出实体信息。

需要说明的是,本申请中并不限定通过语言模型识别实体信息,也可以采用其他方式识别实体信息,例如:通过语义识别技术识别查询文本的实体信息。

可选的,所述时间信息包括时间点信息和时间段信息中的至少一项,其中,所述时间点信息为从时间描述信息中解析得的,所述时间段信息为依据所述时间点信息从所述时间描述信息中解析得到的,所述时间描述信息为从所述查询文本中提取的时间描述信息。

其中,上述解析时间点信息可以是根据预设的时间粒度进行解析,其中,时间粒度信息可以如表1表示:

表1:

上述时间段信息可以是依据上述时间点信息确定时间点,再依据时间描述信息关键点字(如至、到等)确定具体的时间段信息,且上述时间段信息解析可以是按照单个时间点、两个同类时间点或者两个异类时间点等方式进行解析,例如:如表2所示:

表2:

而上述时间描述信息可以是从上述查询文本中提取的与时间相关的信息。例如:可以通过语言模型提取或者通过语义分析方式的提取等,对此不作限定。

该实施方式中,由于可以解析得到时间点信息和时间段信息中的至少一项,这样可以提高时间信息的准确性,进而提高查询结果的准确性。

可选的,所述时间点信息通过如下方式获得:

对所述时间描述信息进行归一化,得到时间归一化信息;

查询与所述时间归一化信息匹配的时间解析规则;

若存在多个与所述时间归一化信息匹配的时间解析规则时,采用预设的冲突解决策略选择目标时间解析规则解析所述时间归一化信息,以得到所述时间点信息;若只有一个与所述时间归一化信息匹配的时间解析规则时,采用所述时间解析规则解析所述归一化信息,以得到所述时间点信息。

上述对所述时间描述信息进行归一化,得到时间归一化信息可以是,将时间信息归一化成同一类型的时间信息,例如:大写的时间信息归一化为数字表示的时间信息。

该实施方式中,可以预先配置好多个时间解析规则,例如:不同时间粒度的时间解析规则,当然,针对同一时间粒度也可以配置多种时间解析规则,对此不作限定。另外,不同时间解析规则解析出的时间点信息的类型可以不同,例如:一些时间解析规则可以解析出年、月、日、小时,而另一些时间解析规则可以解析出月、日、小时等。

上述查询与所述时间归一化信息匹配的时间解析规则可以是,在预先配置的多个时间解析规则中查询可以解析出上述时间归一化信息的时间解析规则。

上述若存在多个与所述时间归一化信息匹配的时间解析规则时,采用预设的冲突解决策略选择目标时间解析规则解析所述归一化信息可以是,在多个时间解析规则中选择解析时间粒度最小的时间解析规则作为目标时间解析规则,当然,对此不作限定,例如:也选择解析时间粒度第二小的时间解析规则作为目标时间解析规则,具体的,上述冲突解决策略可以是预先配置。

该实施方式中,通过上述冲突解决策略选择目标时间解析规则解析归一化信息,可以解决时间信息冲突而导致时间信息不准确的问题。

例如:如图3所示,时间点信息和时间段信息可以通过:时间描述提取、归一化、规则匹配、冲突解决、解析时间点和解析时间段这些过程获取准确的时间信息。

进一步的,该实施方式中,由于将时间描述信息进行归一化,从而可以提高时间信息解析的准确性。

作为一种可选的实施方式,上述意图信息包括多级意图信息,所述查询接口为用于查询目标意图信息所表示的目标意图的查询接口,所述目标意图信息为所述多级意图信息中的一级意图信息;

所述通过所述查询接口,在所述意图对应的信息中查询与所述特征信息匹配的查询结果,包括:

通过所述查询接口,在所述目标意图对应的目标类别信息中查询与所述特征信息匹配的查询结果,其中,所述目标类别信息的信息类别与其他意图信息所表示的意图匹配,且所述目标类别信息为与所述目标意图对应的信息,所述其他意图信息为所述多级意图信息中除所述目标意图信息之外的意图信息。

其中,上述多级意图信息表示识别查询文本的意图,以及具体的条件。另外,上述多级意图信息可以包括三级意图信息:例如:

一级意图类别:人、物、记录等;

二级意图类别:社会背景、关联关系等;

三级意图类别:出行、住宿等。

而上述目标意图信息可以是三级意图,如出行、住宿、天气等意图。

进一步的,不同级别意图信息可以通过相同或者不同的方式识别,例如:一级意图信息可以通过语言模型识别,如通过svm/lstm语言模型识别,而二级或者/三级意图可以通过关键字正则匹配方式进行识别,当然,对此不作限定。

以上述目标意图信息为出行,其他意图信息包括人、社会背景为例,这样可以在出行对应的信息中查询信息类型为人,且为社会背景的相关信息。

该实施方式中,查询接口可以为内部接口,这些内部接口可以定义在一些规则文件中,如drools或者其他规则文件。

当上述目标意图信息(例如:三级意图)的类别满足某一个条件,就触发对应的内部接口,然后完成自动调用,以查询到相应的查询结果。

该实施方式中,由于获取多级意图信息可以在查询只需要在对应的类别信息中查询,从而进一步提高文本查询效率。

下面定义的是一个“出行(chuxing)”类的查询规则。查询文本(query)满足第一类意图是人,第三类意图是出行,那么执行指定的内部api。查询元素(queryelement)包含实体识别、时间解析的结果。这样调用出行这一意图对应的接口,通过该接口在出行对应的信息中查询类别与人匹配的,且与特征信息匹配的查询结果。

另外,对于多个查询接口同时触发和执行的情况,可以通过设定属性(例如:salience属性)指定优先级。

本申请中,通过上述方法可以实现直接通过意图对应的查询结果查询与特征信息匹配的查询结果,以提高文本查询的效率。

请参见图4,图4是本申请提供的一种文本查询装置的结构图,如图4所示,文本查询装置400包括:

识别模块401,用于识别查询文本的意图信息和特征信息,所述意图信息用于表示所述查询文本的意图;

确定模块402,用于依据意图信息,确定用于查询所述意图的查询接口;

查询模块403,用于通过所述查询接口,在所述意图对应的信息中查询与所述特征信息匹配的查询结果。

可选的,所述特征信息包括如下至少一项:

实体信息和时间信息。

可选的,所述实体信息为通过语言模型识别的所述查询文本的实体信息;和/或

所述时间信息包括时间点信息和时间段信息中的至少一项,其中,所述时间点信息为从时间描述信息中解析得的,所述时间段信息为依据所述时间点信息从所述时间描述信息中解析得到的,所述时间描述信息为从所述查询文本中提取的时间描述信息。

可选的,所述时间点信息通过如下方式获得:

对所述时间描述信息进行归一化,得到时间归一化信息;

查询与所述时间归一化信息匹配的时间解析规则;

若存在多个与所述时间归一化信息匹配的时间解析规则时,采用预设的冲突解决策略选择目标时间解析规则解析所述时间归一化信息,以得到所述时间点信息;若只有一个与若所述时间归一化信息匹配的时间解析规则时,采用所述时间解析规则解析所述归一化信息,以得到所述时间点信息。

可选的,所述意图信息包括多级意图信息,所述查询接口为用于查询目标意图信息所表示的目标意图的查询接口,所述目标意图信息为所述多级意图信息中的一级意图信息;

所述查询模块403用于通过所述查询接口,在所述目标意图对应的目标类别信息中查询与所述特征信息匹配的查询结果,其中,所述目标类别信息的信息类别与其他意图信息所表示的意图匹配,且所述目标类别信息为与所述目标意图对应的信息,所述其他意图信息为所述多级意图信息中除所述目标意图信息之外的意图信息。

本实施例提供的装置能够实现本申请的方法实施例中实现的各个过程,且可以达到相同有益效果,为避免重复,这里不再赘述。

根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。

如图5所示,是根据本申请实施例的文本查询方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图5所示,该电子设备包括:一个或多个处理器501、存储器502,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示gui的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图5中以一个处理器501为例。

存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的文本查询方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的文本查询方法。

存储器502作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的文本查询方法对应的程序指令/模块(例如,附图4所示的识别模块401、确定模块402和查询模块403)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的文本查询方法。

存储器502可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据文本查询方法的电子设备的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器502可选包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至文本查询方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

文本查询方法的电子设备还可以包括:输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接,图5中以通过总线连接为例。

输入装置503可接收输入的数字或字符信息,以及产生与文本查询方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如,led)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(lcd)、发光二极管(led)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用asic(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(pld)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案,可以实现直接通过意图对应的查询结果查询与特征信息匹配的查询结果,以提高文本查询的效率。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1