标准知识库的构建方法、电子装置及存储介质与流程

文档序号:14008369阅读:119来源:国知局
标准知识库的构建方法、电子装置及存储介质与流程

本发明涉及数据库维护领域,涉及一种标准知识库的构建方法、电子装置及存储介质。



背景技术:

随着互联网的飞速发展,人们服务意识的提高,网络客服已经普及到各行各业,深入到日常商业服务的各个环节。

目前,常见的网络客户通常由智能客服机器人和人工客服组成,相较于传统的客服方式,智能客服可以实现昼夜和节假日的全天候服务,分流人工客服负担,从而有效降低企业客服领域的运营成本。

但是,智能客服机器人的回答都是事先设置好的,通常都是按一个问题对应一个答案的方式进行配对保存在基础数据库中,因此在构建基础数据库时,需要尽可能多地维护问题-答案对,以实现智能客服机器人的智能回答,因而也使得基础数据库的维护工作量巨大,各种问题只要有一处关键词变化,就要重新维护一个问题-答案对,耗费大量的人力成本。

因此,现在急需一种可快速维护基础数据库的方法,以降低企业在基础数据库维护方面的人力成本。



技术实现要素:

本发明要解决的技术问题是为了克服现有技术中数据库维护工作量大的问题,提出了一种标准知识库的构建方法、电子装置及计算机可读存储介质,通过设定问题和答案的组成规则,使得系统可以根据设定的规则将接收到的内容进行问题和答案的自动生成。

本发明是通过下述技术方案来解决上述技术问题:

1、一种标准知识库的构建方法,其特征在于,包括如下步骤:

s1、构建答案文件:搜集答案,将所述答案按统一格式拆分后整理到同一个文件中,所述文件包括表格或者文本;

s2、构建问题模板:根据答案文件中的答案确定问题模板,所述问题模板为包括有若干变动项、若干恒定项和疑问词的词序列;

s3、设置恒定项和疑问词:根据答案文件中的答案所表述的意思,确定问题模板中的恒定项和疑问词;

s4、形成问题-答案对:根据问题-答案对的生成规则,获取所述答案文件中相应位置的内容嵌入到所述问题模板中的相应变动项中生成问题,同时获取答案文件中相应位置的内容以生成答案,将生成的所述问题和所述答案关联保存为问题-答案对。

其中,当步骤s1中所述文件为表格时,包括以下分步骤:

s11、搜集答案;

s12、将每个答案拆分为由若干关键词组成的词序列;

s13、获取每个词序列中表征答案含义的两个含义关键词;

s14、将含义关键词去重并分类;

s15、将一类含义关键词作为表格的首行,另一类含义关键词作为表格的首列,且首行和首列的交叉单元格空白;

s16、获取词序列中表征答案数值的数值关键词;

s17、将所述数值关键词填写在该数值关键词所在词序列中的两个含义关键词所在行和列交叉的单元格内。

进一步地,步骤s2具体包括以下分步骤:

s21、对应答案文件中含义关键词的种类确定问题模板中变动项的数量;

s22、根据语法,在变动项、恒定项和疑问词之间加入虚词,以形成符合语法的问题模板。

更进一步地,步骤s4具体包括以下分步骤:

s40、获取表格中首行和首列中首个非空白单元格作为两个变动项的当前位置;

s41、根据问题-答案对的生成规则,获取当前位置中的含义关键词对应嵌入到问题模板的变动项位置生成问题暂存;

s42、获取生成问题的两个含义关键词所在行和列交叉的单元格中数值关键词作为答案暂存;

s43、将暂存的问题和答案关联保存;

s44、判断首个变动项对应的当前位置中的含义关键词是否为该含义关键词所在首行或者首列中的最后一个词,若是则执行步骤s46,若否则执行步骤s45;

s45、将首个变动项对应的当前位置沿该当前位置中的含义关键词所在的首行或者首列向后顺序推移一个,并重置首个变动项对应的当前位置,执行步骤s41;

s46、判断第二个变动项对应当前位置中的含义关键词是否为该含义关键词所在首例或者首行中的最后一个词,若是则执行步骤s48,若否则执行步骤s47;

s47、将第二个变动项对应的当前位置沿该当前位置中的含义关键词所在的首列或者首行向后顺序推移一个,执行步骤s41;

s48、结束。

其中,当步骤s1中所述文件为文本时,包括以下分步骤:

s11’、搜集答案;

s12’、将每个答案拆分为由若干关键词组成的词序列;

s13’、保留词序列中表征答案含义的含义关键词和表征答案数值的数值关键词;

s14’、将同一个词序列中的含义关键词和数值关键词按顺序排列,并在各关键词之间采用统一的关键词分隔符进行分隔;

s15’、在不同词序列之间采用不同于关键词分隔符的统一的词序列分隔符进行分隔。

进一步地,步骤s2具体包括以下分步骤:

s21’、对应答案文件中同一个词序列中关键词分隔符的数量确定问题模板中变动项的数量;

s22’、根据语法,在变动项、恒定项和疑问词之间加入虚词,以形成符合语法的问题模板。

更进一步地,步骤s4包括以下分步骤:

s40’、获取文本中首个词序列分隔符的位置作为当前词序列分隔符的位置,以及首个词序列分隔符之前各关键词分隔符的位置作为各当前关键词分隔符的位置;

s41’、根据问题-答案对的生成规则,获取各当前关键词分隔符之前的各含义关键词对应嵌入到问题模板的变动项位置生成问题暂存;

s42’、获取当前词序列分隔符之前数值关键词作为答案暂存;

s43’、将暂存的问题和答案关联保存;

s44’、判断当前词序列分隔符是否为答案文件中最后一个词序列分隔符,若是则执行步骤s47’,若否则执行步骤s45’;

s45’、将当前词序列分隔符的位置顺序后移并重置当前词序列分隔符的位置;

s46’、各当前关键词分隔符的位置重置为当前词序列分隔符之前各关键词分隔符的位置,执行步骤s41’;

s47’、结束。

其中,步骤s3具体包括以下分步骤:

s31、将每个答案拆分为由若干关键词组成的词序列;

s32、获取词序列中表征答案含义的含义关键词中的抽象名词作为恒定项;

s33、在恒定项之后设置一个适合于询问答案文件中数值关键词的疑问词。

一种电子装置,包括存储器和处理器,所述存储器上存储有可被所述处理器执行的标准知识库的构建系统,所述标准知识库的构建系统包括:

文件接收模块,用于接收整理好的答案文件,所述答案文件中包含有至少一个答案,所述答案按统一格式拆分后整理到同一个文件中,所述文件包括表格或者文本;

模板设置模块,用于根据答案文件中的答案设置问题模板,所述问题模板为包括有若干变动项、若干恒定项和疑问词的词序列;

输入模块,用于接收恒定项和疑问词的内容;

问题-答案对生成模块,用于根据问题-答案对的生成规则将接收到的答案文件中相应位置的内容嵌入到所述问题模板中的相应变动项中生成问题,同时获取答案文件中相应位置的内容以生成答案,将生成的所述问题和所述答案关联保存为问题-答案对。

一种计算机可读存储介质,所述计算机可读存储介质内存储有标准知识库的构建系统,所述标准知识库的构建系统可被至少一个处理器所执行,以使所述至少一个处理器执行如前述中任一项所述的标准知识库的构建方法的步骤。

本发明的积极进步效果在于:采用本发明构建标准知识库,可以实现批量导入数据,并根据规则自动生成问题-答案对,减少了基础数据库的维护工作量,大大提高了工作效率。

附图说明

图1示出了本发明电子装置一实施例的硬件架构示意图;

图2示出了本发明电子装置中标准知识库的构建系统一实施例的程序模块示意图;

图3示出了本发明标准知识库的构建方法实施例一的流程图;

图4示出了本发明标准知识库的构建方法实施例二中构建答案文件的流程图;

图5示出了本发明标准知识库的构建方法实施例二中问题模板的流程图;

图6示出了本发明标准知识库的构建方法实施例二中设置恒定项和疑问词的流程图;

图7示出了本发明标准知识库的构建方法实施例二中形成问题-答案对的流程图;

图8示出了本发明标准知识库的构建方法中答案文件为表格形式时的示意图;

图9示出了本发明标准知识库的构建方法实施例三中构建答案文件的流程图;

图10示出了本发明标准知识库的构建方法实施例三中构建问题模板的流程图;

图11示出了本发明标准知识库的构建方法实施例三中形成问题-答案对的流程图;

图12示出了本发明标准知识库的构建方法中答案文件为文本形式时的示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。

首先,本发明提出了一种电子装置。

参阅图1所示,是本发明电子装置一实施例的硬件架构示意图。本实施例中,所述电子装置2是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。例如,可以是智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图所示,所述电子装置2至少包括,但不限于,可通过系统总线相互通信连接存储器21、处理器22、网络接口23、以及标准知识库的构建系统20。其中:

所述存储器21至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器21可以是所述电子装置2的内部存储单元,例如该电子装置2的硬盘或内存。在另一些实施例中,所述存储器21也可以是所述电子装置2的外部存储设备,例如该电子装置2上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。当然,所述存储器21还可以既包括所述电子装置2的内部存储单元也包括其外部存储设备。本实施例中,所述存储器21通常用于存储安装于所述电子装置2的操作系统和各类应用软件,例如所述标准知识库的构建系统20的程序代码等。此外,所述存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器22在一些实施例中可以是中央处理器(centralprocessingunit,cpu)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制所述电子装置2的总体操作,例如执行与所述电子装置2进行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器22用于运行所述存储器21中存储的程序代码或者处理数据,例如运行所述的标准知识库的构建系统20等。

所述网络接口23可包括无线网络接口或有线网络接口,该网络接口23通常用于在所述电子装置2与其他电子装置之间建立通信连接。例如,所述网络接口23用于通过网络将所述电子装置2与外部终端相连,在所述电子装置2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(intranet)、互联网(internet)、全球移动通讯系统(globalsystemofmobilecommunication,gsm)、宽带码分多址(widebandcodedivisionmultipleaccess,wcdma)、4g网络、5g网络、蓝牙(bluetooth)、wi-fi等无线或有线网络。

需要指出的是,图1仅示出了具有组件21-23的电子装置2,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。

在本实施例中,存储于存储器21中的所述标准知识库的构建系统20可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器21中,并可由一个或多个处理器(本实施例为处理器22)所执行,以完成本发明。

例如,图2示出了所述标准知识库的构建系统20一实施例的程序模块示意图,该实施例中,所述标准知识库的构建系统20可以被分割为文件接收模块201、模板设置模块202、输入模块203和问题-答案对生成模块204。其中,本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述所述标准知识库的构建系统20在所述电子装置2中的执行过程。以下描述将具体介绍所述程序模块201-204的具体功能。

所述文件接收模块201,用于接收整理好的答案文件,所述答案文件中包含有至少一个答案,所述答案按统一格式拆分后整理到同一个文件中,所述文件包括表格或者文本;

所述模板设置模块202,用于根据答案文件中的答案设置问题模板,所述问题模板为包括有若干变动项、若干恒定项和疑问词的词序列;

所述输入模块203,用于接收恒定项和疑问词的内容;

所述问题-答案对生成模块204,用于根据问题-答案对的生成规则将接收到的答案文件中相应位置的内容嵌入到所述问题模板中的相应变动项中生成问题,同时获取答案文件中相应位置的内容以生成答案,将生成的所述问题和所述答案关联保存为问题-答案对。

本实施例中,所述答案文件中的内容需要事先按统一格式进行整理。需要注意的是,这里整理的格式需要和问题-答案对的生成规则相匹配,比如:答案文件按文本格式进行整理,那么问题-答案对的生成规则也是针对文本格式的文件的,又如:答案文件按表格格式进行整理,那么问题-答案对的生成规则就是针对表格格式的文件的。

其次,本发明提出一种标准知识库的构建方法。

在实施例一中,如图3所示,所述的标准知识库的构建方法包括如下步骤:

s1、构建答案文件:搜集答案,将所述答案按统一格式拆分后整理到同一个文件中,所述文件包括表格或者文本;

s2、构建问题模板:根据答案文件中的答案确定问题模板,所述问题模板为包括有若干变动项、若干恒定项和疑问词的词序列;

s3、设置恒定项和疑问词:根据答案文件中的答案所表述的意思,确定问题模板中的恒定项和疑问词;

s4、形成问题-答案对:根据问题-答案对的生成规则,获取所述答案文件中相应位置的内容嵌入到所述问题模板中的相应变动项中生成问题,同时获取答案文件中相应位置的内容以生成答案,将生成的所述问题和所述答案关联保存为问题-答案对。

本实施例中,答案文件可以是文本或者表格,两者的具体整理方式和生成规则不同,下面分别以答案文件为文本和表格对本方法中的步骤做进一步地详细说明。

此外,通常整理在同一个答案文件中答案属于同一类,答案按类别划分整理成一个个的答案文件,以方便按照答案的类别设置不同的问题模板。

实施例二中,在实施例一的基础上,以答案文件为表格格式对实施例一中的各个步骤做了进一步地说明,具体如下:

一、构建答案文件(如图4所示)

s11、搜集答案;

s12、将每个答案拆分为由若干关键词组成的词序列;

s13、获取每个词序列中表征答案含义的两个含义关键词;

s14、将含义关键词去重并分类;

s15、将一类含义关键词作为表格的首行,另一类含义关键词作为表格的首列,且首行和首列的交叉单元格空白;

s16、获取词序列中表征答案数值的数值关键词;

s17、将所述数值关键词填写在该数值关键词所在词序列中的两个含义关键词所在行和列交叉的单元格内。

二、构建问题模板(如图5所示)

s21、对应答案文件中含义关键词的种类确定问题模板中变动项的数量;

s22、根据语法,在变动项、恒定项和疑问词之间加入虚词,以形成符合语法的问题模板。

三、设置恒定项和疑问词(如图6所示)

s31、将每个答案拆分为由若干关键词组成的词序列;

s32、获取词序列中表征答案含义的含义关键词中的抽象名词作为恒定项;

s33、在恒定项之后设置一个适合于询问答案文件中数值关键词的疑问词。

四、形成问题-答案对(如图7所示)

s40、获取表格中首行和首列中首个非空白单元格作为两个变动项的当前位置;

s41、根据问题-答案对的生成规则,获取当前位置中的含义关键词对应嵌入到问题模板的变动项位置生成问题暂存;

s42、获取生成问题的两个含义关键词所在行和列交叉的单元格中数值关键词作为答案暂存;

s43、将暂存的问题和答案关联保存;

s44、判断首个变动项对应的当前位置中的含义关键词是否为该含义关键词所在首行或者首列中的最后一个词,若是则执行步骤s46,若否则执行步骤s45;

s45、将首个变动项对应的当前位置沿该当前位置中的含义关键词所在的首行或者首列向后顺序推移一个,并重置首个变动项对应的当前位置,执行步骤s41;

s46、判断第二个变动项对应当前位置中的含义关键词是否为该含义关键词所在首例或者首行中的最后一个词,若是则执行步骤s48,若否则执行步骤s47;

s47、将第二个变动项对应的当前位置沿该当前位置中的含义关键词所在的首列或者首行向后顺序推移一个,执行步骤s41;

s48、结束。

下面以构建关于每季度各险种收入的标准知识库为例,做详细说明:

1、搜集关于每季度各险种的收入数据的答案,比如“第一季度意外险的收入是2560000”、“第三季度教育险的收入是1895684”等,将关于每季度各险种的收入数据按表格形式整理成如图8所示的答案文件,其中首行和首列分别为两类含义关键词,分别为时间和险种(也可以为首行为险种,首列为时间),具体险种所在列和具体时间所在行交叉的单元格内为该时间该险种的收入额。

2、根据前述表格中两类含义关键词确定问题模板中变动项为两项,另外根据语法,将问题模板确定为“两个变动项+的+一个恒定项+是+疑问词”。

3、根据前述搜集的答案,可以确定恒定项为“收入”,疑问词为“多少”,因此可以得到适用于前述答案文件的更为明确的问题模板为“两个变动项+的+收入+是+多少”。

4、获取表格中首行的第二个单元格和首列的第二个单元格中的两个含义关键词分别嵌入到前述问题模板中两个变动项的位置,生成问题为“第一季度意外险的收入是多少”,对应生成的答案为第二列和第二行交叉的单元格中的数值“2560000”,再将前述生成的问题和答案作为一对问题-答案对关联保存到标准知识库中;接着,取表格中首行的第二个单元格和首列的第三个单元格中的两个含义关键词分别嵌入到前述问题模板中两个变动项的位置,生成问题为“第一季度健康险的收入是多少”,对应生成的答案为第二列和第三行交叉的单元格中的数值“5246286”;直到获取表格中首行的第二个单元格和首列的最后一个单元格中的含义关键词为止;再取获取表格中首行的第三个单元格中的含义关键词,并依次获取首列中的各个单元格中的含义关键词,依次顺序生成问题-答案对保存到标准知识库中。

实施例三中,在实施例一的基础上,以答案文件为文本格式对实施例一中的各个步骤做了进一步地说明,具体如下:

一、构建答案文件(如图9所示)

s11’、搜集答案;

s12’、将每个答案拆分为由若干关键词组成的词序列;

s13’、保留词序列中表征答案含义的含义关键词和表征答案数值的数值关键词;

s14’、将同一个词序列中的含义关键词和数值关键词按顺序排列,并在各关键词之间采用统一的关键词分隔符进行分隔;

s15’、在不同词序列之间采用不同于关键词分隔符的统一的词序列分隔符进行分隔。

二、构建问题模板(如图10所示)

s21’、对应答案文件中同一个词序列中关键词分隔符的数量确定问题模板中变动项的数量;

s22’、根据语法,在变动项、恒定项和疑问词之间加入虚词,以形成符合语法的问题模板。

三、设置恒定项和疑问词

同实施例二,此处不再赘述。

四、形成问题-答案对(如图11所示)

s40’、获取文本中首个词序列分隔符的位置作为当前词序列分隔符的位置,以及首个词序列分隔符之前各关键词分隔符的位置作为各当前关键词分隔符的位置;

s41’、根据问题-答案对的生成规则,获取各当前关键词分隔符之前的各含义关键词对应嵌入到问题模板的变动项位置生成问题暂存;

s42’、获取当前词序列分隔符之前数值关键词作为答案暂存;

s43’、将暂存的问题和答案关联保存;

s44’、判断当前词序列分隔符是否为答案文件中最后一个词序列分隔符,若是则执行步骤s47’,若否则执行步骤s45’;

s45’、将当前词序列分隔符的位置顺序后移并重置当前词序列分隔符的位置;

s46’、各当前关键词分隔符的位置重置为当前词序列分隔符之前各关键词分隔符的位置,执行步骤s41’;

s47’、结束。

下面还是以构建关于每季度各险种收入的标准知识库为例,做详细说明:

1、搜集关于每季度各险种的收入数据的答案(同上例),将关于每季度各险种的收入数据按文本形式整理成如图12所示的答案文件,每个词序列之间用分号进行分隔,同一词序列中的各个关键词之间用逗号进行分隔。(也可根据习惯用其他的符号进行分隔。)

2、根据前述文本中每个词序列中的含义关键词的数量确定问题模板中变动项为两项,另外根据语法,将问题模板确定为“两个变动项+的+一个恒定项+是+疑问词”。

3、根据前述搜集的答案,可以确定恒定项为“收入”,疑问词为“多少”,因此可以得到适用于前述答案文件的更为明确的问题模板为“两个变动项+的+收入+是+多少”。

4、获取首个冒号的位置和该冒号之前各个逗号的位置,根据逗号的顺序依次取逗号之前的含义关键词对应嵌入到问题模板的变动项位置,生成问题为“第一季度意外险的收入是多少”,再获取所述冒号之前的数值关键词,生成答案为“2560000”,将前述生成的问题和答案作为问题-答案对关联保存在标准知识库中;然后获取第二个冒号的位置和该冒号之前各个逗号的位置,按照前述一样的规则将生成问题和答案,并将生成的问题和答案作为问题-答案对关联保存在标准知识库中;按此规则依次生成问题-答案对关联保存在标准知识库中,直至最后一个冒号为止。

此外,本发明一种计算机可读存储介质,该计算机可读存储介质内存储有标准知识库的构建系统20,该标准知识库的构建系统20可被一个或多个处理器执行时,实现上述标准知识库的构建方法或电子装置的操作。

虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1