一种对对话进行归类别的方法、装置、设备和存储介质与流程

文档序号：22084270发布日期：2020-09-01 19:51阅读：267来源：国知局

本发明涉及计算机技术领域，尤其涉及一种对对话进行归类别的方法、装置、设备和存储介质。

背景技术：

人工客服是我们工作中常见的一个工作岗位，是企业和用户之间的沟通桥梁，无论是售前的产品、服务咨询，还是售后的维修、投诉，都离不开客服。现在随着人工智能技术的发展，智能客服机器人渐渐进入客服岗位代替了人工客服，用于帮助企业降低人工成本，提高工作效率，但是随着服务的项目和问题越来越多的情况下，例如目前针对医疗智能客服机器人，由于新科室增加的速度特别快，一个星期大概需要上线2-3个新科室，这对测试人员来说测试的时间非常紧迫，因此，需要测试人员在测试过程中，通过使用测试用例以节省测试的时间，但是若使用测试用测，则需要不断给客服机器人进行测试用例的更新迭代，但是在使用测试用例时，如果使用人工在大量的原始对话中去一句句抽取所需要的测试用例(测试用例包括抽取客户话术，并对客户话术进行分析从而获取测试用例)会浪费大量的人力，同时存更新工作也会稍显紧迫。

技术实现要素：

针对上述问题，本发明的目的在于提供一种对对话进行归类别的方法、装置、设备和存储介质，能够通过现有的实体识别接口，意图识别接口，对识别到实体或意图不为空的问题及答案，得到具体的症状内容，或项目内容，检查内容等后进行归类，使其形成一个有较为规范或分类别的测试用例，避免浪费大量的人力。

本发明实施例提供了一种对对话进行归类别的方法，包括：

获取访客与客服的对话数据；

基于所述访客与客服的对话数据，以抽取访客数据；

将所述访客数据输入预设的实体识别接口以及意图识别接口中，以获得第一实体分类和意图分类；

基于所述第一实体分类以及意图分类，对所述访客数据进行对话归类，以获得第一测试用例。

优选的，包括：基于所述访客与客服的对话数据，以抽取客服数据；

将所述客服数据输入预设的实体识别接口中，以获得第二实体分类；

基于所述第二实体分类，对所述客服数据进行对话归类，以获得第二测试用例。

优选的，所述第一实体分类至少包括以下其中之一：症状、日期、年龄、地址以及电话；所述意图分类至少包括以下其中之一：描述情绪、咨询价格、描述症状、咨询地址以及咨询项目。

优选的，所述第二实体分类至少包括以下其中之一：症状、日期、年龄、地址以及电话。

优选的，基于所述第一实体分类以及意图分类，对所述访客数据进行对话归类，以获得第一测试用例，具体为：

使用python中dict的iterrows，抽取所述第一实体分类以及意图分类的类别；

基于string的split，将所述第一实体分类以及意图分类的类别进行切割，以分成多个类别及内容；其中，所述类别容包括症状、生理现象；所述内容包括具体类别下的现象；

使用python中list的append，根据类别的不同信息进行归类，以获得第一测试用例集。

第二方面，本发明实施还提供了一种对对话进行归类别的方法，包括：

对话数据获取单元，用于获取访客与客服的对话数据；

访客数据抽取单元，用于基于所述访客与客服的对话数据，以抽取访客数据；

第一实体分类和意图分类获取单元，用于将所述访客数据输入预设的实体识别接口以及意图识别接口中，以获得第一实体分类和意图分类；

第一测试用例获取单元，用于基于所述第一实体分类以及意图分类，对所述访客数据进行对话归类，以获得第一测试用例。

优选的，包括：

客服数据抽取单元，用于基于所述访客与客服的对话数据，以抽取客服数据；

第二实体分类获取单元，用于将所述客服数据输入预设的实体识别接口中，以获得第二实体分类；

第二测试用例获取单元，用于基于所述第二实体分类，对所述客服数据进行对话归类，以获得第二测试用例。

优选的，所述第二实体分类至少包括以下其中之一：症状、日期、年龄、地址以及电话。

优选的，第一测试用例获取单元，包括：

类别抽取模块，用于使用python中dict的iterrows，抽取所述第一实体分类以及意图分类的类别；

类别及内容分割模块，用于基于string的split，将所述第一实体分类以及意图分类的类别进行切割，以分成多个类别及内容；其中，所述类别容包括症状、生理现象；所述内容包括具体类别下的现象；

第一测试用例获取模块，用于使用python中list的append，根据类别的不同信息进行归类，以获得第一测试用例集。

本发明实施例还提供了一种对对话进行归类别的设备，包括处理器、存储器以及存储在所述存储器内的计算机程序，所述计算机程序能够被所述处理器执行以实现如上述实施例所述的对对话进行归类别的方法。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述实施例所述的对对话进行归类别的方法。

上述一个实施例中，通过根据访客与客服的对话数据，抽取访客数据，然后将所述访客数据输入预设的实体识别接口以及意图识别接口中，以获得第一实体分类和意图分类，然后基于所述第一实体分类以及意图分类，对所述访客数据进行对话归类，以获得所需的测试用例，能够通过现有的实体识别接口，意图识别接口，对识别到实体或意图不为空的问题及答案，得到具体的症状内容，或项目内容，检查内容等后进行归类，使其形成一个有较为规范或分类别的测试用例，避免浪费大量的人力。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明第一实施例提供的一种对对话进行归类别的方法的流程示意图。

图2是本发明第二实施例提供的对对话进行归类别的装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明第一实施例提供了一种对对话进行归类别的方法，其可由对对话进行归类别的设备来执行，特别的，由对对话进行归类别的设备内的一个或多个处理器来执行，并至少包括如下步骤：

s101，获取访客与客服的对话数据。

为了便于理解，以下基于妇科的访客问句与客服答句的对话数据为例进行说明，具体地，从数据分析师手中获取妇科项目的用户原始对话，从而获取访客与客服的对话数据。

s102，基于所述访客与客服的对话数据，以抽取访客数据。

在本实施例中，通过剥离至少20万+数量级的妇科项目的用户原始对话数据，其中，原始对话中附带有身份信息(即访客或客服的标签，如电话、性别等信息的身份)，然后通过python中pandas的read_csv方法，循环遍历用户原始对话数据，根据身份信息进行数据切割(根据身份信息及其话术进行初步分类)，形成至少10万+数量级访客数据以及10万+数量级客服数据。

s103，将所述访客数据输入预设的实体识别接口以及意图识别接口中，以获得第一实体分类和意图分类。

在本实施例中，通过python中dict的iterrows方法将访客数据，遍历输入已有的实体识别接口(所述实体识别接口的功能为：输入一个句子，接口返回信息可得出句子的实体信息：例如症状，体液，项目或者年龄，日期，地址等信息，若无信息则为空)，意图识别接口(所述意图识别接口的功能为：输入一个句子，接口返回信息可得出这个句子意图信息：例如描述症状，咨询地址，咨询病因等信息，若无信息则为空)，从而可得出访客数据中实体信息，收集实体和意图不为空或无的数据，并使用python中list的append方法，拼接实体信息至访客数据的最后一列信息的数据，将为空的将近10万+数据剔除，从而得到以获得第一实体分类和意图分类。

其中，所述第一实体分类至少包括以下其中之一：症状、日期、年龄、地址以及电话；所述意图分类至少包括以下其中之一：描述情绪、咨询价格、描述症状、咨询地址以及咨询项目。

s104，基于所述第一实体分类以及意图分类，对所述访客数据进行对话归类，以获得第一测试用例。

在本实施例中，使用python中dict的iterrows方法将第一实体分类和意图分类取出，使用string的split方法，将实体进行再次切割，分成多个类别及其内容，具体类别可能是：症状，体液，生理现象等等，内容可能是：怀孕，月经推迟，流产等，再使用python中list的append方法根据这些类别的不同信息进行归类，例如：症状为月经不调归为一类，症状为白带异常归为一类，或者生理现象为怀孕的归类一类，生理现象为流产的归为一类，使得原本数量级很大的访客数据，客服数据形成一个数量级较小，但是数据有归类的测试集。

具体地，s104包括以下执行步骤：

s1041，使用python中dict的iterrows，抽取所述第一实体分类以及意图分类的类别；

s1042，基于string的split，将所述第一实体分类以及意图分类的类别进行切割，以分成多个类别及内容；其中，所述类别容包括症状、生理现象；所述内容包括具体类别下的现象；

s1043，使用python中list的append，根据类别的不同信息进行归类，以获得第一测试用例集。

其中，需要说明的是，若是新出妇科科室，则可以根据不同的归类测试用例，进行测试，且可根据答案集进行判断机器人客服的回答是否合理。

综上，通过根据访客与客服的对话数据，抽取访客数据，然后将所述访客数据输入预设的实体识别接口以及意图识别接口中，以获得第一实体分类和意图分类，然后基于所述第一实体分类以及意图分类，对所述访客数据进行对话归类，以获得所需的测试用例，能够通过现有的实体识别接口，意图识别接口，对识别到实体或意图不为空的问题及答案，得到具体的症状内容，或项目内容，检查内容等后进行归类，使其形成一个有较为规范或分类别的测试用例，避免浪费大量的人力。

在上述实施例的基础上，本发明一优选实施例中，包括：基于所述访客与客服的对话数据，以抽取客服数据；

将所述客服数据输入预设的实体识别接口中，以获得第二实体分类；

基于所述第二实体分类，对所述客服数据进行对话归类，以获得第二测试用例。

其中，所述第二实体分类至少包括以下其中之一：症状、日期、年龄、地址以及电话。

本发明第二实施例：

请参阅图2，本发明第二实施例还提供了一种对对话进行归类别的方法，包括：

对话数据获取单元100，用于获取访客与客服的对话数据；

访客数据抽取单元200，用于基于所述访客与客服的对话数据，以抽取访客数据；

第一实体分类和意图分类获取单元300，用于将所述访客数据输入预设的实体识别接口以及意图识别接口中，以获得第一实体分类和意图分类；

第一测试用例获取单元400，用于基于所述第一实体分类以及意图分类，对所述访客数据进行对话归类，以获得第一测试用例。

在上述实施例的基础上，本发明一优选实施例中，包括：

客服数据抽取单元，用于基于所述访客与客服的对话数据，以抽取客服数据；

第二实体分类获取单元，用于将所述客服数据输入预设的实体识别接口中，以获得第二实体分类；

第二测试用例获取单元，用于基于所述第二实体分类，对所述客服数据进行对话归类，以获得第二测试用例。

在上述实施例的基础上，本发明一优选实施例中，所述第一实体分类至少包括以下其中之一：症状、日期、年龄、地址以及电话；所述意图分类至少包括以下其中之一：描述情绪、咨询价格、描述症状、咨询地址以及咨询项目。

在上述实施例的基础上，本发明一优选实施例中，所述第二实体分类至少包括以下其中之一：症状、日期、年龄、地址以及电话。

在上述实施例的基础上，本发明一优选实施例中，第一测试用例获取单元400，包括：

类别抽取模块，用于使用python中dict的iterrows，抽取所述第一实体分类以及意图分类的类别；

第一测试用例获取模块，用于使用python中list的append，根据类别的不同信息进行归类，以获得第一测试用例集。

本发明第三实施例：

本发明第三实施例还提供了一种对对话进行归类别的设备，包括处理器、存储器以及存储在所述存储器内的计算机程序，所述计算机程序能够被所述处理器执行以实现上述实施例所述的对对话进行归类别的方法。

本发明第四实施例：

本发明第四实施例提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述的对对话进行归类别的方法。

示例性的，所述计算机程序可以被分割成一个或多个单元，所述一个或者多个单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在对对话进行归类别的设备中的执行过程。

所述对对话进行归类别的设备可包括但不仅限于处理器、存储器。本领域技术人员可以理解，所述示意图仅仅是对对话进行归类别的设备的示例，并不构成对对对话进行归类别的设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述对对话进行归类别的设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(centralprocessingunit，cpu)，还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor，dsp)、专用集成电路(applicationspecificintegratedcircuit，asic)、现成可编程门阵列(field-programmablegatearray，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述对对话进行归类别的设备的控制中心，利用各种接口和线路连接整个对对话进行归类别的设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述对对话进行归类别的设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(smartmediacard,smc)，安全数字(securedigital,sd)卡，闪存卡(flashcard)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述对对话进行归类别的设备集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周璐;肖龙源;李稀敏;邓仁超;刘晓葳
技术所有人：厦门快商通科技股份有限公司
我是此专利的发明人

上一篇：一种OFDM系统抗单音干扰的同步方法与流程
上一篇：新型开幅扩幅机及控制方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。