一种基于朴素贝叶斯分类算法的智能客服问答系统的制作方法

文档序号:23396421发布日期:2020-12-22 14:04阅读:434来源:国知局
一种基于朴素贝叶斯分类算法的智能客服问答系统的制作方法

本发明涉及智能客服技术领域,具体为一种基于朴素贝叶斯分类算法的智能客服问答系统。



背景技术:

目前,问答系统已成为国内外的热点研究领域,研究者们在问答系统领域提出了许多方案,根据不同的应用环境,问答系统主要分为三类:受限域问答系统、开放域问答系统和基于常见问题的问答系统。

虽然国内在智能问答系统中的研究取得了一定的成就,但相比于国外而言,无论在研究水平还是研究规模上国内的研究都与国外都有不小的差距。一方面是因为中文相对于英文更加的复杂,国外的一些相对比较成熟的技术不能直接引用;另一方面现有的智能问答系统一般不会对特定的领域进行针对性处理,导致检索效果较差,无法获取理想的结果。

因此本发明提出一种基于朴素贝叶斯分类算法的智能客服问答系统,同于解决上述问题。



技术实现要素:

(一)解决的技术问题

针对现有技术的不足,本发明提供了一种基于朴素贝叶斯分类算法的智能客服问答系统,具备实现对信息通信客服坐席的智能支撑,有效提升客服服务质量和服务效率等优点,解决了不会对特定的领域进行针对性处理,导致检索效果较差的问题。

(二)技术方案

为实现上述提升客服服务质量和服务效率的目的,本发明提供如下技术方案:一种基于朴素贝叶斯分类算法的智能客服问答系统,其特征在于,包括以下步骤:

1)用户进行语音输入;

2)语音识别模块对语音进行识别;

3)语言识别模块通过识别算法对自然语言进行理解;

4)将理解后的问题输入问答引擎;

5)问答引擎通过知识挖掘,获取基于知识库的问答与基于知识图谱的问答;

6)将回答的语言进行语音合成,然后输出给用户。

优选的,所述步骤4)问答引擎中包括有模型训练模块,模型训练模块向答引擎中输入模拟训练问题,并于问答引擎进行开放式聊天。

优选的,所述步骤3)对自然语言进行理解包括对用户意图的理解与用户问题的快速定位,所述用户意图的理解与用户问题的快速定位采用backpropagation算法。

优选的,所述步骤5)知识挖掘包括实体的链接与消歧、知识规则挖掘、知识图谱表示学习,所述实体的链接与消歧为知识的内容挖掘。

优选的,所述步骤5)知识库包括标签体系、二维化结构与机器学习,所述机器学习使用监督学习和非监督学习两种学习方法。

优选的,所述标签体系的构建包括知识本体层构建和知识学习层构建,所述知识本体层包含术语抽取、同义词抽取、概念抽取、分类关系抽取,所述知识学习层包含知识学习、知识数据填充。

优选的,所述步骤3)对自然语言进行理解时使用回溯法和分支限界法。

优选的,所述步骤5)中所述标签体系周遭相关联的一切标签均展示,所述标签体系无立体结构的上下层关系展示。

优选的,所述步骤5)中机器学习的训练流程为:

a:获取新样本;

b:选取样本特征;

c:根据特征为样本进行分类;

d:根据分类判断结果。

优选的,所述监督学习和非监督学习两种学习方法分别由于内容处理与自主选择处理。(三)有益效果

与现有技术相比,本发明提供了一种基于朴素贝叶斯分类算法的智能客服问答系统,具备以下有益效果:

该基于朴素贝叶斯分类算法的智能客服问答系统,通过进行语音输入,语音进行识别,对自然语言进行理解,将问题输入问答引擎,问答引擎通过知识挖掘,获取基于知识库的问答与基于知识图谱的问答,并且问答引擎中包括有模型训练模块,模型训练模块向答引擎中输入模拟训练问题,并于问答引擎进行开放式聊天,同时自然语言进行理解包括对用户意图的理解与用户问题的快速定位,用户意图的理解与用户问题的快速定位采用backpropagation算法,知识库包括标签体系、二维化结构与机器学习,机器学习使用监督学习和非监督学习两种学习方法,能够使准确有效识别人类在多种环境下,通过语言所要表达的意思,基于深度神经网络、句法依存等人工智能技术,智能机器人能够准确理解用户问题,并具备多轮对话、智能反问等智能化能力,语义理解准确率超过95%,最后通过语音合成,基于情感计算技术,把文字智能地转化为包含情感的自然语音流,语音音律流畅,使得听者在听取信息时感觉自然,毫无机器语音输出的冷漠与生涩感,大大提高了服务质量与效率。

附图说明

图1为本发明的系统结构示意图。

具体实施方式

下面将结合本发明的实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例:一种基于朴素贝叶斯分类算法的智能客服问答系统,其特征在于,包括以下步骤:

1)用户进行语音输入;

2)语音识别模块对语音进行识别;

语音识别技术是一种将人的语音转换为文本的技术。语音识别是一个多学科交叉的领域,应用信号处理、物理学(声学)、模式匹配、通信及信息理论、语言语音学、生理学、计算机科学,心理学等多个学科,能够准确有效识别人类在多种环境下,通过语言所要表达的意思;

3)语言识别模块通过识别算法对自然语言进行理解;

基于深度神经网络、句法依存等人工智能技术,智能机器人能够准确理解用户问题,并具备多轮对话、智能反问等智能化能力,语义理解准确率超过95%,如何判定用户是在问问题还是聊天,问的是什么问题,对缺少的问题成分,根据上下文恢复成语义齐全的问题。深层语义分析主要是理解问题的真正语义并处理复杂问题,将多个问题拆分,对于多种问法可以抽取语义规则,进行规则匹配,对检索的结果进行相似度计算,找出最佳答案;

4)将理解后的问题输入问答引擎;

5)问答引擎通过知识挖掘,获取基于知识库的问答与基于知识图谱的问答;

从数据中获取实体及新的实体链接和新的关联规则等信息。主要的技术包含实体的链接与消歧、知识规则挖掘、知识图谱表示学习等。其中实体链接与消歧为知识的内容挖掘,知识规则挖掘属于结构挖掘,表示学习则是将知识图谱映射到向量空间而后进行挖掘;

6)将回答的语言进行语音合成,然后输出给用户;

运用语言学和心理学的理论与技术,在内部核心算法模型的支持之下,通过神经网络的设计,基于情感计算技术,把文字智能地转化为包含情感的自然语音流,语音音律流畅,使得听者在听取信息时感觉自然,毫无机器语音输出的冷漠与生涩感。

步骤4)问答引擎中包括有模型训练模块,模型训练模块向答引擎中输入模拟训练问题,并于问答引擎进行开放式聊天,通过模型训练模块向答引擎中输入模拟训练问题,可以使问答引擎进行自我学习,同时对问答引擎进行算法测算,在测试阶段,对于新采用的算法模型的测试,很多只是回归下功能和流程,不对具体的算法模型进行评测;一般会通过线上或者灰度发布的推荐效果来评测算法模型。首先需要制定评测标准,把需求量化成一条条评测的约束条件。然后约定通过测试的标准即:算法结果能满足约束条件的最低比例。最后准备测试数据,统计计算结果能达到各项约束条件的比例。

测试项目中的算法任务,往往包含一些明确的需求规则。对于比较明确的规则,一般通过接口测试,可以调用算法的接口或者直接调用服务端的接口,对返回结果校验是否符合规则;如果符合则通过,不符合则不通过。

步骤3)对自然语言进行理解包括对用户意图的理解与用户问题的快速定位,用户意图的理解与用户问题的快速定位采用backpropagation算法,backpropagation算法是以人脑中的神经网络作为启发,神经网络是所谓深度学习的一个基础,backpropagation算法是通过迭代性来处理训练集中的实例,对比经过神经网络后,输人层预测值与真实值之间的误差,再通过反向法(从输出层=>隐藏层=>输入层)以最小化误差来更新每个连接的权重,backpropagation算法的输入:d(数据集),学习率,一个多层向前神经网络。输出:一个训练好的神经网络。运算过程一是初始化权重和偏向(随机初始化在-1到1之间,或者-0.5到0.5之间,每个单元有一个偏向)。二是开始对数据进行训练,步骤如下:

a)由输入层向前传送

ij:要对其进行非线性转化,为下一单元的值。

oi:是输入的值

wij:为每个单元到下一个单元连线之间的权重

θj:偏向

对ij进行非线性转化,得到下一个单元的值

b)根据误差(error)反向传送

errj=oj(1-oj)(tj-oj)

对于输出层:

对于隐藏层:

errj:用于更新偏向

oj:为输出的值

tj:为标签的值

δwij=(l)errjoi

wij=wij+δwij

权重更新:

括号里为小l,是学习率

δθj=(l)errj

θj=θj+δθj

偏向更新:

c)终止条件

方法一:权重的更新低于某个阈值

方法二:预测的错误率低于某个阈值

方法三:达到预设一定的循环次数。

步骤5)知识挖掘包括实体的链接与消歧、知识规则挖掘、知识图谱表示学习,实体的链接与消歧为知识的内容挖掘,知识库采用支持交互式机器人服务流程,替换原有问题引导式的服务流程,并且机器人应能持续自动学习,以不断完善问题库、知识库内容。

步骤5)知识库包括标签体系、二维化结构与机器学习,机器学习使用监督学习和非监督学习两种学习方法,监督学习又称为分类或者归纳学习。几乎适用于所有领域,包括内容处理。常见算法有决策树、贝叶斯模型、knn、svm等,非监督学习方式中,所有的类属性都是未知的,从零开始摸索,算法需要根据数据集的特征自动产生类属性。其中算法中用于进行学习的数据集叫做训练数据集:当使用学习算法用训练数据集学习得到一个模型以后,我们使用测试数据集来评测这个模型的精准度。常见的有聚类、特征矩阵。下表为常规推荐算法的分类,一共是三类:分类算法、关联规则和聚类,依据不同场景选择不同算法进行调整即可。

标签体系的构建包括知识本体层构建和知识学习层构建,知识本体层包含术语抽取、同义词抽取、概念抽取、分类关系抽取,知识学习层包含知识学习、知识数据填充,问题标签体系构建是问题和知识得以应用发展的前提,涉及问题关键字抽取及问题之间关系的建立,同时还需要很好地组织和存储问题及其关系信息,使其能够被迅速的访问和获了。

步骤3)对自然语言进行理解时使用回溯法和分支限界法,回溯法是对问题的解空间树进行深度优先搜索,但是在对每个节点进行dfs之前,要先判断该节点是否有可能包含问题的解。如果肯定不包含,则跳过对以该节点为根的子树的搜索,逐层向其祖先节点回溯。如果有可能包含,则进入该子树,进行dfs。回溯法通常解题过程包括三个步骤:一是定义问题的解空间。二是将解空间组织成便于进行dfs的结构,通常采用树或图的形式。三是对解空间进行dfs,并在搜索过程中用剪枝函数避免无效搜索,分支限界法的搜索策略是,在当前节点处,先生成其所有的子节点(分支),并为每个满足约束条件的子节点计算一个函数值(限界),再将满足约束条件的子节点全部加入解空间树的活结点优先队列。然后再从当前的活节点优先队列中选择优先级最大的节点(节点的优先级由其限界函数的值来确定)作为新的当前节点。重复这一过程,直到到达一个叶节点为止。所到达的叶节点就是最优解。

步骤5)中所述标签体系周遭相关联的一切标签均展示,标签体系无立体结构的上下层关系展示,标签体系的建立方法有以下几点:

(1)、基于原有知识库标签结合知识库问题描述文本丰富标签语义,根据标签体系内容对标签树进行聚类分组,并按标签树的层数、叶子标签及非叶子标签的数据确定标签顺序;

(2)、基于标签语义比较待融合标签与基准标签是否等同,进行等同关系映射;

(3)、基于标签语义之间存在的包含与被包含关系进行上下位关系标签映射;

(4)、设计标签体系验证方案,对知识库问题标签体系的准确性进行验证与优化。

步骤5)中机器学习的训练流程为:

a:获取新样本;

b:选取样本特征;

c:根据特征为样本进行分类;

d:根据分类判断结果。

监督学习和非监督学习两种学习方法分别由于内容处理与自主选择处理。

本发明的有益效果是:通过进行语音输入,语音进行识别,对自然语言进行理解,将问题输入问答引擎,问答引擎通过知识挖掘,获取基于知识库的问答与基于知识图谱的问答,并且问答引擎中包括有模型训练模块,模型训练模块向答引擎中输入模拟训练问题,并于问答引擎进行开放式聊天,同时自然语言进行理解包括对用户意图的理解与用户问题的快速定位,用户意图的理解与用户问题的快速定位采用backpropagation算法,知识库包括标签体系、二维化结构与机器学习,机器学习使用监督学习和非监督学习两种学习方法,能够使准确有效识别人类在多种环境下,通过语言所要表达的意思,基于深度神经网络、句法依存等人工智能技术,智能机器人能够准确理解用户问题,并具备多轮对话、智能反问等智能化能力,语义理解准确率超过95%,最后通过语音合成,基于情感计算技术,把文字智能地转化为包含情感的自然语音流,语音音律流畅,使得听者在听取信息时感觉自然,毫无机器语音输出的冷漠与生涩感,大大提高了服务质量与效率。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1