一种基于CRNN的电信行业智能客服图像识别的方法及其系统与流程

文档序号：26573750发布日期：2021-09-08 02:33阅读：201来源：国知局

一种基于crnn的电信行业智能客服图像识别的方法及其系统
技术领域
1.本发明属于图像识别技术领域，涉及一种基于crnn的电信行业智能客服图像识别的方法及其系统。

背景技术：

2.图像处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用图像进行有效通信的各种理论和方法。是计算机科学，人工智能，机器视觉学关注计算机和外在世界之间的相互作用的领域。
3.由于传统的客服系统中，用户在与客服系统进行交互的过程中，不仅通过语言文字的方式，还会将与问题相关的图片发出来，来进行询问，这个时候传统的基于自然语言处理方式的问题答疑就不再够用了，这个时候将图片中的文字内容识别出来就显得尤为重要，图像处理在智能客服系统中的应用，一方面能够满足客户不同方式的咨询需求，另一方面也能够和自然语言的内容进行结合，多模态的方式将信息展示出来，从而增强了机器与用户之间的交互。
4.传统的智能客服系统中没有图片处理的业务，用户寻找问题需要寻问4
‑
7个问题才能得到满意的答案，客服系统不够智能，不能很好满足用户的多方面的需求。

技术实现要素：

5.本发明为解决上述技术问题，本发明的目的是提供一种基于crnn的电信行业智能客服图像识别的方法及其系统，解决了智能客服系统中没有图片处理的业务，不能很好满足用户的多方面的需求的技术问题。
6.为实现上述目的，本发明采用如下技术方案：一种基于crnn的电信行业智能客服图像识别的方法，包括获取与电信领域相关的问题图片；在特征的提取模块中利用cnn对电信领域相关的问题图片进行信息的抽取，得到问题图片的图像特征，建立特征数据集；在时序特征提取模块中利用rnn模型对特征数据集中的所有图像特征分别进行双向lstm的语序特征的表达，得到每一个图像特征的语序特征表达数据，并建立语序特征表达数据集；在ctc 损失更新模块中利用ctc loss对语序特征表达数据集中的数据进行损失的计算，得到识别模型，并利用不加ctc损失更新的crnn前向网络进行特征的提取，得到图像预训练词向量模型，用于后续的更新迭代；通过序列合并机制对齐不定长序列。
7.优选的，在特征的提取模块利用cnn对电信领域相关的问题图片进行信息的抽取包括对问题图片进行多层的卷积、最大池化和batchnormalization化。
8.优选的，在时序特征提取模块中，首先将特征数据集中的图像特征进行map
‑
to
‑
sequence处理，得到适合rnn模型的特征向量序列；然后将特征向量序列输入到rnn模型，将一个向前的lstm和一个向后的lstm组合成一个双向lstm，并对图像特征进行处理。
9.优选的，在双向lstm 中，对应每一个时间步就传入一个图像特征的特征向量，并进行分类。
10.优选的，一个图像特征的特征向量就相当于原图中的一个小矩形区域，rnn模型用于预测小矩形区域为哪些字符，根据输入的特征向量，进行预测，得到所有字符的softmax概率分布，即一个长度为字符类别数的向量，该长度为字符类别数的向量作为ctc 损失更新模块的输入数据。
11.优选的，序列合并机制包括以
“‑”
符号代表blank，rnn 输出序列时，在文本标签中的重复的字符之间插入一个
“‑”
符号，如有blank字符隔开的话，连续相同字符就不进行合并，即对字符序列先删除连续重复字符，然后从路径中删除所有
“‑”
字符。
12.一种基于crnn的电信行业智能客服图像识别的系统，包括数据采集服务器和中心服务器，数据采集服务器和中心服务器之间通过网线通信；数据采集服务器用于采集与电信领域相关的问题图片；在中心服务器中建立特征的提取模块、时序特征提取模块和ctc 损失更新模块，特征的提取模块用于对电信领域相关的问题图片进行图像特征的抽取；时序特征提取模用于对图像特征进行双向lstm的语序特征表达；ctc 损失更新模块用于对语序特征表达进行损失的计算，并利用不加ctc损失更新的crnn前向网络进行特征的提取。
13.本发明的有益效果：本发明所述的一种基于crnn的电信行业智能客服图像识别的方法及其系统，解决了智能客服系统中没有图片处理的业务，不能很好满足用户的多方面的需求的技术问题，本发明对电信行业的图片进行了大规模的预训练，提高了垂直领域的图像识别精度，和传统的单纯利用cnn更能挖取更深层的特征，使得在电信客服系统中图像处理的更加的准确，从而很好的满足客服系统多模态的需求，更好的满足用户不同的咨询需求，本发明可用于不同垂直领域的智能客服系统，在迁移时，只需要提前整理好该垂直领域的图像数据存入知识库，并根据知识库中的数据对crnn模型进行训练，使得用户之间的交互变得更加的便捷和人性化，提高了智能客服的使用效率，本发明基于cnn模型也得到了电信行业客服系统领域的图像的大量语料，基于这些语料也得到了一个预训练模型，大大增强了对图像处理的准确率。
附图说明
14.图1为本发明的数据结构图；图2是本发明的电信行业智能客服系统图像处理
‑
cnn特征提取流程图；图3是本发明的 map
‑
to
‑
sequence结构图；图4是本发明的rnn结构图；图5是本发明的ctc 结构图。
具体实施方式
15.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
16.实施例1：本发明中，crnn采用了三层结构，分别是cnn（卷积层），使用深度cnn，对输入图像提取特征，得到特征图；rnn（循环层），使用双向rnn（blstm）对特征序列进行预测，对序列中的每个特征向量进行学习，并输出预测标签（真实值）分布；ctc loss（转录层），使用 ctc 损失，把从循环层获取的一系列标签分布转换成最终的标签序列，这样既可以学到图像的特征，又可以将图像中的语序特征表达出来。
17.基于crnn的智能客服图像识别系统的识别方法与传统的基于cnn的图像识别主要区别在于系统利用了cnn提取特征之后还利用了rnn对其进行语序特征的学习，相比于cnn的方式更加精准的学习了图像的语义信息，使得图像识别更加准确，除此之外，这种也满足了智能客服系统中用户的不同需求，对文字和图片的两种信息表达方式的需求，使得客服系统更好的服务用户。
18.如图1
‑
5所示，一种基于crnn的电信行业智能客服图像识别的方法，包括获取与电信领域相关的问题图片；在特征的提取模块中利用cnn对电信领域相关的问题图片进行信息的抽取，得到问题图片的图像特征，建立特征数据集；在时序特征提取模块中利用rnn模型对特征数据集中的所有图像特征分别进行双向lstm的语序特征的表达，得到每一个图像特征的语序特征表达数据，并建立语序特征表达数据集；在ctc 损失更新模块中利用ctc loss对语序特征表达数据集中的数据进行损失的计算，得到识别模型，并利用不加ctc损失更新的crnn前向网络进行特征的提取，得到图像预训练词向量模型，用于后续的更新迭代；通过序列合并机制对齐不定长序列。
19.图1中，input image为输入的图片数据，convolutional feature maps为卷积特征映射，feature sequence为拼接之后的特征序列，convolutional laysers是卷积层，deep bidirectional lstm是深度双向长短期记忆网络，recurrent layer是循环层，per
‑
frame prediction 是未处理前的预测结果，predicted sequence是处理之后真正的预测结果，transcription layer是转录层。
20.优选的，在特征的提取模块利用cnn对电信领域相关的问题图片进行信息的抽取包括对问题图片进行多层的卷积、最大池化和batchnormalization化。
21.本实施例中，将图像缩放到 32
×
w
×
1 大小,即将图像变成高度为32，宽度为w，通道为1，即灰色图像的模式，然后通过7层卷积网络进行特征的提取，最终变成1
×
（w/4）
×ꢀ
512，高度为1，512个特征。在这里一共有四个最大池化层，但是最后两个池化层的窗口尺寸由 2x2 改为 1x2，也就是图片的高度减半了四次（除以2^4），而宽度则只减半了两次（除以 2^2），这是因为文本图像多数都是高较小而宽较长，所以其feature map也是这种高小宽长
的矩形形状，如果使用1
×
2的池化窗口可以尽量保证不丢失在宽度方向的信息，更适合英文字母识别（比如区分i和l），具体的流程图如图2所示，input是输入层，convolution是卷积层，maxpooling是最大池化层，batchnormalization是规范层，map
‑
to
‑
sequence是序列映射层，bidirectional
‑
lstm是双向长短期记忆网络，transciption是转录层。
22.优选的，在时序特征提取模块中，首先将特征数据集中的图像特征进行map
‑
to
‑
sequence处理，得到适合rnn模型的特征向量序列；然后将特征向量序列输入到rnn模型，将一个向前的lstm和一个向后的lstm组合成一个双向lstm，并对图像特征进行处理。
23.在本实施例中，用户将由cnn模块得到的图像特征（此时的是512
×
w/4
×
1）经过map
‑
to
‑
sequence处理，即不能直接把 cnn 得到的特征图送入 rnn 进行训练的，需要进行一些调整，根据特征图提取 rnn 需要的特征向量序列。本实施例需要从 cnn 模型产生的特征图中提取特征向量序列，每一个特征向量在特征图上按列从左到右生成，每一列包含512维特征，这意味着第 i 个特征向量是所有的特征图第 i 列像素的连接，这些特征向量就构成一个序列。由于卷积层，最大池化层和激活函数在局部区域上执行，因此它们是平移不变的。因此，特征图的每列（即一个特征向量）对应于原始图像的一个矩形区域（称为感受野），并且这些矩形区域与特征图上从左到右的相应列具有相同的顺序。特征序列中的每个向量关联一个感受野，最终变成如图3所示，receptive field是感受野部分，feature sequence是特征序列。在对cnn的结果拼接之后变成宽度为w/4,高度为1，512个特征的形式，这512个特征对应着图像中的每个像素的512维度的特征表示，而w/4则是图片从左到右排列的图片像素，从而构造出满足时序要求的序列，然后将其输入到rnn中，因为 rnn 有梯度消失的问题，不能获取更多上下文信息，所以 crnn 中使用的是 lstm，lstm 的特殊设计允许它捕获长距离依赖。
24.优选的，在双向lstm 中，对应每一个时间步就传入一个图像特征的特征向量，并进行分类。
25.lstm 是单向的，它只使用过去的信息。然而，在基于图像的序列中，两个方向的上下文是相互有用且互补的。本实施例将两个lstm，一个向前和一个向后组合到一个双向lstm中。此外，可以堆叠多层双向lstm，深层结构允许比浅层抽象更高层次的抽象。通过上面一步，得到了40个特征向量，每个特征向量长度为512，在 lstm 中一个时间步就传入一个特征向量进行分类，这里一共有40个时间步。所以这里采用的是两层各256单元的双向 lstm 网络，即如图4所示，x是输入的数据，a表示隐藏层，s是隐藏层的输出，y是最终的经过双层神经网络后的输出结果。
26.优选的，一个图像特征的特征向量就相当于原图中的一个小矩形区域，rnn模型用于预测小矩形区域为哪些字符，根据输入的特征向量，进行预测，得到所有字符的softmax概率分布，即一个长度为字符类别数的向量，该长度为字符类别数的向量作为ctc 损失更新模块的输入数据。
27.本实施例中，一个特征向量就相当于原图中的一个小矩形区域，rnn 的目标就是预测这个矩形区域为哪个字符，即根据输入的特征向量，进行预测，得到所有字符的softmax概率分布，这是一个长度为字符类别数的向量，作为ctc层的输入,如图5所示，input layer是输入层，hidden layer是隐藏层，output layer是输出层，ctc layer是转录
层。因为每个时间步都会有一个输入特征向量 x
t
，输出一个所有字符的概率分布 y
t
，所以输出为 40 个长度为字符类别数的向量构成的后验概率矩阵。
28.优选的，序列合并机制包括以
“‑”
符号代表blank，rnn 输出序列时，在文本标签中的重复的字符之间插入一个
“‑”
符号，如有blank字符隔开的话，连续相同字符就不进行合并，即对字符序列先删除连续重复字符，然后从路径中删除所有
“‑”
字符。
29.端到端图像识别的难点在于怎么处理不定长序列对齐的问题，在预测的时候经常出现预测对象重复的现象，这导致预测不准确。为了解决这个问题，本实施例引入了序列合并机制，以
“‑”
符号代表blank，rnn 输出序列时，在文本标签中的重复的字符之间插入一个
“‑”
，比如输出序列为“bbooo
‑
ookk”，则最后将被映射为“book”，即有blank字符隔开的话，连续相同字符就不进行合并。即对字符序列先删除连续重复字符，然后从路径中删除所有
“‑”
字符，这个称为解码过程，而编码则是由神经网络来实现。引入blank机制，我们就可以很好地解决重复字符的问题。
30.所以对于 rnn 给定输入概率分布矩阵为，t 是序列长度，最后映射为标签文本 l 的总概率为：；其中代表从序列到序列的映射函数 b 变换后是文本 l 的所有路径集合，而则是其中的一条路径，x表示识别出来的待修正的词语，每条路径的概率为各个时间步中对应字符的分数的乘积。
31.类似普通的分类，ctc的损失函数o定义为负的最大似然，为了计算方便，对似然取对数。
32.本实施例就是需要训练网络使得这个概率值最大化，类似于普通的分类，ctc的损失函数定义为概率的负最大似然函数，为了计算方便，对似然函数取对数：；通过对损失函数的计算，就可以对之前的神经网络进行反向传播，神经网络的参数根据所使用的优化器进行更新，从而找到最可能的像素区域对应的字符。
33.实施例2：实施例2所述的一种基于crnn的电信行业智能客服图像识别的系统是与实施例1所述的一种基于crnn的电信行业智能客服图像识别的方法配套的，包括数据采集服务器和中心服务器，数据采集服务器和中心服务器之间通过网线通信；数据采集服务器用于采集与电信领域相关的问题图片；在中心服务器中建立特征的提取模块、时序特征提取模块和ctc 损失更新模块，特征的提取模块用于对电信领域相关的问题图片进行图像特征的抽取；时序特征提取模用于对图像特征进行双向lstm的语序特征表达；ctc 损失更新模块用于对语序特征表达进行损失的计算，并利用不加ctc损失更新的crnn前向网络进行特征的提取。
34.本发明和传统的单纯利用cnn更能挖取更深层的特征，使得在电信客服系统中图像处理的更加的准确，从而很好的满足客服系统多模态的需求，更好的满足用户不同的咨询需求。
35.本发明对传统的基于cnn的图像识别不准确和缺乏语义信息的缺点进行改善，从而提出了一种基于crndn的图像处理的识别方法人——利用cnn提取特征；利用rnn对特征进行语序的学习，使得图像具有时序性；最后利用ctc loss的方式对时序模型的输出进行loss的计算和梯度下降更新模型。该方法不仅适用于电信领域的智能客服系统，还适应于其他具有大量有多模态需求的领域。
36.本发明所述的一种基于crnn的电信行业智能客服图像识别的方法及其系统，解决了智能客服系统中没有图片处理的业务，不能很好满足用户的多方面的需求的技术问题，本发明对电信行业的图片进行了大规模的预训练，提高了垂直领域的图像识别精度，和传统的单纯利用cnn更能挖取更深层的特征，使得在电信客服系统中图像处理的更加的准确，从而很好的满足客服系统多模态的需求，更好的满足用户不同的咨询需求，本发明可用于不同垂直领域的智能客服系统，在迁移时，只需要提前整理好该垂直领域的图像数据存入知识库，并根据知识库中的数据对crnn模型进行训练，使得用户之间的交互变得更加的便捷和人性化，提高了智能客服的使用效率，本发明基于cnn模型也得到了电信行业客服系统领域的图像的大量语料，基于这些语料也得到了一个预训练模型，大大增强了对图像处理的准确率。
37.在本发明中，流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。
38.在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（ram），只读存储器（rom），可擦除可编辑只读存储器（eprom或闪速存储器），光纤装置，以及便携式光盘只读存储器（cdrom）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。
39.应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离
散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（pga），现场可编程门阵列（fpga）等。
40.本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。
41.此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。
42.尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄峰;费春勇;何伟
技术所有人：中博信息技术研究院有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。