一种结合RPA与AI的早媒体识别方法、装置、设备及存储介质与流程

文档序号：23164315发布日期：2020-12-04 13:57阅读：215来源：国知局

本申请实施例涉及文本理解技术领域，尤其涉及一种结合rparoboticprocessautomation，机器人流程自动化)与ai(artificialintelligence，人工智能)的早媒体识别方法、装置、设备及存储介质。

背景技术：

机器人流程自动化(roboticprocessautomation，简称：rpa)是通过特定的“机器人软件”，模拟人在计算机上的操作，按规则自动执行流程任务。

人工智能(artificialintelligence，ai)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。早媒体是媒体信息的一部分，其具体可在存在于一段媒体信息的起始部分，例如，电话呼叫时的呼叫等待提示音等。在智能交互系统中，对早媒体的信息进行识别，并根据识别结果采用相应的交互处理方式完成智能交互中必不可少的部分。

在现有技术中，早媒体识别是利用自动语音识别技术(automaticspeechrecognition，简称asr)实现的。通过将早媒体的语音信息转换为文字信息，再对文字信息的语义进行分析，以确定智能交互系统在后续的交互处理方式。但是，由于asr技术是一种非常消耗机器资源的技术，现有技术中当利用该技术进行早媒体识别将会较大的消耗计算资源，提高业务成本。

技术实现要素：

本申请实施例提供一种结合rpa与ai的早媒体识别方法、装置、设备及存储介质，解决了自动语音识别技术计算资源占用高和并发低问题，从而提高了早媒体识别的并发数和准确率。

第一方面，本申请实施例提供一种结合rpa与ai的早媒体识别方法，包括：

s1、获得早媒体样本数据，对所述早媒体样本数据进行数据切分，获得多个样本切片数据；其中，相邻的任意两个样本切片数据之间的部分数据存在数据交集；

s2、对各样本切片数据分别进行语音识别，并根据语音识别结果确定每个样本切片数据的标注信息；

s3、利用所述多个样本切片数据和对应的标注信息，对构建的待训练的早媒体识别模型进行训练，获得训练后的早媒体识别模型；所述训练后的早媒体识别模型用于对输入的待识别的早媒体数据进行识别。

可选实施例中，如上所述的s3具体包括：

s31、对各样本切片数据分别进行短时傅里叶变换，获得每个样本切片数据的待训练切片数据；

s32、将各待训练切片数据与其对应的标注信息输入至待训练的早媒体识别模型，以对构建的待训练的早媒体识别模型进行训练，获得训练后的早媒体识别模型。

可选实施例中，如上所述的s2具体包括：

s21、利用asr技术对所述各样本切片数据进行语音识别，分别获得各样本切片数据对应的切片文本信息；

s22、将各切片文本信息与预设的目标文本信息进行比对，获得每一样本切片数据对应的标注信息。

可选实施例中，s1之前还包括：

s101、对获得的样本数据进行数据增强处理，获得早媒体样本数据。

可选实施例中，所述数据增强处理包括以下处理中的至少一种处理：添加噪声处理、时间缩放处理以及音高缩放处理。

可选实施例中，s3还包括：

s33、确定各样本切片数据对应的标注信息的准确性；

s34、根据各样本切片数据的准确性，确定标注信息不准确的目标样本切片数据，并对标注信息不准确的目标样本切片数据进行重新标注，获得其新的标注信息；

s35、在执行所述利用所述多个样本切片数据和对应的标注信息，对构建的待训练的早媒体识别模型进行训练的步骤之后，利用目标样本切片数据以及相应的新的标注信息对所述训练后的早媒体识别模型进行训练，获得训练后的早媒体识别模型。

第二方面，本申请实施例提供另一种结合rpa与ai的早媒体识别方法，包括：

s4、获取待识别的早媒体数据；

s5、利用第一方面任一项所述方法得到的训练后的早媒体识别模型对所述待识别的早媒体数据进行处理，获得识别结果。

第三方面，本申请实施例提供一种结合rpa与ai的早媒体识别装置，包括：

数据处理模块，用于获得早媒体样本数据，对所述早媒体样本数据进行数据切分，获得多个样本切片数据；其中，相邻的任意两个样本切片数据之间的部分数据存在数据交集；

第一识别模块，用于对各样本切片数据分别进行语音识别，并根据语音识别结果确定每个样本切片数据的标注信息；

训练模块，用于利用所述多个样本切片数据和对应的标注信息，对构建的待训练的早媒体识别模型进行训练，获得训练后的早媒体识别模型；所述训练后的早媒体识别模型用于对输入的待识别的早媒体数据进行识别。

第四方面，本申请实施例提供另一种结合rpa与ai的早媒体识别装置，包括：

获取模块，用于获取待识别的早媒体数据；

识别模块，用于利用第一方面任一项所述方法得到的训练后的早媒体识别模型对所述待识别的早媒体数据进行处理，获得识别结果。

第五方面，本申请实施例提供一种电子设备，包括：

存储器，处理器以及计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现第一方面和第二方面任一项所述的结合rpa与ai的早媒体识别方法。

第六方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现第一方面和第二方面任一项所述的结合rpa与ai的早媒体识别方法。

本申请实施例提供一种结合rpa与ai的早媒体识别方法、装置、设备及存储介质，通过获得早媒体样本数据，对所述早媒体样本数据进行数据切分，获得多个样本切片数据；对各样本切片数据分别进行语音识别，并根据语音识别结果确定每个样本切片数据的标注信息；利用所述多个样本切片数据和对应的标注信息，对构建的待训练的早媒体识别模型进行训练，获得训练后的早媒体识别模型；获取待识别的早媒体数据，利用训练后的早媒体识别模型对所述待识别的早媒体数据进行处理，获得识别结果。本申请提供的方案，通过对早媒体样本数据进行切分和语音识别获得早媒体模型训练数据，利用早媒体模型训练数据对待训练的早媒体识别模型进行训练获得早媒体识别模型，通过训练后的早媒体识别模型对早媒体数据进行处理获取识别结果，从而提高了早媒体识别模型的训练效率，降低了计算资源的占用。

应当理解，上述发明内容部分中所描述的内容并非旨在限定本申请的实施例的关键或重要特征，亦非用于限制本申请的范围。本申请的其它特征将通过以下的描述变得容易理解。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开所基于的一种网络架构的示意图；

图2为本公开实施例提供的一种结合rpa与ai的早媒体识别方法的流程图；

图3为本公开实施例提供的再一种结合rpa与ai的早媒体识别方法的流程图；

图4为本公开实施例提供的另一种结合rpa与ai的早媒体识别方法的流程图；

图5为本公开实施例提供的又一种结合rpa与ai的早媒体识别方法的流程图；

图6为本公开实施例提供的又一种结合rpa与ai的早媒体识别方法的流程图；

图7为本公开实施例提供的一种结合rpa与ai的早媒体识别装置的结构示意图；

图8为本公开实施例提供的另一种结合rpa与ai的早媒体识别装置的结构示意图；

图9为本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的实施例。虽然附图中显示了本申请的某些实施例，然而应当理解的是，本申请可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本申请。应当理解的是，本申请的附图及实施例仅用于示例性作用，并非用于限制本申请的保护范围。

在智能交互领域，对早媒体的信息进行识别是智能交互过程中重要的一个环节，早媒体是存在于一段媒体信息的起始部分，例如，在一段语音数据中，语音前面的提示音就是早媒体。对早媒体信息进行识别，可以提高对媒体信息的处理效率。

在机器人通过电话联系潜在客户这一过程中，对电话传递回来的音频信息进行识别是早媒体识别的一种重要应用场景，例如，机器人拨打客户电话，电话传递回来的语音中含有“已关机”，机器人需要识别到该信息并挂断电话，而不是继续等待。在现有技术中，音频信息的识别是利用自动语音识别技术(automaticspeechrecognition，简称asr)实现的，asr技术主要包含特征提取、模型识别、语言模型及字典、解码四大部分，使用过程中存在计算资源占用高、并发低等缺陷，降低了音频信息识别的效率。

针对这些问题，发明人研究发现，机器人接收到的电话传递回来的音频信息主要包括以下几种情况：彩铃声音、广告声音、电话提示声音、客户声音等，可以训练一种更高效的早媒体识别模型来对这些音频信息进行识别。首先获取大量音频样本数据并切片，通过asr技术对切片数据进行语音识别来确定标注信息，实现自动标注，人工检查标注信息并对错误信息进行修改；然后对切片数据进行短时傅里叶变换，将变换后的切片数据及对应的标注信心输入到待训练的模型中进行训练，获得训练后的早媒体识别模型；最后通过训练后的早媒体识别模型对待识别的音频信息进行识别。该申请方案，在保证语音识别准确率的情况下，提高了模型训练的效率，且训练后的早媒体识别模型相对于现有技术具有计算资源占用低和并发高的优点。

图1为本公开所基于的一种网络架构的示意图，如图1所示，本实施例提供的系统包括终端11和服务器12。其中，终端11可以为台式电脑、笔记本电脑、平板电脑、智能手机等硬件设备。本实施例对终端11的实现方式不做任何特别限制，只要可以与服务器正常通信即可。

当需要训练模型时，在终端11上输入训练指令，服务器12开始自动标注早媒体样本数据，并将标注好的样本数据输入模型中进行训练，训练好的模型存储在服务器12中。当需要早媒体识别时，在终端11上输入识别指令，将待识别早媒体数据传输到模型行中进行识别，得到识别结果。

具体地，服务器12可以从终端11获取早媒体样本数据，也可以自身存储早媒体样本数据进行模型训练。本实施例对具体的实现方式不做特别限制。

下面以具体地实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图2为本公开实施例提供的一种结合rpa与ai的早媒体识别方法的流程图，如图2所示，本实施例的方法可以包括：

s1、获得早媒体样本数据，对所述早媒体样本数据进行数据切分，获得多个样本切片数据；其中，相邻的任意两个样本切片数据之间的部分数据存在数据交集。

本实施例中，可以自定义切分时长和开始时间对所述早媒体样本数据进行数据切分，即每一片样本切片数据的时长和开始时间可以自行调整。

举例来说，一段早媒体样本数据时长为2s，一种可能的情况，其每一样本切片采用相同的切片时长，切分完成后的样本切片数据包括：第一片样本切片数据为0s～1s，第二片样本切片数据为0.5s～1.5s，第三片样本切片数据为1s～2s；第二种可能的情况，其每一样本切片采用不相同的切片时长，切分完成后的样本切片数据包括：第一片样本切片数据为0s～0.5s，第二片样本切片数据为0.25s～1.5s，第三片样本切片数据为1s～2s。这里仅列举了两种可能的样本切片数据情况，其他相同或相似的情况不再赘述。

s2、对各样本切片数据分别进行语音识别，并根据语音识别结果确定每个样本切片数据的标注信息。

本实施例中，通过自动语音识别技术对每一片切分后的早媒体样本数据进行识别，并根据识别结果对该片早媒体样本数据进行分类和标注。

举例来说，早媒体样本数据标注信息包括：“已关机”、“已停机”、“正忙”、“受限”，从第一片早媒体样本数据中识别出“您拨叫的用户正在通话中”，语义分析后可知，“您拨叫的用户正在通话中”可标注为“正忙”，则该片早媒体样本数据可标注为“正忙”。

本申请实施例通过采用上述方式，实现了早媒体样本数据的自动标注和早媒体识别模型的训练，计算资源占用率相对于现有技术得到了显著降低，也使得早媒体识别效率得到了提升。

在上述图2所述实施例的基础上，图3为本公开实施例提供的再一种结合rpa与ai的早媒体识别方法的流程图，如图3所示，在图2的基础上，在s1之前还包括：

s101、对获得的样本数据进行数据增强处理，获得早媒体样本数据。

所述数据增强处理包括以下处理中的至少一种处理：添加噪声处理、时间缩放处理以及音高缩放处理。其中，时间缩放处理是指对音频数据的时间进行缩短或拉长处理，音高缩放处理是指对音频数据的振动频率进行加快或放慢处理。

本实施例中，数据增强处理的优先级顺序为：首先是添加噪声处理；其次是时间缩放处理；最后是高音缩放处理。

本可选实施例通过对获得的早媒体样本数据进行增强处理，可以获得更丰富的早媒体样本数据种类，使得待标注早媒体样本数据更贴近真实数据，进而提高了训练后的早媒体识别模型的鲁棒性。

图4为本公开实施例提供的另一种结合rpa与ai的早媒体识别方法的流程图。如图4所示，在图2的基础上，s2具体包括：

s21、利用asr技术对所述各样本切片数据进行语音识别，分别获得各样本切片数据对应的切片文本信息。

s22、将各切片文本信息与预设的目标文本信息进行比对，获得每一样本切片数据对应的标注信息。

举例来说，所述预设的目标文本信息包括：“已关机”、“已停机”、“正忙”、“受限”，利用asr技术识别第一片切片数据的文本为“正在通话中”，通过比对获知“正在通话中”与“正忙”是相同的意思，则获得第一片切片数据对应的标注信息为“正忙”。

相应的，s3具体包括：

s31、对各样本切片数据分别进行短时傅里叶变换，获得每个样本切片数据的待训练切片数据。

本实施例中，只采用短时傅里叶变换对各样本切片数据进行处理，获取待训练切片数据。

相对于前述的实施例来说，本实施例通过将各切片文本信息与预设的目标文本信息进行比对，可以统一早媒体样本数据标注信息的标准，通过对各样本切片数据分别进行短时傅里叶变换，在不影响asr技术准确率的情况下减少了计算资源的占用。

图5为本公开实施例提供的又一种结合rpa与ai的早媒体识别方法的流程图。本实施例可在图2、图3或图4所述实施例的基础上进行，这里在图2所述实施例的基础上进行说明，如图5所示，s3还包括：

s33、确定各样本切片数据对应的标注信息的准确性。

本实施例中，人工对各样本切片数据对应的标注信息进行检查，确认标注信息是否准确。

s34、根据各样本切片数据的准确性，确定标注信息不准确的目标样本切片数据，并对标注信息不准确的目标样本切片数据进行重新标注，获得其新的标注信息。

举例来说，一样本切片数据标注信息为“已停机”，人工检查发现所述样本切片数据实际为“已关机”，则确认样本切片数据标注信息错误，将样本切片数据标注信息修改为“已关机”。

本实施例中，在之前训练好的早媒体识别模型的基础上进行训练，获得最新的早媒体识别模型。

相对于前述的实施例来说，本实施例通过人工对不准确的早媒体切片数据对应的标注信息进行校正，提高了标注信息的准确率，进而提高了早媒体识别模型的识别准确率。

图6为本公开实施例提供的又一种结合rpa与ai的早媒体识别方法的流程图，如图6所示，本实施例的方法可以包括：

s4、获取待识别的早媒体数据；

s5、利用前述实施例任一项所述方法得到的训练后的早媒体识别模型对所述待识别的早媒体数据进行处理，获得识别结果。

需要说明的是，上述s4、s5是在前述实施例的基础上进行。

本申请实施例提供一种结合rpa与ai的早媒体识别方法，通过获得早媒体样本数据，对所述早媒体样本数据进行数据切分，获得多个样本切片数据；对各样本切片数据分别进行语音识别，并根据语音识别结果确定每个样本切片数据的标注信息；利用所述多个样本切片数据和对应的标注信息，对构建的待训练的早媒体识别模型进行训练，获得训练后的早媒体识别模型；获取待识别的早媒体数据，利用训练后的早媒体识别模型对所述待识别的早媒体数据进行处理，获得识别结果。本申请提供的方案，通过对早媒体样本数据进行切分和语音识别获得早媒体模型训练数据，利用早媒体模型训练数据对待训练的早媒体识别模型进行训练获得早媒体识别模型，通过训练后的早媒体识别模型对早媒体数据进行处理获取识别结果，从而提高了早媒体识别模型的训练效率，降低了计算资源的占用。

图7为本公开实施例提供的一种结合rpa与ai的早媒体识别装置的结构示意图，如图7所示，本实施例的装置可以包括：

数据处理模块71，用于获得早媒体样本数据，对所述早媒体样本数据进行数据切分，获得多个样本切片数据；其中，相邻的任意两个样本切片数据之间的部分数据存在数据交集；

第一识别模块72，用于对各样本切片数据分别进行语音识别，并根据语音识别结果确定每个样本切片数据的标注信息；

训练模块73，用于利用所述多个样本切片数据和对应的标注信息，对构建的待训练的早媒体识别模型进行训练，获得训练后的早媒体识别模型；所述训练后的早媒体识别模型用于对输入的待识别的早媒体数据进行识别。

可选的，训练模块73，具体用于对各样本切片数据分别进行短时傅里叶变换，获得每个样本切片数据的待训练切片数据；将各待训练切片数据与其对应的标注信息输入至待训练的早媒体识别模型，以对构建的待训练的早媒体识别模型进行训练，获得训练后的早媒体识别模型。

可选的，第一识别模块72，具体用于利用asr技术对所述各样本切片数据进行语音识别，分别获得各样本切片数据对应的切片文本信息；将各切片文本信息与预设的目标文本信息进行比对，获得每一样本切片数据对应的标注信息。

可选的，数据处理模块71还用于对获得的样本数据进行数据增强处理，获得早媒体样本数据。

可选的，所述数据增强处理包括以下处理中的至少一种处理：添加噪声处理、时间缩放处理以及音高缩放处理。

可选的，所述训练模块73还用于：确定各样本切片数据对应的标注信息的准确性；根据各样本切片数据的准确性，确定标注信息不准确的目标样本切片数据，并对标注信息不准确的目标样本切片数据进行重新标注，获得其新的标注信息；以及在执行所述利用所述多个样本切片数据和对应的标注信息，对构建的待训练的早媒体识别模型进行训练的步骤之后，利用目标样本切片数据以及相应的新的标注信息对所述训练后的早媒体识别模型进行训练，获得训练后的早媒体识别模型。

本实施例的装置，可以用于执行上述方法实施例的技术方案，其实现原理类似，此处不再赘述。

本申请实施例提供一种结合rpa与ai的早媒体识别装置，通过获得早媒体样本数据，对所述早媒体样本数据进行数据切分，获得多个样本切片数据；对各样本切片数据分别进行语音识别，并根据语音识别结果确定每个样本切片数据的标注信息；利用所述多个样本切片数据和对应的标注信息，对构建的待训练的早媒体识别模型进行训练，获得训练后的早媒体识别模型；获取待识别的早媒体数据，利用训练后的早媒体识别模型对所述待识别的早媒体数据进行处理，获得识别结果。本申请提供的方案，通过对早媒体样本数据进行切分和语音识别获得早媒体模型训练数据，利用早媒体模型训练数据对待训练的早媒体识别模型进行训练获得早媒体识别模型，通过训练后的早媒体识别模型对早媒体数据进行处理获取识别结果，从而提高了早媒体数据的标注效率，降低了计算资源的占用率。

图8为本公开实施例提供的另一种结合rpa与ai的早媒体识别装置的结构示意图，如图8所示，本实施例的装置可以包括：

获取模块81，用于获取待识别的早媒体数据；

识别模块82，用于利用前述实施例任一项所述方法得到的训练后的早媒体识别模型对所述待识别的早媒体数据进行处理，获得识别结果。

图9为本公开实施例提供的一种电子设备的结构示意图，如图9所示，本实施例的电子设备60可以包括：存储器61、处理器62和计算机程序。

存储器61，用于存储计算机程序(如实现上述一种基于rpa的发票信息处理方法的应用程序、功能模块等)、计算机指令等；

上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器61中。并且上述的计算机程序、计算机指令、数据等可以被处理器62调用。

处理器62，用于执行存储器61存储的计算机程序，以实现上述实施例涉及的方法中的各个步骤。

具体可以参见前面方法实施例中的相关描述。

存储器61和处理器62可以是独立结构，也可以是集成在一起的集成结构。当存储器61和处理器62是独立结构时，存储器61、处理器62可以通过总线64耦合连接。

本实施例的一种电子设备可以执行图2、图3、图4、图5和图6所示方法中的技术方案，其具体实现过程和技术原理参见图2、图3、图4、图5和图6所示方法中的相关描述，此处不再赘述。

此外，本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，当用户设备的至少一个处理器执行该计算机执行指令时，用户设备执行上述各种可能的方法。

其中，计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于asic中。另外，该asic可以位于用户设备中。当然，处理器和存储介质也可以作为分立组件存在于通信设备中。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：胡一川;汪冠春;褚瑞;李玮;唐祥光;谷宇维;胡景超
技术所有人：北京来也网络科技有限公司;北京奔影网络科技有限公司
我是此专利的发明人

上一篇：一种自动升降防积水路面垫块及工作方法与流程
上一篇：一种景观园林植草砖铺装施工方法与流程