一种语音输入方法、装置、设备及可读存储介质与流程

文档序号：17987377发布日期：2019-06-22 00:30阅读：161来源：国知局

本申请涉及信息识别技术领域，更具体地说，涉及一种语音输入方法、装置、设备及可读存储介质。

背景技术：

随着语音识别技术的发展，通过语音的形式进行文本信息的输入已经越来越得到普及。通过语音输入信息的方式，使得用户能够更加快捷、方便的在应用的信息输入界面进行信息输入，例如在word等文本编辑页面输入文本信息，在浏览器的搜索框中输入搜索信息，在应用注册界面的注册文本框中输入注册信息等等。

现有的语音输入方式，在接收到输入语音后进行文本转写，并直接将转写文本显示到输入焦点所处的目标文本区域中。研究发现，在某些场景下，受限于目标文本区域的一些特性，现有语音输入方式不便于用户确定每次语音所输入的文本内容，进而降低整个输入效率。例如，在word或其它编辑页面输入文本过程，若需要在一大段文本中某个位置插入一段文本时，则在输入焦点定位到插入位置后，现有技术用户录入插入文本的语音，系统会将语音转写后的文本直接插入输入焦点处。对于用户而言，由于输入焦点前后均存在文本，在转写文本插入之后，用户无法在整段文本中快速定位到插入的转写文本。如图1a所示，需要在图1a示例的一段英文的倒数第三行输入焦点处插入一段英文语句，按照现有语音输入方式直接将转写文本插入输入焦点处，直接呈现给用户的效果如图1b所示，受原有英文内容的干扰，用户很难在整段英文中快速定位到所插入的英文语句。

再比如，某些目标文本区域可能会对输入的文本进行加密显示，如目标文本区域是密码输入框时，按照现有语音输入方式，语音转写后的文本直接在密码输入框中加密显示，如图2所示，应用注册页面的密码输入框中以“*”来显示输入的文本，导致用户无法了解语音所输入的真正文本，并且由于语音识别存在一定的误差，进一步导致用户无法确定所输入的文本的正确性。

技术实现要素：

有鉴于此，本申请提供了一种语音输入方法、装置、设备及可读存储介质，用于语音识别过程中用户无法了解语音所输入的真正文本，并且由于语音识别存在一定的误差，进一步导致用户无法确定所输入的文本的正确性的缺点。

为了实现上述目的，现提出的方案如下：

一种语音输入方法，包括：

响应输入焦点处于目标文本区域状态下的语音输入操作，展示文本弹窗；

获取并在所述文本弹窗内显示输入语音对应的转写文本；

将所述文本弹窗内显示的转写文本转移至所述目标文本区域内所述输入焦点处。

上述的方法，可选的，在将所述文本弹窗内显示的转写文本转移至所述目标文本区域内所述输入焦点处之后，该方法还包括：

隐藏或销毁所述文本弹窗。

上述的方法，可选的，在所述文本弹窗内显示输入语音对应的转写文本的同时，该方法还包括：

在所述文本弹窗中显示语音信号图形，所述语音信号图形随所述输入语音的变化而变化。

上述的方法，可选的，所述响应输入焦点处于目标文本区域状态下的语音输入操作，展示文本弹窗，包括：

在输入焦点处于目标文本区域状态下响应语音输入操作，确定所述输入焦点的位置；

以所述输入焦点的位置为基准，展示文本弹窗。

上述的方法，可选的，在所述将所述文本弹窗内显示的转写文本转移至所述目标文本区域内所述输入焦点处之前，该方法还包括：

确定是否满足文本转移条件；

若是，执行将文本弹窗内显示的转写文本转移至所述目标文本区域内所述输入焦点处的操作。

上述的方法，可选的，所述确定是否满足文本转移条件，包括：

根据所述文本弹窗内显示的转写文本的语义完整性，确定是否满足文本转移条件；

和/或，

根据所述文本弹窗内显示的转写文本，及后续输入语音的转写文本间的相关性，确定是否满足文本转移条件。

上述的方法，可选的，所述确定是否满足文本转移条件，包括：

检测是否收到文本转移指令，若是，则确定满足文本转移条件，否则，确定不满足文本转移条件。

上述的方法，可选的，所述将所述文本弹窗内显示的转写文本转移至所述目标文本区域内所述输入焦点处，包括：

获取目标文本区域对输入文本的格式要求；

按照所述格式要求，对所述文本弹窗内显示的转写文本进行格式编辑，得到格式编辑后的转写文本；

将格式编辑后的转写文本转移至所述目标文本区域内所述输入焦点处。

上述的方法，可选的，在将所述文本弹窗内显示的转写文本转移至所述目标文本区域内所述输入焦点处之前，该方法还包括：

响应对所述文本弹窗内转写文本的编辑操作，显示编辑后的转写文本。

上述的方法，可选的，所述响应对所述文本弹窗内转写文本的编辑操作，显示编辑后的转写文本，包括：

响应对所述文本弹窗内指定转写文本的全局编辑操作，确定本次的编辑范围为所述文本弹窗内显示的全部转写文本；

将所述编辑范围内与所述指定转写文本相同的转写文本，均按照全局编辑操作进行文本编辑，并显示编辑后的转写文本。

上述的方法，可选的，在响应对所述文本弹窗内转写文本的编辑操作，显示编辑后的转写文本之前，该方法还包括：

响应将目标文本区域内选中转写文本转移至所述文本弹窗内的指令，将所述选中转写文本转移至所述文本弹窗内。

一种语音输入装置，包括：

文本弹窗展示单元，用于响应输入焦点处于目标文本区域状态下的语音输入操作，展示文本弹窗；

文本获取及显示单元，用于获取并在所述文本弹窗内显示输入语音对应的转写文本；

文本转移单元，用于将所述文本弹窗内显示的转写文本转移至所述目标文本区域内所述输入焦点处。

上述的装置，可选的，还包括：

文本弹窗处理单元，用于在所述文本转移单元将所述文本弹窗内显示的转写文本转移至所述目标文本区域内所述输入焦点处之后，隐藏或销毁所述文本弹窗。

上述的装置，可选的，还包括：

图形显示单元，用于在文本获取及显示单元获取并在所述文本弹窗内显示输入语音对应的转写文本的同时，在所述文本弹窗中显示语音信号图形，所述语音信号图形随所述输入语音的变化而变化。

上述的装置，可选的，所述文本弹窗展示单元包括：

输入焦点位置确定单元，用于在输入焦点处于目标文本区域状态下响应语音输入操作，确定所述输入焦点的位置；

输入焦点位置参考单元，用于以所述输入焦点的位置为基准，展示文本弹窗。

上述的装置，可选的，还包括：

转移条件确定单元，用于在所述文本转移单元将所述文本弹窗内显示的转写文本转移至所述目标文本区域内所述输入焦点处之前，确定是否满足文本转移条件，若是，执行所述文本转移单元。

上述的装置，可选的，所述转移条件确定单元包括：

完整性参考单元，用于根据所述文本弹窗内显示的转写文本的语义完整性，确定是否满足文本转移条件；

和/或，

相关性参考单元，用于根据所述文本弹窗内显示的转写文本，及后续输入语音的转写文本间的相关性，确定是否满足文本转移条件。

上述的装置，可选的，所述转移条件确定单元包括：

指令检测单元，用于检测是否收到文本转移指令，若是，则确定满足文本转移条件，否则，确定不满足文本转移条件。

上述的装置，可选的，所述文本转移单元包括：

格式要求获取单元，用于获取目标文本区域对输入文本的格式要求；

格式编辑单元，用于按照所述格式要求，对所述文本弹窗内显示的转写文本进行格式编辑，得到格式编辑后的转写文本；

格式编辑后文本转移单元，用于将格式编辑后的转写文本转移至所述目标文本区域内所述输入焦点处。

上述的装置，可选的，还包括：

编辑操作响应单元，用于在所述文本转移单元将所述文本弹窗内显示的转写文本转移至所述目标文本区域内所述输入焦点处之前，响应对所述文本弹窗内转写文本的编辑操作，显示编辑后的转写文本。

上述的装置，可选的，所述编辑操作响应单元包括：

编辑范围确定单元，用于响应对所述文本弹窗内指定转写文本的全局编辑操作，确定本次的编辑范围为所述文本弹窗内显示的全部转写文本；

全局编辑单元，用于将所述编辑范围内与所述指定转写文本相同的转写文本，均按照全局编辑操作进行文本编辑，并显示编辑后的转写文本。

上述的装置，可选的，还包括：

目标文本区域文本转移单元，用于响应将目标文本区域内选中转写文本转移至所述文本弹窗内的指令，将所述选中转写文本转移至所述文本弹窗内。

一种语音输入设备，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现上述的语音输入方法的各个步骤。

一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上述的语音输入方法的各个步骤。

从上述的技术方案可以看出，本申请实施例提供的语音输入方法通过响应输入焦点处于目标文本区域状态下的语音输入操作，展示文本弹窗，进一步获取并在文本弹窗内显示输入语音对应的转写文本，通过文本弹窗内显示转写文本的方式，能够更加快捷、方便的让用户确定当前语音所输入的文本内容，并最终将文本弹窗内显示的转写文本转移至目标文本区域内输入焦点处，完成整个输入过程。显然，相比于现有语音输入方式，本案增加了以文本弹窗的形式显示输入语音的转写文本的过程，便于用户确定当前语音所输入的文本内容，提高了整体的输入效率。

进一步，通过在语音输入过程以弹窗显示转写文本，能够让用户更直观看到所输入的文本内容，提升了输入过程的人机交互体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1a-1b示例了一种语音输入过程示意图；

图2示例了一种语音输入密码过程示意图；

图3为本申请公开的一种语音输入方法流程图；

图4为本申请示例的一种语音输入过程示意图；

图5为本申请公开的了一种语音输入方法又一流程图；

图6示例了一种日期输入框对输入格式要求的示意图；

图7为本申请示例的一种向日期输入框输入内容的示意图；

图8为本申请示例的一种对文本弹窗内文本进行编辑的示意图；

图9为本申请示例的一种从目标文本区域向文本弹窗内转移文本的示意图；

图10为本申请公开的一种语音输入装置结构框图；

图11为本申请实施例公开的一种语音输入设备的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请提供的语音输入方法，可以应用于语音识别领域，通过语音识别将输入语音识别为转写文本，并通过文本弹窗的形式对转写文本进行显示，之后再将文本弹窗中的转写文本转移到目标文本区域，该目标文本区域即为用户最终所要进行文本输入的位置。接下来结合图3对本案的语音输入方法进行详细介绍，包括如下步骤：

步骤s110、响应输入焦点处于目标文本区域状态下的语音输入操作，展示文本弹窗。

具体的，文本区域可以是能够进行文本输入的区域，其可以是excel、word、记事本、密码输入框等。输入焦点可以在不同的文本区域进行切换，定义输入焦点所处的文本区域为目标文本区域，该目标文本区域即为用户所要进行文本输入的区域。

在输入焦点处于目标文本区域状态下，用户可以通过语音的形式向目标文本区域输入文本。本申请通过响应语音输入操作，在当前终端界面上展示文本弹窗。该文本弹窗可以为矩形的文本输入框、气泡状的文本输入框或者其它的优选形式，本申请中对文本弹窗的存在形式不作严格限定。

步骤s120、获取并在所述文本弹窗内显示输入语音对应的转写文本。

具体的，本实施例中获取输入语音对应的转写文本的过程，可以是直接获取语音识别引擎对输入语音识别后的转写文本。除此之外，还可以是对输入语音进行识别，得到转写文本。

在获取到转写文本后，将转写文本显示在前述展示的文本弹窗内。可以理解的是，显示在文本弹窗内的转写文本能够更加直接、方便的被用户看到，实现用户边读语音边看转写文本的目的。

步骤s130、将所述文本弹窗内显示的转写文本转移至所述目标文本区域内所述输入焦点处。

具体的，文本弹窗内的转写文本显然可以供用户方便的阅读，同时本申请还可以将文本弹窗内的转写文本转移至目标文本区域的输入焦点处，从而实现向目标文本区域输入文本内容的目的。其中，将转写文本转移至目标文本区域的输入焦点处具体可以包括：以输入焦点为文本插入起点，将转写文本插入至目标文本区域中。

进一步，通过在语音输入过程通过弹窗显示转写文本，能够让用户更直观看到所输入的文本内容，提升了输入过程的人机交互体验。

参照图4，其示例了一种语音输入过程示意图。

图4中用户意图通过语音形式向目标文本区域a1中输入文本内容，则在用户输入语音过程，本案可以响应语音输入操作，在界面上展示文本弹窗a2，并且对于输入语音识别后的转写文本会显示在文本弹窗内。进一步地，文本弹窗内的转写文本可以转移至目标文本区域a1中。整个输入过程中，以文本弹窗的形式显示输入语音的转写文本，更加便于用户确定当前语音所输入的文本内容，提高了整体的输入效率，能够让用户更直观看到所输入的文本内容，提升了输入过程的人机交互体验，并且最终也能实现向目标文本区域输入文本的目的。

进一步可选的，在将文本弹窗内显示的转写文本转移至目标文本区域内输入焦点处之后，此时还没有获取新的转写文本，也即文本弹窗内为空，因此可以将文本弹窗进行隐藏或销毁。当有新的语音输入时，又会触发展示文本弹窗的过程。除此之外，本申请还可以选择持续保持文本弹窗固定显示在终端界面的某一固定位置。具体策略可以根据需要而设定。

再进一步地，在语音输入过程中，为了便于用户对输入语音的了解，还可以在所述文本弹窗中增加显示语音信号图形。该语音信号图形可以是一个固定不变的图形，仅示意性的告诉用户该文本弹窗用于显示输入语音对应的转写文本。此外，语音信号图形还可以是可变的，具体地，语音信号图形可以随输入语音的变化而变化。其中，语音的变化可以通过波形图、柱状图或者其它优选的形式进行展示。语音信号图形的变化可以是与输入语音的音量大小、音调大小、语速快慢等相关。如图4中示例的语音信号图形a21，其波形长度可以随输入语音的音量变化，输入语音的音量提高，则波形长度变长。

本申请的另一个实施例中，对上述步骤s110，响应输入焦点处于目标文本区域状态下的语音输入操作，展示文本弹窗的过程进行介绍。

可以理解的是，文本弹窗可以在终端界面上任意位置进行展示，还可以按照某些策略确定展示位置。本实施例介绍一种与输入焦点相关的展示文本弹窗的方案，详细如下介绍。

首先，在输入焦点处于目标文本区域状态下响应语音输入操作，确定所述输入焦点的位置。

具体的，输入焦点的位置可以是输入焦点在终端当前界面上的位置，本申请可以通过调用系统相应接口获取到输入焦点的位置。

进一步，以所述输入焦点的位置为基准，展示文本弹窗。

具体的，所述文本弹窗的位置与所述输入焦点的位置相关联，所述文本弹窗的位置可以为与所述输入焦点存在预设位置关系的位置。其中，所述预设位置关系可以对所述文本弹窗距离所述输入焦点的横向距离、纵向距离和角度关系等进行限定。仍以图4为例进行说明，其示例了一种文本弹窗与输入焦点的位置关系。图4示例中，文本弹窗的与输入焦点的位置关系包括：文本弹窗的左上角与输入焦点横向上相邻，纵向上间隔一个标准行距。

本申请的另一个实施例中，为了方便用户的阅读，提高目标文本区域内文本的可读性，在将文本弹窗内显示的转写文本转移至目标文本区域之前，进一步增加对转写文本是否满足转移条件的验证过程，整个语音输入过程可以参照图5示例的流程图，包括：

步骤s210、响应输入焦点处于目标文本区域状态下的语音输入操作，展示文本弹窗。

步骤s220、获取并在所述文本弹窗内显示输入语音对应的转写文本。

上述步骤s210-s220与前述步骤s100-s110一一对应，详细参照前述介绍，此处不再赘述。

步骤s230、确定是否满足文本转移条件，若是，执行步骤s240。

步骤s240、将所述文本弹窗内显示的转写文本转移至所述目标文本区域内所述输入焦点处。

上述步骤s240与前述步骤s130相对应，详细参照前述介绍，此处不再赘述。

可以理解的是，如果步骤s230中确定不满足文本转移条件，则可以暂时不将文本弹窗内的转写文本转移至目标文本区域，直至判断满足文本转移条件时，才执行文本转移操作。

本实施例示例了几种可选的确定是否满足文本转移条件的方式，具体可以包含如下几种：

(1)根据所述文本弹窗内显示的转写文本的语义完整性，确定是否满足文本转移条件。

具体的，对所述文本弹窗内显示的转写文本的语义完整性进行验证，主要是针对所述文本弹窗内已有的转写文本的完整性进行验证。可以理解的是，若文本弹窗内已有的转写文本完整性足够高，将这些已有的转写文本转移至目标文本区域后不会影响用户的正常阅读，因此可以确定满足文本转移条件。反之，若文本弹窗内已有的转写文本完整性不够高，若将这些完整性不够高的转写文本转移至目标文本区域，会影响用户的正常阅读，显然这种情况下是不满足文本转移条件的。

具体地，本申请可以预先设置完整性阈值，当文本弹窗内显示的转写文本的语义完整性超过完整性阈值时，则认为完整性足够高，满足文本转移条件；当文本弹窗内显示的转写文本的语义完整性未超过完整性阈值时，则认为完整性不足，不满足文本转移条件。

(2)根据所述文本弹窗内显示的转写文本，及后续输入语音的转写文本间的相关性，确定是否满足文本转移条件。

具体的，用户语音输入过程是一个持续过程，输入的语音也是语音流形式。随着输入语音流的增加，会不断获取对应的转写文本，进而将获取的转写文本显示到文本弹窗内。在某一时刻，若文本弹窗内的转写文本还未转移至目标文本区域，且后续输入语音对应的转写文本还未进入文本弹窗，则此时可以通过文本弹窗内显示的转写文本，与后续输入语音的转写文本间的相关性，来确定是否满足文本转移条件。

本实施例示例了两种可选的通过相关性验证，来确定是否满足文本转移条件的方式，分别如下：

第一种、

本实施例可以通过文本的语义相关性来进行验证，具体如下：

对文本弹窗中的转写文本和后续语音输入的转写文本进行语义相关性判断，将两者进行语义相关性计算，得到相关性评分，当相关性评分小于预设的相关性阈值时，说明两者的语义相关性低，此时若将文本弹窗中显示的转写文本转移至目标文本区域，不会影响用户的正常理解阅读，因此可以确定满足文本转移条件。若相关性评分达到预设的相关性阈值，说明两者的相关性很高，若单独将文本弹窗中显示的转写文本转移至目标文本区域，会割离其与后续输入文本间的相关性，影响用户的正常理解阅读，因此可以确定不满足文本转移条件。

第二种、

本实施例可以通过文本对应的输入语音间的相关性来验证，具体如下：

根据所述文本弹窗内显示的转写文本对应的已输入语音，与后续输入语音间的停顿信息，确定已输入语音与后续输入语音是否相关。例如，当停顿时长达到预设的停顿时长阈值时，则说明已输入语音与后续输入语音之间的停顿时长较长，通常情况下，若文本相关性不大，已输入语音与后续输入语音的间隔会较长，因此当停顿时长达到预设的停顿时长阈值时，则可以判定相关性不大，将文本弹窗内显示的转写文本转移至目标文本区域不会影响用户的正常理解阅读，进而可以确定满足文本转移条件；反之，当停顿时长未达到预设的停顿时长阈值时，则说明相关性较大，若单独将文本弹窗中显示的转写文本转移至目标文本区域，会割离其与后续输入文本间的相关性，影响用户的正常理解阅读，因此可以确定不满足文本转移条件。

(3)检测是否收到文本转移指令，若是，则确定满足文本转移条件，否则，确定不满足文本转移条件。

具体的，所述文本转移指令可以包括语音指令或者外部设备输入的指令。

其中，当所述文本转移指令为语音指令时，可以预先设置转移指令对应的指令文本，如“文本转移”“暂停录入”等，检测到语音输入所述指令文本时，说明满足文本转移条件；反之，未检测到语音输入所述转移指令时，说明不满足文本转移条件。

其中，当所述文本转移指令为通过外部设备输入的指令时，如通过键盘、鼠标等设备输入的指令，以键盘指令为点击空格键为例，当检测到空格键被触发时，说明满足文本转移条件；若未检测到空格键被触发，则说明不满足文本转移条件。

本申请的另一个实施例中，将所述文本弹窗内显示的转写文本转移至所述目标文本区域内所述输入焦点处时，常见的情况，可以直接将文本弹窗内的转写文本转移至目标文本区域内。

除此之外，某些场景下，目标文本区域会存在一些特殊要求，比如会对输入的文本内容进行格式的限定，即只允许特定格式的文本输入至目标文本区域内。例如，对输入日期有特定格式要求，或者对输入文本的字体有特定要求等。基于该种情况，本实施例提供了一种文本弹窗内显示的转写文本向目标文本区域转移的实现方式，详细如下：

s1、获取目标文本区域对输入文本的格式要求。

具体的，获取目标文本区域对输入文本的格式要求可以通过调用所述目标文本区域的后台编码，在所述后台编码中获取格式要求。

此外，对于输入文本格式有要求的目标文本区域，其可能会在界面上通过输入提示信息进行格式要求的标注，以提示用户。如图6示例的信息检索界面上，对于日期输入框，其要求输入的日期格式为xxxx/xx/xx。

基于此，本申请可以获取与目标文本区域关联的输入提示信息，进而对获取的输入提示信息进行解析，以确定目标文本区域对输入文本的格式要求。

s2、按照所述格式要求，对所述文本弹窗内显示的转写文本进行格式编辑，得到格式编辑后的转写文本。

具体的，依据所述格式要求，对所述文本弹窗内显示的转写文本进行格式编辑，将所述文本弹窗内显示的转写文本转换成目标文本区域所要求的格式，得到格式编辑后的转写文本。

s3、将格式编辑后的转写文本转移至所述目标文本区域内所述输入焦点处。

具体的，对于格式编辑后的转写文本，其符合目标文本区域的要求，因此可以将格式编辑后的转移文本转移至目标文本区域内输入焦点处。如图7所示，在语音输入时，通过语音识别所述文本弹窗a2内显示的转写文本为2018.9.10。假设目标文本区域为一个日期输入框a1，其要求输入的日期为xxxx/xx/xx格式。因此，本申请可以对文本弹窗a2内显示的转写文本按照日期输入框a1的格式要求进行转换，也即将“2018.9.10”转换为“2018/09/10”，进而将转换后的“2018/09/10”转移到日期输入框内。

在本申请的另一个实施例中，由于语音识别可能出错或者用户的语音输入可能出现口误，需要对转写文本进行编辑进而纠正错误。进一步地，为了避免在目标文本区域中进行文本编辑所存在的一些不便问题，本申请可以提供支持用户对文本弹窗内显示的转写文本进行编辑的功能。

具体地，在上述实施例中将文本弹窗内显示的转写文本转移至目标文本区域内所述输入焦点处之前，本申请的语音输入方法还可以增加如下处理环节：

响应对所述文本弹窗内转写文本的编辑操作，显示编辑后的转写文本。

也即，在转写文本转移至目标文本区域之前，用户可以对文本弹窗内的转写文本进行编辑操作，如修改、删除、替换等编辑操作，文本弹窗会显示编辑后的转写文本。对于编辑后的转写文本，可以进一步转移至目标文本区域内。

可以理解的是，为了支持对文本弹窗内转写文本的编辑操作，本实施例中在检测到用户对文本弹窗内的转写文本进行编辑操作时，可以设置文本弹窗处于持续展示状态，即不会隐藏或销毁，从而更加方便用户对文本弹窗内文本的编辑操作。当然，用户在需要将文本弹窗隐藏或销毁时，可以通过下发相应指令的形式，来控制隐藏或销毁文本弹窗。

其中，用户可以对文本弹窗内的指定转写文本进行单独编辑。除此之外，还可以设置全局编辑，在全局编辑模式下，编辑范围为文本弹窗内显示的全部转写文本，编辑范围内与用户指定转写文本相同的转写文本，可以均按照全局编辑操作进行文本编辑，并显示编辑后的转写文本。

具体的编辑模式为单独编辑还是全局编辑，可以预先通过设置来确定，或者由用户即时通过指令来更改编辑模式。

本实施例以全局编辑模式为例进行说明。

用户可以对文本弹窗内指定转写文本发起编辑指令，具体可以通过语音形式或外部输入设备发起编辑指令。其中，语音形式即用户可以通过语音来指定所要编辑的转写文本，以及对该指定转写文本的具体编辑方式。本案通过解析语音指令，确定所要编辑的指定转写文本，以及具体编辑方式，进而在编辑范围内查找所有相同的指定转写文本，均按照解析后的编辑方式执行编辑操作，实现一次性将文本弹窗内所有相同的指定转写文本均进行编辑的目的。

进一步，用户还可以通过外部输入设备发起编辑指令，如通过键盘配合鼠标的形式，来指定待编辑的转写文本，以及实现编辑操作。具体地，可以存在两种实现方式，如下：

第一种、用户在文本弹窗内对某一处待编辑的转写文本进行选中，该选中的转写文本即为指定转写文本。进一步，用户可以对指定转写文本执行具体编辑操作，如删除、替换等。则在用户编辑操作之后，本申请可以进一步查找文本弹窗内与用户选中的指定转写文本相同的转写文本，并按照用户相同的编辑操作对查找到的各处转写文本执行编辑操作，实现对文本弹窗内相同的各处的指定转写文本的同一编辑操作。

第二种、用户可以调取文本编辑页面，该文本编辑页面提供了用户设置所要编辑的指定转写文本的接口，以及提供了用户设置具体编辑操作方式的接口。基于此，用户可以在文本编辑页面中输入所要编辑的指定转写文本，以及具体的编辑操作方式。进而，本申请可以基于用户设置后的文本编辑页面，在文本弹窗内查找每一处指定转写文本，并按照文本编辑页面中用户设定的编辑操作方式分别进行编辑操作，从而也能过实现对文本弹窗内相同的各处的指定转写文本的同一编辑操作。

接下来结合图8对文本弹窗内文本编辑过程进行说明。

假设当前文本弹窗内显示的内容为：“北京到大连，北京到天津”。用户想要将显示内容中所有的“北京”都修改为“上海”，则可以通过语音形式或外部输入设备下发编辑指令，以键盘配合鼠标下发编辑指令为例，用户可以手动将文本弹窗内显示的第一处“北京”修改为“上海”，在用户预先设置好编辑模式为全局编辑的前提下，本申请会自动将文本弹窗内其它各处的“北京”均修改为“上海”。

进一步地，某些场景下，对于已经转移到目标文本区域内的部分转写文本，用户可能还存在对其进行编辑的需求，此时用户可以将需要修改的转写文本从目标文本区域中拖拽到文本弹窗内，进而执行上述的编辑过程。具体地，本申请可以响应将目标文本区域内选中转写文本转移至文本弹窗内的指令，将所述选中转写文本转移至文本弹窗内。

参照图9所示，目标文本区域中已有的内容包括：“北京到武汉，北京到青岛，”，文本弹窗内显示的内容包括：“北京到大连，北京到天津”。此时，用户发现需要将“北京到青岛，北京到大连，北京到天津”中的每个“北京”均修改为“上海”。为了更快速的进行修改，用户可以将目标文本区域中的“北京到青岛，”拖拽到文本弹窗内，进而通过文本弹窗的全局编辑模式，一次性将文本弹窗内各处的“北京”均修改为“上海”。显然，该种修改方式更加快速。

下面对本申请实施例提供的语音输入装置进行描述，下文描述的语音输入装置与上文描述的语音输入方法可相互对应参照。

参见图10，图10为本申请实施例公开的一种语音输入装置结构示意图。

如图10所示，该装置可以包括：

文本弹窗展示单元110，用于响应输入焦点处于目标文本区域状态下的语音输入操作，展示文本弹窗；

文本获取及显示单元120，用于获取并在所述文本弹窗内显示输入语音对应的转写文本；

文本转移单元130，用于将所述文本弹窗内显示的转写文本转移至所述目标文本区域内所述输入焦点处。

从上述的技术方案可以看出，本申请实施例提供的语音输入装置通过响应输入焦点处于目标文本区域状态下的语音输入操作，展示文本弹窗，进一步获取并在文本弹窗内显示输入语音对应的转写文本，通过文本弹窗内显示转写文本的方式，能够更加快捷、方便的让用户确定当前语音所输入的文本内容，并最终将文本弹窗内显示的转写文本转移至目标文本区域内输入焦点处，完成整个输入过程。显然，相比于现有语音输入方式，本案增加了以文本弹窗的形式显示输入语音的转写文本的过程，便于用户确定当前语音所输入的文本内容，提高了整体的输入效率。

可选的，本申请的语音输入装置还可以包括：

可选的，上述文本弹窗展示单元可以包括：

输入焦点位置确定单元，用于在输入焦点处于目标文本区域状态下响应语音输入操作，确定所述输入焦点的位置；

输入焦点位置参考单元，用于以所述输入焦点的位置为基准，展示文本弹窗。

可选的，本申请的语音输入装置还可以包括：

可选的，上述转移条件确定单元可以包括：

完整性参考单元，用于根据所述文本弹窗内显示的转写文本的语义完整性，确定是否满足文本转移条件；

和/或，

相关性参考单元，用于根据所述文本弹窗内显示的转写文本，及后续输入语音的转写文本间的相关性，确定是否满足文本转移条件。

可选的，上述转移条件确定单元可以包括：

指令检测单元，用于检测是否收到文本转移指令，若是，则确定满足文本转移条件，否则，确定不满足文本转移条件。

可选的，上述文本转移单元可以包括：

格式要求获取单元，用于获取目标文本区域对输入文本的格式要求；

格式编辑单元，用于按照所述格式要求，对所述文本弹窗内显示的转写文本进行格式编辑，得到格式编辑后的转写文本；

格式编辑后文本转移单元，用于将格式编辑后的转写文本转移至所述目标文本区域内所述输入焦点处。

可选的，本申请的语音输入装置还可以包括：

可选的，上述编辑操作响应单元可以包括：

编辑范围确定单元，用于响应对所述文本弹窗内指定转写文本的全局编辑操作，确定本次的编辑范围为所述文本弹窗内显示的全部转写文本；

全局编辑单元，用于将所述编辑范围内与所述指定转写文本相同的转写文本，均按照全局编辑操作进行文本编辑，并显示编辑后的转写文本。

可选的，本申请的语音输入装置还可以包括：

目标文本区域文本转移单元，用于响应将目标文本区域内选中转写文本转移至所述文本弹窗内的指令，将所述选中转写文本转移至所述文本弹窗内。

本申请实施例提供的语音输入装置可应用于语音输入设备，如pc终端、云平台、服务器及服务器集群等。可选的，图11示出了语音输入设备的硬件结构框图，参照图11，语音输入设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器cpu，或者是特定集成电路asic(applicationspecificintegratedcircuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速ram存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

响应输入焦点处于目标文本区域状态下的语音输入操作，展示文本弹窗；

获取并在所述文本弹窗内显示输入语音对应的转写文本；

将所述文本弹窗内显示的转写文本转移至所述目标文本区域内所述输入焦点处。

可选地，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于：

响应输入焦点处于目标文本区域状态下的语音输入操作，展示文本弹窗；

获取并在所述文本弹窗内显示输入语音对应的转写文本；

将所述文本弹窗内显示的转写文本转移至所述目标文本区域内所述输入焦点处。

可选地，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王影;乔玉平;谢珍珠
技术所有人：科大讯飞股份有限公司
我是此专利的发明人

上一篇：目标对象的监控方法、装置及系统与流程
上一篇：一种方便清理淤泥的地埋式污水处理设备的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。