专利名称:能够将听写代号短语转录成标准词组的分层快速注解的制作方法
技术领域:
本申请的技术一般涉及听写系统,并且更尤其地,涉及分层快速注解(hierarchical quick note),其允许使用要被转录成标准词组(clause)的短听写代号短语(short dictated code phrase)。
背景技术:
·原本听写是一种由一个人口述同时另一个人将所述内容记录下来的练习。速记法的发展通过使记录员写下代表特定语音的符号而使转录更便利。随后,记录员将使用实际的话语来替换速记符号。通过使用现代化技术,听写已经发展到这样一个阶段,即话音辨识和语音到文本技术使得计算机和处理器能够起到转录器的作用。语音辨识引擎接收到话语,并提供对话语的转录,其可在后续由说话者更新、修改,或编辑。当前的技术基本上已经产生基于听写和基于转录的两种计算机风格。一种风格包括将软件载入到机器上,以接收和转录听写,其通常被称为客户侧听写。机器实时或接近实时地转录听写。另一种风格包括将听写音频发送到中央服务器,其通常被称为服务器侧听写。中央服务器转录音频文件并返回该转录文件。目前存在两种模式的服务器侧听写(a)“批量处理”,此时在几小时后或类似时间之后,即服务器具有较少的处理要求时完成转录;或者,(b) “实时处理”,此时服务器返回文本数据串的转录文件。正如可体会到的,这种基于听写和转录系统的计算机具有缺点。一个缺点是其不具有速记类型的方法。当前,听写系统转录所讲述的话。但是,在特定产业中必然具有频繁重复的重复性词组和短语。然而,常规的语音辨识软件并不是为特定产业特别定制的,因此重复性词组和短语必须被完全清晰地说出来,语音辨识软件才可准确地转录重复性词组和短语。正如可体会到的,重复同样的词组和短语耗费了时间。基于这种背景,期望提供一种方法和设备,其中重复性的词组和短语可被结合到可专用化的速记或分层快速注解中。
发明内容
为了获得这些优点,并且依据本发明的技术的目的,提供了一种具有语音辨识引擎的可训练转录模块。该可训练转录模块从多个信源中的一个接收代号短语(codephrase)或快速注解(quick note)。这些代号短语或快速注解与特定的转录文本数据相匹配。语音辨识引擎接收音频数据并将这些音频数据转换成转换的文本数据。在可训练转录模块中的比较器将转换的文本数据与来自多个源中的一个的代号短语或快速注解进行比较。如果这些文本数据与代号短语或快速注解中的一个相匹配,则可训练转录模块将在音频转录文件中使用等同的特定转录文本数据替换辨识出的文本数据。比较器可使用图案(pattern)(诸如规则的表达)来匹配经转换的文本数据,并且“特定的转录文本数据”可包括对在转换的文本数据中的特定值(例如参数)的参数置换。还提供了使用来自多个源中的一个的代号短语和快速注解的方法。该方法包括将代号短语或快速注解载入到可训练转录模块中。代号短语或快速注解被看作与特定的转录文本数据等同。音频将被接收并被转换成经转换的文本数据。转换的文本数据将与代号短语或快速注解进行比较。如果确定转换的文 本数据与代号短语或快速注解相匹配,则转换的文本数据将被移除、替换或重写成特定的转录文本数据。该替换还包括参数置换。在本发明技术的某些方面,当转换的文本数据或参数置换具有至少一个特定可信度时,转换的文本数据将仅与代号短语或快速注解相比较。这种可信度是可基于应用来配置的,但是可能需要例如90%或更高的可信度。在该技术的又另一个方面,代号短语或快速注解可被建立成分层布置,比如,例如总部、分部、企业,或个体。其它组织结构也是可预期的。一方面,代号短语(I)可以被建立成不可由分层布置中的下层实体修改。另一方面,代号短语(I)可被建立成不可由分层布置中的上层实体修改。再另一方面,代号短语(I)可被分层布置中的任意实体修改。依据本文描述的一般原则,以上提及的实施例中的任一个的特征可彼此结合使用。通过对以下结合附图和权利要求书的详细说明进行阅读,这些以及其他实施例、特征以及优点将被更加透彻地理解。
图I是符合本发明的技术的示范性系统的功能性框图;图2是符合本发明的技术的示范性模块的功能性框图;图3是符合本发明的技术的示范性数据库的框图;图4是对符合本发明的技术的方法进行说明的功能性框图。
具体实施例方式现在将参考图I至图4来解释本发明的技术。虽然本发明的技术是通过参考驻留在语音辨识引擎的转录模块进行说明的,但是本领域普通技术人员在阅读公开内容之后将认识到其它的配置也是可能的。例如,本申请的技术可与瘦客户端或胖客户端结合使用,使得模块、引擎、存储器等是在本地或远程连接起来的。而且,本申请的技术是相对于特定的示范性实施例来描述的。在此所使用的措辞“示范性”表示“起到举例、示范,或说明”的作用。在此描述成“示范性”的任意实施例不必被解释成与其它实施例相比是优选的或具有优点的。在此所描述的所有实施例应该被认为是示范性的,除非做出相反的陈述。首先参考图1,提供了听写系统100。听写系统100包括麦克风102,其可以如所示的那样是头戴式耳机104的一部分,或者是更为传统的独立麦克风。麦克风102经由通信链路106被耦合至客户站108,诸如笔记本电脑、台式电脑、便携数字助手、智能电话、蜂窝式电话或类似设备。可选地,麦克风102可包含处理器,用于将音频预处理成可与处理器108兼容的格式。通信链路106可以是任意常规的通信链路,诸如通用串行总线(universalserial bus)、蓝牙连接(Bluetooth connection)等。处理器 108 可经由网络112 (诸如LAN、WAN、WLAN、WIFI、WMax、互联网、以太网等)被连接到远程服务器110。如图2所示,客户站108、远程服务器110、这两者或者它们的组合将包括转录模块202的全部或某些部分。转录模块202被识别成可训练转录模块,因为其可被训练成辨识出等同于特定转录文本数据的代号短语(code phrase)或快速注解(quick note),正如在下面将更加详细地说明的。转录模块202使转录处理器204、语音辨识引擎206、存储器208以及接口 210相互连接。接口 210接收来自客户站108或远程服务器110的音频文件、命令和数据,并将转换的文本数据发送给客户站108或远程服务器110等。转录处理器204可以与客户站108或者远程服务器110的中央处理单元、微处理器、现场可编程门阵列、逻辑电路、芯片组等位于一处。转录处理器204控制转录模块202的主要功能,以使其能够起到以下所进一步解释的作用。转录处理器204还处理操作该转录模块202所需要的不同的输入和/或数据。存储器208可放置成远离转录处理器204或与转录处理器204位于一处。存储器208存储将要由转录处理器204执行的处理指令。存储器208还可以存储听写系统的操作所需要的 或便于进行这种操作的数据。例如,存储器208可存储代号短语或快速注解以及等同的特定转录文本数据,正如将在下面进一步说明的。存储器208还可存储正在被转录的音频文本以及转录的文本数据,至少直到由可训练转录模块发送出文本数据文件。语音辨识引擎206将音频文件中包含的话语转换成文本数据,诸如word文档等。语音辨识引擎206可类似于许多可用的语音辨识系统进行操作,这些可用的语音辨识系统包括可从Microsoft公司买到的W丨N DOW'S 语音、可从Nuance公司买到的Lumen Vox SRE, Nuance 9识别器、可从Nuance公司买到的Dragon Naturally Speaking 等。正如所示出的,转录处理器204包括比较器212,即使比较器212可位于转录处理器204的远处或与转录处理器204分离。比较器212将在转换的文本数据中的词组与被存储在存储器208中的代号短语或快速注解进行比较。如果在转换的文本数据中的词组与代号短语或快速注解匹配,转录处理器204将用等同于该代号短语或快速注解的特定转录文本数据替换该转换的文本数据(正如可体会的,在此可互换地使用代号短语和快速注解)。正如所提及的,转录模块202将代号短语存储在存储器208中。这些代号短语与特定转录文本数据等同。参考图3,提供了示出示范性存储数据库的数据库300。数据库300具有多个代号短语域302^、多个特定转录文本数据域304^,其中每一个代号短语与相应的特定转录文本数据相关联。数据库300还具有多个分层域306^。分层域306与每一个代号短语域302以及特定转录文本数据域304相关联。数据库300可以是从可训练转录模块202直接输入的,或者作为一种设计选择的内容,从客户站108或远程服务器110下载的。而且,正如以上所提及的,许多组织都有组织结构。本数据库示出了,在实体域306中,什么实体建立了代号短语。正如在数据库300中所示出的,代号短语(I)可与由不同的实体(I)、(2)建立的两个不同的特定转录文本数据(I)、(2)相关联。在这种情况下,转录处理器204将依据生成音频文件的用户选择适当的特定转录文本数据。例如,代号短语(I)可以与建立特定转录文本数据(I)的分部实体(I)相关联。在这种情况下,在该组织图表上该分部实体上方或下方的实体可选择具有与代号短语(I)相关联的另一个特定转录文本数据(2)。因此,当实体(2)使用在音频文本中的代号短语(I)时,可训练转录模块202将选择特定转录文本数据(2)而不是特定转录文本数据(1),并且当实体(I)使用在音频文件中的代号短语(I)时,可训练转录模块202将选择特定转录文本数据(I)而不是特定转录文本数据(2)。注意,实体条目可指定由分层结构中的上部、下部或同层实体进行的编辑或修改是否能够编辑特定转录文本数据。现在参考图4,提供了流程图400,其说明了使用本申请的技术的方法。虽然所说明的是一系列离散的步骤,但是一个本领域普通技术人员在阅读了公开内容之后会认识至IJ,所提供的这些步骤可以按所描述的顺序执行为离散步骤,或执行成一系列连续步骤、可以是基本同时地、同时地、以不同的顺序执行等等。而且,可执行其它的、或多或少的,或者不同的步骤来使用本申请的技术。然而,在示范性方法中,代号短语、特定转录文本数据,以及适当的实体标志被载入到存储器208中,步骤402。接下来,将音频数据提供给转录模块202,步骤404。语音辨识引擎206将音频数据(无论是以数据流的方式还是批量的方式载入的)转换成转换后的文本数据,步骤406。例如,音频数据可被转换成word文件等。转换的文本数据与被存储在存储器中的代号短语进行比较,以确 定在转换的文本数据中的词语、词组、短语等是否与一个或多个代号短语相匹配,步骤408。确定所连接的文本数据是否与一个或多个代号短语相匹配可包括确定转换的文本数据的可信度(confidence)在例如90%以上。该比较可基本上在语音被转换成转换后的文本数据的同时,或者基本上在整个音频文件被转换之后执行。如果多于一个的代号短语匹配,转录模块选择具有适当地匹配的实体指示符的代号短语,步骤410。将转换后的文本数据替换成特定转录文本数据,步骤412。该处理过程继续,直到确定已经转录了整个音频文件,步骤414,并且所有的代号短语或快速注解都进行了匹配和更新。通过使数据以流方式传送到客户站108或远程处理器110,将数据批量载入到客户站108或远程处理器110,或者它们的组合,转录模块返回转录文本数据,步骤416。注意,替代在比较中使用转换的文本数据,该处理可使用话语,并将特定的话语和特定转录文本数据匹配。本领域技术人员将理解,可使用任意的各种不同的技术和技巧来体现信息和信号。例如,在以上描述中所提及的数据、指令、命令、信息、信号、比特、符号和码片可通过电压、电流、电磁波形、磁场或粒子、光场或粒子,或者它们的任意组合来体现。技术人员将进一步体会到,结合在此公开的实施例描述的各种说明性的逻辑框、模块、电路和算法步骤可被实施成电子硬件、计算机软件,或者二者的结合。为了清楚地说明硬件和软件的这种可互换性,以上基本上按照它们的功能描述了各种说明性部件、框、模块、电路和步骤。这样的功能是被实施成硬件还是软件取决于特定应用,以及施加到整个系统的设计限制。技术人员可针对特定的应用以不同的方式实施所描述的功能,但是这样的实施决策不应被解释成导致背离了本发明的范围。结合本文公开的实施例所描述的不同的说明性逻辑框、模块,和电路可以使用被设计成执行在此所描述的功能的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件部件,或者它们的任意组合来实施或执行。通用处理器可以是微处理器,而备选地,该处理器可以是任意传统的处理器、控制器、微控制器,或状态机。处理器还可以被实施成运算装置的组合,例如DSP和微处理器的组合、多个微处理器、与DSP内核相结合的一个或多个微处理器,或者任意其它这样的配置。之前对公开实施例的描述被提供来使得任何本领域技术人员都能够制造和使用本发明。对于本领域技术人员来说,对这些实施例的各种修改将是显而易见的,并且本文定义的一般原理可被应用到其它实施例中,而不背离本发明的精神和范围。因此,本发明并非意图被限制在本文所示出的实施例中,而是旨在符合与所揭示的原理和新颖性特征相一致的最为广泛的范围。·
权利要求
1.一种使用预建立的代号短语来使标准词组能被转录成文本文件的方法,包括在至少一个处理器中执行的步骤 接收将由语音到文本引擎转换成文本文件的音频信号; 将所述音频信号转换成与代表所述音频文件的文本数据相对应的数据信号; 将所述数据信号与被存储在存储器中的至少一个代号短语进行比较,所述代号短语与要被转录到文本文件中的标准词组关联起来; 确定所述数据信号是否与存储在所述存储器中的所述至少一个代号短语相匹配;以及如果确定所述数据信号与所述至少一个代号短语相匹配,则用所述标准词组替换所述数据信号,其中所述标准词组被复制到所述文本文件中,以及 如果确定所述数据信号与所述至少一个代号短语不匹配,则所述数据信号被复制到所述文本文件中, 其中,产生所述文本文件,使得所述至少一个代号短语被所述标准词组替换。
2.如权利要求I所述的方法,进一步包括,将所述至少一个代号短语载入到存储器中,以及将所述至少一个代号短语与所述存储器中的所述标准词组关联起来。
3.如权利要求2所述的方法,其中,载入所述至少一个代号短语的步骤包括向所述至少一个代号短语提供标识符。
4.如权利要求3所述的方法,进一步包括,确定所述数据信号是否与所述至少一个代号短语相匹配的步骤包括基于所述标识符选择适宜的标准词组。
5.如权利要求I所述的方法,其中,在所述数据信号中使用标准词组替换所述代号短语。
6.如权利要求5所述的方法,其中,通过使用所述标准词组重写所述数据信号来替换所述代号短语。
7.如权利要求I所述的方法,其中,在所述文本文件中使用所述标准短语来替换所述代号短语。
8.如权利要求I所述的方法,其中,进一步包括生成对所述代号短语进行辨识的可信度水平的步骤,并且,所述确定步骤仅在所述可信度水平超过预定阈值的时候发生。
9.如权利要求I所述的方法,其中,所述可信度水平阈值至少为90%。
10.一种设备,包括 可训练转录模块,其可被训练成辨识出等同于特定转录文本数据的代号短语,所述可训练转录模块包括 语音辨识引擎,将话语转换成文本数据; 比较器,确定任意话语是否与至少一个代号短语相匹配; 存储器,其存储所述至少一个代号短语,并将所述至少一个代号短语与标准文本词组关联起来;以及 处理器,其在确定所述话语与所述至少一个代号短语相匹配时,使用所述标准文本词组替换所述话语。
11.如权利要求10所述的设备,其中,所述存储器将标识符与所述至少一个代号短语存储在一起。
12.如权利要求10所述的设备,其中,所述处理器通过使用所述至少一个标准文本词组替换从所述语音辨识引擎输出的所述文本数据,来替换与所述至少一个标准文本词组相匹配的所述至少一个代号短语。
13.如权利要求10所述的设备,其中,所述处理器通过用至少一个标准文本词组重写从所述语音辨识引擎输出的所述文本数据,来替换与所述至少一个标准本文词组相匹配的至少一个代号短语。
14.如权利要求10所述的设备,其中,在所述语音辨识引擎将音频转换成文本之前,所述处理器替换与所述至少一个代号短语相匹配的所述话语。
15.如权利要求10所述的设备,其中,所述处理器确定所述辨识出的至少一个代号短语的可信度,并仅在所述可信度超过预定的阈值的情况下替换所述识别的至少一个代号短语。
全文摘要
提供了一种能够使用可训练代号短语的听写系统。该听写系统通过接收音频并将音频辨识成文本来工作。该文本/音频可包括代号短语,其通过比较器进行识别,该比较器将文本/音频进行匹配,并用与代号短语相关联的标准词组来替换该代号短语。包含这些代号短语的数据库或存储器被载入以匹配的标准词组,可对其进行识别以提供分层系统,使得取决于用户,特定的代号短语可具有多个意思。
文档编号G06F19/00GK102918587SQ201180027131
公开日2013年2月6日 申请日期2011年3月21日 优先权日2010年3月30日
发明者C.科菲尔德, B.马奎特, D.蒙德拉贡, R.海因斯 申请人:Nvoq股份有限公司