用于支持谁正在讲(wis)信号的应用的系统和方法

文档序号：7974687阅读：325来源：国知局

专利名称：用于支持谁正在讲(wis)信号的应用的系统和方法
技术领域：
本发明涉及模拟和数字通信领域，以及更具体地，涉及用于使用关于在通信会议中谁正在讲的数据的系统和方法。本发明增强了参加者实时识别在实况或者记录会议中的商业使用。
背景技术：
电话通信领域已经经历并且继续经历与通信应用的改进的质量和有用性相关的许多发展和改进，包括软件和硬件产品。
一个这种发展是开发来支持多方通信会议的会议桥的出现，所述多方通信会议包括利用从各种网络位置和从潜在不同的网段连接到网络的各种设备的参加者。在本领域中，知道会议桥，其利用多个输入/输出通道，通过混合一个或者多个参加者输入，并且输出信号发送回每个参加者，其中输出信号可以包括参加者的集体输入信号，将会议参加者桥接在一起。按照这种方式，所有连接的各方在会话期间可以听到所有其他连接方。可以结合纯数据分组网络，或者结合使用硬和软交换的结合的模拟承载来实施会议桥接。例如，一方可以使用因特网协议(IP)电话、或者使用计算设备中的IP电话应用来接入桥，同时另一个是使用蜂窝电话，同时另一个使用普通老式电话服务(POTS)电话来接入会议会话。
现有网络通信网关服务已经发展到允许无缝通信，前提是连接的设备支持双向音频通信。另外，参加者可以利用多个设备来参加，例如桌面计算机和电话。电话和计算机提供用于利用数据协作等的音频和图形来工作的多链路能力。在许多情况下，使用计算机电话集成(CTI)电话接入点，例如专用交换分机(PBX)系统或者专用接入交换分机(PABX)系统，来实施电话会议。不管那些参加者从模拟承载网络还是从数字承载网络进行接入，可以使用数字信号处理(DSP)来组合用于输出到参加者的数据。
图1示出了在典型会议桥中使用的简单输入信号体系结构100和信号处理。体系结构100包括来自多个输入101(1-n)的多个信号，在图1中也表示为n个号信号中的信号S1、S2和Sn。根据桥可利用的通道数目，可以有多个独立输入信号进入会议桥。虽然通常在一个会议中的参加者不能听到另一个会议中的参加者，一个会议桥可以支持并行工作的多个同时会议会话。
在实践中，使用DSP设备102或者实时计算引擎来数字化、标准化每个模拟输入信号101(1-n)，并且将其结合或者求和在一起，作为离散时间信号。产生的输出信号是混合信号103，该混合信号包括来自所有参加者的所有输入。然后，经由转换为在电话网络上发送的模拟或数字信号，或者在一些情况下，作为在数据分组网络(DPN)上发送的数字分组流，信号103传送到会话中的各个参加者。在一些情况下，到会议桥的输入流可以是数字流。准确状态和转换处理(模拟到数字或者数字到模拟)取决于会议参加者所使用的终端设备和承载网络。
图2描述了在典型会议桥中使用的简单输入信号体系结构200和信号处理，其中没有将所有的会议输入相加在一起，而是仅仅一些最强的输入信号相加在一起。在这种情况下，DSP设备202具有用于仅仅保持在会话期间在任何给定的时间M个最强输入或者通道的滤波器。结合这几个最强的通道输入(M结合)，并且然后将其输出到所有参加者。该流水线化的方法遵循以下可能性，即在会话期间在任何给定的时间仅仅一个或者少数几个讲话者积极地交谈。过滤掉背景噪声和较弱的输入信号，以便增加会话输出流的整体音频质量。
在当前现有系统中电话会议实践中存在的一个挑战是向所有参加者提供在活跃会议会话期间在任何时间点当前谁正在讲的可靠和时间上实时的指示。在实践中，在桥的输入侧上，可以进行可识别会议通道与可识别会议用户的关联。但是，一旦多个用户正在讲话，很难从混合的信号结果流中精确地分辨出与在会话期间在任何时间说了什么或者谁说的相关的那些不同身份。
另外，另一个挑战涉及在检查会议会话记录，例如会话的转录文本，或者会话的真实归档音频记录时，谁说了什么以及何时说的。本发明人意识到，可靠的并且时间敏感的确定在多方会议会话期间在任何特定时间，不管是实况还是记录的，谁正在说什么或者“谁正在讲”(WIS)，都是取决于复杂算法功能的复杂处理。类似地，预确定技术，例如到会议用户的通道分配，不是总提供最可靠的信息，或者提供传播该信息到那些可能要求该信息或者被授权得到该信息的用户的方式。
本发明人意识到，确定在会议中WIS不仅是实时数据聚集和服务的功能，而且对于可能使用WIS，例如在已经进行和归档了会话之后，的其他应用，也是必要的。为了雇员训练的目的，或者为了法律研究的目的等等，可能需要归档会话的第三方分析。而且，会话的每个参加者不会平等地被授权“知道”所讲的特定信息或者谁确切地讲了该信息。现有会议系统没有充分利用所有“谁正在讲”信息，其中作为正在进行或者已经发生的会议会话的结果，可使该信息可利用。
因此，本领域明确地需要一种用于增加“谁正在讲”和相关呈现信息的商业利用的系统和方法，其中所述信息产生于通过会议参加者之间的网络进行的活跃多方会议。诸如此类的系统将解决本领域中的上述问题，并且将增加会议生产率，以及改善和流水线化各种会议后商业实施。

发明内容
根据本发明的实施例，提供一种用于实现将与参加者的活动有关的导出的谁正在讲指示可控制地应用到实况多方通信会议或者其记录输出的系统。该系统包括第一节点，驻留有一个会议桥接交换机、软件或者其结合，其具有多个会议输入通道；第二节点，具有对所述会议桥接交换机、软件或者其结合的至少一个输出信号端口的数据访问；以及整体上分布到所述第一或者第二节点或者部分地分布到所述第一和第二节点的软件应用，该应用用来将谁正在讲指示应用到输出通信、数据文件或者数据流，所述输出通信、数据文件或者数据流转发到所述会议参加者、非参加者的第三方、以及一个或者多个存储设备中的一个、选择的部分、或者结合。
在一个实施例中，第一节点是专用会议桥接设备，以及第二节点是桌面计算机或者数据服务器中的一个。在另一个实施例中，第一节点是PBX交换机，以及第二节点是桌面计算机。在一个实施例中，系统驻留在数字网络中。在一个实施例中，所述谁正在讲指示包括，除了识别信息之外，呈现信息或者其定位符，所述呈现信息与所述识别信息相关。在该实施例的一个变形中，系统还包括丰富谁正在讲信息或者其定位符，所述丰富谁正在讲信息整体上或者部分地在一个或者多个会议会话持续时间上从识别的参加者的记录活动中导出。
在一个实施例中，输出通信是包含会议内容的文本的即时消息。在一个实施例中，数据文件是会议输出的文本转录。在一个实施例中，数据流是简易信息聚合(RSS)馈送。在另一个实施例中，数据流是音频流或音频/视频流。
根据本发明的另一方面，提供一种音频内容转录和注释系统，用于呈现来自多方会议会话的实况或者记录语音的注释文本转录，以及用于利用谁正在讲数据注释转录的文本文件，其中通过具有多个会议输入通道的会议桥接交换机、软件或者其结合来实现所述多方会议会话。该系统包括输入端口，用于接收所述音频内容；时间同步模块，用于记录与会议会话运行时间相关的通道活动信号的变化的时间偏移；通道到讲话者关联模块；以及文本注释引擎。在一个优选实施例中，与在信号变化之间存在的时间周期范围内找到的内容的音频单词、短语或者段相关，根据随着时间的信号变化指示来注释所述转录的文本文件。
在一个实施例中，所述谁正在讲指示包括，除了识别信息之外，呈现信息或者其定位符，所述呈现信息与所述识别信息相关。在该实施例的增强变型中，系统还包括丰富谁正在讲信息或者其定位符，所述丰富谁正在讲信息整体上或者部分地在一个或者多个会议会话持续时间上从识别的参加者的记录活动中导出。
在本发明的另一方面，提供一种用于转录和注释来自多方会议会话的实况或者记录语音的方法，通过具有多个会议输入通道的会议桥接交换机、软件或者其结合来实现所述多方会议会话，注释指示谁正在讲该方法包括步骤(a)接收用于文本转录的语音文件；(b)访问时间上与所述语音文件相关联的通道活动信号；(c)在文本转录期间将字段或者占位符插入到文档中，根据在文档中的发生时间来插入字段或者占位符；(d)对于每个字段或者占位符检索通道到讲话者关联数据，以及(e)将注释插入到合适的字段。
在该方法的一个方面中，在步骤(e)，注释还包括关于讲话者的呈现信息，或者其定位符，所述呈现信息包括但不局限于联系信息。根据该方面的增强，在步骤(e)，注释还包括关于讲话者的丰富谁正在讲信息，或者其定位符，所述丰富谁正在讲信息包括但不局限于与在一个或者多个会议的持续时间上的讲话者活动相关的统计量。
在本发明的另一个实施例中，提供一种用于在会议档案中检索与多方会议的记录内容有关的信息的系统，利用讲话者识别和其他信息或者其定位符来时间上注释记录。该系统包括第一节点，驻留有一个搜索引擎和界面；第二节点，能够通过网络访问所述第一节点；以及至少一个存储库，包含链接或者没有链接到合适多媒体音频文件或音频/视频文件的转录文本文件形式的会议记录；其特征在于，所搜索的信息可以包括使用内容关键词或者短语作为输入的讲话者识别、使用讲话者识别参数和内容关键词或者短语的结合作为输入的讲话者所讲的重复内容的实例、以及包括使用讲话者识别作为输入的统计量的丰富呈现信息。
在一个实施例中，作为通过到与一个或者多个交互结果相关的附加信息的附加交互链接进一步优化的所述结果的列表，返回搜索的信息。在一个实施例中，结果的列表包括识别的讲话者链接，以及对于每个结果链接到的附加信息包括所有或者一些与讲话者相关的从他或者她的过去会议活动编译的联系信息、资格信息、和统计信息。在一个实施例中，结果链接到转录文本的真实会议段或者真实多媒体文件。

图1是描述根据现有技术的会议桥的典型输入/输出信号处理的方框图；图2是描述根据现有技术的典型信号处理的方框图，其中仅仅混合和呈现最强的信号作为输出；图3是根据本发明实施例的通信网络的体系结构图，其中支持多方会议和谁正在讲数据的使用；图4是描述根据本发明实施例的图3的WIS使用管理器的一个功能的方框图；图5是描述根据本发明实施例的由图4的WIS使用管理器实现的信息搜索处理的方框图；图6是描述根据本发明实施例的由图3的WIS使用管理器实现的语音到文本转录服务的方框图；图7是描述根据本发明的一方面的用于注释会议多媒体材料或者转录的步骤的处理流程图；以及图8是描述根据本发明实施例的用于针对WIS相关信息准备和提交会议档案的信息搜索的步骤的处理流程图具体实施方式
本发明提供一种系统和软件应用，其支持谁正在讲信息和从通过网络实施的多方会议会话活动产生的丰富或者系统增强的呈现信息的实时识别和多使用传播。下面将详细说明本发明的系统和方法。
图3是根据本发明实施例的通信网络300的体系结构示意图，其中支持多方会议和谁正在讲数据的使用。通信网络300是通信子网络的聚合，其中所述通信子网络桥接在一起，用于实现通过这些网络来到一起的多方之间的无缝基于语音通信。例如，在这个例子中，示出了广域网(WAN)301，开且广域网301表示任何公司的、专用的或者公共的数据分组网络(DPN)。WAN301可以表示众所周知的因特网网络。网络301可以是无线或者有线的城域网(MAN)段，而没有偏离本发明的精神和范围。发明人选择因特网作为WAN301的一个优选例子，原因是它的高度公共接入特性以及它的许多标准化的通信协议。
在这个例子中示出了局域网(LAN)302，并且LAN302表示任何公司的、专用的、或公共LAN，在用于讨论目的的该例子中，其支持传输控制协议/因特网协议(TCP/IP)。LAN302可以是有线或者无线接入的，并且可以是与机构或者商业场所连接的校园网或者一些其他网络。LAN302也可以是专用家庭网络或其他类型的安全网络。LAN302具有通过因特网协议路由器(IPR)(在此描述为IPR311)以及因特网服务提供商(ISP)(在此描述为ISP305)到WAN301的通信接入。因此，连接到LAN302的节点可以经由IPR331、网络接入线332、ISP305和连接到WAN301内的网络骨干310的网络电缆312，来访问WAN301内的任何服务或者节点。被描述为连接到用于通信的LAN骨干327的节点包括IP电话329和LAN计算机328。在优选实施例中，骨干310表示作为整体构成WAN301的所有线、设备和接入点。在WWW的实施例中，不存在实施本发明的地理限制。
在这个例子中描述了公共交换电话网络(PSTN)303，以及PSTN303可经由本地电话交换(LSW)交换机320和因特网服务提供商(ISP)306来访问WAN301。ISP306经由网络接入电缆313连接到WAN301内的骨干310。可以以多种不同的方式实现从PSTN303到WAN301的接入，包括但不局限于电话调制解调器、SS7贝尔核心网关(没有示出)、电缆调制解调器、数字用户线(DSL)等等。
在这个例子中描述了无线网络304，并且无线网络304表示用于电话或者数据通信的任何无线模拟和/或数字承载网络。网络304可以是蜂窝电话网络、无线局域网、或者基于卫星的网络。网络304具有经由无线因特网服务提供商(WISP)设备314并且分别经由网络电缆315以及电话电缆316到网络301和PSTN网络303的通信接入。可以假定可以提供合适的网络桥接设备来支持相互连接的多方之间的标准通信，所述多方从任何所描述的网络来通信。数据和电话通信领域的人员将意识到，在这个例子中的不同网络的描述意味着显示可以使用语音和多媒体应用和合适的桥接设备和网络服务，在隐含的网络边界上实施本发明，而没有偏离本发明的精神和范围。
在WAN301的域中描述了会议桥(C-桥)硬件/软件设备307。桥307可以由可通过WAN301访问以及到那些从任何其他描述的网络访问的人的服务所提供。在这个例子中，对桥307的访问通过骨干310。因此，桥307具有网络地址，并且对于那些使用电话拨入桥的，该网络地址也可以与电话号码相关联。桥307适于使用软交换方法提供多方会议会话，由此对于将使用桥参加会议的那些人，可得到最大数目的会议通道。
桥307可以由企业因为如上所述的通信服务提供。管理工作站(ADMIN)311被描述为连接到骨干310，并且可以假定为一个用于建立、管理、和或许主持针对桥307安排的或者由桥307所辅助的多方多媒体会议的管理站。站311可以假定为提供所有必要的工具和接口，用以实现用于以管理的方式和从维持的观点来管理桥307所要求的任务。
在WAN301的域内描述了大容量数据库309，并且该库309具有到骨干310的连接，用以访问。库309适于容纳多方会议档案。这种档案可以包括在桥307处所提供的会话的文本转录和/或会议的多媒体记录，包括在会议期间呈现的音频和任何相关联的多媒体呈现、视频或显示。会议服务主机最小可以包括桥307、站311和库309来实施本发明。但是本领域技术人员将意识到，其他的设备也可以存在于该系统体系结构中，而没有偏离本发明的精神和范围，例如数据服务器、自动语音服务员(硬件或者软件)、网络桥接设备等等。
在本发明的一个实施例中，主机通过桥307支持所述的多方会议，由此对于使用多种设备和端协议从任何描述的网络301-304连接到桥的用户可利用服务。例如，在网络304内，支持网络的便携式计算机317和支持无线网络的电话318被描述为用户可以用来从网络304内的接入点连接到会议桥307的设备。电话318可以是支持模拟和数字通信的蜂窝电话。在一些实施例中，电话318也可以是卫星电话，或者在其他实施例中，可以是第三代(3G)智能电话。例如，电话318可以以数字模式连接到WISP314，并且随后使用因特网协议上语音(VoIP)通过网络线315路由到桥307。类似地，在模拟模式下，电话318可以通过贝尔核心网关连接到桥307，该网关适于将模拟信号转换成数据分组以及相反，用于无缝语音通信。
如果便携式计算机317配置有IP电话应用，则它可以建立到桥307的语音连接。在一个实施例中，用户可以采用电话318实现与桥307的语音通信，同时使用便携式计算机317显示是会议一部分的多媒体呈现。类似地，对于例如3G智能电话的同一设备，存在多种组合，其中所述设备适于支持通过该设备所支持的不同通道的同时语音和多媒体数据传输。
在PTSN303内的用户被描述为用户驻地设备(CPE)。在这个例子中，描述了CPE电话321和CPE电话322，并且它们表示标准的面向连接的交换电话(COST)或者普通老式电话服务(POTS)电话。电话321和322连接到LSW320，其使用例如贝尔核心信令的合适信号会话在线319上将它们的呼叫路由到桥307。从CPE321和CPE322看来，到桥307的连接至少从LSW320到相应电话是专用COST连接。在PSTN303的域中，也描述了桌面计算机CPE324和相关联的电话323，作为能够与在WAN301的域内的桥307形成通信连接的通信设备。电话323可以是COST电话或者IP电话。LSW320表示适于路由通信的本地交换机。CPE324和电话323可以通过LSW320、ISP306、网络接入线313以及骨干310连接到WAN301，并且随后连接到桥307。本领域技术人员应当理解，包括连接的数字和模拟部分的确切路径可以包括其他路由器、交换机等，在此没有描述。本发明人示出了连接网络体系结构的简单离子，仅用于说明目的，存在其他的可能。
基于WAN的计算机站311具有作为软件应用提供的并且在其中可执行的“谁正在讲”使用管理器(WIS U-MGR)333a。WIS U-MGR333a适于使管理员能够建立会议会话，以及使得可以多种可变使用与会议会话期间谁正在讲相关的信息。可以随着会话进行实时地，和用于可以由第三方服务或者会议会话的管理主持人执行的后续会话任务目的，使用WIS U-MGR333a。
C-桥307具有在其内提供并且可执行的WIS软件(SW)应用308a。在这个实施例中，WIS SW308a适于作为到WIS U-MGR333a的客户端应用，并且在一个会议会话的运行时间期间或者在并行工作的多个会议会话期间，可以引起处理和传播WIS信息的执行，或者引起与处理和传播WIS信息相关的直接特定任务。SW应用333a和308a一起支持WIS信今的智能商业使用，其从活跃会议会话导出，通过算法数字信号处理，以及基于时间的识别信息与WIS信号的关联。
版本WIS U-MGR333b被描述为安装在LAN节点328上，并且可从LAN节点328执行。类似地，版本WIS SW308b被描述为安装在IPR331上，并且可从IPR331执行。大容量库330被描述为连接到LAN骨干327，用于数据存储和访问。U-MGR333b、WIS SW308b和库330表示在WAN301的域内描述的元件333a、308a和309的副本或相同的实例。因此，在连接到IP WAN的LAN上可以实现本发明的方法，其中可以以与在会议桥307中相同的方式在IPR331中桥接会议参加者。在实际实践中，在一个实施例中，IPR331可以适于作为路由器和会议桥。存在多种可能的实现方式。
还请注意，在一个实施例，版本WIS U-MGR333c和版本WIS SW308c可以提供在PSTN303的域内，例如WIS SW308c安装在LSW320中，以及U-MGR333c安装在CPE计算机324上。在这种情况下，LSW将是从企业CTI增强并且控制的。也可以增强例如专用交换分机(PBX)企业交换机来提供WIS数据。因此，本发明也可以在PSTN303的域内实施，其中由也适于作为会议桥的LSW320实现会议，或者由企业内包括的PBX实现会议。而且，在一个网络中的WISU-MGR的实例可以与安装在物理上位于其他网络中的交换机、路由器或者其他会议设备中的WIS SW的实例交互。存在包括远程管理情景的多种可能。
在优选实施例中，使用版本U-MGR333(a、b或c)的主机可以控制使用WIS信息用于运行时间应用和会话之后应用的各个方面。一个实施例包括在运行时间期间传播WIS信息作为呈现信息(PI)输出，呈现信息输出可以与会议会话视频和音频输出在时间上同步(时间加戳)。在这种情况下，在会议主机设备(桥、路由器或交换机)处预先确定和预先格式化呈现信息，并且使该呈现信息在CPE处自动与输入会议流相结合。
术语“呈现信息(PI)”松散地与缩写WIS相关联，因为嵌入在或者与会议输出流相关联的实时提供的谁正在讲指示指示了在任何给定时间讲话者的呈现。WIS数据默认地可以仅仅包括讲话者姓名、讲话者的头衔、以及讲话者的组织，如果可利用的话。讲话者的丰富谁正在讲数据(RWIS)还可以包括例如电话号码和分机和/或电子邮件地址的一个或者多个联系参数。附加的信息还可以包括网站地址或者其他辅助或非直接联系信息。
当然，在可以成功地利用WIS数据之前，必须在较强的通道信号(指示一个或者多个活跃讲话者)和这些讲话者的识别之间进行关联。可以以若干方式实现讲话者的识别。例如，可以向呼入(例如参加所安排的会议)的每个人自动分配可利用的会议通道或座位。可以通过使用自动号码识别(ANI)来完成特定讲话者与分配通道的关联和识别，以便通过讲话者正呼叫的发起号码来识别讲话者。在另一个例子中，将加入会议的唯一密码或者访问码提供给邀请加入会话的每个参加者，并且可以将座位(通道)与每个访问码相关联。在另一种情况中，可以使用目的地号码识别服务(DNIS)的版本来将参加者与特定通道相关联。在另一个实施例中，实况操作员或者交互语音响应(IVR)服务可以将通道或者座位分配给注册所计划的会议的每个参加者，并且在分配时，可以记录参加者识别，并将其与分配的座位相关联。
一旦为每个参加者设置了识别和通道或者座位的关联，则由于在会议期间那些讲话者识别的通道变得活跃，因此可以使用这些信号的时间签名来关联到说了什么或者会议内容。根据若干实施例，可以使用WIS U-管理器333(a-c)来将WIS数据传播回所有会议参加者或者会议参加者的选择部分。例如每当有讲话者变化时，可以将实时即时消息(IM)或者短消息服务(SMS)消息发送给参加者列表。在一个实施例中，这种消息可以仅仅指示当前讲话者，并且音频提供内容，其中讲话者变化指示与接收的讲话音频内容接近实时。在另一个例子中，CPE界面或接收的IM或SMS消息可以包括与谁正在讲的指示一起的说了什么的转录。如果是音频或视频/音频会话，该实施例要求会话的接近实时的转录。在另一个实施例中，与WIS指示一起的转录被格式化为由任何参加者订阅的简易信息聚合(RSS)馈送。在此请注意，可以稍微延迟或者接近实时地显示与嵌入的“谁讲了什么”指示一起的会话的转录音频的接收。再现可以采用类似于文本聊天的运行转录的形式。
在一个实施例中，可以使用回放模块和与会话回放同步播放的通道活跃信号的运行时间记录，在运行时间之后进行转录及其WIS注释。在这种情况下，WIS U-MGR333(a-c)可以包括WIS SW308(a-c)的版本，其可以在已经进行并且记录会话之后在任何时间采用，以便转录会话，并且确定在会话期间谁正在讲。可以独立地存储该数据，或者该数据可以结合为注释的转录，或者它可以被嵌入到多媒体文件本身中，在这些文件的将来回放期间作为参考。
在一个实施例中，可以允许会议参加者设置对于以文本指示、音频指示或者视觉指示接收WIS指示的偏爱。对于视觉指示，可以使得表示M个通道或者会议座位的图标改变形状、颜色、形式、或者从不活跃到活跃状态的其他视觉指示，以指示谁正在讲。当然，显示的图标可以以某种方式携带讲话者的识别，如与图标相关联的姓名。只要第一个人讲话，会话可以以仅仅一个显示和识别的图标开始。随着更多的讲话者发言，占据显示器的图标的数目可以增加，例如当两个讲话者正来回相互交谈时，但仅仅由在任何给定时间当前讲话者的图标实施的图标变体或视觉指示反映活跃的即时讲话者。
在会议在例如LSW320的LSW中实现的实施例中，例如，从在企业内驻留的CTI-PBX到交换机可能要求合适的CTI网络数据链路，以便到达使用支持网络的设备或外设，以例如在面向COST的电话会议期间接收WIS指示的会议参加者。PBX也可能经由CTI链路或者经由可选的信今方法提供WIS信息。
大容量库309和330适于会议档案的存储和访问，会议档案可以是上述的真实多媒体记录或者转录的文本版本。可以记录、转录和存储会议，用于以后访问。使用WIS指示和语音到文本呈现的接近运行时间转录，可以注释会议会话的转录，以对于会话期间转录的每句话，或者更细的粒度，转录的每个单词包括WIS指示。在优选实施例中，可以根据WIS或者“谁正在讲”输入以及包括内容、时间戳等等的其他参数，针对特定声音比特或者文本部分在这种记录中搜索。在此请注意，在会议档案的搜索中，可以提交WIS数据，以返回包括特定讲话者讲了什么的所有或者一部分的结果。同样，内容本身可以被用作输入，以返回包括WIS数据的结果。而且，可以使用输入的结合，来返回相关结果。
一旦预先配置了WIS SW实例308(a-c)，则它们可以自动地在后台中运行，以确定WIS数据，并且根据计划将该数据传播到参加者。在另一个实施例中，参加者可访问丰富呈现信息，其中上述参加者被授权在会话期间接收WIS数据或者在发生会话之后发送给他们的会话后封装中接收WIS数据。在这种情况下，WIS SW308(a-c)可以实现来监控会话WIS结果，以便计算特定统计量，所述特定统计量可以利用呈现信息来编译，以为可能感兴趣或者被授权接收信息的用户提供丰富呈现信息。在此特别注意，可以使用WIS SW(308)实现与本发明系统相关的特定功能或者任务，或者使用WIS U-MGR(333)实现与本发明系统相关的特定功能或者任务，或者通过在应用之间策略性地共享这些任务或功能来实现与本发明系统相关的特定功能或者任务。在本说明书的后面提供了使用WIS数据的方法的更详细说明。
图4是描述根据本发明实施例的包括组件交互的WIS体系结构400的方框图。体系结构400包括如上参考图3所述的会议桥307、WIS SW308a、WIS U-MGR(333)和大容量库309。在这个例子中，可以假设，通过向客户端提供服务的主机企业来执行会议桥、WIS增强和会议归档。但是，这不应当被解释为限制，本发明的系统可以在用于内部开会和会议的公司环境、包括教育的公共环境、或者ad hoc环境中实施，其中在ad hoc环境中，可以由这样的用户网络使用本发明的系统，这些用户不具体绑定到任何公司、组织等等，而是通过一些公共社会利益组织在一起。
在这个例子中，当每个参加者连接到会议桥307时，会议桥307接受来自每个参加者的会议输入(C-输入)和附加信息数据。在会议如所安排的那样实际开始之前，每个参加者具有一些识别参数和通道分配。如果某人后来加入会议，则在该人在会议中变得活跃之前，记录对于该人的识别和通道或座位分配。在一个实施例中，在会议安排来开始之前或者用户加入运行的会议会话的任何时间，会议桥307中的WIS-SW308a适于单独地在输入侧收集对于每个用户的任何信息数据和通道或座位分配。在这个实施例中，WIS SW308a然后可以在数据链路408上发送该信息给通道讲话者表(CST)406，其适于维持当前用户/讲话者/通道分配。CST数据406可以包括，但肯定不局限于姓、名和通道或座位分配。信息可以以成对元组存储，用于以后访问。该实施例假设注册来加入的每个用户应当在会话的持续期间维持他或她的通道分配。如果一个用户提前离开，不应当重新分配他或她的通道或座位，特别是当后来在会话档案上执行历史数据搜索时。但是，如果WIS SW308a负责通道或座位分配，则它可以周期性地检查来看一个人是否已经退出会话，并且然后可以通过删除对于该用户的以前成对元组来更新CTS数据406。然后当新的用户加入时，可以重新分配通道或座位，而不影响将来的任务。在一个实施例中，CST表406也可以包含或者参考例如联系信息的附加数据和可以与讲话者关联的其他数据。可以通过提供关于讲话者的更多信息或者丰富谁正在讲(RWIS)数据，使用该附加数据来增强简易WIS数据。
在这个实施例中，将会议会话的实况输出409馈送到WIS U-MGR(333)。该输出没有包含任何附加数据或者用户识别。实况输出包含哪个分配的通道当前是活跃的时间指示(该通道的被分配者当前正在讲话的指示)。在这种情况下，WIS U-MGR(333)获得活跃通道的信号，并且在CST数据406中查询，并且获得讲话者通道识别以及根据该信号时间跨度对该信息进行时间加戳。也就是说，如果特定通道当前在输出中是活跃的，则识别分配该通道的正确讲话者，并且创建时间加戳的记录，将讲话者识别与该特定通道相关联。当由另一个通道代替该通道时，对该通道再次执行查询，等等。例如可以采样输出的频率支持每100msec的查询和记录。于是可以利用对于任何会议情景足够的粒度来表示WIS指示中的任何变化。WIS指示从一个讲话者可以变化到另一个讲话者的示例性频率是每秒几次到10次或者更多。
在讲话者相关的语音识别的情况下，将讲话者相关的训练数据提供给系统，并且因此系统知道该数据，以及该数据可以用来帮助语音到文本的转录。在这种情况下，WIS U-MGR将利用时间相关的谁正在讲信息来根据时间来合适地选择讲话者相关的训练数据。
WIS U-MGR(333)可以向离散时间记录添加所参考的讲话者的RWIS信息或者利用该RWIS信息标记离散时间记录，使得终端用户可以通过与交互链路进行交互而来取回该数据。可以将来自WISU-MGR(333)的输出分离为记录到库309中的输出流412，和根据所计划的传递格式通过网络401传递到所有参加者或参加者的选择部分的输出流411，其中所述格式根据使用来接收输出流的CPE设备而可以发生某些变化。
在确定“谁正在讲”所要求的最小识别之上，术语谁正在讲数据松散地与关于讲话者的任何数据相关联。在所安排的会议进行之前，系统可以已经知道一些RWIS数据。一些RWIS数据可以由WIS U-MGR(333)在会议会话的跨度上进行处理时导出。系统以前可以知道的RWIS数据可以包括讲话者或者赞助讲话者的组织可获得的任何信息。除了姓和名之外，RWIS数据还包括讲话者的头衔、电子邮件地址、电话号码和分机、IM处理器、万维网地址、公司名称、政治身份、专业声明、参考列表、所著的出版物列表等等。可以作为元数据标签或者作为交互超链接嵌入这种RWIS数据，使得通过鼠标在上越过或点击，与讲话者的视觉指示(作为对会话的文本记录的注释、或者作为嵌入的视觉图形、或者作为图标变化)交互的一个人可以在相同或者在一些其他界面或者应用载体中获得附加信息。
为了进一步阐述，CPE-1(402)被描述为一个接收输出流411的CPE设备。CPE-1(402)可以是桌面图形用户交互显示(GUID)，占据桌面计算机或者便携式计算机的屏幕。在这个例子中，描述了会议显示界面410，并且其包含图标A到H，它们表示在会议会话期间分配给讲话者的通道。当前图标G被加粗，指示通道G是活跃的，并且讲话者是史密斯先生，他是与会议主题相关联的公司的IP律师。弹出消息416包含交互RWIS数据选项，例如发送文本消息、电子邮件、到万维网站点的导航、以及史密斯先生是当前讲话者。图标D表示最后的活跃通道以及使用交互弹出消息415的讲话者。最后讲话者是琼斯先生，他是公司RAD的CEO。参加者可以点击来发送文本消息给琼斯先生，或者发送电子邮件、或者也许导航到RAD网站。弹出消息415指示琼斯先生是史密斯先生讲话之前的最后一个讲话者。
在另一个实施例中，描述了即时消息界面413，其运行在CPE-2设备(403)上。设备403可以是支持即时消息传输的任何类型的设备，包括PDA、蜂窝电话或者具有能够显示文本以及在一些情况下显示图形的任何支持网络的计算实体。IM界面413描述了会议输出的运行转录，包括注释到转录内容的WIS指示。在这种情况下，史密斯先生被指示为最后讲话者以及他讲话的日期和时间，随后是他说了什么的转录。琼斯先生被识别为当前讲话者，并具有可视的日期和时间，随后是他正在讲话内容的正在进行中的转录。IM界面413包括交互标记414、标记为取回RWIS数据或者用于取回RWIS数据的选项、或者关于史密斯先生和/或琼斯先生的选项。通过将鼠标放在其上来选择或者强调一个或者两个讲话者指示符，以及然后选择标记414可以实现与该讲话者相关联的丰富信息的取回。在一个实施例中，选择链接可以产生一个哪些RWIS数据可以获得的列表。然后，通过选择合适的提供，可以包括通信链接的RWIS可以被供应和格式化，用于设备403的能力和配置的服务。
在一个实施例中，CPE-3(404)被描述为具有到骨干401的接入，并且因此具有到会议档案309的接入。CPE-3(404)具有提供给它的客户端软件应用405，该软件应用405适于支持操作用户从库309的内容中搜索根据输入WIS数据，除了，分开或者组合以下数据参数，例如日期、时间、会话ID、讲话者ID和通道ID，可返回的任何数据和内容。实际的RWIS数据可以包括可能已经知道的关于主题讲话者的数据，或者可能通过会议参加者或者来自第三方实体的请求而传递到系统的数据。使用图4的例子，与作为IP律师的史密斯先生相关的RWIS数据可以包括教育背景或者其他简历信息。
对于史密斯先生的RWIS数据可以包括诉讼成功的记录和客户列表。在一个实施例中，可以使用本发明的系统提供优化的谁正在讲(OWIS)数据。为了该说明书的目的，OWIS数据是在一个或者多个会议会话期间通过WIS处理导出的数据，其本质是统计的或者历史的，并且与会议参加或者会议参加期间讲话者的活动或者系统观察有关，并且在会议之前不可获得。例如琼斯先生可以具有对于可能在一个或者多个会议会话期间所讨论的特定政治或道德位置或者观点的辩护的会议历史。这种OWIS数据可以是会议档案的检索的主题。例如，辩护团可能想找到作为律师的动态讲话者，他可获得对实况事件的讲话。通过输入所讨论的题目和参加者的头衔以及支持或者反对的一些相关关键字，该团可以执行对档案的搜索，其中所返回的结果包括作为律师的会议讲话者，他说了支持或反对所讨论的问题，史密斯先生是所返回的那些结果中的一个。存在许多商业过程，它们可受益于使用WIS信息、RWIS信息和OWIS信息作为搜索主题或者作为变量来从档案中搜索相关信息的能力。
在另一个例子中，OWIS信息可以包括在会议期间讲话者集体演讲所识别的部分，该部分比同一讲话者的其他部分或者其他讲话者的演讲部分更有激情。在这方面，信号的分贝监控可以指示这种激情或者感情，可以使用阈值表或者表达引擎来确定生气、恐惧、欢呼或者仅仅激情的演讲。不能对会议音频进行访问但具有运行文本界面的会议参加者可以被支持来通过将所有大写字母形式的这些部分(OWIS)包括在出现在界面的特定文本上来确定来自讲话者的感情。可以将通常使用在聊天界面中来表达参加者不同感情的感情图标嵌入到会议转录(实时的或者记录的)特定段或部分，以便识别在段、句子或者单个单词中的感情。
在本发明的一个实施例中，WIS U-MGR(333)可以使用数据处理来增强信号处理，以实现与特定其他参加者相关的讲话者输出的修改、调节或者改变，以便防止在回放期间被传播，或者使得它在实况会议期间对于所有会议参加者或者选择的部分会议参加者部分地或者完全地不可识别。例如，使用WIS数据，调节器可以使得会议中史密斯先生和琼斯先生之间的会谈对于参加者A-C、E、F和H是难以理解或者沉默的。例如，会议可以是许可会议，包括对与R&D职务有关的琼斯先生的实践的尽职调查，以及史密斯先生可以是琼斯先生的IP律师，选择来在任何可能的协议中代表公司利益。
在上面的实施例中，说了什么和谁正在说与听到了或者没有听到关于史密斯先生和琼斯先生之间的会谈同样重要。为了支持调节器参考其他通道接近实时地改变琼斯先生和史密斯先生之间的活动，所要求的所有是以下指示史密斯先生在会议期间的唯一角色是向琼斯先生提供建议。因此，无论什么时候史密斯先生的通道变得活跃，在史密斯先生的通道活跃的时间段发送之前，除了琼斯先生之外，到其他参加者的信号输出立即失真。随后，当在史密斯先生讲话(指示对琼斯先生的响应)之后的预定时问段内，琼斯先生的通道变得活跃时，在发送该通道处于活跃状态的持续时间到除史密斯先生之外的其他参加者之前，信号输出失真。因此，在从桥到所有参加者的输出期间，通常改变、失真或者干扰输出信号，除了信号被路由返回到被授权收听该内容的人。
在所描述的通道的输出中可以有一些稍微的延迟，以确保安全措施。在一个实施例中，可以预编程该能力，以参考监控和实现自动运行，其通过WIS U-MGR(333)或者通过WIS SW(308)实现。另外，将编程实况会话期间试图进行的任何转录，使得不发生在史密斯先生和琼斯先生之间的来回会谈。但是，其他会议参加者可以通过他们的界面视觉上意识到在会话期间总是正在发生私人交谈，即使其不能在实况交互期间传播这些会谈的内容。上述实施例在以下情景中也是实用的，即两个或者多个会议参加者是竞争的法官，并且参加者正相互竞争。可以期望的是，法官之间的交谈仅仅被其他法官听到，参加者不会听到。存在许多可能和变型的应用。
在一个实施例中，增强信号处理可以包括用于将更清楚的输出发送回会议参加者的质量控制措施。在会议期间，参考单个讲话者或者选择的讲话者，可以控制增益、均衡和噪声消隐。因为信号活动与分配给会议参加者或者与会议参加者相关联的通道有关，所以没有讲话但是具有噪声输入信号的参加者可以自动地被从总的输出中剔除。
关于会议后记录或者音频轨道，增强数字信号处理可以使用WIS数据来支持对记录或者一批记录中的段进行快速“清除”或者“音频增强”。在一个例子中，目标可以是从记录消除特定讲话者的音频输出。使用能够对WIS嵌入标签或者参考进行索引的数字信号处理引擎，可以利用值系统。例如，根据WIS数据，对利用多个活跃的通道记录的给定音频文件或者轨道进行分段。在简单例子中，考虑一个记录具有四个不同的讲话者(通道)，开且记录的可测量音频段或部分可以被识别为表征这些讲话者中的一个。假设目标是四个讲话者中的第二讲话者需要从整个记录中移走。
可以预编程DSP引擎，以在识别为第二讲话者输出的记录的任何段或者音频部分中，将名义上为“1”的音量设置到值“0”。对于专用于第二讲话者的部分，所完成的记录对于第三方是听不到的。类似地，对于特定讲话者，可以提高或者降低音量水平。例如，将普通值“1”乘2将会使讲话者的音量加倍，并且减半值“1”可以减半音量水平。由于能够参考WIS标签，DSP引擎可以快速地运行记录，并且对演播室操作者关心的部分进行一系列预编程的改变。改变可以包括但不局限于执行噪声减少、音频失真、以及控制低音水平、高音水平、增益、回音和其他音频属性。也可以使用其他方案，而没有偏离本发明的精神和范围。
图5是描述根据本发明实施例的由WIS U管理器(333)实现的信息搜索体系结构500的方框图。在本实施例中，通常通过会议桥508、第三方服务或者主机节点507、和CPE用户501来支持体系结构500。在这个例子中，CPE 501是能够接入流行网络的桌面计算机。CPE 501具有在计算机图形监控器上显示的搜索引擎界面502。CPE501可以通过正常环境在线连接到可以是服务器的第三方节点507。在这个例子中，节点507适于在多数情况下与发送到会议参加者输出同时地来处理和记录来自会议桥的会议输出。
节点507接收会议信号，通过时间与信号共同相关联的WIS数据和RWIS数据(每个识别的讲话者的)，如果可获得的话。WISU-MGR(333)利用统计处理器/服务器511，针对可以导出的任何OWIS数据处理输入信号和数据。处理的一部分包括注释记录以反映嵌入到记录的档案中或者与记录的档案相结合的WIS数据。该信息可以保存在库509中。另外，CST可以存储在库510中用于参考。与任何活跃的讲话者相关的任何OWIS数据可以存储在库506中用于参考，库506适于存储与识别的会议讲话者共同相关的RWIS和OWIS档案。OWIS数据可以包括描述例如各个所识别的讲话者的参加输入相对于特定会议或者一系列存档的会议期间活跃的所有其他识别的讲话者的比率的数据。百分率可以分解给每个会议，并且也可以对于这些讲话者在多个会议(如果存在表征这些讲话者的归档的几个或者多于一个会议的话)上进行平均。
存在不同的可以归档记录和注释的会议信息用于搜索的方法。例如，音频会议的完全会议转录可以与识别所包括的文本的作者(讲话者)的注释和包括在这些注释中用于链接到讲话者的标签一起存储。这种注释可以包括讲话者的姓名、头衔、会议日期、以及在会议日期讲话者说出注释文本的时间(持续时间)。该WIS信息可由所有、一个或者其部分的结合来搜索。这样，输入会议日期和特定时间范围，在该日期的该特定时间范围内讲话的讲话者可识别，这样，讲了什么的转录可识别，并且另外可以用于返回表示搜索的转录的多媒体段。辅助呈现(例如Power PointsTM或者其他呈现)也可以通过时间与会议的记录共同相关，使得与讲话者的转录相关的呈现部分可以成为返回的搜索结果的一部分。
可以由节点507向CPE 501服务的界面具有一个或者多个检索词数据输入字段。在这种情况中，具有两个输入字段，一个字段503用于输入RPI类型标准，以及字段504用于输入描述性关键词和短语。可以提供用于限制和改进档案搜索的附加字段，而没有脱离本发明的精神和范围。例如，用户操作界面502可以通过输入会议识别号、会议召开的日期和时间，或者简单地会议名称来将搜索限制到特定会议档案。通过列出会议名称或者识别号，或者通过指定日期和时间范围以包括落入指定的范围内的所有会议档案，可以在单个搜索中包括多个会议档案。用户可以搜索所有会议档案。
使用WIS标准和关键词的例子，用户可以在输入字段504中输入“讲话者”以及在字段503中输入“高于50％活跃”以在所有会议档案中搜索讲话者姓名。返回结果列表505，包括到在所有会议档案上平均的参加高于50％阈值的所有讲话者的链接。对于讲话者的结果还可以包括联系信息、所参加的会议列表、到由该讲话者为每个会议所作的转录文本的链接、以及到表征该讲话者的会议档案的音频和/或视频剪辑。
在另一个实施例中，使用演播应用以可在安装在CPE501上的多媒体软件播放器上看到的方式来准备实际会议多媒体呈现所要求的剪辑。在优选实施例中，通过短语和关键词可搜索来自会议的实际文本，其中WIS信息(讲话者识别)也可用作搜索标准。例如投资适应审计师可以搜索会议档案或档案系列来确定特定交易人是否推销特定的股票或者简单提及特定股票的可获得性。例如，可以使用关键词或者股票名称“国家的”和交易人的姓名来返回包括词“国家的”所有文本，其中WIS注释识别特定交易人作为文本结果的作者。没有返回包括名称“国家的”但不与识别该交易人作为作者的WIS数据相关联的转录文本。
在一个实施例中，WIS U-MGR(333)就输入标准搜索转录的会议数据，并且访问注释到文本选择的通道信号信息，以确定哪个会议通道负责对于考虑的每个结果所找到的文本。然后，作为结果的优化，软件参考CST510，以确定在搜索标准中参考的讲话者的通道讲话者关联，以及消除没有与合适通道指示相关联的所有那些结果，并且仅仅返回指示所参考的讲话者的通道的结果。在另一个实施例中，所有的信息被包括为附着到由注释所记录的每个可识别转录的元数据，并且作为注释的转录存储。关于所参考的讲话者可获得PI也可以在结果以及到实际多媒体段的链接中可获得，用于检索和回放。存在许多可能。
图6是描述根据本发明实施例的由图3的WIS使用管理器实现的语音到文本转录系统600的方框图。系统600可以是可在合适的计算硬件上执行的WIS U-MGR(333)的一部分，所述计算硬件接入到会议输出，并且接入到例如大容量库的存储介质，所述存储介质适于存储注释的会议输出转录。系统600具有输入/输出(I/O)数据端口601，适于实现会议多媒体记录的访问和取回。软件回放模块602被提供作为系统600的一部分，并且适于播放用于会议后转录的下载的会议文件。
在这个实施例中，将WIS信号和会议音频/视频转移到提供在系统600内的时间同步模块604。时间同步模块604记录通道或者座位指示中的每个变化的时间偏移，并且创建可以同步到会议音频/视频回放的记录。将音频/视频发送到在系统600内提供的语音到文本转录模块603，并且该模块603利用语音识别技术(VRT)和合适的语义数据库(没有示出)增强。同步模块604提供对于通道活跃性中的每个变化的时间偏移数据。时间偏移数据参考记录会议的开始(会议开始时间)来指示活跃通道的识别。通道A可以在时间(t)0处活跃，通道B可以在时间点60秒处接管，通道A可以在t90秒处再次接管，等等。在此特别强调，当讲话者重叠或者多个讲话者在同一时间讲话时，多个通道可以同时活跃。在这种情况下，在t为2:30秒时通道AB可以同时活跃，其中变化可能意味着两个通道中的一个退出，而另一个保留。因此，在t为3:00，通道A可能消失，指示与基于时间的转录对应的时间变化。在此请注意，多个讲话者实际上可以同时谈话，因此转录通过基于时间的指示反映重叠的语音。
系统600包括通道到讲话者关联模块605。模块605适于将讲话者指示与在WIS信号中指示的每个通道或者座位参考相关联，完成用于提交给文本注释引擎608的WIS数据部分。转录模块603输出转录的文件，包括作为文本文件607的时间偏移数据。文件607临时存在适于此目的的存储器(MEM)中。时间偏移数据可以提供作为嵌入的标记符或者占位符，或者作为参考用于插入注释的合适插入点的文件索引的部分。文本注释引擎608依序地访问转录的文本，并且在每个文件的合适的点处用合适的讲话者(WIS)指示注释这些文件。然后卸载注释的文件，以存储为会议记录的完整的和可搜索的文本转录。除了利用WIS信息注释转录的文件之外，注释引擎608还可以将元数据或者链接附着到关于每个讲话者所知道的RWIS数据上，以及可以返回该数据，以及返回简单WIS指示，在对文件执行搜索操作期间。OWIS数据也包括在附着的元数据中。
在一个实施例中，可以预编程系统600，以在“运行时间”模式下在实况会议会话期间操作。在这个实施例中，由于输入流是会议桥的实况输出信号，因此不要求回放软件62。同样在该实施例中，可以将注释的文本文件转发给所有会议参加者或者会议参加者的选择部分，其中相对于桥音频/视频输出具有一些传输延迟。如果一个或者多个参加者听不到，或者操作更适合接收文本文件的设备时，则这是特别有用的。在一个实施例中，当在线时，通过在插入的注释上点击或者滑过鼠标，以要求与讲话者有关的额外RPI数据或者以与讲话者联系和通信，可以交互接收的文本文件。在本实施例的一些变化中，与注释相关的一些或者所有数据可以嵌入到文档中但是看不到，直到用户与注释进行交互，这可以使得相关联的数据作为弹出消息在用户显示屏幕上弹出，或者在一些其他的视觉屏幕、数据框或者文档空间，例如工具条上弹出。存在许多可以实现的可能性，而没有偏移本发明的精神和范围。
对于本领域技术人员显而易见的是，本发明的系统可以提供为驻留在单个节点上的软件实现，或者提供为多个软件的协同部分，每个部分驻留在同一节点或者分布到独立但连接的节点，而没有偏移本发明的精神和范围。某些组件(例如MEM 606、端口601和609)对于驻留软件的节点是通用的，软件在执行各种任务的过程中使用这些组件。
图7是描述根据本发明一方面的用于注释会议多媒体材料或者转录的步骤的处理流程图700。类似于图6的系统600，该注释系统访问会议记录。在一个实施例中，该系统可以引入实况会议流。在另一个实施例中，该系统和软件或者其功能部分可以驻留在会议桥中，会议桥可以被修改来实施本发明。只要可以访问会议输出，无论实况或者记录，可以执行内容的转录和注释。
在步骤703，访问通道或者“WIS”信号，优选地与内容信号同步。WIS信号可以只包含活跃通道的指示，或者如果例如与讲话者相关的算法用来识别讲话者以及这些讲话者已经预先提交了可以识别他们的语音采样，则它可以包括WIS数据。在这种情况下，通道或者座位预分配可能对于导出WIS数据是不必要的。这个例子假设会议参加者被预先分配有座位或者通道，座位或通道可识别为混合信号中的信号。
在步骤702，系统开始转录会议多媒体音频内容。在步骤704，使用WIS通道信号指示，系统根据离散时间信令，将可识别的活跃通道与转录的文本的内容相关联。例如，以t5分钟到音频内容，转录为文本的口头单词将对应于在那时发现活跃的至少一个通道，指示哪个座位或者通道创造转录的内容。系统记录该活动中的时间变化，指示何时一个讲话者停止并且另一个开始。通过标记方法或者插入注释字段或者占位符来完成关联，这将在后来在注释期间封装。关联可以是实际的或者虚拟的，而没有偏离本发明的精神和范围。
在步骤704，转录内容并准备注释。在该步骤中，注释引擎，或者在一个实施例中，实况注释操作员使用数据表执行一系列数据查找，其中该数据表类似于参考图4描述的CST406，以便将合适的讲话者与注释字段或者占位符指示的通道信号识别相关联。在优选实施例中，该处理可以完全自动完成。在一个实施例中，注释字段仅包含与确定由讲话者所作的转录文本相关联的讲话者识别。这足以完成注释处理，由此提供WIS信息是与口头的并且在这种情况下转录的内容相关联。
可选择地，在步骤706，注释引擎可以进一步提供呈现信息元数据，其链接到多于简单识别的关于所识别的讲话者的信息。该元数据可以占据与合适的讲话者识别数据相同的注释字段或者占位符。按照这种方式，在字段上移动鼠标可以使得例如联系信息、公司信息等等的附加信息(RWIS数据)以一些可视的形式出现给利用转录文档进行工作的用户。步骤705和706可以是预注释步骤，针对文档或者文档系列中的每个独立的注释字段而执行。
在步骤707，注释引擎注释或者插入合适的讲话者信息并且可选地元数据到在转录文本中找到的每个找到的字段或者占位符。在一个实施例中，结合步骤707来实施另一个注释步骤708，由此标记呈现信息的每个元数据组，或者将呈现信息的每个元数据组链接到附加信息(OWIS数据)，其可以与文本转录分别存储，但是通过与各个注释交互来访问。OWIS可以包括例如由系统所收集的在包括单个会议的持续时间的时间上或系列会议上(其中识别了讲话者)的会议讲话者的会议参加统计。OWIS数据的一个例子可以是对于如其他会议参加者所判断的讲话者的贡献内容问题的同意或者确认，特定讲话者享有90％的平均同意率。另一个统计可以是在一个会议期间或者在若干会议时间段上，特定讲话者在其讲话时间的60％上是与其他会议参加者对抗。存在许多可能。访问OWIS数据，例如在一个实施例中可以使用的、对于在会议中作了内容的任何讲话者所描述的那些OWIS数据，以帮助训练讲话者，用于将来的交互。而且，OWIS数据可以包括如在会议会话期间可能已经观察和记录的行为。使用这种语音变化分析、音量监控等等，可以实时地察觉特定感情，例如生气、恐惧、欢呼等等。然后可以在转录记录中呈现所编译的数据作为视觉指示符，例如用于由生气咆哮所覆盖的文本部分的所有大写字母。也可以使感情图标用于在特定段中嵌入WIS数据，其中在这些段中隐含或者检测到感情。将任何讲话者的感情状态并入记录的一个好处是可以在会议档案的搜索期间很快分离承载感情的段。
例如在之后分析以从记录的音频或者转录的文本文件中分离会议中所发生的最有争议的交流中，上述能力可能是有用的，其中最有争议的交流可能等于提案或者提议的解决方案组，或者可能已经是会议主题的政策改变中最有争议的方面。类似地，对于没有实时访问会议的音频部分的那些人，该能力可能是有用的。按照这种方式，他们仍然可以通过他们的文本界面体验到感情方面。
在步骤709，为此，所完成和注释的记录可以存储在库中，该库适于该目的，并且可以为其他方所访问来对于商业使用，例如通过增强搜索方法快速地确定谁讲了什么以及在什么时间，说了多少实例等等。
对于本领域技术人员显而易见的，根据注释处理的预先编程或指令准备期间选择什么选项以及可能期望什么最终结果，这个例子中的步骤的确切顺序和内容可以略作变化而没有偏离本发明的精神和范围。基本上，基本的要求是系统确定谁讲了多媒体会议信号(记录或实况)的音频部分的总的转录内容的哪部分，并且插入或者关联其指示到转录文本中的那些确切部分。
在另一个实施例中，处理700可以包括用于改变、变异或者简单地如果安全、隐私，或者其他指示应当从记录除去该部分，或者虽然记录但被提供为在转录中不可辨认的考虑的原因，不呈现音频内容的特定部分的转录的一个或多个步骤。类似地，或者通过传输中的服务质量操纵或者通过信号改变，在转录之前，在记录处理中或在实况流上执行该处理。
图8是描述根据本发明实施例的用于对于WIS相关信息准备和提交会议档案信息搜索的步骤的处理流程图800。在步骤801，用户调用搜索引擎界面，其适于使用关键词、短语、时间数据、WIS数据和呈现信息的任何一个或者结合来搜索会议档案。该界面可以是由第三方服务提供的界面，该第三方服务也提供会议服务。用户可以导航到例如万维网站点以便访问界面。
在步骤802，用户可以输入识别搜索哪个会议档案的输入，或者简单地从公开的会议档案列表中进行选择以将它们包括在信息搜索中。在该步骤中，会议档案意味着表示一个库或者其一部分或者分区，其中存储一个或者多个会议记录。术语档案表示多于一个的保持会议记录的数据库分区、部分或者库。例如可以在一个扇区中存储研究和开发会议，而在另一个扇区中存储销售和客户服务会议。而且，实际的多媒体记录可以与同一内容的文本注释分开存储并且链接到所述文本注释。
在步骤803，用户可以指定会议事件参数，例如会议名称、会议日期、以及时间窗口。例如，用户可以搜索可能多次存在于会议记录的信息，或者其中信息的实例跨越多个会议。这样，通过选择档案并且然后指定日期，可将在该档案中存储的该日期的所有会议记录都包括在搜索中。在一个实施例中，可以使用一个搜索操作在可获得的所有会议记录中搜索信息。
在步骤805，在已经定义了搜索区域之后，用户可以输入短语或者一个或者多个关键词，以启动定义区域内的搜索。在一个实施例中，用户可以通过将范围限定到特定讲话者所作的内容来进一步细化搜索区域。在步骤806，用户可以命令返回参数，例如“以可由AdobeTM排版软件接受的形式返回”。在另一个实施例中，用户可以提交一个命令，以按需播放音频剪辑，剪辑通过链接关联到转录文本部分。在步骤807，用户可以将查询提交给实现搜索的第三方节点。根据信息搜索的目标，返回的结果可以变化。信息搜索目标可以是多方面的。例如，结果可以指示谁和讲话者在一个或者多个会议记录中说了多少个“全国出售”的实例。另一个搜索结果可以指示在特定短语中说“命令和系统”的讲话者，该特定短语可以包含在特定研究和开发会议记录中。通过指定讲话者作为输入，搜索操作可以返回在定义为搜索的区域内讲话者所说的所有内容。
信息搜索技术领域人员将意识到，存在多种方法来组合查询输入，以便具有特定的信息作为结果数据返回。本领域技术人员也将意识到，根据特定输入，结果可以是宽的范围或者变窄。在一个实施例中，返回用户的结果包括到与该返回结果相关联地存储的其他信息的链接。例如，如果由多个讲话者在若干会议记录上说出例如“我推荐α股票”的特定短语，则使用该短语作为输入用来搜索将返回使用该短语或者其变型的所有讲话者，并且每个结果可以提供关于所识别的讲话者的进一步信息，例如联系信息、简历数据、从业时间、或者任何其他预先关联的信息。而且，可以对每个会议讲话者编译统计数据，并且将其附加到WIS数据，使得进一步信息包括统计数据或者至少一个导航链接或者标签以实现对它的即时访问。
本领域技术人员将意识到，除了增强的信息搜索能力和语音到文本转录能力之外，存在可以从本发明的实施中实现的其他增强和服务。例如，当讲话者不是都讲同一种语言时，可以增强语音到文本转录，以包括与语言相关的翻译，来实现多方会议输出识别。在该实施例中，M个讲话者的会议输入可以是这些讲话者的本国语言。除了CST(例如上述CST406)之外，或者与CST相集成，可以提供讲话者-语言(STL)表，以不仅识别谁正在讲话，而且识别那些讲话者的本国语言，使得可以实时地或者在转录中翻译会议输出，以便从接收者的观点，所有其他讲话者看起来都在讲他或者她的语言，无论接收的会议输出是翻译的合成语音、或在即时消息界面接收的翻译文本、或者经由RSS馈送等等。
数据存储领域人员将意识到，存在多种方法，其可以被开发或者支持存储WIS数据，随后检索数据以及利用音频/视频或者转录的会议内容有效地参考它。在一个这种应用中，WIS信号与会议记录的音频视频信号分别存储作为离散的时间信号，两个同步关联的独立文件。
在另一个实施例中，WIS数据可以嵌入在会议音频/视频文件中作为一系列块(chunk)标签值。可以以对于每个讲话者变化的可变长度来表示块。每个块利用合适的WIS数据来标记。在另一个实施例中，可以在音频波形中使用强取比特信令来包括WIS数据。在这种情况下，文件的数据部分的最低位很少反映合适的WIS数据，因为WIS数据的变化速率比音频信号慢的多。
考虑24比特WIS信号和使用以8KHz速率采样的8比特字保存音频部分，则例如，每隔32帧一次的音频信号实际修改将合适地表示整个WIS信号，并且不会在音频上影响回放质量。而且，用于播放音频的回放软件不需要修改。可以提供独立的解码器来从嵌入音频中提取WIS信号。在这种方法中也可以这样处理视频，使得通过操作以出现在例如多个视觉软件窗口的帧，可以听到音频，可以在一个窗口显示当前讲话者的图片，以及任何图形呈现的视觉部分可以显示在回放软件的其他窗口。
可以在使用多个并且不同的设备的多个不同通信体系结构中来实施本发明的方法、系统和设备，而没有偏离本发明的精神和范围。类似地，可以使用上述组件的一些、上述组件的组合或者所有上述组件来提供本发明，而没有偏离本发明的精神和范围。可以想到对于WIS确定和应用的很多商业使用，在此已经描述了它们中的许多，从单个控制点实现所选择部分或者其全部。根据上述许多实际的并且描述的实施例，在审查时，应当提供给本发明最宽的范围。本发明在范围上应当仅仅由所附权利要求来限定。
权利要求
1.一种用于实现将与参加者的活动有关的导出的谁正在讲指示可控制地应用到实况多方通信会议或者其记录输出的系统，包括第一节点，驻留有一个会议桥接交换机、软件或者其结合，其具有多个会议输入通道；第二节点，具有对所述会议桥接交换机、软件或者其结合的至少一个输出信号端口的数据访问；以及整体上分布到所述第一或者第二节点或者部分地分布到所述第一和第二节点的软件应用，该应用用来将谁正在讲指示应用到输出通信、数据文件或者数据流，所述输出通信、数据文件或者数据流转发到所述会议参加者、非参加者的第三方、以及一个或者多个存储设备中的一个、选择的部分、或者结合。
2.根据权利要求1的系统，其中所述谁正在讲指示包括，除了识别信息之外，呈现信息或者其定位符，所述呈现信息与所述识别信息相关。
3.一种音频内容转录和注释系统，用于呈现来自多方会议会话的实况或者记录语音的注释文本转录，以及用于利用谁正在讲数据注释转录的文本文件，其中通过具有多个会议输入通道的会议桥接交换机、软件或者其结合来实现所述多方会议会话，包括输入端口，用于接收所述音频内容；时间同步模块，用于记录与会议会话运行时间相关的通道活动信号的变化的时间偏移；通道到讲话者关联模块；以及文本注释引擎；其特征在于，与在信号变化之间存在的时间周期范围内找到的内容的音频单词、短语或者段相关，根据随着时间的信号变化指示来注释所述转录的文本文件。
4.根据权利要求3的系统，其中所述谁正在讲指示包括，除了识别信息之外，呈现信息或者其定位符，所述呈现信息与所述识别信息相关。
5.根据权利要求4的系统，还包括丰富呈现信息或者其定位符，所述丰富呈现信息整体上或者部分地在一个或者多个会议会话持续时间上从识别的参加者的记录活动中导出。
6.一种用于转录和注释来自多方会议会话的实况或者记录语音的方法，通过具有多个会议输入通道的会议桥接交换机、软件或者其结合来实现所述多方会议会话，注释指示谁正在讲，包括步骤(a)接收用于文本转录的语音文件；(b)访问时间上与所述语音文件相关联的通道活动信号；(c)在文本转录期间将字段或者占位符插入到文档中，根据在文档中的发生时间来插入字段或者占位符；(d)对于每个字段或者占位符检索通道到讲话者关联数据，以及(e)将注释插入到合适的字段。
7.根据权利要求6的方法，其中在步骤(e)，注释还包括关于讲话者的呈现信息，或者其定位符，所述呈现信息包括但不局限于联系信息。
8.根据权利要求7的方法，其中在步骤(e)，注释还包括关于讲话者的丰富呈现信息，或者其定位符，所述丰富呈现信息包括但不局限于与在一个或者多个会议持续时间上的讲话者活动相关的统计量。
9.一种用于在会议档案中检索与多方会议的记录内容有关的信息的系统，利用讲话者识别和其他信息或者其定位符来时间上注释记录，包括第一节点，驻留有一个搜索引擎和界面；第二节点，能够通过网络访问所述第一节点；以及至少一个存储库，包含链接或者没有链接到合适多媒体音频文件或音频/视频文件的转录文本文件形式的会议记录；其特征在于，所搜索的信息可以包括使用内容关键词或者短语作为输入的讲话者识别、使用讲话者识别参数和内容关键词或者短语的结合作为输入的讲话者所讲的重复内容的实例、以及包括使用讲话者识别作为输入的统计量的丰富呈现信息。
10.根据权利要求9的系统，其中，作为通过到与一个或者多个交互结果相关的附加信息的附加交互链接进一步优化的所述结果的列表，返回搜索的信息。
全文摘要
公开了一种用于实现将与参加者的活动有关的导出的谁正在讲指示可控制地应用到实况多方通信会议或者记录输出的系统。该系统包括第一节点，驻留有一个会议桥接交换机、软件或者其结合，其具有多个会议输入通道；第二节点，具有对所述会议桥接交换机、软件或者其结合的至少一个输出信号端口的数据访问；以及整体上分布到所述第一或者第二节点或者部分地分布到所述第一和第二节点的软件应用。该应用用来将谁正在讲指示应用到输出通信、数据文件或者数据流，所述输出通信、数据文件或者数据流转发到所述会议参加者、非参加者的第三方、以及一个或者多个存储设备中的一个、选择的部分、或者结合。
文档编号H04M3/42GK1983949SQ20061016701
公开日2007年6月20日申请日期2006年12月12日优先权日2005年12月13日
发明者迈克尔·S·温格罗维兹, 西德哈撒·格普塔申请人:阿尔卡特公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：迈克尔.S.温格罗维兹;西德哈撒.格普塔
技术所有人：阿尔卡特公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。