专利名称:电话纪要生成系统、通信终端、媒体服务器及方法
技术领域:
本发明涉及通信领域,尤其涉及一种记录通信过程中的通话内容的电话纪要生成系统和方法,以及包含该电话纪要生成系统的通信终端及媒体服务器。
背景技术:
在语音通信系统中,对通信过程信息进行记录是一项常用功能,通过该记录功能,可以将通话内容,例如两方通话和多方会议的内容等保存下来,以供事后查询、回溯使用。
目前,一些电话终端提供了录音功能,以记录通话过程中的语音信息,或者按用户的要求记录一些待记录的语音信息。在现有技术中,另有一些媒体服务器也支持录音功能。下面以电话终端为例,说明现有技术中实现录音功能的录音系统的具体方案,请同时参照图1。
在拨打电话过程中,由音频输入单元11采集音频数据传送给编码单元12,编码单元12将音频信号转换成特定的格式后通过通信单元13发送出去;而在接听电话过程中,由通信单元13将接收到的音频信号传送给解码单元14,解码单元14将所述特定格式的数据转换成普通格式的音频数据后,传送给音频输出单元15,音频输出单元15即可播放该音频数据。其中,所述通信单元13是用于完成该电话终端与整个通信系统中其他部件的交互。另外,在该录音系统中,还包括一个录音单元16,其用于分别从音频输入单元11、解码单元14获得音频实时数据,并保存到存储器内。
由上述录音系统,可完成语音数据的录制、播放和存储。
对于媒体服务器的语音录制方式与上述电话终端类似,媒体服务器获取解码后、编码前的音频数据,并保存到存储器内,在此不再赘述。
上述现有技术中实现录音的方案虽然能够录制语音数据,却由于存储的是语音格式的电话纪要,存在不方便对其内容进行检索和占用存储空间大的缺陷。
发明内容
为了解决上述现有技术中所指出的问题,本发明提出一种电话纪要生成系统和方法,以及包含该电话纪要生成系统的通信终端及媒体服务器。所述电话纪要生成系统和方法在语音通信过程中生成文本格式的电话纪要,以方便后续的检索、浏览,并可占用较少的存储空间。
根据本发明的一较佳实施例,提出一种自动电话纪要系统,该系统包括通信单元,用于接收音频数据;录音单元,用于对所述通信单元接收的音频数据进行录音;该系统还包括纪要生成单元,用于获取被所述录音单元录音的音频数据,并采用自动语音识别技术将所述音频数据转换成文本格式的电话纪要,并将所述文本格式的电话纪要保存在存储器中;纪要接口单元,用于将所述文本格式的电话纪要发布出去。
根据本发明的另一较佳实施例,提出一种自动电话纪要生成方法,该方法包括接收音频数据;对接收的所述音频数据进行录音;采用自动语音识别技术对所述音频数据进行语音识别,生成与所述音频数据相应的文本格式的电话纪要;发布所述文本格式的电话纪要。
本发明的实施例达到的有益效果包括通过将录制的语音数据自动生成文本格式的电话纪要,方便后续检索、编辑和存档,且可占用较少的存储空间。
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中图1为现有技术中支持录音功能的电话终端的录音系统结构示意图;
图2A-图2F为本发明实施例的电话纪要生成系统的结构方框图;图3为本发明实施例的电话纪要方法的流程图;图4为根据本发明的媒体服务器实施例的结构示意图;图5为根据本发明的终端实施例的结构示意图。
具体实施例方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
本发明的实施例是,在通话过程中,通过通信终端或媒体服务器的电话纪要生成系统获取语音数据,并应用自动语音识别(ASRAutomatic SpeechRecognition)技术将语音数据转化为文本数据,将文本格式的电话纪要提供给用户。由于存储的是文本格式的电话纪要,大大方便了后续的检索、编辑和存档。可选地,本发明的实施例还可根据语音数据来源的不同来区分不同的发言人;也可应用声纹识别(VPRVoiceprint Recognition)技术来识别发言人,以对应不同的发言人生成各自相应的文本数据。
下面结合附图对本发明实施例的电话纪要生成系统和方法进行说明。
如图2A所示,本发明实施例的电话纪要生成系统主要包括通信单元21、录音单元22、纪要生成单元23以及纪要接口单元24,其中通信单元21主要用于完成该电话纪要生成系统的基本通信功能,并将接收到的音频数据传送到录音单元22进行录音。
在本发明的一较佳实施例中,该电话纪要生成系统包含于通信终端(如电话终端或其他终端设备),以实现通信终端的电话纪要功能。在以电话终端作为实施例中,电话纪要生成系统的通信单元21即为电话终端的基本通信单元,用于完成电话终端的呼叫控制、媒体交互等功能。
在本发明的另一较佳实施例中,该电话纪要生成系统包含于媒体服务器,以实现媒体服务器的电话纪要功能。在该实施例中,电话纪要生成系统的通信单元21即为媒体服务器基本单元,用于完成编解码、混音等功能。
录音单元22主要用于完成双方通话、多方会议等的电话录音,并将录制的音频数据提供给纪要生成单元23,该录音单元22可以是上述通信单元21的一部分,且该录音单元22可采用现有技术实现,在此不再赘述。
纪要生成单元23主要用于从录音单元获取音频数据,并采用自动语音识别(ASRAutomatic Speech Recognition)技术转换成对应的文本数据,即文本格式的电话纪要,并保存在存储器中。
纪要接口单元24主要用于将文本格式的电话纪要发布给召集人、纪要人、与会人等。发布形式可采用E-mail发布、Web发布、数据库查询、私有协议发布等,本发明并不加以限制。
在本发明的另一较佳实施例中,该电话纪要生成系统还包括一个手动修改纪要单元25,如图2B所示,其分别与纪要生成单元23与纪要接口单元24相耦合,用于在生成纪要后,允许手工修改纪要,提供人工整理、修正、审核的功能。这里需要说明的是,该手动修改纪要单元25是可选的,是为增加该电话纪要生成系统的一个附加功能。
在本发明的另一较佳实施例中,该电话纪要生成系统还包括一个区分识别单元26,用于区分识别不同的发言人,以便纪要生成单元23可以对应不同的发言人生成各自对应的文本格式的电话纪要。该区分识别单元26可以包含于上述通信单元21,如图2C所示,用于根据音频数据来源不同来区分不同的发言人;或者该区分识别单元26也可以包含于上述纪要生成单元23,如图2D所示,并应用声纹识别技术来识别发言人。这里需要说明的是,在本发明的其他实施例中,也可以不包括区分识别单元26,则纪要生成单元23不再识别发言人,而是直接将所接收的音频数据生成一个文本格式的电话纪要。
在本发明的另一较佳实施例中,该电话纪要生成系统还可以包括一个设定单元27,如图2E所示,设定单元27用于给纪要生成单元设定定量的音频数据,以便该纪要生成单元23在接收到该定量的音频数据后再进行语音识别,如此更加方便电话纪要的存储。当然,本发明并不限于上述实施例,该设定单元27也可以作为纪要生成单元23的一部分,完成上述功能,如图2F所示。
在此需要说明的是,根据本发明上述实施例的电话纪要生成系统,其各单元可以部署在一个物理设备上,也可以部署在多个不同的设备上,本发明并不以此作为限制。
再请参照图3,本发明实施例的电话纪要生成方法主要包括下列步骤步骤31录音单元将通信单元传输的音频数据提供给纪要生成单元;步骤32纪要生成单元采用自动语音识别技术对所述音频数据进行语音识别,生成相应的文本格式的电话纪要;步骤33纪要接口单元将所述文本格式的电话纪要发布出去。
其中,在上述方法的一较佳实施例中,通信单元可以首先根据音频数据来源不同来区分不同的发言人,再将不同发言人的音频数据分别传输给录音单元,以便纪要生成单元生成对应不同发言人的文本格式的电话纪要。
或者,在另一较佳实施例中,纪要生成单元也可以在接收到录音单元的音频数据后,首先利用声纹识别技术区分不同的发言人,而后再生成对应不同发言人的文本格式的电话纪要。
另外,在生成文本格式的电话纪要后,上述方法还可以增加手工修改纪要的步骤,以便人工对生成的文本数据进行整理、修正和审核等,以便该会议纪要更为完善。
此外,上述纪要接口单元发布文本格式的电话纪要的方法也多种多样,例如可以采用E-mail发布、Web发布、数据库查询、私有协议发布等等,以便召集人、纪要人、与会人等能够获取该电话纪要,本发明对此并不加以限制。
根据上述方法,纪要生成单元进行语音识别的步骤可以为在线识别,也可以为离线识别。
对于在线方法,通话过程中,录音单元实时地将通信单元传输的音频数据提供给纪要生成单元;纪要生成单元再实时地采用自动语音识别技术进行语音识别,生成相应的文本格式的电话纪要。
对于离线方法,录音单元实时或非实时地将通信单元传输的音频数据提供给纪要生成单元;纪要生成单元在收集到定量的音频数据后,进行语音识别,生成相应的文本格式的电话纪要。其中,定量的音频数据是指一次或多次通话的完整音频数据,或者较多的音频数据,如预定时间内传输的音频数据。例如纪要生成单元可以在收集到一次通话的完整音频数据后进行语音识别;也可以在收集24小时的音频数据后进行语音识别,这种情况下,纪要生成单元收集的音频数据就可能包括多次通话;又或者,如果24小时的音频数据过于庞大,也可以设定为几个小时,例如仅收集两小时的音频数据后即进行语音识别。这些都是本发明的实施例,而本发明并不以此作为限制,该功能可以通过在纪要生成单元中增加一个设定单元来实现。
接下来,分别根据以媒体服务器为载体的实施例和以通信终端为载体的实施例对本发明的电话纪要生成系统和方法进行详细说明。
实施例一媒体服务器为载体在本实施例中,假设要完成一个三方会议的会议纪要,会议结束后与会者通过E-mail的形式收到该会议纪要内容,该内容为此次会议中各与会方发言对应的文本。另外,在本实施例中,会议纪要内容是根据音频数据来源的不同来区分不同的与会人。
请参照图4,本实施例的电话纪要生成系统主要包括媒体服务器基本单元41、录音单元42、纪要生成单元43以及纪要接口单元44,下面结合各个单元的工作流程进行说明。其中媒体服务器基本单元41在本实施例中除用于完成编解码、混音、控制等基本通信功能外,还包括一个区分识别单元(图未示),用于根据音频数据来源的不同,将三个与会方的音频数据传输给录音单元42进行录音。
录音单元42用于接收媒体服务器基本单元41传输的三个来源的音频数据,对三个与会方分别进行录音,并将所述音频数据提供给纪要生成单元43,以便纪要生成单元43对所接收的音频数据对应的与会方加以区分。
纪要生成单元43用于对来自三个与会方的音频数据分别应用ASR技术进行语音识别,得到各自的文本信息,再根据发言时间的先后顺序,将三份文本信息组合成一份会议纪要,并将最终的会议纪要提供给纪要接口单元44。这里,进行语音识别的过程可以采用前述的在线方法,也可以采用离线方法,如果采用离线方法,还需增设一个设定单元以完成定量音频数据设定的工作。
纪要接口单元44用于从纪要生成单元43获得文本格式的会议纪要的数据后,从与该媒体服务器互连的通信系统的数据库查询到各与会方的E-mail地址,并将会议纪要发送到各与会方的E-mail邮箱。
实践中,本实施例的媒体服务器上的电话纪要生成系统的电话纪要功能可以作为一项增值业务提供给用户。
如此一来,相对于现有技术的电话录音方式,本发明的该实施例的电话纪要生成系统所提供的记录更方便后续的检索、浏览,并由于是文本数据而占用较少的存储空间。
实施例二通信终端为载体在本实施例中,假设要完成对一次三方会议的录音功能,会议结束后通过访问会议终端中的Web服务器,浏览会议纪要,并可以将纪要以文本格式复制到其它文件中。
请参照图5,本实施例的电话纪要生成系统主要包括终端基本通信单元51、录音单元52、纪要生成单元53以及纪要接口单元54,下面结合各个单元的工作流程进行说明。其中终端基本通信单元51除用于完成终端设备的呼叫控制、媒体交互等基本通信功能外,还包括一个第一区分识别单元(图未示),用于根据音频数据来源的不同,将不同来源的音频数据传输到录音单元52进行录音。
录音单元52用于对本终端输入的语音和来自网络侧的语音分别进行录音,并在将录制的音频数据提供给纪要生成单元53。
纪要生成单元53用于将音频数据转换为文本数据,在本实施例中,该纪要生成单元53还包括一个第二区分识别单元(VPR),对于本终端输入的语音,该纪要生成单元53直接应用ASR技术进行语音识别,转换成文本;对于来源于网络侧的语音,先由第二区分识别单元应用VPR技术进行声纹识别,根据发言人的不同,分离出不同的音频数据,对分离出来的音频数据再分别应用ASR技术进行语音识别,得到各自的发言文本数据。最后,根据发言时间的先后顺序,将本终端数据、网络侧各个发言人发言数据组合起来,得到最终的会议纪要,并保存在存储器内。
纪要接口单元54用于从纪要生成单元53获得文本格式的会议纪要,并实现一个Web服务器,将会议纪要内容放在Web服务器内,并支持会议纪要内容的复制、保存功能。如此一来,Web客户端(浏览器)访问服务器时,选择相应的页面后,即可浏览到该文本格式的会议纪要,同时也可以下载保存该文本格式的会议纪要,方便了检索、浏览和存储。
应当理解的是,本申请的保护范围不受所述实施例限制。例如,通话方数可以是两方、三方、任意方;纪要发布形式可以是E-mail、传真、数据库查询或其它任意方式。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
权利要求
1.一种电话纪要生成系统,其包括通信单元,用于接收音频数据;录音单元,用于对所述通信单元接收的音频数据进行录音;其特征在于,该系统还包括纪要生成单元,用于获取被所述录音单元录音的音频数据,并采用自动语音识别技术将所述音频数据转换成文本格式的电话纪要,并将所述文本格式的电话纪要保存在存储器中;纪要接口单元,用于将所述文本格式的电话纪要发布出去。
2.根据权利要求1所述的系统,其特征在于,该系统还包括手动修改纪要单元,连接于所述纪要生成单元和所述纪要接口单元之间,用于手工修改由所述纪要生成单元保存的所述文本格式的电话纪要;被手工修改的所述文本格式的电话纪要经由所述纪要接口单元发布出去。
3.根据权利要求1所述的系统,其特征在于,该系统还包括区分识别单元,用于区分识别不同的发言人,以便纪要生成单元可以对应不同的发言人生成各自对应的文本格式的电话纪要。
4.根据权利要求3所述的系统,其特征在于,所述区分识别单元包含于所述通信单元,用于根据音频数据的不同来源来区分不同的发言人。
5.根据权利要求3所述的系统,其特征在于,所述区分识别单元包含于所述纪要生成单元,用于使用声纹识别技术来识别发言人。
6.根据权利要求1所述的系统,其特征在于,该系统还包括设定单元,与所述纪要生成单元相耦合,用于设定定量的音频数据,以便所述纪要生成单元在接收到该定量的音频数据后再进行语音识别。
7.根据权利要求1所述的系统,其特征在于,该系统还包括设定单元,所述设定单元包含于所述纪要生成单元,用于设定定量的音频数据,以便所述纪要生成单元在接收到该定量的音频数据后再进行语音识别。
8.根据权利要求1-7任一项所述的系统,其特征在于,该电话纪要生成系统包含于媒体服务器或通信终端。
9.一种电话纪要生成方法,其特征在于,该方法包括下列步骤接收音频数据;对接收的所述音频数据进行录音;采用自动语音识别技术对所述音频数据进行语音识别,生成与所述音频数据相应的文本格式的电话纪要;发布所述文本格式的电话纪要。
10.根据权利要求9所述的方法,其特征在于,所述接收音频数据的步骤具体包括根据所述音频数据的不同来源区分不同的发言人,以便根据所述不同的发言人对接收的所述音频数据分别进行录音。
11.根据权利要求9所述的方法,其特征在于,所述采用自动语音识别技术对所述音频数据进行语音识别,生成与所述音频数据相应的文本格式的电话纪要的步骤具体包括纪要生成单元接收所述音频数据;利用声纹识别技术区分所述音频数据中不同的发言人;采用自动语音识别技术将所述音频数据根据不同的发言人分别转化成相应的文本格式的电话纪要。
12.根据权利要求9所述的方法,其特征在于, 在生成文本格式的电话纪要后,所述方法还包括手工修改纪要的步骤,以便对生成的文本格式的电话纪要进行整理、修正和审核。
13.根据权利要求9所述的方法,其特征在于,所述语音识别的步骤具体包括实时地对接收到的所述音频数据进行语音识别,生成相应的文本格式的电话纪要。
14.根据权利要求9所述的方法,其特征在于,所述语音识别的步骤具体包括收集到定量的所述音频数据后,进行语音识别,生成相应的文本格式的电话纪要。
15.根据权利要求14所述的方法,其特征在于,所述定量的音频数据为一次通话的完整音频数据,或多次通话的音频数据,或预定时间内传输的音频数据。
全文摘要
本发明提供一种电话纪要生成系统、通信终端、媒体服务器及方法,该系统包括通信单元,用于接收音频数据;录音单元,用于对所述通信单元接收的音频数据进行录音;该系统还包括纪要生成单元,用于获取被所述录音单元录音的音频数据,并采用自动语音识别技术将所述音频数据转换成文本格式的电话纪要,并将所述文本格式的电话纪要保存在存储器中;纪要接口单元,用于将所述文本格式的电话纪要发布出去。通过本发明,将录制的语音数据生成文本格式的电话纪要,方便后续检索、编辑和存档。
文档编号H04M3/487GK101068271SQ200710112658
公开日2007年11月7日 申请日期2007年6月26日 优先权日2007年6月26日
发明者马樟平, 李久, 刘泳 申请人:华为技术有限公司