呼叫处理的制作方法
【专利说明】呼叫处理
【背景技术】
[0001] 可W"在线"(即,通过适当的网络,诸如互联网,可能经由会议服务器)进行两个W 上用户之间的会议呼叫,例如在虚拟会议或组呼叫场景中。适当的用户设备(例如个人计算 机、平板设备、智能电话、VoIP电话等)使用设在用户设备中或禪合到用户设备的一个或多 个扬声器W及一个或多个麦克风来参与运种呼叫。典型地,加入呼叫的用户设备可W在某 一阶段播出可听"铃音",作为该过程的一部分。
[0002] 在在线会议呼叫场景中,可能出现其中两个或更多个参与者在会议呼叫期间在同 一房间中或W其它方式共置(即,彼此相邻近)的情形。例如,当第一用户设备处的第一用户 正在参与呼叫时,同一房间中的第二用户设备处的第二用户可能加入呼叫。由第二用户设 备播出的任何铃音可W被第一用户设备捕获,并且在第一用户设备的麦克风信号路径中被 识别;如果是运样的话,那么可W通知第一用户在其邻近处的另一个用户加入呼叫的可能 性。随后,第一用户可W转向第二用户,并且如果是运样的话,令其将其用户设备静音。
【发明内容】
[0003] 根据本公开内容,一种用户设备包括用于连接到网络的网络接口和用于输出音频 信号的音频输出组件。所述用户设备还包括被配置为执行通信客户端的处理器。该客户端 可操作W加入通过所述网络进行的呼叫。在所述用户设备处,所述客户端还可操作W将标 识符编码到在所述用户设备处生成的音频中,并且在所述呼叫期间,经由所述音频输出组 件来输出所述音频。所述音频被输出,使得所述音频可W被在所述用户设备邻近处的已经 参与所述呼叫的另一个用户设备接收和处理,W识别所述用户设备。
[0004] 此外,根据本公开内容,一种用户设备包括用于连接到网络的网络接口和用于接 收音频信号的音频输入组件。所述用户设备还包括被配置为执行通信客户端的处理器。该 客户端可操作W参与通过所述网络进行的呼叫。当所述客户端参与所述呼叫时,所述客户 端还可操作W经由所述音频输入组件接收音频,所述音频是在所述呼叫期间在所述用户设 备的邻近处的另一个用户设备处生成的并且由所述另一个用户设备输出-与所述用户设备 相关联的标识符被编码到所述另一个用户设备处的所述音频中。在所述用户设备处,所述 客户端还可操作W从所接收的音频中提取所述标识符,W识别所述另一个用户设备。
[0005] 还公开的是相应的方法和计算机程序产品。
[0006] 提供运个概括W便W简化的形式引入一系列概念,运些概念在下文的具体实施方 式中被进一步描述。运个概括既不是要标识要求保护的主题的关键特征或必要特征,也不 是要用于限制要求保护的主题的范围。范围也不限于解决本文记载的任何缺点。
【附图说明】
[0007] 为了理解本主题W及示出其如何被实施,现在将W示例的方式参考附图,在附图 中:
[000引图1是通信系统的示意图;
[0009] 图2A是第一用户设备的示意图;
[0010] 图2B是第二用户设备的示意图;
[0011] 图3是处理呼叫的方法的示意图;
[0012] 图4A是用于生成和输出音频的系统的示意图;
[0013] 图4B是由用户设备输出的音频的示意时间-频率表示;
[0014] 图4C是用于生成定制铃音的方法的示意概括;
[0015] 图5是由多个用户设备输出的音频的示意时间-频率表示;
[0016] 图6A是音频处理块的示意图;
[0017] 图6B是在检测阶段期间执行的方法的示意概括。
【具体实施方式】
[0018] 基于识别已知铃音的技术(诸如上述技术)归根结底依靠"加入者"(即,加入呼叫 的用户设备)是由其它呼叫参与者来人工识别的。此外,运样的技术可能不适于自动地识别 加入者,相当重要的原因是即使在参与呼叫的用户设备的麦克风信号路径中识别已知铃 音,也不能从其中明确地识别该铃音的源,例如,两个用户设备可能同时加入呼叫并且播出 相同的铃音。随后,可W在第=用户设备的麦克风信号路径中识别该已知铃音,但是没有办 法知道该识别的铃音的源是第一用户数设备、第二用户设备、或者甚至是碰巧在同一时间 加入完全不同的呼叫的另一个用户设备(因为它们可能都使用相同的铃音)。
[0019] 现在将参照附图描述实施例。在所描述的实施例中,当加入在线会议时,每个加入 者播出(输出)对于该加入者是唯一的特定铃音。在运些实施例中,唯一铃音的音频由加入 者的客户端来生成,W及与该加入者相关联的标识符被编码到所生成的音频中。铃音的音 频数据可W例如使用预先记录的信号来生成,或者可W在最开始使用声音合成函数来生 成。与比如网络内的集中式生成相比,由加入呼叫的用户设备处的客户端来生成铃音表示 网络带宽节省,运是因为不需要通过网络发送铃音的音频数据。随后,W运样的方式播出唯 一铃音:当该铃音被其它参与者在其各自的麦克风信号中检测到时,允许其它参与者识别 新的加入者。播出的铃音实际上是包含经编码的加入者标识符的经调制/水印的铃音。其可 W是被编码在音频中的易于检测的调制(例如,基于时间-频率的调制)或水印。根据本公开 内容,加入者标识符(ID)被嵌入到铃音中。设想了用于运样嵌入加入者ID的不同的嵌入手 段。下文描述的一个实施例使用时间频率调制;在现有的VoIP客户端应用中找到的现有的 音频处理架构(例如,如用于回音消除)可W易于适用于提取W运种方式嵌入的加入者ID。 其它实施例使用不同形式的嵌入。
[0020] "在现场"(即,在由用户设备的客户端进行的操作中)例如实时地生成音频。可W 从非音频数据(与预先确定的音频相反,预先确定的音频是比如在设计阶段期间预先记录 和/或预先呈现的、预先存储的、W及仅在现场播出的)或至少基于非音频数据来生成音频。 运里,"音频数据"包括未压缩的音频数据和压缩的音频数据二者(例如,利用音频编解码 器、语音编解码器等创建的),W及压缩包括无损和有损压缩格式二者(非音频数据是不落 入到音频数据的运个定义中的数据)。非音频数据可W包括用户和/或设备的标识符,标识 符被编码到所生成的音频中。非音频数据可W包括抽象参数,诸如音调的间距和/或时序, 与记录的采样相反,音频因此是"人工地"生成的。例如,可W将标识符表示为运些音调的时 间-频率分布。
[0021] 图1示出了通信系统100,其包括与第一用户设备104相关联的第一用户102("用户 A");与第二用户设备110相关联的第二用户108("用户B");与第S用户设备116相关联的第 S用户114("用户C"); W及会议服务器130,它们全部连接到网络119。用户设备104、110和 116被安排为分别从用户102、108和114接收信息和向用户102、108和114输出信息。特别地, 用户设备104包括音频输入组件,该音频输入组件本身包括用于捕获音频信号的麦克风 105,并且用户设备110包括音频输出组件,该音频输出组件本身包括用于输出音频信号的 扬声器111。第一和第二用户设备是共置的(即,彼此相邻近)。
[0022] 在图1中示出的通信系统100是基于分组的通信系统,但是可W使用其它类型的通 信系统。网络119可W是例如互联网。用户设备104和110中的每个用户设备可W是例如移动 电话(例如,智能电话)、平板计算机、膝上型计算机、个人计算机("PC")(包括例如, Windows饭、化cOS货和Linux饭PC)、游戏设备、电视机、个人数字助理("PDA")或能够连 接到网络119的其它嵌入式设备。
[0023] 用户设备104执行通信客户端106的实例。通信客户端是在用户设备104中的本地 处理器上执行的软件程序。客户端执行在用户设备104处要求的处理,W便使用户设备104 通过通信系统100发送和接收数据。
[0024] 用户设备110也在本地处理器上执行对应于客户端106的通信客户端112的实例。 用户设备110处的客户端112执行要求的处理W允许用户108通过网络119来进行通信。
[0025] 用户设备116也在本地处理器上执行对应于客户端106和112的通信客户端118的 实例。用户设备116处的客户端118执行要求的处理W允许用户114通过网络119来进行通 信。
[00%]用户设备104、110和116是通信系统100中的端点。
[0027]在该实施例中,客户端实例106、112和118是由与通信系统100相关联的软件提供 者来提供的,并且W相同的方式来执行要求的处理。
[002引为了清楚起见,图1仅示出了 S个用