虚拟视频通话方法和终端的制作方法

文档序号：7781602阅读：462来源：国知局

虚拟视频通话方法和终端的制作方法
【专利摘要】本发明提出一种虚拟视频通话方法和终端。其中该方法包括：采集第一终端用户的视频图像；对视频图像进行面部识别以获取面部表情信息；将面部表情信息发送至与第一终端建立通话连接的第二终端，面部表情信息用于使第二终端根据面部表情信息和预设在第二终端的人脸图像模型合成视频图像并显示。本发明实施例的方法，利用面部识别技术在发送端（例如，第一终端）提取面部表情信息，在接收端（例如，第二终端）根据发送的面部表情信息和预设人脸图像模块实现人脸图像的合成和还原，由于传输的面部表情数据量非常小，大大降低了视频通话过程中传送的数据量，从而使得视频通话更加流畅，降低了网络带宽有限或者流量受限等对视频通话的影响。
【专利说明】虚拟视频通话方法和终端
【技术领域】
[0001]本发明涉及通信【技术领域】，尤其涉及一种虚拟视频通话方法和终端。
【背景技术】
[0002]随着网络宽带的快速提升以及硬件设备的发展和普及，视频通话的市场也进入了发展的快车道。目前，虚拟视频通话的主要方法是在发送端采集图像，并确定图像中的面部区域，对面部区域内的面部特征信息进行提取，将提取出来的面部特征信息发送至接收端，在接收端利用面部特征信息重现对应的用户的面部表情。
[0003]目前存在的缺陷是，由于每个人的面部特征是不同的，提取的面部特征信息的数据依然非常大，并且上述方法还需根据面部特征信息重建特定对象面部模型(例如，发送端的用户的面部模型)。因此可以看出，现有技术中传送的视频数据量非常大，消耗了大量数据流量，还可造成视频通话不流畅，不适合带宽有限的移动网络或者流量受限的场合，因此严重阻碍了视频通话的普及和推广。

【发明内容】

[0004]本发明旨在至少解决上述技术问题之一。
[0005]为此，本发明的第一个目的在于提出一种虚拟视频通话方法。该方法大大降低了视频通话过程中传送的数据量，节省了数据流量，从而使得视频通话更加流畅，降低了网络带宽有限或者流量受限对视频通话的影响，提升了用户体验。
[0006]本发明的第二个目的在于提出另一种虚拟视频通话方法。
[0007]本发明的第三个目的在于提出一种终端。
[0008]本发明的第四个目的在于提出另一种终端。
[0009]为了实现上述目的，本发明第一方面实施例的虚拟视频通话方法包括:采集第一终端用户的视频图像；对所述视频图像进行面部识别以获取面部表情信息；将所述面部表情信息发送至与所述第一终端建立通话的第二终端，所述面部表情信息用于使所述第二终端根据所述面部表情信息和预设在所述第二终端的人脸图像模型合成视频图像并显示。
[0010]本发明实施例的虚拟视频通话方法，利用面部识别技术在发送端(例如，第一终端)提取面部表情信息，在接收端(例如，第二终端)根据发送的面部表情信息和预设人脸图像模型实现人脸图像简单的合成和还原，由于在发送端和接收端传输的信息仅限于面部表情信息，并由于该面部表情信息无需合成完整的人脸图像，所包括的信息量少，编码之后面部表情信息的数据量可仅占用几个比特字节，因此与【背景技术】传输的信息相比，大大降低了视频通话过程中传送的数据量，节省了数据流量，从而使得视频通话更加流畅，降低了网络带宽有限或者流量受限对视频通话的影响，特别适合在移动网络中传输，提升了用户体验。另外，无需在第二终端重建第一终端用户的人脸图像模型，第二终端只需要根据面部表情信息在预设的人脸图像模型上显示对应的面部表情即可，使得第二终端易于调整。
[0011]为了实现上述目的，本发明第二方面实施例的虚拟视频通话方法包括:接收与第二终端建立通话的第一终端发送的视频图像的面部表情信息；根据所述面部表情信息和预设在所述第二终端的人脸图像模型合成视频图像并显示。
[0012]本发明实施例的虚拟视频通话方法，利用面部识别技术在发送端(例如，第一终端)提取面部表情信息，在接收端(例如，第二终端)根据发送的面部表情信息和预设人脸图像模型实现人脸图像简单的合成和还原，由于在发送端和接收端传输的信息仅限于面部表情信息，并由于该面部表情信息无需合成完整的人脸图像，所包括的信息量少，编码之后面部表情信息的数据量可仅占用几个比特字节，因此与【背景技术】传输的信息相比，大大降低了视频通话过程中传送的数据量，节省了数据流量，从而使得视频通话更加流畅，降低了网络带宽有限或者流量受限对视频通话的影响，特别适合在移动网络中传输，提升了用户体验。另外，无需在第二终端重建第一终端用户的人脸图像模型，第二终端只需要根据面部表情信息在预设的人脸图像模型上显示对应的面部表情即可，使得第二终端易于调整。
[0013]为了实现上述目的，本发明第三方面实施例的终端，包括:采集模块，用于采集用户的视频图像；识别模块，用于对所述视频图像进行面部识别以获取面部表情信息；发送模块，用于将所述面部表情信息发送至与终端建立通话的第二终端，所述面部表情信息用于使所述第二终端根据所述面部表情信息和预设在所述第二终端的人脸图像模型合成视频图像并显示。
[0014]本发明实施例的终端，利用面部识别技术提取面部表情信息，使与终端建立通话的第二终端根据发送的面部表情信息和预设人脸图像模型实现人脸图像简单的合成和还原，由于传输的信息仅限于面部表情信息，又由于该面部表情信息无需合成完整的人脸图像，所包括的信息量少，编码之后面部表情信息的数据量可仅占用几个比特字节，因此与【背景技术】传输的信息相比，大大降低了视频通话过程中传送的数据量，节省了数据流量，从而使得视频通话更加流畅，降低了网络带宽有限或者流量受限对视频通话的影响，特别适合在移动网络中传输，提升了用户体验。另外，无需在第二终端重建用户的人脸图像模型，第二终端只需要根据面部表情信息在预设的人脸图像模型上显示对应的面部表情即可，使得第二终端易于调整。
[0015]为了实现上述目的，本发明第四方面实施例的终端，包括:接收模块，用于接收与终端建立通话的第一终端发送的视频图像的面部表情信息；合成模块，用于根据所述面部表情信息和预设在所述终端的人脸图像模型合成视频图像并显示。
[0016]本发明实施例的终端，利用面部识别技术提取面部表情信息，与终端建立通话的第一终端根据发送的面部表情信息和预设人脸图像模型实现人脸图像简单的合成和还原，由于在发送端和接收端传输的信息仅限于面部表情信息，并由于该面部表情信息无需合成完整的人脸图像，所包括的信息量少，编码之后面部表情信息的数据量可仅占用几个比特字节，因此与【背景技术】传输的信息相比，大大降低了视频通话过程中传送的数据量，节省了数据流量，从而使得视频通话更加流畅，降低了网络带宽有限或者流量受限对视频通话的影响，特别适合在移动网络中传输，提升了用户体验。另外，无需在重建人脸图像模型，只需要根据面部表情信息在预设的人脸图像模型上显示对应的面部表情即可，易于调整，使得终端易于调整。
[0017]本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。【专利附图】

【附图说明】
[0018]本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中，
[0019]图1是根据本发明一个实施例的虚拟视频通话方法的流程图；
[0020]图2是根据本发明另一个实施例的虚拟视频通话方法的流程图；
[0021]图3是根据本发明又一个实施例的虚拟视频通话方法的流程图；
[0022]图4是根据本发明一个实施例的终端的结构示意图；
[0023]图5是根据本发明另一个实施例的终端的结构示意图；以及
[0024]图6是根据本发明又一个实施例的终端的结构示意图。
【具体实施方式】
[0025]下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
[0026]在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。
[0027]流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属【技术领域】的技术人员所理解。
[0028]为了解决在视频通话时传送的视频数据量过大的问题，本发明提出一种虚拟视频通话方法和终端。下面参考附图描述根据本发明实施例的虚拟视频通话方法和终端。
[0029]一种虚拟视频通话方法，包括以下步骤:采集第一终端用户的视频图像；对视频图像进行面部识别以获取面部表情信息；将面部表情信息发送至与第一终端建立通话的第二终端，面部表情信息用于使第二终端根据面部表情信息和预设在第二终端的人脸图像模型合成视频图像并显示。
[0030]图1是根据本发明一个实施例的虚拟视频通话方法的流程图。
[0031]如图1所示，虚拟视频通话方法包括以下步骤:
[0032]S101，采集第一终端用户的视频图像。
[0033]具体地，第一终端可通过自带或者外设的摄像头进行拍摄，以采集第一终端用户的视频图像。[0034]S102，对视频图像进行面部识别以获取面部表情信息。
[0035]具体地，第一终端可通过现有的多种计算机图像处理技术对视频图像进行面部识别以获取面部表情信息，例如遗传算法的人脸识别、神经网络的人脸识别等。面部表情的数据量非常小。在后续的实施例中将详细叙述面部表情的获取过程。
[0036]S103，将面部表情信息发送至与第一终端建立通话的第二终端，面部表情信息用于使第二终端根据面部表情信息和预设在第二终端的人脸图像模型合成视频图像并显示。
[0037]其中，第一终端通过服务器向第二终端发送视频通话请求，或者第二终端通过服务器向第一终端发送视频通话请求。如果第二终端同意了第一终端的视频通话请求，或者第一终端同意了第二终端的视频通话请求，服务器即可建立第一终端和第二终端之间的视频通话。
[0038]具体地，第一终端可将第一终端用户的面部表情信息进行编码，形成数字表达，并将该面部表情信息通过服务器建立的视频通话发送至第二终端。
[0039]在第一终端将第一终端用户的面部表情信息发送至第二终端之后，第二终端可根据第一终端用户的面部表情信息和预设的人脸图像模型进行合成以重现第一终端用户的面部图像，并显示在第二终端的视频通话界面中。其中，预设的人脸图像模型可为用户自己设定的，也可为服务器默认设定的。此外，第二终端的用户还可以采用自己的照片或者第一终端用户的照片和面部表情信息进行合成以重现第一终端用户的面部图像。
[0040]另外，视频可以看作是一帧一帧的视频图像，在第一终端，获取每帧图像的面部表情信息，在第二终端，也是每帧图像进行面部表情信息的合成，由此实现虚拟视频通话，其中合成过程为现有技术，在此不在赘述。
[0041]本发明实施例的虚拟视频通话方法，利用面部识别技术在发送端(例如，第一终端)提取面部表情信息，在接收端(例如，第二终端)根据发送的面部表情信息和预设人脸图像模型实现人脸图像简单的合成和还原，由于在发送端和接收端传输的信息仅限于面部表情信息，并由于该面部表情信息无需合成完整的人脸图像，所包括的信息量少，编码之后面部表情信息的数据量可仅占用几个比特字节，因此与【背景技术】传输的信息相比，大大降低了视频通话过程中传送的数据量，节省了数据流量，从而使得视频通话更加流畅，降低了网络带宽有限或者流量受限对视频通话的影响，特别适合在移动网络中传输，提升了用户体验。另外，无需在第二终端重建第一终端用户的人脸图像模型，第二终端只需要根据面部表情信息在预设的人脸图像模型上显示对应的面部表情即可，使得第二终端易于调整。
[0042]在本方面的一个实施例中，对视频图像进行面部识别以获取面部表情信息(SPS102)，包括:对视频图像进行面部识别以获得面部特征，在面部特征中提取面部表情信息。
[0043]具体地，首先，从视频图像中提取面部特征，面部特征可以但不限于包括人脸特征(如眼、鼻、嘴、耳等)的几何信息，例如，眉毛的位置、嘴巴的角度、眼睛的大小等。应当理解，还可以通过其他方法获取面部特征，对于未来新的人脸识别技术，本实施例的第一终端都可以使用它对视频图像进行面部识别，从而获取面部特征。之后，在面部特征中提取面部表情信息，第一终端可根据面部特征分析以获取第一终端用户的面部表情信息。
[0044]在本方面的一个实施例中，面部表情信息包括以下内容中的一个或多个:是否皱眉、嘴巴张开或合上、嘴角的弧度、眼睛睁开或闭上、眼睛的大小、是否有眼泪等。
[0045]另外，面部表情信息主要反映人的情绪信息，例如，通过对眉毛的位置、嘴巴的角度、眼睛的大小等进行分析可以获取用户的表情是微笑、大笑、大哭、郁闷、兴奋或生气等等。同样地，可采取现有的多种面部表情信息分析技术进行分析，例如，机器学习算法等，此夕卜，未来具有相似功能的算法，本实施例的第一终端都可以使用它进行面部特征分析以获取面部表情信息。
[0046]第一终端可将第一终端用户的面部表情信息进行编码，形成数字表达，例如，可以是简单的几个字符且仅占用几个比特，如，对“大笑”可以直接发送字符“D: ”进行编码传输等，当然编码方式可以更加丰富，在此仅为了方便理解举例说明，并将该面部表情信息通过服务器建立的视频通话发送至第二终端。
[0047]需要说明的是，预设的人脸图像模型更是多样化。在本发明的一个实施例中，预设在第二终端的人脸图像模型包括真实人脸图像模型和卡通人脸图像模型。此外，还可以是第二终端中存储的照片等。
[0048]为了使得视频通话过程更加个性化，提高乐趣性，第二终端用户可以根据自己需求选择喜欢的卡通人脸图像模型，在本发明的一个实施例中，虚拟视频通话方法还包括:第二终端向第二终端的用户提供至少一个卡通人脸图像模型；第二终端接收第二终端的用户选择的卡通人脸图像模型，并根据面部表情信息和选择的人脸图像模型进行合成并显示。具体地，在第二终端的用户根据自己的需求为第一终端用户选择喜欢的卡通人脸图像模型之后，第二终端接收第二终端的用户选择的卡通人脸图像模型，并根据第一终端用户的面部表情信息和第二终端用户选择的卡通人脸图像模型进行合成以重现第一终端用户的面部图像，并显示在第二终端视频通话界面中。例如，第一终端用户的面部表情信息为嘴巴张开、嘴角的弧度很多、眼睛微眯，此时第一终端用户在大笑，第二终端用户选择的是超人的人脸图像模型，第二终端将第一终端用户的面部表情信息和超人的卡通图像进行合成以重现第一终端用户的面部表情为大笑的图像。
[0049]本发明的实施例还提出另一种虚拟视频通话方法。
[0050]图2是根据本发明另一个实施例的虚拟视频通话方法的流程图。
[0051]如图2所示，虚拟视频通话方法包括以下步骤:
[0052]S201，接收与第二终端建立通话的第一终端发送的视频图像的面部表情信息。
[0053]具体地，首先，第一终端通过服务器向第二终端发送视频通话请求，或者第二终端通过服务器向第一终端发送视频通话请求。如果第二终端同意了第一终端的视频通话请求，或者第一终端同意了第二终端的视频通话请求，服务器即可建立第一终端和第二终端之间的视频通话。
[0054]其中，第一终端可通过自带或者外设的摄像头进行拍摄，以采集第一终端用户的视频图像，并可以根据上述任一项实施例所述的方法获取面部表情信息并发送至第二终端。
[0055]S202，根据面部表情信息和预设在第二终端的人脸图像模型合成视频图像并显
/j、Ο
[0056]具体地，第二终端可根据第一终端用户的面部表情信息和预设的人脸图像模型进行合成以重现第一终端用户的面部图像，并显示在第二终端的视频通话界面中。其中，预设的人脸图像模型可为用户自己设定的，也可为服务器默认设定的。此外，第二终端的用户还可以采用自己的照片或者第一终端用户的照片显示作为人脸图像模型以重现第一终端用户的面部图像。
[0057]本发明实施例的虚拟视频通话方法，利用面部识别技术在发送端(例如，第一终端)提取面部表情信息，在接收端(例如，第二终端)根据发送的面部表情信息和预设人脸图像模型实现人脸图像简单的合成和还原，由于在发送端和接收端传输的信息仅限于面部表情信息，并由于该面部表情信息无需合成完整的人脸图像，所包括的信息量少，编码之后面部表情信息的数据量可仅占用几个比特字节，因此与【背景技术】传输的信息相比，大大降低了视频通话过程中传送的数据量，节省了数据流量，从而使得视频通话更加流畅，降低了网络带宽有限或者流量受限对视频通话的影响，特别适合在移动网络中传输，提升了用户体验。另外，无需在第二终端重建第一终端用户的人脸图像模型，第二终端只需要根据面部表情信息在预设的人脸图像模型上显示对应的面部表情即可，使得第二终端易于调整。
[0058]图3是根据本发明又一个实施例的虚拟视频通话方法的流程图。
[0059]如图3所示，虚拟视频通话方法包括以下步骤:
[0060]S301，接收与第二终端建立通话的第一终端发送的视频图像的面部表情信息。
[0061]S302，选择真实的或卡通的人脸图像模型，选择的真实的或卡通的人脸图像模型用于与面部表情信息合成视频图像并显示。
[0062]具体地，为了使得视频通话过程更加个性化，提高乐趣性，第二终端可以向用户提供多个真实的或卡通的人脸图像模型，例如，多个卡通人脸图像模型、或者照片、真实人脸图像模型等，第二终端用户可以根据自己需求选择自己喜欢的人脸图像模型。例如，第一终端用户的面部表情信息嘴巴张开、嘴角的弧度很多、眼睛微眯，此时第一终端用户在为大笑，第二终端用户选择的是超人的人脸图像模型，第二终端将第一终端用户的面部表情信息和超人的卡通图像进行合成以重现第一终端用户的面部表情为大笑的图像。
[0063]S303，根据选择的真实的或卡通的人脸图像模型和面部表情信息合成视频图像并显不。
[0064]本发明实施例的虚拟视频通话方法，第二终端的用户可以选择真实的或卡通的人脸图像模型，并根据选择的真实的或卡通的人脸图像模型和面部表情信息合成视频图像并显示，增加了趣味性，提升用户体验。
[0065]在本发明的实施例中，为了使得重现的面部图像更具有真实性，第二终端可获取第一终端用户的真实人脸图像模型以进行面部表情重现。具体地，第一终端可通过摄像头拍摄的视频图像，并对拍摄的视频图像进行分析，从而获取真实人脸图像模型，或者第一终端可根据用户自己选择的人脸图像进行分析以获取真实人脸图像模型，无需拍摄，之后发送至第二终端进行存储。
[0066]另外，第二终端还可以获取第一终端用户的人脸图像，并根据人脸图像进行分析以获取真实人脸图像模型，即真实人脸图像模型可在第二终端中生成。第二终端可根据第一终端用户的真实人脸图像模型和第一终端用户的面部表情信息合成第一终端用户的面部图像，以重现在第二终端的视频通话界面中。由此，可使得重现的面部图像更具有真实性。
[0067]应当理解，真实人脸图像模型可以只形成一次，发送至第二终端进行存储，在以后的数据发送过程中只发送面部表情信息即可。此外，还可以在第二终端中提供选择按钮，第二终端用户可以选择显示重现第一终端用户真实的面部图像，还是选择卡通人脸图像模型重现面部图像。更具体地，第二终端的用户可根据具体的网络环境和终端性能进行选择，例如，在移动终端中可选择卡通人脸图像模型，并只发送面部表情信息实现视频通话，在个人计算机中可以选择真实人脸图像模型，增加真实感。
[0068]本发明实施例的虚拟视频通话方法，可根据第一终端用户的真实人脸图像模型和面部表情信息重现第一终端用户的面部图像，由此使得重现的面部图像更具有真实性，此夕卜，真实人脸图像模型一次传输可多次使用，不需要接收端在通话的过程中实时重建真实人脸图像模型，简化了接收端的操作过程，提升了用户体验。
[0069]为了实现上述实施例，本发明还提出一种终端。
[0070]—种终端，包括:采集模块，用于采集用户的视频图像；识别模块，用于对视频图像进行面部识别以获取面部表情信息；发送模块，用于将面部表情信息发送至与终端建立通话的第二终端，面部表情信息用于使第二终端根据面部表情信息和预设在其他终端的人脸图像模型合成视频图像并显示。
[0071]图4是根据本发明一个实施例的终端的结构示意图。
[0072]如图4所示，终端包括:采集模块110、识别模块120和发送模块130。
[0073]具体地，采集模块110用于采集用户的视频图像。更具体地，采集模块110可通过终端自带或者外设的摄像头进行拍摄，以采集用户的视频图像。
[0074]识别模块120用于对视频图像进行面部识别以获取面部表情信息。更具体地，识别模块120可通过现有的多种计算机图像处理技术对视频图像进行面部识别以获取面部表情信息，例如遗传算法的人脸识别、神经网络的人脸识别等。面部表情信息的数据量非常小。在后续的实施例中将详细叙述面部表情的获取过程。
[0075]发送模块130用于将面部表情信息发送至与终端建立通话的第二终端，面部表情信息用于使第二终端根据面部表情信息和预设在其他终端的人脸图像模型合成视频图像并显示。
[0076]其中，终端通过服务器向第二终端发送视频通话请求，或者第二终端通过服务器向终端发送视频通话请求。如果第二终端同意了终端的视频通话请求，或者终端同意了第二终端的视频通话请求，服务器即可建立终端和第二终端之间的视频通话。
[0077]更具体地，发送模块130可将面部表情信息进行编码，形成数字表达，并将该面部表情信息通过服务器建立的视频通话发送至第二终端。
[0078]在将面部表情信息发送至第二终端之后，第二终端可根据面部表情信息和预设的人脸图像模型进行合成以重现终端用户的面部图像，并显示在第二终端的视频通话界面中。其中，预设的人脸图像模型可为用户自己设定的，也可为服务器默认设定的。此外，第二终端的用户还可以采用自己的照片或者终端用户的照片和面部表情信息进行合成以重现第一终端用户的面部图像。
[0079]本发明实施例的终端，利用面部识别技术提取面部表情信息，使与终端建立通话的第二终端根据发送的面部表情信息和预设人脸图像模型实现人脸图像简单的合成和还原，由于传输的信息仅限于面部表情信息，又由于该面部表情信息无需合成完整的人脸图像，所包括的信息量少，编码之后面部表情信息的数据量可仅占用几个比特字节，因此与【背景技术】传输的信息相比，大大降低了视频通话过程中传送的数据量，节省了数据流量，从而使得视频通话更加流畅，降低了网络带宽有限或者流量受限对视频通话的影响，特别适合在移动网络中传输，提升了用户体验。另外，无需在第二终端重建用户的人脸图像模型，第二终端只需要根据面部表情信息在预设的人脸图像模型上显示对应的面部表情即可，使得第二终端易于调整。
[0080]在本发明的一个实施例中，识别模块120还用于对视频图像进行面部识别以获得面部特征，在面部特征中提取面部表情信息。
[0081]具体地，首先，识别模块120从视频图像中提取的面部特征，面部特征可以但不限于包括人脸特征(如眼、鼻、嘴、耳等)的几何信息，例如，眉毛的位置、嘴巴的角度、眼睛的大小等。应当理解，还可以通过其他方法获取面部特征信息，对于未来新的人脸识别技术，都可以使用它对视频图像进行面部识别，从而获取面部特征信息。之后，识别模块120在面部特征中提取面部表情信息，识别模块120可根据面部特征信息分析以获取用户的面部表情信息。
[0082]在本方面的一个实施例中，面部表情信息包括以下内容中的一个或多个:是否皱眉、嘴巴张开或合上、嘴角的弧度、眼睛睁开或闭上、眼睛的大小、是否有眼泪等。
[0083]另外，面部表情信息主要反映人的情绪信息，例如，通过对眉毛的位置、嘴巴的角度、眼睛的大小等进行分析可以获取用户的表情是微笑、大笑、大哭、郁闷、兴奋或生气等等。同样地，可采取现有的多种面部表情信息分析技术进行分析，例如，机器学习算法等，此夕卜，未来具有相似功能的算法，都可以使用它进行面部特征信息分析以获取面部表情信息。
[0084]在本方面的一个实施例中，面部表情信息包括以下内容中的一个或多个:是否皱眉、嘴巴张开或合上、嘴角的弧度、眼睛睁开或闭上、眼睛的大小、是否有眼泪等。
[0085]另外，发送模块130可将面部表情信息进行编码，形成数字表达，例如，可以是简单的几个字符且仅占用几个比特，如，对“大笑”可以直接发送字符“D: ”进行编码传输等，当然编码方式可以更加丰富，在此仅为了方便理解举例说明，并将该面部表情信息通过服务器建立的视频通话发送至第二终端。
[0086]为了实现上述实施例，本发明还提出另一种终端。
[0087]图5是根据本发明另一个实施例的终端的结构示意图。
[0088]如图5所示，终端包括:接收模块210和合成模块220。
[0089]具体地，接收模块210用于接收与终端建立通话的第一终端发送的视频图像的面部表情信息。合成模块220用于根据面部表情信息和预设在终端的人脸图像模型合成视频图像并显示。
[0090]更具体地，合成模块220可根据第一终端用户的面部表情信息和预设的人脸图像模型进行合成以重现第一终端用户的面部图像，并显示在终端的视频通话界面中。其中，预设的人脸图像模型可为用户自己设定的，也可为默认设定的。此外，终端的用户还可以采用自己的照片或者第一终端用户的照片显示作为人脸图像模型以重现第一终端用户的面部图像。
[0091]本发明实施例的终端，利用面部识别技术提取面部表情信息，与终端建立通话的第一终端根据发送的面部表情信息和预设人脸图像模型实现人脸图像简单的合成和还原，由于在发送端和接收端传输的信息仅限于面部表情信息，并由于该面部表情信息无需合成完整的人脸图像，所包括的信息量少，编码之后面部表情信息的数据量可仅占用几个比特字节，因此与【背景技术】传输的信息相比，大大降低了视频通话过程中传送的数据量，节省了数据流量，从而使得视频通话更加流畅，降低了网络带宽有限或者流量受限对视频通话的影响，特别适合在移动网络中传输，提升了用户体验。另外，无需在重建人脸图像模型，只需要根据面部表情信息在预设的人脸图像模型上显示对应的面部表情即可，易于调整，使得终端易于调整。
[0092]图6是根据本发明又一个实施例的终端的结构示意图。
[0093]如图6所示，在图5所示的基础上终端还包括:选择模块230。
[0094]具体地，选择模块230用于在接收模块210接收与第二终端建立通话的第一终端发送的视频图像的面部表情信息后，选择真实的或卡通的人脸图像模型，选择的真实的或卡通的人脸图像模型用于与面部表情信息合成视频图像并显示。
[0095]更具体地，为了使得视频通话过程更加个性化，提高乐趣性，终端可以向用户提供多个真实的或卡通的人脸图像模型，例如，可以是多个卡通人脸图像模型、或者照片、真实人脸图像模型等，用户可以根据自己需求选择自己喜欢的人脸图像模型。例如，第一终端用户的面部表情信息为大笑，终端用户选择的是超人的人脸图像模型，终端将第一终端用户的面部表情信息和超人的卡通图像进行合成以重现其他终端用户的面部表情为大笑的图像。
[0096]由此，用户可以选择真实的或卡通的人脸图像模型，并根据选择的真实的或卡通的人脸图像模型和面部表情信息合成视频图像并显示，增加了趣味性，提升用户体验。
[0097]应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。
[0098]在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0099]尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。
【权利要求】
1.一种虚拟视频通话方法，其特征在于，包括:采集第一终端用户的视频图像；对所述视频图像进行面部识别以获取面部表情信息；将所述面部表情信息发送至与所述第一终端建立通话的第二终端，所述面部表情信息用于使所述第二终端根据所述面部表情信息和预设在所述第二终端的人脸图像模型合成视频图像并显示。
2.根据权利要求1所述的方法，其特征在于，所述对所述视频图像进行面部识别以获取面部表情信息，包括:对所述视频图像进行面部识别以获得面部特征，在所述面部特征中提取所述面部表情信息。
3.根据权利要求1或2所述的方法，其特征在于，所述面部表情信息包括以下内容中的一个或多个:是否皱眉、嘴巴张开或合上、嘴角的弧度、眼睛睁开或闭上、眼睛的大小、是否有眼泪。
4.一种虚拟视频通话方法，其特征在于，包括:接收与第二终端建立通话的第一终端发送的视频图像的面部表情信息；根据所述面部表情信息和预设在所述第二终端的人脸图像模型合成视频图像并显示。
5.根据权利要求4所述的方法，其特征在于，在所述接收与第二终端建立通话的第一终端发送的视频图像的面部表情信息后，还包括:选择真实的或卡通的人脸图像模型，所述选择的真实的或卡通的人脸图像模型用于与所述面部表情信息合成视频图像并显示。
6.一种终端，其特征在于，包括:采集模块，用于采集用户的视频图像；识别模块，用于对所述视频图像进行面部识别以获取面部表情信息；发送模块，用于将所述面部表情信息发送至与终端建立通话的第二终端，所述面部表情信息用于使所述第二终端根据所述面部表情信息和预设在所述第二终端的人脸图像模型合成视频图像并显示。
7.根据权利要求6所述的终端，其特征在于，所述识别模块还用于对所述视频图像进行面部识别以获得面部特征，在所述面部特征中提取所述面部表情信息。
8.根据权利要求6或7所述的终端，其特征在于，所述面部表情信息包括以下内容中的一个或多个:是否皱眉、嘴巴张开或合上、嘴角的弧度、眼睛睁开或闭上、眼睛的大小、是否有眼泪。
9.一种终端，其特征在于，包括:接收模块，用于接收与终端建立通话的第一终端发送的视频图像的面部表情信息；合成模块，用于根据所述面部表情信息和预设在所述终端的人脸图像模型合成视频图像并显示。
10.根据权利要求9所述的终端，其特征在于，还包括:选择模块，用于在所述接收模块接收与第二终端建立通话的第一终端发送的视频图像的面部表情信息后，选择真实的或卡通的人脸图像模型，所述选择的真实的或卡通的人脸图像模型用于与所述面部表情信息合成视频图像并显示。
【文档编号】H04N7/14GK103647922SQ201310714667
【公开日】2014年3月19日申请日期:2013年12月20日优先权日:2013年12月20日
【发明者】李刚申请人:百度在线网络技术（北京）有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李刚
技术所有人：百度在线网络技术（北京）有限公司
我是此专利的发明人

上一篇：一种卫星移动通信接收端定时捕获装置和方法
上一篇：基于云安全拦截捆绑软件的方法和装置制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。