复合现实空间图像生成方法和复合现实感系统的制作方法

文档序号：6430579阅读：159来源：国知局

专利名称：复合现实空间图像生成方法和复合现实感系统的制作方法
技术领域：
本发明涉及将现实空间图像和假想空间图像重叠(superimpose)起来，生成复合现实空间图像的复合现实感技术。
背景技术：
近年来，对以现实空间与假想空间的没有接缝的结合为目的的复合现实感的研究正在盛行。例如，像在日本特开平11-88913号公报中记载的那样，进行复合现实感展示的复合现实感系统，作为向观察者显示复合现实空间图像的系统而实现，该复合现实空间图像，在由录像机等摄像装置拍摄出的现实空间的图像上，重叠假想空间(例如，通过计算机图形(CG)，描画3维模型的假想物体或字符信息等)的图像。
以往，作为这样的复合现实感系统，有在作为位于(存在于)现实空间的现实物体的模型上，作为假想空间的图像重叠CG模型的技术。
在该现有的复合现实感系统中，在模型上重叠显示CG模型和说明模型的部件的注释(annotation)。
另外，申请人通过日本特愿2002-95535提出了以下技术考虑进深(遮盖(occlusion))，在观察者的手位于CG模型前面的情况下，使观察者的手不被CG模型遮盖(即，使得在观察者的手的区域内不显示CG模型)，实现没有不协调感的显示。
但是，在现有的复合现实感系统中，当进行显示，使得观察者的手不被CG模型遮盖时，不仅对CG模型，即使对注释也进行相同的显示控制。因此，当观察者的手与注释显示重合时，无法观察重合部分的注释显示。
注释有时包含当观察者体验复合现实感时所必需的信息，当将其遮盖起来时，对于观察者将产生不便。特别是，在将观察者要操作的按钮的种类或操作方法的说明作为注释显示的情况下，该问题变得显著。
因此，希望有例如兼顾CG模型被手遮盖、而注释不被手遮盖这样的没有不协调感的显示和使用方便性好的显示的技术，但当前并不存在这样的技术。

发明内容
本发明是鉴于这样的现有技术的问题而完成的，其主要目的在于提供一种复合现实空间图像生成方法及装置，可以选择性地处理假想空间图像中的、要考虑遮盖进行显示的图像，和无须那样做的图像。
为了达到上述目的，本发明提供一种复合现实空间图像生成方法，生成将拍摄现实空间而获得的现实空间图像和假想空间图像重叠起来的复合现实空间图像，其特征在于，包括第1图像合成步骤，将上述假想空间图像中的、要考虑上述现实空间中的物体的遮盖的第1假想空间图像，重叠在上述现实空间图像上；以及第2图像合成步骤，将上述假想空间图像中的、应不考虑遮盖而显示的第2假想空间图像，重叠于在上述第1图像合成步骤生成的图像上。
此外，提供一种复合现实空间图像生成装置，生成将摄像现实空间而获得的现实空间图像和假想空间图像重叠起来的复合现实空间图像，其特征在于，包括第1图像合成装置，将上述假想空间图像中的、要考虑上述现实空间中的物体的遮盖的第1假想空间图像，重叠在上述现实空间图像上；以及第2图像合成装置，将上述假想空间图像中的、应不考虑遮盖而显示的第2假想空间图像，重叠于在上述第1图像合成装置生成的图像上。
另外，提供一种复合现实空间图像生成方法，生成重叠现实空间图像和假想空间图像的复合现实空间图像，其特征在于，包括以下步骤取得观察者的位置和姿势的信息，从上述现实空间图像抽取被摄体区域，基于上述观察者的位置和姿势的信息，生成第1假想空间图像，对上述抽取出的被摄体区域以外的区域，合成上述第1假想空间图像，对上述合成图像，在基于上述观察者的位置和姿势信息的图像位置，合成第2假想空间图像。
另外，上述目的还可以通过使用本发明的复合现实空间图像生成装置的复合现实感系统来达到。

附图包含在说明书中并构成说明书的一部分，说明本发明的实施例，与说明书一起说明本发明的原理。
图1是表示本发明的实施方式的数字模型系统的构成例的框图。
图2是示意地表示在图1的系统中使用的模型(mock-up)的图。
图3是示意地表示在图2的模型上重叠3DCG模型的状态的图。
图4是示意地表示在图3的状态下追加显示注释的状态的图。
图5是说明注释被观察者的手遮盖的现有状态的图。
图6是示意地表示本发明的实施方式下的显示状态的图。
图7A和图7B是说明被摄体区域抽取单元106的处理的图。
图8是说明图像合成单元109的处理的流程图。
图9是表示模型的姿势(orientation)变化时的注释显示的状态的图。
图10是表示可作为PC101利用的通用计算机装置的构成例的图。
具体实施例方式
下面，参照附图，详细地说明本发明的优选实施例。
在本实施方式中，作为利用与本发明有关的复合现实空间图像生成装置的复合现实感系统，说明利用了MR(Mixed Reality)技术的数字模型系统。
与本实施方式有关的数字模型系统，是在某工业产品的简单的模型上使用MR技术，重叠显示该产品的详细形状和外观的3维计算机图形(3DCG)并展示的系统。系统的体验者能够一边观察重叠了产品3DCG的模型，一边实际把模型拿在手里并触摸，并模拟地使之进行操作。
在模型中内置了位置姿势传感器(position and orientation sensor)，生成并重叠显示与根据其测定值检测出的模型的位置姿势相对应的3DCG。因此体验者能够一边摆弄简易的模型，一边体验持有重叠于模型的详细的3DCG所展示的产品那样的感觉。而且，本实施方式中的数字模型系统，具有显示关于使其体验的工业产品的注释(部件名、功能、使用方法)的功能。
图1为表示本实施方式的数字模型系统的系统结构的图。PC101为控制系统整体的控制器单元，具有视频捕捉装置A102、视频捕捉装置B103、显示控制单元104、位置姿势测量单元105、被摄体区域抽取单元106、3DCG模型生成单元107、注释生成单元108、图像合成单元109以及被摄体颜色信息登录单元110。
透视(see-through)型HMD(头盔式显示器head mount display)32具有左眼摄像机33、右眼摄像机34和LCD等影像显示单元35以及检测观察者的视点位置姿势的位置姿势传感器36。左眼摄像机33为拍摄从观察者的左眼位置观察到的影像的照相机。由视频捕捉装置A102捕捉拍摄出的影像。右眼摄像机34为拍摄从观察者的右眼位置观察到的影像的照相机。由视频捕捉装置B103捕捉拍摄出的影像。影像显示单元35为向观察者展示显示控制单元104输出的复合现实空间图像的显示装置。位置姿势传感器36检测观察者的视点位置姿势，发送到位置姿势测量单元105。
模型11是在本实施方式中，如图2所示的照相机的实物大小的模型，观察者能够自由地拿在手里。该模型11虽然是作为工业产品的照相机的实物大小的模型，但颜色为单色，并且只概略模仿外形。为了给观察者带来与操作实物时相同的感觉，重量也与实物几乎相同。
在模型11中内置了位置姿势传感器12。位置姿势传感器12固定或内置于模型11内的预定位置，模型11与位置姿势传感器12的位置关系保持一定。因此，能够从位置姿势传感器12的位置姿势信息，计算模型的位置姿势。
将由位置姿势传感器12测量出的位置姿势信息发送到PC101的位置姿势测量单元105。位置姿势测量单元105，从设置于HMD的位置姿势传感器36、和设置于模型的位置姿势传感器12，接收位置姿势信息。位置姿势测量单元105对接收到的位置姿势信息进行坐标变换等处理，求得在世界坐标系下的观察者的视点位置姿势和模型11的位置姿势，将其发送到3DCG模型生成单元107。
3DCG模型生成单元107，根据接收到的2个位置姿势信息，生成要从观察者的左右眼各自的视点观察到的3DCG模型(例如，图3所示的CG照相机21)。将已生成的从左右眼各自的视点观察到的3DCG模型，发送到图像合成单元109。
图3为示意地表示在模型11上，使用MR技术，重叠了CG照相机21的状态的图。CG照相机21是照相机的3DCG模型，具有实物大小。由于当然具有与模型11相同的形状和大小，因而若使其与模型11的位置姿势一致，重叠CG照相机21，则两者恰好重合。
用视频捕捉装置A102和视频捕捉装置B103捕捉的、来自左眼摄像机33和右眼摄像机34的左右的影像，被分别发送到图像合成单元109和被摄体区域抽取单元106。
使用图7A、图7B，说明被摄体区域抽取单元106的动作。被摄体区域抽取单元106，将用视频捕捉装置A102和视频捕捉装置B103捕捉的实拍图像(图7A)的各像素的颜色信息，与在被摄体颜色信息登录单元110上预先登录的被摄体的颜色信息相比较，判断具有与登录的颜色信息一致或相近的颜色的像素为被摄体区域。对各像素进行这样的判断，判断结果，例如，以生成包含于被摄体的像素为1、不包含的像素为0这样的值的二维图像(图7B)的形式，向图像合成单元109发送左右的被摄体区域图像。
另外，在本实施方式中，被摄体为观察者的手，在被摄体颜色信息登录单元110上，登录预先取得的关于皮肤颜色的信息。
用图8说明图像合成单元109中的图像合成处理。在步骤1101中，将来自视频捕捉装置A102和视频捕捉装置B103捕捉的实拍图像，传送到作为用于图像显示的图像存储器的左眼用和右眼用的帧缓存器(图中未示)上。在步骤1102中，将在被摄体区域抽取单元106生成的被摄体区域图像，传送到作为用于掩模处理的图像存储器的左眼用和右眼用模板(stencil)缓存器(图中未示)。
在步骤1103中，分别对左眼用图像、右眼用图像，关于各坐标(i，j)的像素，参照模板缓存器的值stencil(i，j)，在stencil(i，j)＝1、即实拍图像中的像素real(i，j)包含于被摄体区域内时，不更新相应的帧缓存器的像素frame(i，j)，在stencil(i，j)＝0、即实拍图像中的像素real(i，j)，未包含于被摄体区域内时，并且仅对要重叠的CG照相机21的像素，用3DCG模型生成单元107生成的CG照相机21的像素值CGI(i，j)，置换frame(i，j)的值。由此，生成实拍图像和CG图像(仅为除去被摄体区域的部分)合成的图像(复合现实空间图像)。将生成的图像发送到注释生成单元108。
注释生成单元108，例如作为CG图像生成图4所示的注释41，为了指示3DCG图像的预定位置(在图4中，为快门按钮和镜头)，在接收到的左眼用和右眼用合成图像上进行盖写。在本实施方式中，注释41是位于三维假想空间的文本，与CG照相机21保持一定位置关系，像CG照相机21的一个部件那样连动地改变位置姿势。通过最后盖写注释，即使注释与被摄体区域重叠，观察者也能够看到注释。
下面，具体地说明为了显示3DCG的正确位置而显示注释41的方法。从位置姿势测量单元105取得模型的位置姿势信息和观察者的位置姿势信息。基于这些位置姿势信息以及注释与CG照相机的位置关系，确定注释显示位置。从而，对于从图像合成单元109输出的图像，在依照已确定的注释显示位置的图像位置上，盖写与注释相对应的文本。
这样，通过将注释盖写到合成实拍图像和3DCG图像的合成图像上，能够以简单的结构生成图6所示的显示图像。
另外，作为注释的显示方法，例如可以采用下述方法等任意的方法从3DCG模型生成单元107取得3DCG中的快门按钮或镜头的图像坐标，生成注释使得指示该图像坐标。注释生成单元108，将盖写了注释的复合现实空间图像，发送到显示控制单元104。
图5是表示在进行图4所示的注释显示时，使用现有方法的情况下的显示状态的图。表示通过将观察者的手作为被摄体区域抽取、将被摄体区域作为掩模使用，使得观察者的手不被CG照相机21遮盖而显示的一例。显示用观察者的手51将CG照相机21遮盖的情形，表现CG照相机21在比手的位置更深处，但同时，对镜头的注释41也被遮盖而不能读取。
另一方面，在本实施方式中，因为构成为最后盖写注释，所以即使在图5所示的位置存在被摄体区域(即观察者的手)，也在手之上显示注释，使得能够阅读注释。即，可以进行考虑了深度的没有不谐调感的显示，并且不依赖被摄体区域的位置地读取注释。
显示控制单元104，向透视型HMD32的影像显示单元35发送左眼用复合现实空间图像和右眼用复合现实空间图像，影像显示单元35接收各自的图像并显示。
再者，在本实施方式中，即使如图9所示，在改变模型11的姿势时，或在改变观察者的姿势时，总是在垂直于从观察者的视点到模型的直线的面(显示面)上，在与观察者的姿势相同的方向上，显示注释。由此，不管模型或观察者的姿势怎样，注释都易于被观察者阅读。
此外，也可以是由设置于模型11的位置姿势传感器12检测模型11的方向，进行按照模型11的方向的注释显示。例如在本实施方式中，在照相机的正面(相对被摄体的面)面向观察者时，能够显示对从正面可见的范围的注释；在反面面向观察者时，能够显示对从反面可见的范围的注释。
图10是表示可作为本实施方式的PC101利用的计算机装置的构成例的框图。
在图中，显示器201显示由应用程序处理中的数据的信息、各种消息菜单等，由CRT(Cathode Ray Tube)、LCD(Liquid Crystal Display)等构成。作为显示器控制器的CRTC202，进行对显示器201的画面显示控制。键盘203和定位装置(pointing device)204用于输入字符等，或者指示GUI(Graphical User Interface)上的图标或按钮等。CPU205负责计算机装置整体的控制。
ROM206(Read Only Memory)存储CPU205运行的程序或参数等。RAM(Random Access Memory)207能够作为CPU运行各种程序时的工作区域、错误处理时的暂时存储区域等使用。
硬盘驱动器(HDD)208、可移动媒体驱动器(RMD)209作为外部存储装置发挥功能。可移动媒体驱动器是进行可拆装的存储介质的读写或读取的装置，不仅可以是软盘驱动器、光盘驱动器、光磁盘驱动器、存储卡读卡器，还可以是拆装式HDD等。
并且，包括应用程序、错误处理程序，包括实现在本实施方式中说明的PC101的各种功能的程序，以及OS、浏览器等应用程序、数据、程序库等，根据其用途，被存储在ROM206、HDD208、RMD209(的存储介质)中的至少一个中。
扩展插槽210是遵照例如PCI(Peripheral Component Interconnect)总线标准的扩展卡安装用插槽，能够安装视频捕捉板、声板、GPIB板等各种扩展板。
网络接口211是用于将计算机装置连接到计算机网络的接口。总线212由地址总线、数据总线和控制总线组成，连接在上述各单元之间。并且，除了网络接口211，还具有RS-232C、RS-422、USB(Universal Serial Bus)、IEEE1394等串行接口、和IEEE1284等并行接口，可与调制解调器、打印机等外部设备连接。
这样的通用计算机装置通过使用OS和必要的驱动软件等，使用经由网络接口211根据需要而连接的路由器(包含拨号路由器)、或经由串行接口而连接的调制解调器和TA等，能够与计算机网络或公共电话网上的其它设备进行通信。
在将图10所示的通用计算机作为PC101使用的情况下，视频捕捉装置A102、视频捕捉装置B103和位置姿势测量单元105，例如作为安装于扩展插槽的视频捕捉板和位置姿势传感器12、36的接口板、及其控制程序而实现。另外，被摄体区域抽取单元106、3DCG模型生成单元107、注释生成单元108以及图像合成单元109，可通过CPU105运行软件来实现。另外，显示控制单元104由CRTC201来实现。
如以上说明的那样，按照本实施方式，能够同时实现考虑了用于消除视觉上的不谐调感的深度(遮盖)的显示，和考虑了观察者的使用方便性的显示。
在上述实施方式中，为了易于理解，说明了包括HMD和模型的复合现实感系统，但这些并不是必需的。涉及现实空间图像的获得、复合现实空间图像的显示、模型和观察者视点的位置姿势测量的结构不是必须的，也可以用外部装置进行这些图像或信息的收集、显示。
另外，在上述实施方式中，比较登录于被摄体颜色信息登录单元的颜色和图像中的各像素，来检测被摄体区域。但是，也可以是例如在将被摄体作为观察者的手的情况下，当根据模型的位置姿势传感器的输出值，判断出观察者拿着模型时，从实拍图像中的模型部分，抽取与模型的颜色不同的颜色区域，或者将该区域作为被摄体区域，或者作为被摄体颜色信息使用该区域的颜色，如上述那样求得被摄体区域。通过这样动态地设定被摄体颜色信息，或检测被摄体区域，可以应对观察者戴上手套的情况等多种状况。
另外，在上述实施方式中，示出的是将本发明用在利用复合现实感的模型系统上的例子，但并不限于显示表示现实物体外观的假想空间图像的用途，还可适用于在要显示的假想空间图像中存在要考虑深度(遮盖)的图像，和不需要这样做的图像那样的任意用途和复合现实感系统。因此，不考虑遮盖地进行显示的假想空间图像也不限于注释，可以是任意的假想空间图像。
另外，在上述实施方式中，说明了被摄体为观察者的手的情况，但也可以是观察者操作的器具、身体的其它部位，或观察者以外的现实物体。
在上述实施方式中，只对由1台设备构成PC101的情况进行了说明，但也可以用由多个设备构成的系统来实现相同的功能。
另外，从存储介质直接、或使用有线/无线通信，将实现上述实施方式的功能的软件的程序，提供给具有可运行该程序的计算机的系统或装置，该系统或装置的计算机运行该所提供的程序来实现相同的功能的情况，也包括在本发明中。
因此，为了用计算机实现本发明的功能处理，提供并安装到该计算机上的程序代码本身也实现本发明。即，用于实现本发明的功能处理的计算机程序本身也包括在本发明中。
此时，只要具有程序的功能，则不问目标代码、由解释程序运行的程序、提供给OS的脚本数据等程序的形态。
作为用于提供程序的存储介质，例如有软盘、硬盘、磁带等磁存储介质、MO、CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-R、DVD-RW等光/磁光存储介质、非易失性的半导体存储器等。
作为使用有线/无线通信的程序的提供方法，可以列举以下方法在计算机网络的服务器上存储形成本发明的计算机程序本身、或被压缩的具有自动安装功能的文件等，可以在客户端计算机上成为形成本发明的计算机程序的数据文件(程序数据文件)，向有连接的客户端计算机下载程序数据文件。此时，还可以将程序数据文件分割成多个程序段文件，在不同的服务器上，配置程序段文件。
即，使多个用户下载用于用计算机实现本发明的功能处理的程序数据文件的服务器装置，也包括在本发明中。
另外，也可以对本发明的程序进行加密，并将其存储到CD-ROM等存储介质中发布给用户，对满足预定条件的用户通过让用户经由例如因特网从主页下载来提供解密的密钥信息，通过使用该密钥信息运行被加密的程序，将其安装到计算机上，由此来实现。
而且，不仅通过计算机执行读出的程序代码，能够实现上述实施方式的功能，根据该程序代码的指示，在计算机上运行的OS(操作系统)等进行实际处理的一部分或全部，通过该处理也能够实现上述并且，从存储介质读出的程序代码，在被写入到插在计算机中的功能扩充卡或连接在计算机上的功能扩充单元所具备的存储器中后，根据该程序代码的指示，该功能扩充卡或功能扩充单元所具有的CPU等进行实际处理的一部分或全部，通过该处理也能够实现上述实施方式的功能。
本发明可以做出许多不同的实施例而不脱离其精神和范围，因此本发明并不限于特定于特定的实施例而由所附的权利要求限定。
权利要求
1.一种复合现实空间图像生成方法，生成将拍摄现实空间而获得的现实空间图像和假想空间图像重叠起来的复合现实空间图像，其特征在于，包括第1图像合成步骤，将上述假想空间图像中的、要考虑上述现实空间中的物体的遮盖的第1假想空间图像，重叠在上述现实空间图像上；以及第2图像合成步骤，将上述假想空间图像中的、应不考虑遮盖而显示的第2假想空间图像，重叠于在上述第1图像合成步骤生成的图像上。
2.根据权利要求1所述的复合现实空间图像生成方法，其特征在于，上述第1图像合成步骤包括，被摄体区域抽取步骤，从上述现实空间图像中抽取预定的被摄体区域；以及重叠步骤，只将上述第1假想空间图像的、不包含于上述被摄体区域的区域，重叠在上述现实空间图像上。
3.根据权利要求1所述的复合现实空间图像生成方法，其特征在于，上述第1假想空间图像是表示现实空间中的物体外观的图像，上述第2假想空间图像是表示关于上述物体的注释的图像。
4.根据权利要求3所述的复合现实空间图像生成方法，其特征在于，根据上述物体的位置姿势，使上述第2假想空间图像的内容或显示位置变化。
5.一种复合现实空间图像生成装置，生成将摄像现实空间而获得的现实空间图像和假想空间图像重叠起来的复合现实空间图像，其特征在于，包括第1图像合成装置，将上述假想空间图像中的、要考虑上述现实空间中的物体的遮盖的第1假想空间图像，重叠在上述现实空间图像上；以及第2图像合成装置，将上述假想空间图像中的、应不考虑遮盖而显示的第2假想空间图像，重叠于在上述第1图像合成装置生成的图像上。
6.一种复合现实感系统，其特征在于，使用权利要求5所述的复合现实空间图像生成装置。
7.一种复合现实空间图像生成方法，生成重叠现实空间图像和假想空间图像的复合现实空间图像，其特征在于，包括以下步骤取得观察者的位置和姿势的信息，从上述现实空间图像抽取被摄体区域，基于上述观察者的位置和姿势的信息，生成第1假想空间图像，对上述抽取出的被摄体区域以外的区域，合成上述第1假想空间图像，对上述合成图像，在基于上述观察者的位置和姿势信息的图像位置，合成第2假想空间图像。
8.根据权利要求7所述的复合现实空间图像生成方法，其特征在于，上述第2假想空间图像是表示注释的图像。
9.根据权利要求7所述的复合现实空间图像生成方法，其特征在于，进一步取得现实物体的位置和姿势的信息，基于上述观察者的位置和姿势的信息，和上述现实物体的位置和姿势的信息，生成上述第1和上述第2假想空间图像。
10.根据权利要求7所述的复合现实空间图像生成方法，其特征在于，上述第2假想空间图像是文本图像，进一步基于上述第1假想空间图像和上述第2假想空间图像的位置关系，以及上述观察者的位置和姿势的信息，和上述现实物体的位置和姿势的信息，确定盖写上述合成图像的上述第2假想空间图像的图像位置，在上述确定的图像位置，盖写上述文本图像。
全文摘要
提供一种复合现实空间图像生成方法和复合现实感系统，生成将拍摄现实空间而获得的现实空间图像和假想空间图像重叠起来的复合现实空间图像。本发明的现实空间图像生成装置包括图像合成单元(109)，将假想空间图像中的、要考虑现实空间中的物体的遮盖的假想空间图像重叠在现实空间图像上；以及注释生成单元(108)，进一步地重叠假想空间图像中的、应不考虑遮盖而显示的图像。由此，可以生成同时实现没有不谐调感的显示和使用方便的显示的复合现实空间图像。
文档编号G06T17/40GK1604659SQ20041008106
公开日2005年4月6日申请日期2004年9月30日优先权日2003年9月30日
发明者松井太一, 铃木雅博申请人:佳能株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：松井太一;铃木雅博
技术所有人：佳能株式会社
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。