专利名称::一种会话机器人系统的制作方法一种魏WA^统脉领域本发明涉及仿人机器人领域,特别涉及一种^iS机器人系统。背景駄在很多公众场合,设置了一些用于信息查询的终端。其一般是由触摸屏和电脑一起构成。由用户ffl3i触^64行查询或者用鼠标、離鄉行查询,不會植接通过射舌鄉行信息查询。
发明内容本发明的目的是衝共一种鋭机器人系统,可以实JIA与机器人系统的直接对话,可应用于公众场合用于咨询。本发明的射刮几器人系统,包括摄像头及其驱动模块、Al^跟宗和识别模块、人脸表瞎识别模块、语音拾取模块、语音识别模块、知识査询模块、语音生块;摄像头所捕获的人脸图像由人戯跟宗与识别模±央进行跟踪与识别,并由媒表情识别模±央识别出表瞎,语音信号经由语音拾取模±央和语音识别模块后识另咄语义,所述机器人系统根据媒的表瞎和/或语音来了解人的需求,然后舰知识査询模棘形成鄉吾句,再舰语音生鹏块生成语音与Ait行交流。上述^iS机器人系皿包括3D虚拟人模拟模块,所述3D虚拟/J莫拟模块在丰几器A^统生成语音的同B射莫拟出人的表情及口型。,^i舌机器人系统还包括手^i只别模块和手势生i^i块,可以方便与聋桠Ait行交流。与现有技术相比,本发明具有以下有益效果所述^iS机器人系统具剤艮强的视、听、说、记忆功能。只要用户和它对过一次话,它就能记住用户的声音,见过一次面便能认识用户。它可以24小时昼夜鹏行简单的对话和服务。所述^i刮几器人系统具有语音识别和鹏能力,它倉嫩听懂用户的指令,具有较强的聊天功能,并且它具有一定的情感。机器人系统掌握了多种不同国家的语言,既可以是导游,又是翻译,并且倉辦办理各种业务,例如接待报案,查询资料等。图1是^i舌lfl器人系统的组自图;图2是AM對青识别模块的示意图;图3是AMill^流程图;图4是AJtiilf、算法框图5是Alii只别过程图6是Alt图像的带循环植物示例((a)图像/,(b)图像/的一棵带循环植物);图7是链的示例((a)循环链,(b)S-链);图8是搜索链遇到一个开始点的情况((a)带循环植物i,(b)正在搜索的链,(c)修改后的带循环植物i);图9是带循环植物不^)顷利生成的示例;图10是一个值域块由另外4个值域块决定;图11是定义域块中值域谢立置的划分;图12是基于象素的8种旋转变换;图B是基于块的8种旋转变换;图14是有限环上点/7的"和6因子计算;图15是语义知识的三元组表示法的示意图;图16是语义网络图17是基于模式匹配的语音识另啲原理方框图;屈18是语音合^l莫块框架图19是手^i只别模块框架图。硬件设计^i舌机器A^统由1台高性能PC机、2个CCD摄像头、5个直流伺服电机、1块高3D5Ulii图像输入板和1块数据采集卡、1个麦克风、2个扬声器等组成,2个CCD摄像头共有5个自由度,可模仿人的两个目臓上、下、左、右运动,也可像人的脖子一样作旋转运动,itl^卩识别媒。摄像头驱动模块当用户狄2个摄像头的摄像区域时,通过摄像头驱动模i央始纟^E用户分别定位在2个摄像头的取像中心,就像人的一双眼睛。AJ^鹏是指在视频流中实时地、连续地估计人脸的位置和方向,主要用于需要连续探测和识别媒的场所,AJ^i只别指将检测至啲人脸图像的特征信息,与己知媒的特征信息进行比较,从而判断待识别Aflt是否为一个已知媒的过程,其目的是检验输入图像中的个体的身份。用户与机器人系统交流过程中,机器人系统会自动地保留与用户的对话记录和用户照片,随着交流次数的增多,机器人系统会逐渐他熟悉用户。通过AM识别禾M^模块,就能快速地认出用户,得到用户的信息,就像见到熟悉的朋友一样,识别出AJ^后,进一步对表瞎进行识别,对用户的感进行分析。AJ^跟舒口识别功能模块还能用于公司前台人员的接待和监控,家庭防盗等。媒的鹏^i刮几器人系鄉跟享媒的过程如图3所示,媒的S跟宗功能作为较低层的功能主要为目标识别等高层功能服务,这要求跟踪倉嫩快速地完成。本实施例采用以基于颜色的CamS础5!lf、算法(ContinuouslyAdaptiveMeanShift)为基础,结,征点足gi宗的方法,对运动目l^a行主动ig]l宗,鹏算法如图4所示。(1)基于颜色的CamShiftjgj^算法CamShift可以基于招可从测^得到有效的概率分布对目标进行足H^。一般的方法是{顿直方图反投影(backproject)生成2D的颜色概率分布图。对于媒以及别的具有特定颜色的目标,颜色对旋转、平移等目标运动相对不太敏感,所以颜色概率分布是一个合适的选择。①颜色概率分布图为了最^f號地M^光照变^^鹏稳定性的影响,首先将图像从RGBfe^空间转换到HSV色彩空间(H表示色调,S代表饱和度,V是亮度),然后只选择在色调H分量中进行处理。在初始化时,假设图像序列的某幅图像仅包含所要足腺的目标诺还包含别的目标或背景,需先确定图像的感兴趣区域,使此区域仅包含目标或目标某部分),对此图像统计H分量的直方图和进行线性变换,将^l格对应的值转换到的范围。然后对序列后面的图像縱H分量里,将上面得到的直方图当作査找表,计算反投影图。对原始图像的每个像素,以像素值为索弓l査找对应的颜色直方图箱格,再将直方图的值作为与原图像对应位置的反投影图的像素值。这样,在根据目标得到直方图分布的条件下,反投影图*像素的值相当于原图像相应位置像素属于目标的概率。目标或与目标有类i,色的区域,将具有最大的概率值。所以,反投影图实际上就^M色的概率分布。②CamShift鹏算法首先,产生要S跟宇、目标的颜战方图模式,如A^跟享中的A^肤色。之后,对序列的每一帧,原始图ftMiih述方法转换成二维的颜色概率分布图。CamShift算法对颜色概率图进行处理,找到在当前帧中指定颜色的目标的中心和大小。同时,当前目标的大小和位置信息用于设置下一帧的搜索窗口的大小和位置。重复Jl^i程,就可以实现连续鹏艮踪。具体算法如下1、设置图像的感兴趣区域(即包含目标的区域),用于计算概率分布;2、选择用于二维MeanShift的搜索窗口的初始位置,即要J跟宗的目标位置;3、在中'C^于MeanShift搜索窗口、面积稍大于搜索窗口大小的2D区域中,计算颜色概率分布;4、ffl^ii代MeanShift算法,计算概率图的质心,直到收敛或达到一定迭代次数。对于离散2D图像概率分布,搜索窗口内的均值位置(质心)ffiil下列公式计算。下式中P0c,力是概率分布图在Oc,力处的像素值,;c和y在搜索窗口范围内取值;(a)零,M。。-ZZ尸(x,力(1)(b)x和;;的一,M,。=S2>P(x,_y),M。,-ZZ乂(x,力(2)(C)均值搜索窗口的质心Xc=i,>^=^"(3)^00似oo5、对于序列下一帧图像(若是没有下一帧图像的话,贝lj结剌g^、过程),根据步骤4的结果,4鄉索窗口中心置于均值位置,并且将窗口大小设置为零附巨Moo(目标大小或面积)的函数,可以根据具体的目标进行调整。2D颜色概率分布图的最大像素值是255,令"2Vii^7^。对于AJ^贩宗而言,因为人斷似于椭圆形,则搜索窗口的宽度可以设为2^,高度设为2.%。为了计算窗口中心,s取m计算结果的最大奇数。然后再转到步骤3。M3i计算二,巨,可以得到f戯腺目标的方向以及离质心的长度和宽度<formula>formulaseeoriginaldocumentpage6</formula>(4)<formula>formulaseeoriginaldocumentpage6</formula>距离质心的长度/和宽度w分别为_<formula>formulaseeoriginaldocumentpage6</formula>(2)基于特征点昨足li^(D1t征点的选择在基辨征点的足跟宗中,特征点选择是非常重要的一步。好的特征点可以提高S跟宗算法的鲁棒性,4数跟宗算法更好虹作。本实施例采用Shi-Tomasi提出的特征点选取方法,这种方法可以在图像中选取容易J1^的角点。设矩阵G=Z,其中^=厶、^=/分另提图像總值/Cc,力对x和y的偏微分,W是以特征点Gc,力为中心的小图像窗口,大小一般为3x3。义!和义2是矩阵G的特征值,A是予Bfe确定的阈值。若^和义2的最小值minU,,义2)>义,即可以认为此特征点适合用于足跟宇、。同时,可以M设置特征点之间的最小距离来控审膀征点的分布。麟!未找到弓睹源。特征点J跟算法特征点SgSl采用Bouguet提出的算法,这种方法在Lucas和Kanade提出的迭代^fe流算^S础上,结合对图像金字塔的多射,率表示由粗到精i舰行处理,实现鲁棒的特魁贩宗。设/和J是两幅连续的二维灰度图像,/0c,力和J0c,力分布表示这两幅图像的M值。令w/是图像/上的一,征点,特征点足跟享的目的是在图像J上找到一个位于v-n+^[^+4",4f的点,认为/(")和J(v)是相似的。偏移向量rf呵44/是在点"处的图像皿,也就是光流场。由于孔径问题,特征点的相似度需要在大小为(2m^+1)x(2wyH)的图像邻域(也称为积分窗口)内进行计算。这样,rf是使下面的相似度函数s取得最小值的向量,艮P<formula>formulaseeoriginaldocumentpage7</formula>(7)典型地,w和^可取值为2,3,4,5,6,7个像素。在本实施例中,w^和ny均取值为5。Lucas-Kanade算法舰离散空间被微^H十算偏移向量rf。根据(7)式,假设向量rf足够小<formula>formulaseeoriginaldocumentpage7</formula>(8)可Mi^代的方式求解得到rf。这种方式可以得到较高的精确度,但受到位移向量不能太大的限制。^ffl分层处理的图像金字t荅,可以在一定程度上突破这种限制。对图像金字塔的各层都执fi^代式的Lucas-Kanade算法。首先从最高层(,率最低)开々誠行处理,然后将结果当作反馈传播到下一层,类推,一直到原始图像(金字塔0层)得到最后的结果。采用图像金字塔的处理方式后,使Lucas-Kanade算法也能^ffl在像^iS动位移较大的情况,同时保持较高的精确度。在AIMR别中,由辨征点的m^需舰计算光流场,同时对多彿征点进行匹配,计算量相对基于颜色的跟踪算法更大,并且对于人脸的检测也采用了肤色模型,所以在对媒进行S腺时,决定以颜极跟5为主,在判断颜极跟规时,再启用特征点SgJ^,直到颜^跟f咴复正常。场只别如图5所示,人J^i只别过程包括如下步骤(1)训练数据库。l)计算各AJ险图像的分形编码;2)获得带循环植物;3)计算图像上每块的a和6因子,组成特征向量。向量的旨分量是a和6因子的二元组;上述步骤(1)所述计算各Ali图像的分形编码、获得带循环植物、计算图像上每块的"和6因子、组成特征向量包含如下步骤1)分形编码与编码图像的图形表示。它的基本思想是将输入图像/分割为不重叠的值域±央0—您ex及—5fee)和可重叠的定义域块CD_SfeexZ)—Sze)。对于图像/中的^值域块凡,搜索所有的定义域i央,得到与之最匹配的块马及相应的^仿射变换『妙(&o())),使A通过酽可以重建i,(或者至少得到及,的一个近似)。变换过程可以表示为马—马,血i,,且W:及—及。也即及产『(辨&o(马)),式中/w(A)表示马在8个方向,行旋转变换,A()表示几何压縮变换,将A的尺寸压縮到与凡相同。『()表示皿变换,寻找^S的对比度因子"和亮度平移因子6。计算图像/分形代码的过禾忠就是求每个i,一A对变换信息5元组〈A的位置、A的位置、『、A、&0>的过程。2)编码图像的图形表示一带循环植物在分形编码过程中没有空间上压縮(即/_5/^=/)—的特殊情况下,编码图像/可以表示为一系列不重叠的带循环植物(circularplant)集合,如图6所示。带循环植物是由尾端的闭环(称为有限环,limitcycle)和由有限环生出的分枝(嫩枝2)组成。植物上的节点1是图像/上的像素点《,*像素点属于且仅属于一棵带循环植物;点《至lJ点/之间的边表示从《点推出点的仿射变换酽,本实施例忽略了压縮和旋转变换。在这种情况下解码过程是否收敛取决于剤艮环是否,。若收敛,-皿计算有限环上像素点的最终收敛吸引子就可以计算植物上所有点的吸引子。只需要2次迭代即可达到1顿常规方法迭代"码时的效果。图像不同时,w的取值也不同,一般不低于10次。3)没有空间上压縮时带循环植物的计算假定输入是编码图像/,输出为图像/的带循环植物,贝殿有空间上压縮时带循环植物的计算方法如下步骤一任取一像素点xe图像/,将其标识为开始点,计算从x开始的S-链,如图7所示。6~链的计算M5l寻找JC的前点y来实现,y在与包含x的值敏央相X寸应的定义敏央中。找到y将^^示上带循环植物的标志(带循环植物一)加入链中。接着继续寻找y的前点,重复这一过程,直到到达点x或某点z(z为已经搜索过的链中某一点)。如果到达点;c,说明该链是循环链,如图6所示。取消点x的开始点标志,从点;c开始重M历该链以获得有限环;如果到达点z,说明点z是5-链的一个分枝点,此时从点z开始重新搜索该链,以找出有限环;步骤二取未标志过的一点;e图像/,将其^i只为开始点计算链,直到下面任一种情况满足为止。(1)该舰为一条&链。这种情况下,鶴于一棵新的带循环植物,用新的植物标志标识紅的每一点。当然也要像步骤一中描述的那样,找出它的有限环;(2)在该链的搜索过程中,碰到一个已经^iR31的点,但该点不是开始点。这种情况下,该链是一絲枝^t枝。用碰到点的带循环植物标志标识该祉的每一点;(3)在该链的搜索过程中,碰到一个开始点。这种情况下,该链是包含碰至U点的分枝的一部分。取消碰到点的开始点标志(此时,该链的开始点成为碰到点所属带循环植物上一M枝的开始点),并用碰到点的带循环植物标志标识该链上的每一点,如图8所示;步骤三重复步骤二,直到编码图像/中所有的点都被标志过为止。4),的带循环植物及其计算当下述充分条件满足时,值域块可以代替单个像素作为基元,成为带循环植物中的点(1)及_您6=5_您^(2)定义J^吩不重叠,定义^tNt鹏;(3)计算分形代码的过程中,将对比度因子控制在(O,l)之间。^fKl)保证了没有空间上的压缩。条併2)保证了带循环植物上的点都是己定义的值域块。当像素点作为基元时,在带循环植物中表承'边"的仿射变换是从一个像素到另一个像氣即仿射变换的值概卩定义域相同。同理,当±刺乍为基元时,也应保证仿射变换的两端取值范围相同。如图9所示,定义敏央重叠划分。取未标志过的点/,,将其标识为开始点,找到与i,匹配的定义域块A。A所在位置对应值域块&,i^也是一个没有被fei只过的点,将它加入链中,继续寻找它的前点得到A。但是A所处位置没有定义的值敏央与;t^应,后续操作无法进行,不能生成带循环植物。^fK3條证了解码迭代收敛。当某个值域块凡与定义Wfe中所有定义域块进行灰度变^f导到的对比度因子都不在(0,l)之间时,默认取其相邻前一值Jg&t央i^对应的A作为尺的匹配块。5)有空间上压縮时带循环植物计算当下述充分条件满足时,值域块可以代替单个像素作为基元,成为带循环植物中的点(1)gx及一Sfeex及一您e-D—您exD—您e,其中g为倍数(只讨论^=4);(2)定义域1效U分重叠,在水平或垂直方向上重叠相邻块的一半,即重叠部分为值鄉央大小;(3)计算分形代码的过程中,将对比度因子控制在(O,l)之间。条併1)保证了有空间上的压縮。此时与/,匹配的马将是i,的4倍大小,即i,将由对应A所处位置的4个值域块共同决定,如图6所示。^fK2)保证了带循环植物上的点都是已定义的11域±央。显然,当定义域块按照这种方式重叠划分时,与每个定义域±^^处位置相对应的4个块,都是已定义的值域块,如图10所示。^#(3)保证了解码迭代收敛。当某个值域块i,与定义m中所有定义域i^S行M变换搏到的对比度因子都不在(0,l)之中时,默认取其相邻前一值J^对应的D;作为凡的匹配块。在有空间上压縮的情况下,一个值域块由另外4个值域块决定。若直接用其^带循环植物,它将与带循环植物的结构要求相矛盾。为了解决这个问题,把与一个定义敏好万处位置对应的4个值:^^别划分到i、n、in和iv位置上,如图11所示。在生成带循环植物时,对于马—i,,每次只取马.中一个位置上的±央作为及,对应。这样对于一幅输入图像的分形代码,M"4组带循环植物与擅应。这样做的理论依据在于(l)在没有空间上压縮的情况下,图像/的分形代码迭^M码的过程,可以容易地模型化为一个线性系统义"^i义^"+5,式中图像/Ei^w矢量化为向量^f是第H娥代得到的图像,J^力为第W次迭代得到的图像,矩阵^e,x層的每行只有一个非零元素,5E,"是向量。(2)式表明在第H欠迭代时,尺中一个像素义的被值由第A:-l次迭代后D,中对应像素的M值决定。马是与及,匹配的定义域块;(2)式在有空间上压縮的情况下(^=4),凡中的一个像素由对应A.中的g个像素决定,(2)式所述的统性系统改为义w:丄〖^""+5式中矩阵爿的每g,行有g个非零元素。矩阵^可以被分解为g个有相同维数的矩阵^—7,2,...,g,使得4中的每一行只包含一个一瞎元素,且!^=14=丄.对应定义域^^处位置4个值敏央的仿射变换因子,由于来自同一定义J^央对值J^t央的映射,4个ffi是相同的。将爿中每行的4个元素按照I、II、III、IV四个位置进fi^分,得到A—1、II、III、IV。显然,这是满^J^要求的一种划分,針^的维数相同。6)旋转变换的加入以块为基元,在有空间上压縮的情况下,为了将旋转变换加入到带循环植物的生成过程中,首先需要解决下面两个问题(1)以定义域±丼万处位置对应的值域块,在该定义域块经过8种旋转变换后,值域块中对应的像素会否改变?即原来在x值域块中的像素是否会旋转到y值域块中?值敏央内容不变,保证自变换的正确进行;(2)值域块内的像素位置是否会改变?值域块内像素位置不变,保证该值i^t央不会成为图像中未定义的块。图12给出了一个4x4的定义域块8种旋转变换时的情形。红色方框表示以该定义M^M处位置对应的一个2x2的值j^央。l2、3和4是值嫩中像素的编号。对于战两个问题,从图中容易看出经过旋转,值域块中的像素不会改变,但是像素位置却发生了变换。像素位置变换后得到的新块,在原图像的分形代码中找不到对应,这使得带循环植物无法正常生成。为了解决这个问题,本实施例引入"±射定转变换",旋转变换把块作为基元,每次旋转只改变块的位置,而块内像素位置保持不变,如图13所示。(2)训练输入的测试图像/。计算/的分形编码;获得/的带循环植物;计算/的特征向量》;,步骤(2)所述计算/的分形编码、获得/的带循环植物、计算/的特征向量^包含如下步骤1)一般情况下带循环植物的计算。在分形编码的计算过程中,有空间上压縮和旋转变换的一般情况下,带循环植物的生成过程如下-输入为编码图像/;输出是图像/的循环植物。读入图像/的分形代码fiactalCode;获得与/,匹配的定义域块Dj位置序号DNo,计算马所处位置对应的4个值域块序号;获得马的旋转方向代码rotateType,计算旋转后A中I、II、ffl、IV四个位置处的值域;t,号;将,储于位置数组posArray[i]0中;^ffl没有空间上压縮时带循环植物的计算方法计算i位置处的带循环植抓存储i位置处的带循环植物;2)带循环植物上每点a和b因子的计算假定输入为编码图像/的一棵带循环植物,输出为fl和6因子经过计算后的带循环植物。贝蹄循环植物上每点"和6因子的计算步骤如下-步骤1:计算有限环上各点最终收敛的a和6因子。舰计算从该点开始到该点结莉一次循用,得到仿射变,列,如图14所示。经过一次循环迭代Wl0W2oW3,点p的参数fl巧/a劝,因子步骤2:计算分^±各点最终收敛的"和6因子。由于分枝点位于有限环上,此时分枝点最终iB^的a和6因子已知。通过计算从分枝点开始到分枝上各点结束的仿射变换序列,可得到分枝上各点最终,的fl和6因子;步骤3:计算嫩枝上各点最终收敛的"和6因子。按照带循环植物生成的顺序,先有分枝再有嫩枝和嫩枝上的嫩枝等。按照御顷序计算,在碰到一条没有计算过的嫩枝时,该嫩枝上的嫩枝点一定已经计算过。所以,通过计算从嫩枝点开始到嫩枝上各点结束的仿射变换序列,即可得到嫩枝上各点最终l^的"和6因子。在有空间上压縮的情况下,图像上一个块的最终收敛"和6因子由其对应的i、n、in和iv四个位置处的带循环植物共同决定,此时取平均值作为最终结果。例如,块凡在4个位置的带循环植物中,最终收敛的fl和6因子分别为(a/,6/)、(fl〃,6〃)、(a瓜6//》和(a/KV),贝Ufl产(fl/+a/,/fflTi/)/4,6,=(6/+V)/4。带循环植物描述的是植物上点与点之间的内在联系和点内的本质特征。它为^点提供了两个重要的特征参数fl和6因子。设fl,、6,为点/的a和6因子,则q和6,因子可以通过从有限环开始到达点/结束的一系列仿射变换得到。通过下式,可以决定点/的最终收敛吸引子x产6/(l—W,式中A为点/的吸引子。在下面的Alti只别》法中,本实施伊X顿針块的"和6因子,作为识别比较的基石出。(3)识别A^。计算《与数据库中所有特征向量间的距离,取最小者作为识别的结果。战步骤(3)所述计算》与库中所有特征向量间的距离,取最小者作为识另幅果的'淑呈如图5所示,包含如下步骤根据欧式距离和分形收敛的概念,定义以下3种距离度量,以便比较块与块之间的相似性。设("卩h)、^2)分别为块取、&的a和6因子,它们之间的相似度"定义为d=a.《+々^+^4,a+/+r=l;式中"=^"^+<^,4=|4一4|,d3=|(一2+^)-(0^4+62)|,4-VG-"i),4=62/(l-fl2)。传统的人与计^t几^5,主要ffiil屏幕,和鼠标进行,计穀几只是机械和重复地执行指令,无法離人的真实想法。如果缺乏情感鹏和表达能力,謝歡佳指望计對几具有类似人一样的智能,也4艮难期望人机^S做到真正的和谐与自然。由于人类之间的沟通与交流是自然而富有感情的,因此在人机妊的过程中,人们也^自然地期望计^t几具有瞎感能力。人类的情感既有明显的毅方式,如面部表情,声新吾调,肢体动作和姿势;也有一些不明显的表达方式,如心率,鹏,呼吸,血压等。用装备有摄像头,麦克风,生物传麟和模式识别工具的计算机,可以获取人类的情感外在表征后,《31^:情殿莫型来推断人的情况。面部奢瞎是:sr泛公认的情感调整形式之一,它是人际交往中信息传达、情感交流不可缺少的手段,也是了解他人主观心理状态的客观指标。媒是人们在交谈时眼睛所逗留的地方,借助面部表瞎,才能'察言观色",在别人的^fi足间洞悉他的内心感受,进行更加有效地交流。图2是人脸新青识别模块的示意图,主要包括AM检测(定位)和AJt表瞎的特征提取及Alt表情识别(分类),其中^模±好万采用的方法如下。(1)静态图像Alt泰瞎的特征提取。基于静态图像A^對辦征提取的方法通常情况下可以分为三类全局方法、局部M^斤方法及混合方法。①全局方法主要通3WA^整体特征的处理获得A^表'ff^征之表征,即图像作为一个,进行处理后得至鹏征向量或者特征图像,然后用PCA或多层神经网络获取低维就方式。②局部解析方法就是提取置于A^些恃征部位(前额、嘴巴、眉毛等)窗口内的A^表W^征。然后进行PCA处理,达到低维表达媒的目的。舰局部解析,一些媒對青的细节(皱纹等)可以根据高梯度'变化部分5fe提取。③混合方法是一种是基于特征的方法,M局部特征的提取构成全局特征,从而提取表情变化向量。该类方法的一个重要特点是通自特征点的定位获得整体A^模型,比较典型的方法有点分布模型(PointDistributionModel,PDM)、主动,模型(ActiveShapeModel,ASM)、主动外观模型(ActiveAppearanceModel,AAM)、弹性图匹配等,由于其灵活性,混合方法是目前应用最多的一类方法。(2)视,列中媒表清的特征提取。视辦列中进行人脸對辦征提取总体而言可以分为三种方式全局方法,局部解析方法和混合方法。其中前二者是^M特征提取,第三者属于高层特征提取。①全局方法首5W视Mm列中的整幅图像进行处理,M降维等方法获取A^表tf1t征。另外一种全局;^法则M:计算图像序列中的梯度场或方向场,提取边界特征,采用边界時征的变化作为人脸表情的运动特征完成表t辦征的提取。禾u用一个边界检测滄波器进行方向检测,检测结果采用一个高斯搶波器进行数据压縮,te媒的四向(上下左右)特征场,用四向特征场表征Alt表清。②局部解析方法MM测人脸中几个局部区域沿时间轴的变化来提取表1f^动特征。运动模型(MotionModel)方法,将媒分割为眼睛、嘴巴和眉毛等5个区職^话动特征提取。③混合方法主要是M3i)(寸Am征点或者Matter的Jl^取得A^i动数据,为了肖雜有效地足ia人脸的运动,特征点或者Marker通常需要标在运动比较明显的地方,有时也可以ffliiPCA对大量标注的SS^点进行降维操作取得最能够体现人Jtig动的关键特征点。一方面这些关键特征点反映了人脸的轮廓特征,另一方面通m其运动的足lli字、,还可以取得AJt轮廓的变化过程。定义AM运动的参数,主要分为两类,一类是FACS(FacialActionCodingSystem,Aflt动作编码系统)参数集合,采用了一个自动跟踪器对眉毛、目艮睛、鼻子、嘴巴等处的特征点实时足跟享,提取表情运动特征。采用了特征点S腺与局部铍纹检须湘结合的方法判断AI^作的FACS参数,尝试给出表瞎的强度。另一类是MPEG4中的FAP(FacialAnimationParametere,Alt^画参数)参数集合,利用特征点足ISI获取FAP参数,作为Alt表情运动特征。鎌i卿(1)静态图像的表瞎iJ拐U。基于静态图像的表瞎识别方法只采用了空间信息,因此多采用一些较适于做空据处理的识别模型。①以AX神经网謝乍为核心的识别算法。有些直接将图像中的某些部分作为输入,应用神经网络进行分类。例如,首先将一幅媒表情图像分为8xl0区嫩,用这些区域块的光流变ft^寸整幅图^afii^码,最后采用一个离散Hopfidd神经网络对编码进行分类,实mxit表瞎的识别。②SVM也就静态人脸表情图{魏行识另啲模型之一。SVM首先舰用内积函数定乂的非线性变换将输入空间变换到一个高维空间,在这个空间中求(广义)最优分类面。SVM分类函数形式上类似于一个神经网络,输出的是中间节点的线性组合,*中间节点对应一个支持向量。③奇异值爐(SingularValueDecomposition,SVD)也是基于静态图鰣行表瞎识别的方法之一,首先对图像中的A^,可变形模型分割出特征人脸,同时建立表情、身份和AJt特征的三阶张量空间表示,然后将表膚图像进行HOSVD(HigherOrderSVD,更高阶SVD)分解,提取表情子空间。(2)视,辦列中的媒表瞎识别、①基于神经网络方法。YT咖采用多状态成分模型对A^各部分(眼睛,下巴,脸颊,铍纹)进行J1^和建模,并将跟踪得到的结果进fr^细的参数描述,构造了一个三层神经网络(含有一个隐层),用15,征参数作为输入识别上半部分AJ^AU。不i^t行了单个AU的识别,而且还尝试识别了多个AU组合,取得了很高的识别率。②基于模板的方法。主要分为两种模板,一种是用典型表情作为标准模板,另外一种是根据图像中表情的变化构造时空域模板。采用各种表情的标准模板与待识别表情之间进行最近邻法分类(KNN)。可以首先定义了一^]作参数(AP),将表瞎的识别分为两个阶段,先进行基于距离的分类,取其中三个距离最近的fl魏表情,然后根据在表f辦征提取阶段获得的AU,作进一步比较。采用一种控制理论的方法提取图像序列中Alt的时空J^t动能量表达,MJ鹏六种不同的基本表十能动过程,建立射青的时空鹏动模板,由两个人的时空运动模板取平均得至勝定表瞎的运动能量模板,在识别时,fflii计算测试样本的运动能量与标准模板之间的欧氏距离进行分类,获得识别结果。③基于规则的方法。Mil图像运动的局部参数化模型求得刚性运动和非刚性运动参数,iia^些参数构成中间层断言棘示人ltM动特征,每一个中间层断言都是表征为决策规则形式,规则左边疑动参数与特定临界值的比较,右边贝提归纳的断言,临界值取决于图像中媒的大小。蹄拾取模块M麦克风拾取语音信号并转换,字信号后进fiH吾音识别。语音鄉,语音识别是计^t;uiii识别把语音信号转变为相应文本的技术,属于多维模式识另诉卩智能计算机接口的范畴。语音识别的研究目标是让计算机"听懂"人类口述的语言。听懂是不仅将口述语言逐词逐句地转换为相应的书面语言,而且肖树口述语言中所包含的要求或询问做出正确的响应。目前,大多数语音识别系统都采用了模式匹配的原理。根据这个原理,未知语音的模式要与已知语音的参考模式逐HS行比较,最佳匹配的参考模式被作为识另蹈果。图17中,待识别语音经过话筒变换成图中语音信号后加在识另孫统输A^,先经过预处理。预处理包^i吾音信号釆样、反混叠带通澹波器、去除个体发音差异的设备、环境弓胞的噪声影响等,涉及至隨音识别基元的选取和端点检测问题,有时还包括模数转换器。特征提取部分用于提取语音中反映本质特征的声学参数,常用的特征有短时平均能量或幅度、短时平均过零率、短时自相关函数、线性预观係数、清音/浊音标志、基音频率、短时傅立叶变换、倒谱、共振峰等。训练在识别之前进行,^M让讲话者多次重复语音,从原始语音样本中去除冗余信息,保留关键数据,再按规则对加以聚类,形鹏式库。模式匹配是齡语音识别系统的核心,是根据一定的准则以及专家知识,计穀几输入特征与库存模式之间的相似度,判断出输入语音的语意信息。模型训练是指按照一定准则,从大量已知模式中提取表示该模式特征的模型参数。模式匹配是指根据一定准则,使未知模式与模型库中某一模型获得最佳匹配。语音技术所应用中主流的模型训练^H模式匹配技术有^下几种(1)动态时间规整匹配(DynamicTimeWarping,DTW)算法时间夫皿即时间校正,是把一个单词内的时变特征变为一致的过程。在规整过程中,未知单词的时间轴要不均匀地扭曲或变折,以便使其特征与模型特征对比,是一个最为小巧的语音识别算法,其系统开销小,识别速度快,在对付小词汇量的语蹄令控制系统中效率较高,但是,如果系统稍微复杂一些,这种算法就显得力不从心。(2)隐马尔克夫模型(HiddenMarkovModel,HMM):采用语言信号时变特征的参数表示法,由相互关联的两个随inJl程共同描述信号的统计特性。采用HMM这种技术,要以一个具有有限不同状态的系统作为语音生鹏型,針状态皆可产生有限个输出,直到齡单词输出完毕,状态之间的转移是随机的,^h状态下的输出也是随机的,由于允许随机转移和随机输出,所以HMM能鹏发音的各种微妙变化。HMM方法很好鹏决了分类以及训练丄的困难,维特比(Viterbi)搜索语音识别算法解决了时间轴的规一化问题。HMM是把未知量均匀地伸长或縮短,直到它与参考模式的长度一致时为止,这是一种非常有力的措施,对提高系统的识别精度极为有效。(3)人工神经网络(ArtificialNeuralNetANN):神经网络的概念也已经,用于语音识别中,其中最有效的一种方法是使用多层神经网络,多层神经网络不仅输入节点、输出节点,而且有一层或多层隐节点。利用神经网络的记fc功能和快速响应特性,将语音信号提取出来的特征值输入到神经网络中进行长时间训练,得到节点间连接权值。自组织神经网络能完自输入样本的分类和聚类功能,但在其输出层并不^1^见表现出来,需要对其进行模式标识。对于只对錢样本产生响应的神经元,直接将期斜只为与该类输入样本所对应的模式类;对于边界神经元则采用上舰界神经元的处理方法标识;对于未对tti可输入类产生响应的神经元,直接屏蔽。这样,当新的样本输入时,就會,直观的从输出层读出输入样本属于哪个模式类。自然语言是人类日常所用的语言,是人类在其社会生活中发展出来的用来互相交际的声音符号系统,如汉语、英语、日语等。自然语言是个十分复杂的符号系统,符号的形式和其所表达的意义由社会所约定,而且随着社会的发展而不断变化发展。自然语言Sif作为语言信息处理技术的一个高层次的重要方向,一直是AX智能界所关注的核心课一。从^M上看,自然语言理解是自然语言系统到计算机的系统内部表示之间的映射;从宏观上看,它是指计對几兽辦依照某些的规则来执行人^0f期望的某些语言功能。中文分词在汉语的书写泰达中,字词之间是连着的,M词语在句子中没有显式的标记。自汉语的首^i壬务就是,续的汉字串分割成词的序列,即中文分词。中文分词可分为以下三种形式(1)机械分词。机械分词是基于字符串匹配原理,需要分词词典作为分词的依据,词典的结构以及词典中词的个数直接影响分词的准确度和效率。按照扫描方向可分为正向扫描,反向扫描和双向扫描;按匹配原则可分为最大匹配法和最小匹配法。机械分词算法简单,对词典粒索引,能有效地提高分词速度,但这种分词方法并不能很好地消除歧义,还需和其它方法结合一起,进一步提高分词精度。(2)统计分词。统计分词是以概率论为理论基础的,将汉语文本中汉字串的出现抽象为一随机过程,其中,随机过程中的参数可以通过大规模的汉语语料库来训练得出。待分词的字串C=Clc2...c,输出的词串『-M^2…w"其中w^"。对于一个特定的C会有多个『对应,统计分词的任务就是在这些『中找出概率最大的一个,即求『,使尸(『IC)的值最大。根据贝叶斯公式可以得到户(『ic)-尸(ciw^(『)/尸(c),其中P(C)是固定值,从词串恢复到汉字串的概率P(C|『)=1。由此求解问题可以变换为在全切分所得的所有结果中求出某个『,使得尸(『)为最大。N-gram模型是最基本的统计语言模型,用常用的二元模表示户(『),即=尸(W!)*尸(WIWl)*...*Wml)。(3)知识分词。知识分词也称为规则分词,它不仅仅是使用词典的匹配,还运用语法、句法和语义方面的知识进一歩分词处理。知识分词需要设计一个语法语义知识库,ffiil库中所定义的规则来分词处理。汉语的词法句法规则复杂,^一个适用的知识荐难度大,花时间长,因此知识分词至今难以iSffl于大规fIK实文本处理,有待进一步研究。语义知识的标知识是人们在改造客观世界的过程中积累皿的经验及其总结升华的产物。知识是一切智能行为的基础,是人工智能的重^ff究内容。要使计算机具有智能,就必须使它具有知识。适当选择和正确使用知识表示方法可以极大地提高人工智能问题求解的效率。从计算机角度看,自然语言中的词和句子只是保存在内存中的符号串常量,没特殊的意义。如果按照某种规贝蜮结构组织JS些字符串,转换成便于计^mf脾处理的结构,那么计算机,聘经过搜索、关联、判断、推理、替代等处理后,再以自然谱言表达方式输出,可以认为计算机具备一定的智能性。(1)逻驗示法。i顿逻辑法表示知识,需将以自然语言描述的知识,舰引入谓词、函数来加以形式描述,获得有关逻辑公式,进而以机器内部代码表示。其中项是描述世界中的物体的常量,包括抽象事物;谓词是描述关系和属性的常量;关系逻辑运算有合取(A)、析取(V)、否定()、餅(—)、双餅");影司有全称量词(V)和存在翻(3)。采用归结或其它方法进行推理。(2)产生式表示法。产生式表示法容易描述事实、规则以及它们的不确定性度量。产生式系统由知识库和推理机两部分组成,其中知识库由规则库和数据库组成。规则库是产生式规则的集合,数据库是事实的集合。规贝脾是以某^H页嫩口识的存储器,规则是用产生式表示,包含着从初始态到最终解决状态的转换规则。数据库存放输入的事实、外部数据库输入的事实以及中间结果。推理机是控制禾iff,包含推理方式和控制策略。其推理方式包含三种:正向推理,反向推理和双向推理。产生式表示形式固定,形式简单,规则键相互较为3拉,而且知识满和推理规贝湘分离,會嫩3ti地的修改知i只库,由此产生式表示常用于专家系统建造时所采用。(3)语义网络表示法。一^H吾义网络是以有向图的三元组(结点A,弧,标注R,结点B)连结而成,如图15所示。结点表示概念、事物、事件、情况等;弧是有方向的有标注的,方向表示主次,结点A为主,结点B为次,而纟示注R表示结点A的属性或结点A和结点B之间的关系。其语义网络如图4所示。语义网络會镞表示事物之间的继承、补充、变异、细化等关系,而且SX见易懂,很容易用于推理,得到广泛应用。(4)框架表示法。框架理论的基本观点是AM以存储大量的典型情景,当人面临新的情景时,就从记忆中选择一个称作框架的基本知识结构,这个框架是以前记IZ的一个知识空框,而具体的内容以新的情景而改变,对这空框的细节加工修改和补充,形成对新瞎景的认识又记忆于人脑中。框架是由若干个结点和关系(统称为槽)构成的网络,表示某一类瞎景的结构化的一种数据结构。框架由框架名和一些槽组成,^槽有一些值,槽的值可以是逻辑的、数字的,可以是程序、条件、默认值或是子框架。框架表示法,性强、概括性高、结构化良好、推理方式灵活、又能把陈迷性知识与过程性知识相结合,但是不易^iii程性知识,所以在具体的系统中,它往往要和其它方法配合使用。知识荐的M:人工智能问题的求解是以知识为基础的,知识库规模大小一定程度上反映计算机的智能水平,但是人类的知识浩如烟海,表达形式各异,在现在的计^m技术限制下,不會辦A^些知识用规则形式全部表达出来。文字聊天模块的知识库可以分为词典库、规则库、语义知识库和常识库。词典库主要用于分词,包含有词,词义,词性,以及词频^^言息,同时也可以根据词典库里面的词义来动态生成一皿本的语义知识。规则库保存中文句子的语法规则,用规则判断句子是否符^i吾法,也可以根据规则来构造简单的句子,规则可以动态增加。语义知iP荐中记录的语义知识主要就是语义关系知识,本质上就是词语之间的巨大的关系网,通as些关系网可以对词语进行替换,推导出深层次的语义。常识應可以是人们日常所用的知识,也可以是麟领域的专业知识,内容最为广泛,其形式可以是文字,图片,声音,视频等。需要花费大量的人力物力去获取、粒常i口應以及保证每一条常识的正确性,由此常i尸满的粒是一个长期的过程。常识荐的粒应该3拉于禾將设计,只要粒相关领域的常识库,就能将聊天、教育和咨询机器AiS用于该领域。由于常识库数据量巨大,如何快速保存,E^索引,提高数据检索的速度需要进一步研究。知识库的M:主要有手工^z:,计^1^自动^和人机结合^:方式。一,础库,如词典库,规则库通过手工来^:,也可到互联网上获取、改进已有的知识库资源。而那些常识库,可以先ffi31计算tfU人互联网直接获取,再经过人工检査、修改,按照一定格式保存到数据库中。歸合鹏块语音合鹏块的框架图如图18所示。语音合成是将以文本形式或者其它形式存在的信息转换成i吾音信号,让Ai!3iB^来获得信息。文语转换系统(Text-To-SpeechSystem,TTSSystem),它是一种以文字串为输入的语音合成系统。其输入的^1常的文本字串,系统中的文本分析器首先根据发音字典,将输入的文字串,为带有属性标记的词及其读音符号,再根据语义规则和语音规则,为每一个词、每一^节确定重音等级和语句结构及语调,以及各种停顿等。这样文字串就转变为符号代码串。根据前面分析的结果,顿目标吾音的韵辦征,合成出输出语音。基于对合成单元的处理方式的不同,合成算法可以分为三类①发音参数合成(ArticulatoiyParameterSynthesis);^)参数分析合成(ParametricAnalysisSynthesis);③波形编^成(WaveformCodingSynthesis)。其中,前两种方,本上都是^1在Fant所建立的语音产生的声源-^M^I莫型的基础上,分别用不同的物理学模型代表语音产生的声源、声激麽波、辐射三个部分。后一种方法本质上属于基于语言学规则的统计模型。(1)发音参数合成。语音合成的研究始于发音参数合成。该方法,发音生理机制进行分析,用仪器记录发音器官在发不同语音单元时的各种生理参数,从中归纳出控制合,型所需的参数系列。本质上讲,这是一种最能反映语音合财质的系统,但由于对人类发音器官的生理和物理机制以及控制发音器官运动的神经系统并没有完^t彻了解,所以基于发音参数的合成系统仍然处于摸索阶段。(2)参数分析合成。参数分析合成,合成单元(多以音节、半音节或音素)的自然语音按一定的方法进行分析,得到该单元的特征参数并存储總,成为音库;合成时,调用相应合成单元的特征参数并根据一定的规贝腿行变换后送入合g,得到合成语音的输出。该类方法由于其灵活有效在无限词汇的合成系统中得到了广泛的应用。(3)波形编石始成。基于大语料库的波形编石始成方法正得至ljm越多的关注。合成语句的语音单元从一个预先录制的、经过编码压縮的语音数据库中扭隨出来。只要语音数据库足够大,包括了各种可能语境下的所有语音单元,理论上就有可會腿过高效的搜索算法拼接出任何高自然度的语句。由于合成的语音基元都是来自自然的原始发音,合成语句的清晰度和自然度翻每会非常高。但该方法的缺点就是语料库过于庞大,因此语音库的构離时费力不灵活,且所占存储空间过大,韵律调整的禾號极其有限。最优合成单元的选择需要高效率算法才能使系统很流利。MicrosoftSpeechSDK的鹏微软SpeechSDK5.1全面支持中文语音应用禾號的开发,SDK里掛共了语音识另,合成弓摩相关组件、应用禾辦层接口、详细的技术资料和帮助文档。它采用COM标准开发,底层协议都以C0M组件的形式完封i5l于应用,,层,为应用,i^设计人员屏蔽掉复杂的语音技术,充分体现了COM的优点,即语音相关的一系列工作由COM组件完成:语音识别由识别弓l擎(RecognitionEngine)管理,语音合成由语音合成引擎(SynthesisEngine)负责;禾骄员只需专注于自己的应用,调用相关的语音应用禾iJ^接口(SAPI)来实现语音功能。语音识另啲功能由一系列的COM接口协调完成,语音识别的主要接口(1)IspRecognizer接口用于创建语音识别弓摩的实例,在仓犍时通过参腿择弓摩的种类。识别引擎有两种独占(ProcRecognizer)的引擎和共享(SharedRecognizer)的引擎。独占的引擎赠只能由仓犍的应用禾Mm吏用,而共享的引擎可以供多个应用禾號共同l顿。(2)IspRecoContext接口主要用于接受和錢与语音识另鹏息相关的事件消息,装载和卸载识别语法资源。(3)IspRecoGranimar接口ffi^个接口,应用禾將可以载入、激活i吾法规则,而语法规则里则定义着期望识别的单词、短语和句子。通常有两种语法规则听写语法(DictationGrammar)和命令控制i吾法(CommandandControlGrammar)。(4)IspPhrase接口用于获取识别的结果,包^i只别的文字、识别了哪一条语法规则等。语音识别的功能由上面的COM接口共同誠,而JJI守特定的工作禾將。概括地说,语音识别的工作原理^f盾COM组件的工作原理和一般Windows应用liff的工作原理(消息驱动机制),具体如下首先初始化COM;接着要实例化^H吾音接口(以特定的顺序),设置识别语法、识别消息,使识别引擎处于工作状态;当有语法规则裤识别后,语音接口向应用禾辦发出语音识别消息;在识别消息响应函数里,舰IspPhrase接口获取识另啲结果;应用禾將退出时,卸载COM。3D娜人,微虚拟人是人在计^m生成空间(虚拟环境)中的几何特性与行为特性的表示,用于与机器人交流时,看到的不再是冷冰冰的对话框界面,而是模拟出来的3D虚拟人形象。3D虚拟人会笑,会生气,表达各种情感,做出普通人的一系列动作,让用户感觉就微艮一个真实的人再聊天。三维虚拟人合成的可以分为两大类虚拟人的几何表示方法和虚拟人的运动控制方法。戯人的几何标虚拟人的几何表示方法主势开究虚拟人在计^t几生成空间中的几何表示,其目的是在计^t几生成空间中创自拟人的计算图,型,表示虚拟人在虚拟环境中所占据的几何空间。虚拟人的几何表示必须满E维虚拟人在外观与行为特性等方面的逼真性要求。包括人体和人体附属物建模方法。人体的几何表示方法是动作控制的基础,并在一定fMj^上影响了动作控制的手段。目前两个重要的国际标准MPEG4和VRML2.0都开始支持虚拟人的几何表示。MPEG4描述虚拟人的几何模型由一系列的节点组成(nodes),其顶层节点bodyNode至少包括两个子节点表示人体运动的参数和表示人体模型定义的参数。人体运动参数包含296个描述虚拟人骨架拓扑结构的参数,这些参数可以应用于MPEG4兼容的虚拟人体,并生成相同的虚拟人的运动。VRML中有一个专门的子标准描述虚拟人的模型一H-Anim,它完^It盾VRML的语法,由于VRML(VirtualRealityModelingLanguage)被广泛地应用于Internet上创建虚拟的三维空间,所以H-Anim标准正在成为虚拟人网络交换最流行的标准。本实施例采用H-Anim标准。H-Anim(HumanoidAnimationSpecification)标准是为在线虚拟环境中的虚拟人表示而制定的,标准兼顾了兼容性、适应性和简洁性。H-Anim标准中利用VRML97中的Prototype支持,定义了五种自定义节点以描述虚拟人模型,分别是Humanoid,Joint,Segment,Site和Displaces,其中Joint节点用以构自拟人的骨架结构,是虚拟人姿^空制直接操作的X^,用来描述人体骨架的连接性结f关节。H-Anim标准把齡人体分成l个人体重心、77个关节和47僧骼段(Segment),这些元素组成一个完整的虚拟人模型。虚拟人的骨骼段之间由关节相联,人体重心、#^#骼段以及关节的运动影响与它相联的其他节点的状态。H-Anim标准的层次结构(Hierarchy)是由嵌套的Joint节点来实现的。以脊tt^的骸骨关节作为S^t架结构的根,并由此分别向上、下遍历^ht架结构,按照遇到各关节的顺序,将所有关节组织皿形的,结构。树的根节点Root对应^人体,其他节点对应人#^型的各个关节点。,人体的运动可以看成是由平移和旋转组成的,即根节点的平移和旋转以及树上各节点围绕父节点的旋转。根节点的平移决定人#^型的位置,旋转决定人Wi型的方向,其他各节点的旋转是在以父节点为坐标原点的局部坐标系下的旋转来决定人鹏型的运动姿态。据此,本文采用两标系描述人体各肢体的运动固定在人術艮节点处的固定坐标系和附在各关节点处的运动坐标系,后者是随肢体运动而运动的局部坐标系。每一个Joint节点均是拥瞎其后的Joint节点的父节点,例如肩关节的节点(R_sh0ulder)定义中,又包含有肘关节(R_elbow)、前臂节点(R_wrist)作为它的子节点,而在肘节点中又有关节作为它的子节点等,这样就形成了人鹏型的骨架。由于在VRML97中,空间变换是随着X^汤景树的3iM而累积的,因而在树形的骨架结构中,较靠近树根的Joint节点的旋转变换,会引起其子Joint节点的位置变化,从而很好地模拟了人体骨架的运动特点。jSft(人的运动控制虚拟人除了几何属性外,还要有逼真的行为特性。虚拟人的行为特性需要满足物理学的规律,既是一种物质的运动,同时也是人的一种智能活动,反映了人的智能思维。运动控制技术可以分为两类底层控制技將tl高层控制技术。底层控制技术一般直接指定动作参数,如关节旋转角度和坐标即平时所说的运动控制(MotionContol)。高层控制技术是在/^M控制技术的基础上,ilii粒行为计算模型和算法控制虚拟人的动作,从而为动画设计师ilf共在行为层次上控制虚拟人运动的手段,称为行为控制(BehaviorContral)。比如,可以通,制行走的速度和方向^jt拟人行走动画。(1)底层的运动控制模型①参数关键帧技术(Parametrickeyflametechnology):关键帧技术是动画控制的传统方法,在早期的WaltDisney的制作室,熟练的动画师设计卡通片中的关键画面,就是所谓的关键帧,然后由一般的动画师完成中间帧的纟魏i』。在计算机动画中,中间帧的生成由计^m来完成,插值法代替了设计中间帧的动画师的工作。在虚拟人动作控制中,关键帧和中间帧都^X寸人体姿态进行控制,一麟用人体姿态的状維进行描述,如人体关节角度。为了与传统关键帧方法进行区别,称这种方法为参数关键帧。这种方法非常的13见,不需要太多的专业知识,可以控制人体动作的旨细节。但要求4顿者具有丰富的人体动画制作经验和关键帧生成技巧,能够自如地控制虚拟人模型的上百个自由度。②过程动画(ProceduralMethods):对于一些周期性的人体运动,如走、跑等,可以建立经验公式,通过设置人体的运动特征仁鹏、方向等)来控制人体运动。因为这种方法在建模时已经根据真实人体运动提取了特征,所以仿真出的人体运动具有很好的真实感;而且可以MM简单的参数设置,得到一系列相似的运动效果;并且这种方法tB3S合作为行为建模技术的底层运动实现手段。参数关键帧技术实,拟人复^作控制非常繁复,而过程动画又不會隨用于所有类型的人体运动,因此,人们开发了一,于物理的运动仿真技术。③正向和逆向运动学(Forwardandinversekinematics):正向运动学fc^端效应器仁如手或脚)作为时间的函数,关于固定参考坐标系,求解^效应器的位置。逆向运动学方法在一定程度上减轻了正向运动学方法的烦琐工作,用户舰指定末端关节的位置,计算机自动计算出各中间关节的位置。动力学(Dynamics):动力学方法则是根据人体各关节所受的力与力矩,计算出人M关节的加速度和速度,最后确定人体运动过程中的各种姿态。与关键帧方法和运动学方法相比,使用动力学方法生成的运动祐,理规律,具有物舰真性.但该方法要雜动控制人员确定人体各关节所受的力与力矩,通常比较困难。⑤运动捕捉(MotionCapture):这种技术^ffl传感器记录真实人,三维空间中的活动,然后计穀几根据所纪录的数据驱动屏幕上的虚拟人。其最大优点是能够捕捉到人类真实运动的数据,效果非常逼真。这种方法的缺点有被记录的人体与虚拟人的模型可能存在尺寸上的不匹配;真实人体的动作受传繊的限制;传麟与关节间相对位置的变化。这些因素都会导致记录翻的误差,{,拟人的动作失真。并且由于捕捉设备的限制,有些运动无法捕获。(2)高层的行为控制模型底层的运动控制模型的各种方法可以生成简单的行为,若是要求虚拟人的运动可以根据环境的变化而做出适当的智能处理,就需要一种为人的智能行为建模的方法。在虚拟人领域,很多学者从虚拟人技术的应用角度,提出了对虚拟人行为模型的要求①自治性行为模型应该l顿拟人自顿环境变化做出反应,并且可以依据自身状态和感知到的信息自主做出决策。②多样的行为效果虚拟人的行为模型应该对同一种行为产生不同的效果,例如*人^§"或多或少"有些不同,及是同一个人重复走一段路也会由于自身状态和环境变化,使行走'或多鈔"有些差异。③个性虚拟人的行为模,该加入个性参数,不仅是单个虚拟人,而且可以应用于群体行为模拟。交流功能虚拟人倉滩自主与人交流。⑤学习功能虚拟人倉辦不断积累知识,适应复杂的环境。⑥并行行为由于虚拟人有多个效应器,可以在同一时间完成多个行为。知识魏模块基于自然语言的知识查询是指用户用自然语言在检索系统中对査询目标进行描述,系统从查询文本中自动提取査询^#、査询目标的关键特征等,按一定的规则和算法在数据库中查找满足斜牛的记录作为查询结果反^^合用户。知识查询需要预先设定一个或者多,定知识库,如特定专业離,产品〗顿说明,企业的规章制度等。和聊天功能模块不同的是,知识査询擅长于知识问答,而且答案要尽可能准确,对于不能回答的问题,就回答"不知ii",而不是故意转移话题。知识查询对输入的句子预处理与聊天功能模i央是相同的,也需要先进行分词、语法语义分析。为了f树用户的提问做出正确地回答,首先需要知道用户是针对什么进行提问,也就是问题的类型是什么,同时还要明确最终给出的答驗该满足哪些要求。问题的分析疑问词是确定问翹类SiS:答案要求的主要依据,因此在确定问题类型时,首先要找出问句中的疑问词,根据疑问词分析可能的答案类型。但是各疑问词的辨别能力并不相同由疑问词"哪里'可知辦'地点"进行提问,它是"专用疑问词",但如果句中出现'什么",就不能仅靠疑问词来判断类型,因为很多类型的问题都有这种"通用疑问词",必须借助于问句中的另一个词(称为"问题焦点'或凝问修饰词")才育继行正确的判断。所谓"问题焦点",就是问题中说明问题主要内容的一个名词鹏词性短语,而问题的主要内容就是本实施例想要找到的答案需要满足的条件。那么如何来确定'问题焦点"呢?一般情况下,问题中的第一个名词或名词短语是问题焦点的可能性很大。问答系统的问句一般是由一句话构成,首先取出该句中所有的名词,然后根据疑问词与句中名词的位置信息进行判定,通aX寸大量问题的观察和统计,可以归纳出含有通用疑问词时问题类型的判断规则如下(1)如果疑问词后紧跟着名词或名词短语,则可以将该名词或名词短语看作是问题焦点;(2)如果疑问词处于句子的末尾,则与该疑问词距离ftjfi的名词或名词短语可看作是问题焦点;(3)如果疑问词后为动词(如"是、为"等),贝狗子中最后出现的名词或名词短语可以看作是问题焦点。表i是问题类ms答案要求的对应关系。表l<table>tableseeoriginaldocumentpage23</column></row><table>手舰别微手语是一种聋人4柳的人体运动语言,是由手形、手臂动作辅之以表情、唇动以及其它体势来表达思想的,由符号构成的比较稳定的敏系统,是一种靠动作/视觉交际的#^语言。健全人(这里稱旨具有口语能力和听力正常者)与聋人之间的交流除了用口语(小部分受过训练的聋人可以通过口语进行魏)之外,主要舰口语和手语舰行交流。然而,绝大多数健全人看不懂手语,而大部膽人听不见口语,这使得聋人与听力健全人之间的交流非常困难。手语识另啲目标就;Mi计穀几提供一种有效的、准确的机制将手语翻译成文本或语音使聋人和健全A^间的交流变得更方便、'鹏。手^4R别系统可以分为基于视觉(图像)的识别系统和基于佩戴式设备的识别系统。基于视觉的手辦只别是利用摄像机作为手语感知输入设备釆集手势信息,并进行识别。这种方s^格便宜、设于安装,还可兼顾^自其它所需视频信息的采集,所以非常适用于在智能建筑中普及应用。从识别方法上看,目前手^i只另孫统主要采用的是隐马尔科夫模型(HiddenMarkovModel,简称HMM)、AI神经网络(ArtificialNeuralNetworks,简称ANN)及模板匹配等方法。模板匹配主要用于少量te手势的识别。在手斜只别中主流的方法是隐马尔科夫模型。图19是手斜只别模块框架图。手粉割手势分割(GestureSegmentation)是基于计算机视觉的,是指如何把手势从手图像中分离出来。在复杂背景瞎况下,手势分割困难重重,还没有成熟的理论作为指导,现有的算法计算度高,效果也不理想。主要有以下几种①增加限制的方法,如使用黑色和白色的墙壁,深色的服装等简化背景,或者要求人手戴特殊的手套等强调前景,来简化手区域与背景区域的划分。②大容量手势皿M库:^法,如密西根州立大学计t^几系的CuiYuntao建立了一个数据库,其中有各种手,在各个时刻不同位置不同比例的手型图像,作为基于,匹配识别方法的,。③立体视觉的方法,如纽约靴比亚大学计^mm的Gluckman利用两个不在同一平面镜子的反射图像,计算物体与摄像机之间的距离,根据距离信息分害咄人手。手势離手势模型对于手^iR别系统至关重要,特别魏确定识别范围起关键性作用。模型的选取根本上取决于具体应用,如果要实现自然的人机交互,那么必须建立一个精细有效的手势模型,使得识另孫统对用户所做的绝大多数手劑故出正确的反应。目前,几乎所有的手势建模方法都可以归结为两大类基于^11的手势建模和基于3D模型的手势建模。基于^见的手势建模又可分为基于2D灰度图像本身、基于手(臂)的可变形2D模板、基于图像属性和基于图像运动4种。手粉析手粉析阶段的任务就是估计选定的手势模型的参数。一般由特征检测和参数估计乡贼。在特征检测过程中,首先必须定位做手势的主体(人手)。定位技术有①基于颜色定位利用限制性背景或者颜色手套。②基于运动的定位这种定位技术通常跟某^Pi设一起使用。例如假m常情况下只有一个人在做手势,并且手势者相对于背景的运动量很小。③基于多模式定位例如利用运动和颜色信息的融合定位人手,优点是能克服单个线索定位的局限。不同建模方式参数估计方法不同基于灰度图像本身的^(见模型在最简单的情况下,可以选择模型视图序列作为参数,也可以l顿序歹哩各帧图像关于平均图像的特征儘表示;基于可^娜2D微彭见模型的典型参数是丰鎌节点的均值和它们的方差。舰在练集战行主成分分析(PrimaryComponentAnalysis,PCA)可得到模型参数;基于图像属性表观模型的常用参数是手形几何矩,Zemike矩、朝向直方图等。这些图像特征参数易于估计,但是它们对图像中其他非手物体非常敏感;基于运动图^^11模型的参数包括平移运动参数,旋转运动参数,以及图像变形参数等。例如Becker基于宽基线立体视鄉隙人手及头部运动,然后把人手在3D空间的平移运动速度作为模型参数。手辦湖瞎法(1)基于AX神绿网络的手势识别。神经网络方法具有分类特性及抗干扰性,具有自组织和自学习能力,具有分布性特点,能有效抗噪声和处理不完整的模式以及具有模式推广能力。然而由于其处理时间序歹啲能力不强,目前广泛用于静态手势的识别。著名的Fels的GloveTalk系鄉用神经网络方^f乍为识别技术。(2)基于HMM的手^i只别。对于分析区间内的手势信号,通常采取HMM方法进行模型化。—般拓扑结构下的HMM具有非常强的描述手劑言号的时空变化能力,在动态手势识别领域一直占有主导地址,如卡内基,梅隆大学的美国手语识别系统及台湾大学的台湾手语识别系统等均采用HMM作为系统的识别技术;然而正是由于HMM拓扑结构的一般性,导g[^种模型在分析手衙言号时过于复杂,使得HMM训练和识别计算量过大,尤其是在连续的HMM中,由于需要计算大量的状态概率密度,需琴估计的参数个数较多,使得训练及识别的速度相对较慢,因而以往手语识别系统所采用的HMM—般为离散HMM。(3)基于几何特征的手^i只别。基于几何特征的手斜只别技术是利用手势的边缘待征和手势区,征作为识别特征,具体实现则有各种不同的做法,如利用Hausdorff距离模板匹配的思想,在距离变换空间内就可以实现基于单目视觉的中国手语字母的手^i只别。权利要求1、一种会话机器人系统,其特征在于包括摄像头及其驱动模块、人脸跟踪和识别模块、人脸表情识别模块、语音拾取模块、语音识别模块、知识查询模块、语音生成模块;摄像头所捕获的人脸图像由人脸跟踪与识别模块进行跟踪与识别,并由人脸表情识别模块识别出表情,语音信号经由语音拾取模块和语音识别模块后识别出语义,所述机器人系统根据人脸的表情和/或语音来了解人的需求,然后通过知识查询模块来形成会话语句,再通过语音生成模块生成语音与人进行交流。2、根据权利要求1所述的^i舌机器人系统,其特征在于还包括3D虚拟人模拟模块,所述3D虚拟人模拟模块在机器人系统生成语音的同时模拟出人的表瞎及口型。3、根据权禾腰求l所述的^i刮几器人系统,其特征在于还包括手势识别l對央。4、根据权利要求3臓的射刮几器人系统,其特征在于还包括手势生鹏块。5、根据权利要求1或4所述的^S机器人系统,其特征在于所述摄像头的个数为2个。6、根据权利要求5所述的統机器A^统,其特征在于所述摄像头共有5个自由度。全文摘要本发明公开了一种会话机器人系统,其摄像头所捕获的人脸图像由人脸跟踪与识别模块进行跟踪与识别,并由人脸表情识别模块识别出表情,语音信号经由语音拾取模块和语音识别模块后识别出语义,所述机器人系统根据人脸的表情和/或语音来了解人的需求,然后通过知识查询模块来形成会话语句,再通过语音生成模块生成语音与人进行交流。该会话机器人系统具有语音识别和理解能力,能够听懂用户的指令,可以应用于学校、家庭、宾馆、公司、机场、车站、码头、会议等地进行教育、聊天、会话、咨询等;此外,它还可以为用户提供宣传介绍、来访接待、办事查询、文秘服务、外语翻译等。文档编号G06N3/00GK101187990SQ20071003251公开日2008年5月28日申请日期2007年12月14日优先权日2007年12月14日发明者肖南峰申请人:华南理工大学