专利名称:盲人用的汉语智能计算机系统的制作方法
技术领域:
本发明属于模式识别和人工智能技术领域。特别涉及中国盲人使用的智能计算机系统设计。
盲人使用盲文(摸读的点字符号)进行文化学习与信息交流。在一些发达国家中,已经研究出较好的盲人用计算机及其操作平台。英国已研制出盲人用的计算机,其键盘各键是由大小、形状、纹理不一,每键均带有发声机制的多媒体信息交互功能。微软(Microsoft)表示,计划与纽西兰视觉障碍技术厂商Pause Data International合作,开发出可供盲人及视觉障碍者使用的电子书阅读机。台湾、香港等地也有相应的盲文计算机(主要是有盲人点显器)投入市场。价格都很高,一个点显器要4000~5000美元,是一般中国盲人负担不起的。在中国,近年来,为了使盲人能够使用计算机及能够阅读普通文本也作了一些局部的工作,如中国盲文书社在中国残疾人联合会和中国盲人协会的资助支持下,研制出盲文分词连写系统;北京图书馆在Dos操作系统下研究过盲人阅读机,是将印刷体普通汉字文本通过扫描输入计算机进行识别,再将识别的汉字转换成声音由计算机输出;使盲人能够听到普通文本;清华大学自动化系研究过盲人用键盘输入法,用声音帮助选字,及在Dos下的汉字盲文转换。
此外,明眼人的汉字识别、语音识别、语音合成技术已经达到实用或接近实用的水平。但是,目前国际上还没有盲人用的汉语智能计算机系统。
本发明的目的在于克服上述技术的不足,提出了一种盲人用的汉语智能计算机系统,使盲人在使用计算机时充分发挥听、说、摸能力,有选择性地更自然、更方便地操作计算机。与传统的人机信息交互手段相比,该系统采用了多模式的交互方式。用户既可以使用键盘、盲人点显器、显示器等传统的交互方式,也可以同时采用语音以及OCR等新的交互技术。使得交互过程更加人性化、智能化。给盲人文档处理,与正常人交流,盲校教师教学提供了工具。
本发明的盲人用的汉语智能计算机系统由硬件及软件模块构成,如
图1所示;该系统所需硬件主要为计算机主机,其中包括显示器、键盘、声卡、网卡或调制解调器等,普通的能够上网的个人计算机。与该主机各接口相连的麦克风、音箱或耳机、扫描仪(普通平板式的或盲人专用的)、盲人用点显器、打印机(盲人打印机或通用汉字打印机);该系统软件设置在所说主机及相关硬件中。其中主要有OCR模块、盲人键盘输入及编辑模块、语音输入模块,构成三种输入通道;由点显器输出模块、打印机输出模块、语音合成输出模块,构成的三种输出通道;以及连接于所说的各输入通道和输出通道之间的汉盲转换器模块、综合知识库模块、输入接口模块、自然语音识别理解模块、自然语言产生器模块、语音合成器模块、推理系统模块、控制接口模块。
本发明中各模块的功能及实现方法说明如下OCR模块采用已有技术。既可以将明眼人的印刷在纸张上的汉字文本、或刻在纸张上的盲文点字文本通过光学扫描仪送入计算机,进行自动处理,包括对印刷体汉字、手写体汉字、盲文点字的自动识别,将图像文件转换成为电子文本,为阅读(朗读)、编辑等处理提供必要条件。
语音输入对着话筒讲话,将语音信息(控制命令等)送入计算机,采用已有技术。
点显器输出模块将计算机显示的汉字或盲文点字转化成为标准盲文ASCII码,输出到盲人用的点显器,使盲人可以通过摸读,理解计算机正在显示的内容,达到使用计算机并其与交互的目的。
表一盲文ASCII码与盲文点字码的对照表(盲文代码是由左右两排各三个点,从左排自上而下为1、2、3点,从右排自上而下为4、5、6点,统称为点位,盲文代码的二进制值是从左到右依次为1-6点位)
打印机输出模块将计算机待输出的内容输出到盲人打印机或通用汉字打印机,采用已有技术。
语音合成模块、音频输出模块将语句、短语、词或音节变成声音波形,由喇叭或耳机发出声音。采用已有技术。
汉盲转换模块包括汉语盲文到汉字的自动转换和汉字到汉语盲文的自动转换。其中,汉语盲文到汉字的自动转换的实现方法是将盲文书籍扫描后识别盲文,或用键盘将盲文输入后,将盲文通过拼音的概念转换为汉字;所说的拼音与汉字转换的每一个环节,利用汉语盲文综合知识库,在带转移概率权重的拼音到汉字转换搜索图上采用viterbi搜索方法得到N个有序最佳结果,来实现由盲文到汉字的自动转换。
所说的汉语盲文综合知识库包括电子字典、规则库和统计信息库(由统计大规模真实语料得到的邻接词同现概率库)。
上述汉语盲文到汉字的自动转换方法,包括以下具体步骤1)读入未转换文本头部的全部连续非盲文点字符号;2)当前的输入点字符号是否表示非汉字意义,若表示汉字,转步骤4;若表示非汉字,在viterbi搜索图中搜索N-best路径并选择最好路径,得到转换结果,并将开始读入的非盲文点字符号插入到对应位置;3)记录本句的转换结果,记录表示非汉字意义的输入点字符号的转换结果,清空viterbi搜索图,转入步骤5;4)查找当前输入的点字符号能够匹配的所有汉字词候选,并在viterbi搜索图中构造相应结点。
5)判断是否全部转换完毕?若是,输出转换后汉字结果;若不是,转步骤1。
汉字到汉语盲文的自动转换的实现方法是首先根据汉语盲文分词连写规则对汉字文本作盲文分词连写,然后将词转换成盲文;所说的分词,是把一个一个的词分开来写;所说的连写,是根据盲文的特点,按汉语语法、语音的逻辑性和习惯、音节长短适度的原则将一些词连起来写,以避免音节结构过于分散,便于模读。
上述汉字到汉语盲文的自动转换方法具体可包括以下步骤1)首先对非汉语符号进行预切分处理,读入一段连续的汉字串,分别用MM法和RMM法,根据词表进行分词;2)比较MM和RMM分词结果是否相同,相同,记录分词结果,转入步骤1;3)当MM和RMM分词结果不相同时,构造歧义字段的歧义树,搜索最优分词结果,记录分词结果,转入步骤1;判断文本分词是否完毕?若是,按照盲文分词连写规则对分词结果进行修改,生成分词结果对应的盲文点字。
综合知识库模块是汉盲互译时所需的各种知识库,包括(1)盲文电子词典包括汉字(6万词)到盲文的电子词典、盲文(6万词)到汉字的电子词典、汉语分词词典等。
(2)规则库包括汉语盲文分词连写规则、词法规则、短语规则、句法规则等。
(3)统计信息库为了反映汉语上下文关系,用数亿字真实语料统计得到的汉语相邻词同现概率库、词类间连接依存关系统计知识等。
盲人普通键盘输入接口模块盲人用普通计算机键盘通过盲人汉字输入法和盲文输入法输入汉字或盲文点字。采用已有技术。
语音识别模块有两种方式(1)非特定人、连续语音识别,是已有技术。
(2)关键词语音识别将输入语音流中的关键词识别出来,便于说话人语义理解。用于判别盲人发出的各种说法的计算机命令。是已有技术。
自然语言产生模块根据控制交互的内容,如需要语音提示或询问的时候,产生带有语调的、盲人易听懂的汉语语句。目前采用的是根据内容选择事先录好的语音,进行播放。
控制模块是以上几种输入、输出通道之间的总控制。对话管理层是系统的核心部分,它根据一定的对话策略,对整个会话过程进行组织,负责各个模块之间的通讯,根据相应的决策准则做出系统的反应,以使得人机交互在预期效果下正常进行。
控制模块由状态分析器,对话管理器和状态堆栈组成。
状态堆栈中存储的状态包括系统状态和对话状态。系统状态用一定的数据结构,描述当前应用程序模块启动和运行的状况(如程序名,正在进行的操作、操作要求等),同时也包括了正在使用的输入和输出的模式。对话状态反映了当前人机交互进程的状况。由于系统操作命令的形式的限制,对话状态由(env;act;obj;condition)的case-frame表示。
对话管理器通过对对话状态进行分析,做出相应的对话动作,或者完成系统动作,或者进行相应的系统提示。对话管理器采用目前通用的slot-filling算法实现相应的对话策略,用以对对话的进程进行管理和调度。已有技术。
状态分析器负责接受系统的多模式输入,并根据当前的系统状态选择如下动作进行启动对话管理器;启动相应的应用程序模块;向应用程序模块发送消息;下放I/O控制权到应用程序模块。最后状态分析器把输入转换成标准形式放到系统状态堆栈中。已有技术。
本发明可实现下列功能1.本发明输入有三个通道普通键盘输入,OCR输入和语音输入;输出有三个通道语音输出,打印输出和点显器输出。输入和输出可组合以下几种方式1)盲文计算机输入,汉字文本输出(点显器输出、显示器输出、打印机输出)。在语音提示帮助下将已有盲文纸面上的文档由OCR转换器成电子版文档、或由键盘输入及编辑盲文文档,通过盲汉转换功能将其转换成为汉字文档。由普通打印机或显示器输出。所用模块和顺序为OCR转换、输入接口、盲汉转换器、自然语音理解、语音识别、语音合成、语言生成、综合知识库、控制接口、打印机输出。(盲人与明眼人交互用)2)盲文计算机输入,盲文文本输出(打印机输出)。在语音提示帮助下将已有盲文纸面上的文档由OCR转换器成电子版文档、或由键盘输入及编辑盲文文档。直接由盲文打印机或点显器输出。所用模块和顺序为OCR转换、输入接口、控制接口、自然语言理解、语音识别、语音合成、语言生成、点显器输出、盲文打印机输出。(盲人与盲人交互用)3)汉字文本输入,盲文输出(点显器输出、打印机输出。在语音提示帮助下将已有汉字纸面上的文档由OCR转换器成电子版文档、或由键盘输入及编辑汉字文档,通过汉盲转换功能将其转换成为盲文文档。由盲文打印机或点显器输出。所用模块和顺序为OCR转换、输入接口、控制接口、汉盲转换、自然语言理解、语音识别、语音合成、语言生成、点显器输出、综合知识库、盲文打印机输出。(注盲人教学和盲文出版用)4)汉字文本输入,汉字输出(显示器、打印机输出)。在语音提示帮助下将已有汉字纸面上的文档由OCR转换器成电子版文档、或由键盘输入及编辑汉字文档。直接由普通打印机或显示器输出。所用模块和顺序为OCR转换、输入接口、控制接口、自然语言理解、语音识别、语音合成、语言生成、打印机输出。(盲人与明眼人交互用)2.盲文汉字自动转换功能将盲文文档自动转换成为汉字文档。所用模块为盲汉转换、综合知识库。
3.汉字盲文自动转换功能将汉字文档自动转换为盲文文档。所用模块为汉盲转换、综合知识库。
4.盲人听读汉字文本(小说、杂志、报纸、汉字信件),所用模块和顺序为OCR转换、控制接口、语音识别、语音合成、语言生成、自然语言理解。
5.盲人用电子邮件管理器盲人可收、发电子邮件,并朗读收到的邮件及撰写的邮件。涉及盲人语音导航、盲文点字或汉字输入及汉字文本输出、文档朗读功能。所用模块为输入接口、语音识别、自然语音理解、推理系统、控制接口、自然语言产生、语音合成、汉盲转换、综合知识库、自然语音理解、点显器输出、打印机输出。
6.盲人用浏览器盲人浏览网络上的各种信息。要用到盲人语音导航、盲人计算机输入及汉字文本输出、盲人听汉字文本的朗读的功能。所用模块为输入接口、语音识别、自然语音理解、推理系统、控制接口、自然语言产生、语音合成、汉盲转换、综合知识库、自然语音理解、点显器输出、打印机输出。
7.盲文文件管理器以命令条的方式帮助盲文管理查询文件。所用模块为输入接口、推理系统、控制接口、自然语言产生、语音合成、汉盲转换、综合知识库、自然语音理解。
8.盲人语音导航盲人能够自如地使用计算机及网络。凡是菜单和热键可控制的命令全部可以用口呼命令代替,同时可以口呼关闭鼠标、关闭语音输入等命令。所用模块和顺序为语音识别、自然语音理解、推理系统、控制接口、自然语言产生、语音合成。
本发明的特点在于具有多种交互方式,可根据经济情况和需要选择各自的硬件配置,在使用计算机时充分发挥盲人的听、说、摸能力。使盲人可以有选择性地更自然、更方便地操作计算机。与传统的人机信息交互手段相比,该系统采用了多模式的交互方式。用户既可以使用键盘、鼠标、盲人点显器、显示器等传统的交互方式,也可以同时采用语音以及OCR等新的交互技术。使得交互过程更加人性化、智能化。给盲人文档处理,与正常人交流,盲校教师教学提供了工具。
附图简要说明图1为本发明的盲人计算机系统构成示意图。
图2为本发明的实施例盲文点字输入示意图。
图3为本实施例盲人编辑器示意图。
图4为本实施例盲人用电子邮件管理器示意图。
图5为本实施例盲人用浏览器示意图。
本发明提出的一种盲人用的汉语智能计算机系统结合各附图及实施例说明如下本发明提出的一种实施例是盲人用的最小系统,其硬件包括普通的能够上网的个人计算机,基本硬件配置要求CPU相当Intel Pentium Ⅱ 400以上,内存128M以上,硬盘4G以上,声卡、话筒、喇叭或耳机及一般计算机所需基本配置。基本软件包括操作系统Microsoft Windows9x或Windows 2000。
本实施例各部分的组成及工作过程详细说明如下1.键盘输入可有两种方式(1)盲文点字输入国际标准盲文键盘,用FDS,JKL六个键分别对应盲文一方,即从左到右,从上到下的六个点。顺序先左边3个点,从上到下,后右边3个点,从上到下。输入的过程中有语音输入提示,使得盲人知道自己击下的是哪几个键,发什么音。
(2)汉语拼音输入法可以选择西文、字词全拼、字词双拼等。输入的过程中有语音输入提示,使得盲人知道自己击下的是哪个键,发什么音。可以通过语音提示选择多音字的候选。
打开或新建一个盲文文件,即能够输入盲文点子。打开或新建一个汉字文件,即能够输入普通汉字。
特点是除每一个操作都有语音提示或回应之外,在输入盲文的同时可以得到相应的汉语转换内容,如图2所示,便于明眼人(如教师)校对盲文文稿;盲人与明眼人的文字交流。
2.朗读汉字文本对已得到的汉字电子文档,以语音合成方法进行朗读。打开汉字文件,选择菜单项中“语音朗读”,便可开始汉字文本的朗读,再次选择该菜单项将停止朗读。除此之外还可以对当前光标所在菜单栏中的菜单进行自动朗读。
特点是盲人不但可以听读电子版汉字文档,同时也可以通过OCR转换功能阅读各种形式,如光盘、图书等存储的汉字文档。
3.语音导航该系统采用关键词确认技术来实现语音导航。因此,在发出一项命令时可以用各种相近、较含糊的语句。例如用户想打开文件al.txt,他可能会说1) 打开文件al.txt2) 把文件al.txt打开3) 打开al.txt4) 把al.txt打开这四种说法含意完全相同,但作为语音输入的信号就有很大不同,观察这些说法可看出它们的共同点是都有一个动词一“打开”,都带一个逻辑意义的宾语-“文件名”。对于拷贝、删除等说法也存在相似的问题。该系统找出语音输入中关键的动词及其重要属性之一的宾语,来完成对用户输入命令的识别和确认。关键词确认系统一般用在非特定人、连续语音的情况。采用基于HMM框架的关键词确认方法,其原理为首先将输入的语音流分段,每段相应与一个句子或一个句子长度相当地语音段落。然后,在每一段中搜寻并确定是否有关键词,如果有关键词还须确定是哪一个关键词。系统的输入由关键词输入和关键词表外语音组成,后者称为垃圾,可以包括非关键词、非话语(嘬嘴声、呼吸声等)和背景噪声三部分。系统对于每一个关键词建立一套HMM模型,同理对垃圾也要建立若干套HMM。任何一段输入语音的特征矢量序列用Viterbi算法求出与该序列对应的状态序列,如果经历的状态中有属于关键词者,即可检出对应的关键词。
4.语音系统控制。其特点是用语音导航将几个盲人专用子系统集成在一起。判断目前系统所处的工作状态,根据工作环境的分析语音命令进行适当的操作。凡是菜单和热键可控制的命令全部可以用口呼命令代替。同时可以口呼关闭鼠标,关闭语音输入等命令。(用特定键控制语音输入开始,以避免噪声干扰)语音导航不仅将多个盲人用子系统集成在一起,同时给这些软件提供了方便友好的交互方式,使得盲人能够更加自如地使用计算机、网络等现代技术,投身到信息化社会之中。
5.盲人编辑器及盲文打印输出盲人编辑器是方便盲人使用的编辑器,它必须具有一般编辑器的基本功能,并提供恰当地语音交互功能。该编辑器是基于键盘控制的,即盲人通过键盘来控制当前的工作状态。盲人用盲文点字输入法和汉语输入法是盲人编辑器的一个不可缺少的组成部分(如前述)。编辑器的设计方法是在输入过程中,输入结束后,或打开某电子文档后,盲人通过语音提示可得知当前光标位置,以第几行第几列标记。盲人可在语音的帮助下,听读、编辑、修改文档,如删除、加入、复制文字、段落等。遇到同音字不能辨认时,盲人可以运用解释功能,通过词组分辨是哪一个同音字如红,发音Hong,查字义时,计算机将用语音告知用户红,红旗的红;红色的红。同样洪,发音Hong,将被告知,洪,洪水的洪。如果需要通过汉英字典可得到该词的英文翻译;如果是英文,可以读出、如需要可通过英汉字典解释该英文的中文意思。最后,盲人可以选择连续朗读,听读全文内容。所以,盲人编辑器的核心功能是状态控制,在不同的状态下可操作的功能不同,如,文件管理状态下不能随意删除,光标离开文件操作区,提示或帮助用户返回;朗读;键盘或语音控制,通过各种键盘操作或语音输入的命令,帮助用户完成文档听读、理解、撰写的任务。如图3所示。
1)状态控制监视光标当前位置,避免系统执行非法操作。
2)朗读报告当前光标位置(第几行、第几列);朗读光标左侧字母或汉字,光标右侧字母或汉字;必要时可对汉字进行解释,对中、英文词进行解释、翻译从当前位置连续读出,停止。
3)自动朗读完成光标左移时自动读,光标右移时自动读,光标上下移时自动读右边,光标上下移时自动读左边。
本系统可以直接连接盲文打印机,如瑞典Sweden的Index Embossers公司的INDEX BRAILLE系列产品,对当前盲文电子文档进行盲文点字打印。
6.盲人用电子邮件管理器如图4所示。
在语音控制下,在普通电子邮件管理器中加入语音导航、语音朗读、盲汉、汉盲转换功能。本盲人用电子邮件管理器可完成撰写、收发电子邮件、建立通讯簿等通用电子邮件管理器的基本功能。可为盲人朗读收到、撰写的邮件。盲人用户依靠语音与系统交互完成收、发电子邮件的操作。例如计算机通过声音告知用户“您有新邮件”;询问“您收邮件吗?”、“要朗读邮件吗?”;提示“请输入收信人地址”,“请输入信件主题”等。每一个操作后都有相应的语音应答或语音提示。
7.盲人用浏览器如图5所示。
在语音控制下,在普通浏览器中加入语音导航、语音朗读、OCR转换、盲汉、汉盲转换功能。本盲人用浏览器可完成查询、阅读等通用浏览器的基本功能。可为盲人朗读网页内容。人用户依靠语音与系统交互完成关键词、网址输入、查询等操作。例如计算机通过声音告知用户“您已到达某某网页”;询问“您想查询什么?”;提示“请输入关键词”,“请输入网址”等。到达指定网页后,按照网页排列顺序,朗读网也内容。可以通过键盘跳过过结束朗读。
8.智能推理功能这个面向盲人的人机信息交互系统,属于中等规模,应用领域的主题是计算机的各种常见操作和简单信息查询。由于主要供盲人使用,所以实时性要求较好,使用的友好程度较高。考虑到这些因素,采取基于格语法的语义描述体系和基于鲁棒模式匹配的分析算法。以格框架(Case Frame)的形式对话语内容进行语义表示,一个格框架包括一个概念及其相关的属性(即槽),用递归转移网络(Recursive TransitionNetworks,RTN)对这些槽的可能的语言形式进行描述。在分析时,使用自上而下的RTNchart(图表)分析算法对句子进行匹配,如输入句子出现了系统词典之外的词语,予以滤去不做分析,对于输入中不合语法的成分,分析时直接跳过,搜寻可以构成概念的片断(即有意义的短语)。进行Viterbi beam的搜索,根据一定的评价标注得到最后分析的结果。由分析出的短语映射成语义框架,这样就对于句子得到了一个或几个这样的格框架表示。对交互内容进行动态分析,并实时更新系统状态。
同时系统及时作出主题预测,预计用户下一个动作,优化知识库搜索算法。分析用户的需求,指定并执行不同的交互策略。根据用户的过去行为以及当前行为进行预测与诱导,加快系统搜索功能的实现,避免口呼命令的识别与解释等错误使系统进入死循环。
本发明建立了具有十几个汉盲互译所需的综合知识库,首次将汉语自然语言理解的理论应用于盲文自动处理技术中,完成了一个汉语盲汉、汉盲自动转换,集盲文汉文输入编辑、盲人用电子邮件收、发管理、语音系统控制于一体的面向中国盲人的智能计算机系统。将人工智能知识表示和推理,主题预测,内容分析等理论应用于系统状态分析,使其具有一定的语音人机交互功能,并可利用人机对话,系统对用户进行提示诱导,方便用户操作。
权利要求
1.一种盲人用的汉语智能计算机系统,由硬件及软件模块构成,其特征在于,所说的硬件主要由显示器、键盘、声卡、网卡或调制解调器,普通的能够上网的个人计算机组成的主机,与该主机各接口相连的麦克风、音箱或耳机、扫描仪、盲人用点显器、打印机;所说的软件模块包括OCR模块、盲人键盘输入及编辑模块、语音输入模块,构成三种输入通道;由点显器输出模块、打印机输出模块、语音合成输出模块,构成的三种输出通道;以及连接于所说的各输入通道和输出通道之间的汉盲转换器模块、综合知识库模块、输入接口模块、自然语音识别理解模块、自然语言产生器模块、语音合成器模块、推理系统模块、控制接口模块;该全部软件模块设置在所说主机及相关硬件中。
全文摘要
本发明属于模式识别和人工智能技术领域。主要由能够上网的个人计算机主机,与该主机各接口相连的麦克风、音箱或耳机、扫描仪、盲人用点显器、打印机组成的硬件及设置在所说主机及相关硬件中的软件模块构成。本发明使盲人在使用计算机时充分发挥听、说、摸能力,有选择性地更自然、更方便地操作计算机。使得交互过程更加人性化、智能化。给盲人文档处理,与正常人交流,盲校教师教学提供了工具。
文档编号G06F17/00GK1323003SQ01129619
公开日2001年11月21日 申请日期2001年6月22日 优先权日2001年6月22日
发明者朱小燕, 郝宇, 马少平, 姜哲, 金奕江, 夏莹, 黄民烈, 张显, 宝塔 申请人:清华大学