一种东巴文释读数据库建立方法
【技术领域】
[0001] 本发明设及一种文字释读数据库建立方法,特别是关于一种东己文释读数据库建 立方法。
【背景技术】
[0002] 纳西族东己象形文被国际学界认为是当今世界上唯一还在使用的象形文字,至今 仍在被在世的东己祭司使用,用其主持各种仪式,写信、记账等。东己经典的核屯、是崇尚自 然,追求人与自然和谐统一,多元文化和谐共处。东己经典内容设及哲学、历史、宗教、医学、 天文、地理、民俗、动植物、军事、文学和艺术等领域,堪称纳西族古代社会的百科全书。
[0003] 东己文字字少意繁,文字的形、音、义都极其复杂,往往一字多形、多音、多义,也有 异形同义的。书写系统与一字一个音节不同,无法单从语音角度识别,其基本表达单位不局 限于语素一级,有时包括音节、句子,还需要借助记忆。自古W来,东己经典文化的传承自古 W来都是W东己家族内部口传屯、授的形式进行的,目前还能释读东己象形文字的人只是几 位年逾古稀的老东己祭司。
[0004] 该象形文字具有独特的图形、发音及释读方式,东己象形文字释读的图形数字化、 语音数字化及内容数字化具有明显的复杂性、不确定性,W及东己象形文在图形识别、语音 辨识、内容释读W及形、音、义信息及其共轨信息等方面,现有的英文、汉字等识别系统及翻 译系统不能适用。我国研究人员及后继人才稀少,保存机构分散,保管条件恶劣,编研工作 受限,抢救手段落后,缺乏经费支持,抢救及保护已迫不容缓。
【发明内容】
[0005] 针对上述问题,本发明的目的是提供一种东己文释读数据库建立方法,其有效解 决了东己象形文字释读数字化的难题。
[0006] 为实现上述目的,本发明采取W下技术方案;一种东己文释读数据库建立方法, 其特征在于,所述建立方法包括W下步骤;1)对现有东己文化资料进行采集并建立图形 模板库、音频模板库和视频模板库;2)根据图形模板库、音频模板库和视频模板库建立释 读数据库,释读数据库包括词意数据库、句意数据库和事件数据库;词意数据库;提取现 有东己经典中的东己象形文字作为标准字模,采用化icode对每个字符进行编码,并利用 TrueType方法建立东己象形文标准模板库;将东己象形文标准模板库中的文字已有释读 资料进行整理录入;句意数据库包括句意编码、东己语句、对应汉语、语句含义、分类、图形 代码、音频代码和视频代码;事件数据库包括事件名称代码、事件名称、分类、事件内容、图 形代码、音频代码和视频代码;其中内容分类包括;哲学、历史、宗教、医学、天文、地理、民 俗、动植物、军事、文学和艺术;3)将词意数据库、句意数据库、事件数据库进行融合,融合 后与释读知识库连接,释读知识库根据规则对=种释读数据库进行释读内容的组合,并利 用推理引擎促进释读知识库与=种释读数据库的融合,完成释读数据库的建立。
[0007] 所述步骤1)中,所述图形模板库是将通过数码照相机和扫描仪采集的东己经典 古籍资料图片进行图像处理,保存为JPG格式文件;所述图形模板库内包括唯一图形代码、 标准字形、异形字;其中所述图形模板库中的图形内容有东己文字、东己语句和东己事件。 [000引所述步骤1)中,所述音频模板库是采用音频编辑软件对通过录音设备获取的高 采样频率音频资源进行剪辑,保存为mp3格式文件,高采样频率为320化/s;所述音频模版 库内包括唯一音频代码、音频存储路径和纳西音标;其中音频模板库中的音频内容包括东 己文字、东己语句和东己事件。
[0009] 所述步骤1)中,所述视频模板库是将采集到的东己经典古籍资料的视频资源进 行剪辑,加载解说音频、解说字幕或配乐,保存为wmv格式文件;所述视频模版库内包括唯 一视频代码和视频存储路径;其中所述视频模板库中的视频内容也包括东己文字、东己语 句和东己事件。
[0010] 所述步骤2)中,所述词意数据库的字段包括词意编码、图形代码、对应汉字、分 类、对应英文、翻译员、中文释义、音频代码、纳西音标和视频代码。
[0011] 所述步骤如中,所述规则如下:定义S为规则集,C= {C1、C2...化}为条 件属性集,V= (Vcl,Vc2...Vcn)是条件属性和决策属性的值域,D是决策属性集, (dl,d2,d3. . .dv)为决策值;规则为:如果输入条件属性C1为值域V中的某一值Vcl,那么 决策属性D为对应的决策值dl,即输出满足Vcl时相应字段对应的属性;如果输入两个条 件属性C2、C3,其中C2为值域V中的某一值Vc2,C3为值域V中的某一值Vc3,那么决策属 性D为决策值d2,即输出满足Vc2、Vc3时相应字段对应的属性。
[0012] 所述步骤3)中,所述推理引擎包括W下步骤;(1)匹配;当前求解问题在释读数据 库中的相关事实是否与释读知识库中规则的条件部分相匹配,如果两者匹配,则启用该条 规则,进入步骤(3)按规则的执行操作部分去执行;若同时存在多条规则的条件部分与求 解问题相关事实相匹配,则进入步骤(2) ;(2)冲突消解;预先给所有规则的条件部分设定 优先级,当存在多条规则的条件部分与求解问题相关事实相匹配时,优先启用条件部分优 先级较高的规则;(3)执行操作;执行启用规则的操作部分,经执行操作后,得到新的事实, 将所得新事实送入当前释读数据库。
[0013] 所述步骤3)中,所述词意数据库、句意数据库和事件数据库的融合方法包括W下 步骤;(1)根据词意数据库编码唯一确定一个东己文字,根据东己文字的图形代码、音频代 码、视频代码,同步检索出对应东己文字的图形、音频及视频,呈现出东己文字的内容与含 义;(2)根据词意数据库中的对应汉字W及所属分类,模糊检索句意数据库,捜索出满足同 一分类的东己语句,即根据单独的东己文字匹配出东己语句,从而根据句意数据库中图形 代码、音频代码、视频代码,检索出对应东己语句的图形、音频及视频;(3)根据词意数据库 中的对应汉字W及所属分类,模糊检索事件数据库,捜索出满足同一分类的东己事件名称, 即根据单独的东己文字匹配出东己事件,从而根据事件数据库中图形代码、音频代码、视频 代码,检索出对应东己事件的图形、音频及视频,从而实现词意数据库、句意数据库、事件数 据库的融合。
[0014] 本发明由于采取W上技术方案,其具有W下优点;1、由于东己象形文字具有明显 的复杂性、隐涵性、模糊性、分散性、不确定性,建立东己文释读数据库,该数据库能够提供 东己象形文特有的词意、句意、事件等内涵,为解决东己象形文图形识别、语音辨识、内容释 读W及形音义共轨等提供技术支撑条件。2、本发明建立的数据库能够实现象形文字等复杂 图形、音像w及图形、音像并轨的海量信息的智能捜索与管理,有利于对东己象形文字模板 库中的象形文字进行识别,能够实现数据库自动维护更新;同时也能够实现上述词意数据 库、句意数据库、事件数据库的东己象形文释读内容的组合与规则管理。3、本发明能够实现 多种环境、多种信息类型的自适应信息归类、存储与检索,并为东己经典古籍的数据库、知 识库提供智能化运行及管理的技术支撑;同时也能够实现上述知识库的新规则的自适应植 入、优化及更新。本发明可W广泛在文字释读领域中应用。
【附图说明】
[0015] 图1是本发明的推理引擎流程示意图。
【具体实施方式】
[0016] 下面结合附图和实施例对本发明进行详细的描述。
[0017] 本发明提供一种东己文释读数据库建立方法,其包括W下步骤:
[0018] 1)对现有东己文化资料进行采集并建立图形模板库、音频模板库和视频模板库; 其中:
[0019] 图形模板库是将通过数码照相机和扫描仪采集的东己经典古籍资料图片进行图 像处理,保存为JPG格式文件。图形模板库内包括图形代码(唯一)、标准字形(JPG)、