一种谚文数据库、构建方法及谚文数据库检索系统的制作方法

文档序号:6520289阅读:324来源:国知局
一种谚文数据库、构建方法及谚文数据库检索系统的制作方法
【专利摘要】本发明公开了一种谚文数据库、构建方法及谚文数据库检索系统,谚文数据库的建立方法包括步骤:S1、按照谚文类别构建数据表,具体包括书库数据表、卷次库数据表、句子库数据表、被释词库数据表、左音音库数据表、右音音库数据表、字库数据表、单字库数据表;S2、根据各类别谚文的属性在相应数据表中设置谚文属性字段,并选取字段为数据表之间建立索引;S3、将谚文源文档转换为谚文电子数据;S4、将谚文电子数据按照类别分别导入相应的数据表中,由此生成谚文数据库。实施本发明可检索到谚文电子数据中句子、汉字、谚文注音、谚文注释、音韵地位、声调标点等详细信息,进而利用这些成果对近代汉语或韩语的语音系统进行历时和共时的分析和讨论。
【专利说明】一种谚文数据库、构建方法及谚文数据库检索系统
【技术领域】
[0001]本发明属于汉语及韩语资讯处理【技术领域】,更具体地,涉及一种谤文数据库、构建 方法及谤文数据库检索系统。
【背景技术】
[0002]韩字是由朝鲜王朝第四代君主世宗大王于1443年通过《训民正音》创制而成,用 韩字写成的文章称为“谤文”。在此之前,韩语只以口语形式存在,朝廷、文武两班等统治阶 级书写使用汉字。为了方便本国人学习汉语,在朝鲜产生了用韩字对汉字注音和翻译的各 种对音韵书、辞书及汉语教科书,如:《东国正韵》、《四声通解》、《译语类解》、《老乞大》、《朴 通事》等。这些对音文献为研究同时代汉语语言系统及韩语语言系统提供了非常重要的资 料。
[0003]目前,对音韵书、辞书及汉语教科书的研究主要是通过对纸本进行统计查阅。由 于上述书目前后跨越近三百年,其中的句子、汉字、谤文注音、声调标点及谤文注释均随当 时汉语的变化而发生变化,很难进行全面系统的比较研究。因此开发一套能够涵盖句子、 汉字、谤文注音、声调标点、谤文注释的谤文数据库及使用该数据库进行谤文检索的检索系 统,可为综合研究16世纪-18世纪近代汉语的语音、声调、词汇、语法乃至同时代韩语的发 展变化提供一种方便、快捷、有效的工具。

【发明内容】

[0004]针对现有技术的以上缺陷或改进需求,本发明提供了一种谤文数据库、构建方法 及谤文数据库检索系统,其目的在于将谤文源文档转化为可进行文本查找的谤文电子数 据,使得用户可以检索到谤文电子数据中句子、汉字、谤文注音、谤文注释、音韵地位、声调 标点等详细信息,利用这些成果对近代汉语或韩语的语音系统进行历时和共时的分析和讨 论,由此解决目前难以对谤文音韵书、辞书及汉语教科书进行全面系统研究的技术问题。
[0005]本发明解决其技术问题所采用的技术方案是,提供一种建立谤文数据库的方法, 所述方法包括以下步骤:
[0006]S1、按照谤文类别构建数据表,具体包括书库数据表、卷次库数据表、句子库数据 表、被释词库数据表、左音音库数据表、右音音库数据表、字库数据表、单字库数据表;
[0007]S2、根据各类别谤文的属性在相应数据表中设置谤文属性字段,并选取字段为数 据表之间建立索引;
[0008]S3、将谤文源文档转换为谤文电子数据;
[0009]S4、将所述谤文电子数据按照类别分别导入相应的数据表中,由此生成谤文数据库。
[0010]在本发明所述的建立谤文数据库的方法中,所述数据库数据表包含所述谤文电子 数据的书名号、书名、作者、成书年代、所据底本、收录源字段信息,所述卷次库数据表包含 所述谤文电子数据的卷号、书名号、卷次字段信息,所述句子库数据表包含所述谤文电子数据的句号、卷号、页码、正文带页码及颜色标记、正文、中文句子、谤文注释、句子备注字段信 息,所述被释词库数据表包含所述谤文电子数据的被释词号、句号、汉字号、
[0011]被释词号、汉字备注、谤文左音、谤文左音备注、谤文左点、谤文左点备注、谤文左 音标号、谤文右音、谤文右音备注、谤文右点、谤文右点备注、谤文右音标号、汉字左点、汉字 左点备注、汉字右点、汉字右点备注字段信息,所述左音音库数据表包含所述谤文电子数据 的左首标号、谤文左首、谤文左首转与、左首声母、左首韵母、左首尾首字段彳目息,所述右首 音库数据表包含所述谤文电子数据的右音标号、谤文右音、谤文右音转写、右音声母、右音 韵母、右音尾音字段信息,所述字库数据表包含所述谤文电子数据的汉字号、字Unicode、被 释汉字字段信息,所述单字库数据表包含所述谤文电子数据的单字号、字Unicode、字字段 信息,所述音韵地位库数据表包含所述谤文电子数据的字Unicode、字音号、字、音书、反切 上字、反切下字、摄、韵、呼、等、调、纽字段信息。
[0012]在本发明所述的建立谤文数据库的方法中,所述书库数据表与所述卷次库数据表 之间通过“书名号”建立索引;所述卷次库数据表与所述句子库数据表之间通过“卷号”建 立索引;所述句子库数据表与所述被释词库数据表之间通过“句号”建立索引;所述被释词 库数据表与所述左音音库数据表之间通过“谤文左音标号”建立索引;所述被释词库数据表 与所述右音音库数据表之间通过“谤文右音标号”建立索引;所述被释词库数据表与所述字 库数据表之间通过“汉字号”建立索引;所述字库数据表与所述单字库数据表之间通过“字 Unicode”建立索引;所述单字库数据表与所述音韵地位库数据表之间通过“字Unicode”建 立索引。
[0013]相应地,本发明还提供一种由所述建立谤文数据库的方法构建的谤文数据库。
[0014]相应地,本发明还提供一种谤文数据库检索系统,所述系统包括:
[0015]输入模块,用于输入检索命令;
[0016]与所述输入模块相连的检索模块,用于接受所述检索命令并根据所述检索命令进 行检索以获取谤文数据库中的谤文电子数据信息,并控制输出模块输出查询检索结果;
[0017]与所述检索模块相连的,用于存储谤文电子数据的谤文数据库,所述谤文数据库 由按照谤文类别构建的数据表生成,具体包括书库数据表、卷次库数据表、句子库数据表、 被释词库数据表、左音音库数据表、右音音库数据表、字库数据表、单字库数据表,根据各类 别谤文的属性在相应数据表中设置谤文属性字段,并选取字段为数据表之间建立索引;
[0018]与所述检索模块相连的,用于输出检索结果的输出模块。
[0019]在本发明所述的谤文数据库检索系统中,所述系统还包括与所述谤文数据库相连 的用于将谤文源文档转换为所述谤文电子数据的数据转换模块,与所述数据转换模块相连 的用于在所述谤文源文档发生变化时更新所述谤文数据库中的谤文电子数据的数据更新 模块。
[0020]在本发明所述的谤文数据库检索系统中,所述书库数据表包含所述谤文电子数据 的书名号、书名、作者、成书年代、所据底本、收录源字段信息,所述卷次库数据表包含所述 谤文电子数据的卷号、书名号、卷次字段信息,所述句子库数据表包含所述谤文电子数据的 句号、卷号、页码、正文带页码及颜色标记、正文、中文句子、谤文注释、句子备注字段信息, 所述被释词库数据表包含所述谤文电子数据的被释词号、句号、汉字号、被释词号、汉字备 注、谤文左音、谤文左音备注、谤文左点、谤文左点备注、谤文左音标号、谤文右音、谤文右音备注、谤文右点、谤文右点备注、谤文右音标号、汉字左点、汉字左点备注、汉字右点、汉字右 点备注字段信息,所述左音音库数据表包含所述谤文电子数据的左音标号、谤文左音、谤文 左音转写、左音声母、左音韵母、左音尾音字段信息,所述右音音库数据表包含所述谤文电 子数据的右音标号、谤文右音、谤文右音转写、右音声母、右音韵母、右音尾音字段信息,所 述字库数据表包含所述谤文电子数据的汉字号、字Unicode、被释汉字字段信息,所述单字 库数据表包含所述谤文电子数据的单字号、字Unicode、字字段信息,所述音韵地位库数据 表包含所述谤文电子数据的字Unicode、字音号、字、音书、反切上字、反切下字、摄、韵、呼、 等、调、纽字段信息。
[0021]在本发明所述的谤文数据库检索系统中,所述书库数据表与所述卷次库数据表之 间通过“书名号”建立索引;所述卷次库数据表与所述句子库数据表之间通过“卷号”建立 索引;所述句子库数据表与所述被释词库数据表之间通过“句号”建立索引;所述被释词库 数据表与所述左音音库数据表之间通过“谤文左音标号”建立索引;所述被释词库数据表与 所述右音音库数据表之间通过“谤文右音标号”建立索引;所述被释词库数据表与所述字 库数据表之间通过“汉字号”建立索引;所述字库数据表与所述单字库数据表之间通过“字 Unicode”建立索引;所述单字库数据表与所述音韵地位库数据表之间通过“字Unicode”建 立索引。
[0022]因此,本发明可以获得以下的有益效果:将谤文源文档进行数字化处理转换为谤 文电子数据,方便进行输入、查找和更新;将谤文源文档中的声母、韵母、尾音按照国际音标 转写表转写,方便了谤文数据库的建立以及谤文电子数据的查询;将谤文电子数据按照类 别分别导入到书库数据表、卷次库数据表、句子库数据表、被释词库数据表、左音音库数据 表、右音音库数据表、字库数据表、单字库数据表中,便于分类查询;为每一个数据表建立多 个用于描述该数据表的字段,通过查询检索命令可检索到谤文电子数据中的句子、词语、汉 字、汉字谤文注首左首、汉字谤文注首右首、左首国际首标、右首国际首标、汉字首韵地位等 详细信息。
【专利附图】

【附图说明】
[0023]下面将结合附图及实施例对本发明作进一步说明,附图中:
[0024]图1是本发明一个实施例的建立谤文数据库的方法流程图;
[0025]图2是本发明图1所述实施例的数据库结构框图;
[0026]图3是本发明图1所述实施例的数据库可视关系图;
[0027]图4是本发明一个实施例的谤文数据库检索系统的结构框图。
【具体实施方式】
[0028]为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对 本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并 不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要 彼此之间未构成冲突就可以相互组合。
[0029]图1是本发明一个实施例的建立谤文数据库的方法流程图。如图1所示,本发明 建立谤文数据的方法包括以下步骤:[0030]S1、按照谤文类别构建数据表,具体包括书库数据表、卷次库数据表、句子库数据 表、被释词库数据表、左音音库数据表、右音音库数据表、字库数据表、单字库数据表;
[0031]S2、根据各类别谤文的属性在相应数据表中设置谤文属性字段,并选取字段为数 据表之间建立索引;
[0032]S3、将谤文源文档转换为谤文电子数据;
[0033]S4、将谤文电子数据按照类别分别导入相应的数据表中,由此生成谤文数据库。
[0034]在本实施例中,以《翻译老乞大》、《翻译朴通事》、《老乞大谤解》、《朴通事谤解》、《老 乞大新释谤解》、《朴通事新释谤解》及《重刊老乞大谤解》七本书(以下简称谤译《老朴》)作 为本实施例中进行数据库构建的源文档。
[0035]图2是图1所述实施例的数据库结构框图。如图2所示,数据库包括书库数据表、 卷次库数据表、句子库数据表、被释词库数据表、左音音库数据表、右音音库数据表、字库数 据表、单字库数据表。步骤SI中,数据表的建立依据语言学结构,按照谤文类别进行构建, 便于进行分类查询。
[0036]步骤S2中,根据各类别谤文的属性在相应数据表中设置谤文属性字段,其中,书 库数据表包含上述七本书的基本信息,具体为包含谤文电子数据的书名号、书名、作者、成 书年代、所据底本、收录源字段信息;
[0037]卷次库数据表包含七本书的所有卷次信息,具体为包含谤文电子数据的卷号、书 名号、卷次字段信息;
[0038]句子库数据表包含七本书的所有句子信息,具体为包含谤文电子数据的句号、卷 号、页码、正文带页码及颜色标记、正文、中文句子、谤文注释、句子备注字段信息;
[0039]被释词库数据表包含句子库里每句话中所含每个汉字的信息(重复汉字需反复记 录),具体为包含谤文电子数据的被释词号、句号、汉字号、被释词号、汉字备注、谤文左音、 谤文左音备注、谤文左点、谤文左点备注、谤文左音标号、谤文右音、谤文右音备注、谤文右 点、谤文右点备注、谤文右音标号、汉字左点、汉字左点备注、汉字右点、汉字右点备注字段 信息;
[0040]左音音库数据表包含七本书的所有汉字左音谤文注音信息,具体为包含谤文电子 数据的左音标号、谤文左音、谤文左音转写、左音声母、左音韵母、左音尾音字段信息;
[0041]右音音库数据表包含七本书的所有汉字右音谤文注音信息,具体为包含谤文电子 数据的右音标号、谤文右音、谤文右音转写、右音声母、右音韵母、右音尾音字段信息;
[0042]字库数据表包含七本书中所有汉字的信息(重复汉字只记录一次,但同字异书、难 写字分别记录),具体为包含谤文电子数据的汉字号、字Unicode、被释汉字字段信息;
[0043]单字库数据表包含七本书中所有汉字的信息(重复汉字只记录一次),具体为包含 谤文电子数据的单字号、字Unicode、字字段信息;
[0044]音韵地位库数据表包含单字库里所有汉字的音韵地位信息,具体为包含谤文电子 数据的字Unicode、字音号、字、音书、反切上字、反切下字、摄、韵、呼、等、调、纽字段信息。
[0045]图3是图1所述实施例的数据库可视关系图。本实施所述方法的步骤S2中,选择 字段名称为数据表之间建立索引。如图3所示,书库数据表与卷次库数据表之间通过“书 名号”建立索引;卷次库数据表与句子库数据表之间通过“卷号”建立索引;句子库数据表 与被释词库数据表之间通过“句号”建立索引;被释词库数据表与左音音库数据表之间通过“谤文左音标号”建立索引;被释词库数据表与右音音库数据表之间通过“谤文右音标号”建立索引;被释词库数据表与字库数据表之间通过“汉字号”建立索引;字库数据表与单字库数据表之间通过“字Unicode”建立索引;单字库数据表与音韵地位库数据表之间通过“字 Unicode”建立索引。
[0046]本实施所述方法的步骤S3中,将上述谤译《老朴》源文档共计75万5千余字完整数字化即全部转换为可进行文本查找的谤文电子数据。在源文档数字化的过程中,对谤译 《老朴》的声母、韵母及韵尾国际音标转写采用如下方式:
[0047]I)送气音的转写标志,根据最新版的国际音标,本实施例中使用“h”表示送气音。
[0048]2)由于谤译《老朴》的了组和T组字母区分不严谨,即不分左右腿长短,为了能够比较客观地地反映7组和歹组字母注音的原始信息,本实施例中把左右腿不分长短的 “入六人XXAA’,注成“t§ tsh S dw”以作区別。“入天人,,与腭介音的二等、三等、四等结合时,注成“te tehe”。
[0049]3)谤文字母不同而韵尾相同的国际音标后面,采用阿拉伯数字加以区别,这样的做法是为了方便数据库各种关系的建立,能够通过一种国际音标转写迅速找到对应的谤文。比如:暂uai]和uaq2,这两个字是同字异书,区别在于尾音,一个尾音是‘O”,另一
个尾音是“ o ”,两个尾音的国际音标都是“q”,为了方便将来查找,把“ o ”的国际音标用
^表示以作区别。
[0050]4) “一、”用“~],,标注,“[”用“~V,标注。
[0051]本实施例中将谤文源文档(谤译《老朴》)中的声母、韵母、尾音的谤文读音按照相应的转写表转写为谤文数据库中的声母、韵母、尾音的国际音标读音,所述转写表如下:
[0052]`
【权利要求】
1.一种建立谤文数据库的方法,其特征在于,所述方法包括以下步骤:51、按照谤文类别构建数据表,具体包括书库数据表、卷次库数据表、句子库数据表、被释词库数据表、左音音库数据表、右音音库数据表、字库数据表、单字库数据表;52、根据各类别谤文的属性在相应数据表中设置谤文属性字段,并选取字段为数据表之间建立索引;53、将谤文源文档转换为谤文电子数据;54、将所述谤文电子数据按照类别分别导入相应的数据表中,由此生成谤文数据库。
2.如权利要求1所述的建立谤文数据库的方法,其特征在于,所述书库数据表包含所述谤文电子数据的书名号、书名、作者、成书年代、所据底本、收录源字段信息,所述卷次库数据表包含所述谤文电子数据的卷号、书名号、卷次字段信息,所述句子库数据表包含所述谤文电子数据的句号、卷号、页码、正文带页码及颜色标记、正文、中文句子、谤文注释、句子备注字段信息,所述被释词库数据表包含所述谤文电子数据的被释词号、句号、汉字号、被释词号、汉字备注、谤文左音、谤文左音备注、谤文左点、谤文左点备注、谤文左音标号、谤文右音、谤文右音备注、谤文右点、谤文右点备注、谤文右音标号、汉字左点、汉字左点备注、汉字右点、汉字右点备注字段信息,所述左音音库数据表包含所述谤文电子数据的左音标号、 谤文左音、谤文左音转写、左音声母、左音韵母、左音尾音字段信息,所述右音音库数据表包含所述谤文电子数据的右音标号、谤文右音、谤文右音转写、右音声母、右音韵母、右音尾音字段信息,所述字库数据表包含所述谤文电子数据的汉字号、字Unicode、被释汉字字段信息,所述单字库数据表包含所述谤文电子数据的单字号、字Unicode、字字段信息,所述音韵地位库数据表包含所述谤文电子数据的字Unicode、字音号、字、音书、上字、反切下字、摄、 韵、呼、等、调、纽字段息。
3.如权利要求2所述的建立谤文数据库的方法,其特征在于,所述书库数据表与所述卷次库数据表之间通过“书名号”建立索引;所述卷次库数据表与所述句子库数据表之间通过“卷号”建立索引;所述句子库数据表与所述被释词库数据表之间通过“句号”建立索引; 所述被释词库数据表与所述左音音库数据表之间通过“谤文左音标号”建立索引;所述被释词库数据表与所述右音音库数据表之间通过“谤文右音标号”建立索引;所述被释词库数据表与所述字库数据表之间通过“汉字号”建立索引;所述字库数据表与所述单字库数据表之间通过“字Unicode”建立索引;所述单字库数据表与所述音韵地位库数据表之间通过“字 Unicode”建立索引。
4.一种由如权利要求1-3任一项所述的方法构建的谤文数据库。
5.一种谤文数据库检索系统,其特征在于,所述系统包括:输入模块,用于输入检索命令;与所述输入模块相连的检索模块,用于接受所述检索命令并根据所述检索命令进行检索以获取谤文数据库中的谤文电子数据信息,并控制输出模块输出查询检索结果;与所述检索模块相连的,用于存储谤文电子数据的谤文数据库,所述谤文数据库包括书库数据表、卷次库数据表、句子库数据表、被释词库数据表、左音音库数据表、右音音库数据表、字库数据表、单字库数据表,所述数据表中包括根据各类别谤文的属性设置的谤文属性字段,所述数据表之间通过字段建立索引;与所述检索模块相连的,用于输出检索结果的输出模块。
6.如权利要求5所述的谤文数据库检索系统,其特征在于,所述系统还包括与所述谤文数据库相连的用于将谤文源文档转换为所述谤文电子数据的数据转换模块,与所述数据转换模块相连的用于在所述谤文源文档发生变化时更新所述谤文数据库中的谤文电子数据的数据更新模块。
7.如权利要求5所述的谤文数据库检索系统,其特征在于,所述书库数据表包含所述谤文电子数据的书名号、书名、作者、成书年代、所据底本、收录源字段信息,所述卷次库数据表包含所述谤文电子数据的卷号、书名号、卷次字段信息,所述句子库数据表包含所述谤文电子数据的句号、卷号、页码、正文带页码及颜色标记、正文、中文句子、谤文注释、句子备注字段信息,所述被释词库数据表包含所述谤文电子数据的被释词号、句号、汉字号、被释词号、汉字备注、谤文左音、谤文左音备注、谤文左点、谤文左点备注、谤文左音标号、谤文右音、谤文右音备注、谤文右点、谤文右点备注、谤文右音标号、汉字左点、汉字左点备注、汉字右点、汉字右点备注字段信息,所述左音音库数据表包含所述谤文电子数据的左音标号、谤文左音、谤文左音转写、左音声母、左音韵母、左音尾音字段信息,所述右音音库数据表包含所述谤文电子数据的右音标号、谤文右音、谤文右音转写、右音声母、右音韵母、右音尾音字段信息,所述字库数据表包含所述谤文电子数据的汉字号、字Unicode、被释汉字字段信息, 所述单字库数据表包含所述谤文电子数据的单字号、字Unicode、字字段信息,所述音韵地位库数据表包含所述谤文电子数据的字Unicode、字音号、字、音书、反切上字、反切下字、 摄、韵、呼、等、调、纽字段息。
8.如权利要求7所述的谤文数据库检索系统,其特征在于,所述书库数据表与所述卷次库数据表之间通过“书名号”建立索引;所述卷次库数据表与所述句子库数据表之间通过 “卷号”建立索引;所述句子库数据表与所述被释词库数据表之间通过“句号”建立索引;所述被释词库数据表与所述左音音库数据表之间通过“谤文左音标号”建立索引;所述被释词库数据表与所述右音音库数据表之间通过“谤文右音标号”建立索引;所述被释词库数据表与所述字库数据表之间通过“汉字号”建立索引;所述字库数据表与所述单字库数据表之间通过“字Unicode”建立索引;所述单字库数据表与所述音韵地位库数据表之间通过“字 Unicode”建立索引。
【文档编号】G06F17/30GK103605755SQ201310597535
【公开日】2014年2月26日 申请日期:2013年11月23日 优先权日:2013年11月23日
【发明者】朱炜, 尉迟治平, 高天俊, 尉迟明 申请人:华中科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1