一种面向语义识别的纸质翻译方法及翻译笔装置的制造方法
【技术领域】
[0001] 本发明属于语义识别及光学相结合的交叉领域,尤其涉及一种面向语义识别的纸 质翻译方法及翻译笔装置。
【背景技术】
[0002] 随着"互联网+"时代的到来,信息产业逐步成为支撑产业,人们的生活和思维模式 已随之发生了重要变化,获取服务的方式从传统的面对面、电话联络等转向了互联网,实现 了网上在线交易和支付;获取知识的方式也从传统的书本、字典、单一数据库等转向了互联 网上。这样不仅可以快速在互联网上获取到满足自己需求的服务,而且还尽可能获取到更 精确、有效的服务结果。而作为翻译领域,已成为人们同世界进一步融合的重要语言关,但 由于不同的国家、地区所使用的语言是不同的,而英语作为国际标准,从而使得英语成为国 际语言及文献、文档等交流的主流;作为非英语语言国家、地区的人们来说,仍不能熟悉、熟 练使用英语来完成自己工作。因此,近年来基于互联网技术的电子翻译(鼠标取词)软件 用来解决人们所遇到词汇量不大的问题,这些软件针对电子文档、文献和文件有很好的翻 译结果,也能有效满足人们的工作和生活需求;但因纸质英语文献、文档和文件长期存在于 人们的工作和生活中,使得这些电子翻译软件中的鼠标取词功能无法发挥其优势,要快速 获取翻译结果就显得力不从心;这时要获取好的取词翻译结果,需要手动将单词输入到相 关的翻译软件中,这样既延长了翻译时间,也无法获取好的连贯翻译结果;虽然这些翻译软 件在互联网及相关网络支持下,通过移动智能终端也可以手动输入单词进行翻译,但仍存 在输入麻烦,操作不方便等问题,就对纸质的英语文献的翻译带来了挑战,即怎样通过一种 简捷的方式就可以轻松实现纸质英语文献互译。
[0003] 现有技术中涉及的一些针对纸本文献的翻译设备,如实用新型专利 CN203133843U,涉及一种翻译扫描笔,采用扫描笔端部的摄像头采集字符图像,然后调用识 别库对图像识别为字符,虽实现了纸本文献的字符识别和翻译,但无法解决文本识别误识 别率高的问题;另外,传统的OCR扫描纸质文献转换为文本,在实现特征提取、识别、向文本 转换、对比等操作时,还有相当的误识率,而且在单词间的分辨也不够精确。
【发明内容】
[0004] 针对现有技术存在的问题,本发明的主要目的在于提供一种降低纸质文本误识别 率、自动进行纸质文本翻译的面向语义识别的纸质翻译方法及翻译笔装置。
[0005] 本发明涉及一种面向语义识别的纸质翻译方法,该方法包括如下步骤(1)至步骤
[6] :
[0006] 步骤(1)对英文字符进行基础性编码,建立字符编码库(CodeL)、规则库(RuleL) 和字体库(FontL),将字符编码库、规则库和字体库进行组合及排列形成编码准备库 (CodeL,RuleL,FontL);
[0007] 步骤(2)利用0CR(0pticalCharacterRecognition)对待翻译的纸质英文进行 扫描识别;
[0008] 步骤(3)对完成识别的字符串利用编码准备库进行编码;
[0009] 步骤(4)对编码后的字符串进行语义化处理,完成编码语义化描述;
[0010] 步骤(5)利用OCR识别单词认知推理获得精确识别的英语单词;
[0011] 步骤(6)将OCR精确识别的英语单词与电子词典连接,实现自动翻译。
[0012] 进一步地,该步骤(4)对编码后的字符串进行语义化处理,完成编码语义化描述, 包括如下步骤(4. 1)至步骤(4. 3):
[0013] 步骤(4. 1)利用字符编码库(CodeL)、规则库(RuleL)和字体库(FontL)完成语义 操作OP(So,To,P),生成语义操作矩阵R,其中So表示语义源字符编码库CodeL,To表示语 义目标源字体库FontL,P表示源与目标间的语义操作规则库RuleL;
[0014] 步骤(4. 2)利用描述逻辑DL(S0M,I,DLKB^,Oj),Tableau)进行语义推理,其中 S0M是语义运算符,I是语义运算的解释,DLKB^uOj)是语义运算的知识库,Tableau是语 义计算的决策算法;
[0015] 步骤(4. 3)在语义推理的基础上完成语义决策。
[0016] 更进一步地,该步骤(5)利用OCR识别单词认知推理获得精确识别的英语单词,包 括如下步骤(5. 1)至步骤(5. 5):
[0017] 步骤(5. 1)将识别的字符串与语料库中的字符串进行相似度计算,构成相似记录 矩阵,并获得最大的相似度值;
[0018] 步骤(5. 2)将步骤(5. 1)的结果与编码语义化描述相结合进行认知 Cog(DL,DL(Ul,Event,U2))递归,其中Cog为认知,DL为描述逻辑,DL(Ul,Event,U2)描述 编码语义的认知递归流程至DL,以完成识别,消除误识率,U1为认知前状态,U2为认知后状 态,Event为认知驱动事件,即由Event完成U1到U2认知状态改变;
[0019] 步骤(5. 3)对认知递归定义Rg(Cog,F0L)推理,F0L是推理一阶逻辑,推理 Rg(Cog,F0L)是对认知运算的结果;
[0020] 步骤(5. 4)利用推理一阶逻辑F0L,实现DL运算SH0IQ(D)映射至F0L进行推理决 策;
[0021] 步骤(5. 5)在推理过程中通过解释函数I将OCR误识别的字母替换掉,获得精确 OCR识别英语单词。
[0022] 更进一步地,该步骤⑴中规则库(RuleL)的主要内容包括RuleL= (SDN,CMP,SP,BP,NCP,FHP,FTP,EH),其中SDN为字符大小,CMP为编码方式处理,SP为字符 串处理,BP为空格符/连接符处理,NCP为非字母符处理,FHP为全角半角处理,FTP为字体 类型处理,EH为异常处理。
[0023] 更进一步地,该步骤(5. 1)将识别的字符串与语料库中的字符串进行相似度计 算,具体方法为:
,其中〇crc为识别 的字符串,corpus为语料库中字符串,α彡〇,β>〇为系数,1 =disUQ,C2)为两概念间 的最小距离,(Q,C2)指本体 0 (C,Ae,R,AR,tf,X)中的C,h=length(Q,C2)为Q,C2的最小 公共概念的深度。
[0024] 本发明还涉及一种面向语义识别的翻译笔装置,包括笔形装置、翻译处理装置和 显示处理装置,该笔形装置包含对待翻译的纸质英文进行扫描识别的OCR部件,该翻译处 理装置包含翻译模块,该翻译模块包含:一编码准备库,编码准备库由对英文字符进行基础 性编码的字符编码库、规则库和字体库进行组合及排列形成;对完成识别的字符串利用编 码准备库进行编码的编码模块;对编码后的字符串进行语义化处理,完成编码语义化描述 的语义化处理模块;利用OCR识别单词认知推理获得精确识别的英语单词的认知推理模 块;将OCR精确识别的英语单词与电子词典连接,实现自动翻译的自动翻译模块。
[0025] 进一步地,笔形装置与翻译处理装置通过USB接口进行对接。
[0026] 更进一步地,显示处理装置包含支架,笔形装置包含支架扣,翻译处理装置与显示 处理装置整合后通过支架固定于笔形装置的支架扣上。
[0027] 更进一步地,显示处理装置包含一触摸显示屏设备。