拼音输入法同音字词的过滤方法与流程

文档序号:15095469发布日期:2018-08-04 14:27阅读:1326来源:国知局

本发明涉及拼音输入法,尤其涉及拼音输入法同音字词的过滤方法。



背景技术:

汉字输入法,主要包括音码、形码、音形码、无理码以及手写、语音录入等方法。除了少数专业人士喜欢使用以五笔字型为首的形码外,大多数普通人士喜欢用拼音输入法。拼音输入法易学易用上手快,但是最大的缺点是同音字和同音词太多。单字输入时,选字太慢。特别是yi、ji、yu、fu、zhi、li、qi、yuan、xi、jian、shi、wu、we、ju和bi这几个汉语拼音,同音字几十个甚至200多个,需要多次翻页。即使现在比较流行的搜狗、QQ、谷歌和百度等拼音输入法也束手无策。

申请号为2014105967800和2016102727310的发明分别公开了汉字拼音输入法的同音字词的过滤方法,包括笔画过滤方法和汉字偏旁部首过滤方法。他们共同的其特征是:汉字的笔画键包括横键、竖键、撇键、点键和折键,输入码分别为键盘数字键1、2、3、4、5。但是我们不得不在脑海里对横键、竖键、撇键、点键和折键建立对应键盘数字键1、2、3、4、5的映射,头脑里不得不安装一个汉字笔画的映射表。不得不从拼音输入的汉语拼音思维转换到1、2、3、4、5的数学思维。

申请号2016102727310的发明的汉字偏旁部首过滤包括12个汉字偏旁部首,包括金键、木键、水键、火键、土键、草键、日键、心键、人键、口键、手键和女键。为了实现输入上述12个汉字偏旁部首的目的,在输入法的界面上增加一个4行3列的矩阵框,用鼠标点击的方式完成汉字偏旁部首的输入。该4行3列的矩阵框可以看作附加在输入法界面上的软键盘,但是该软键盘会影响屏幕显示效果而且容纳的汉字偏旁部首数量不可能无限扩大。

但是汉字的组成部件除了上述12个常用的汉字偏旁部首以外,还有很多其他汉字部件,中华人民共和国教育部和国家语言文字工作委员会2009年联合发布的《现代常用字部件及部件名称规范》(GF0014-2009)公布的汉字部件有514个。按照申请号2016102727310的发明公开的方法很难把汉字部件都罗列在在输入法界面附加的软键盘上。国家规范GF0014-2009附录A的现代常用字部件构字数表的金、木、水、火、土、草、日、心、人、口、手和女等10个部件的构成字数只有部分部件排在前列,何况个别部件木、日、水的构成字数分别多达218、232、204个。即使使用2016102727310公开的方法,也很难通过汉语拼音加12个常用的汉字偏旁部首把本汉字偏旁部首的所有汉字都过滤出来。



技术实现要素:

本发明要解决的技术问题是提供一种能够提高拼音汉字输入效率和速度的拼音输入法同音字和同音词组过滤的方法。为了解决上述技术问题,本发明采用如下技术方案实现:

一种拼音输入法同音字词的过滤方法及界面,包括笔画过滤方法和部件过滤方法。

笔画过滤方法。当拼音输入后,同音字数量太多需要过滤时,输入汉字的笔画来过滤同音字,遴选所需的汉字。汉字有五个基本笔画横、竖、撇、点、折,对应的笔画输入码为该笔画的汉语拼音heng、shu、pie、dian、zhe的首字母h、s、p、d、z。

有人问:“世界的世如何写”。一般情况下我们习惯这样回答:“横竖竖横竖折。”对应的汉语拼音为“heng shu shu heng zhe”,而不会回答:“12215”。习惯听说汉语字词的人们同样习惯用该笔画的汉语拼音来思考和进行听和说的交流。因此用笔画的汉语拼音heng、shu、pie、dian、zhe的首字母h、s、p、d、z表示笔画,无需在头脑建立笔画的映射表,符合人们的思维习惯,无需在汉语拼音思维和数学思维2种思维之间进行映射和转换。我们用拼音输入时,已形成了汉语拼音的使用习惯和思维习惯,因此用笔画的汉语拼音的首字母表示笔画不仅仅换了个输入码表示方法,而是拼音输入的汉语拼音的惯性的延续。采用本发明的笔画过滤的拼音输入法,形式上是音形码,实质上是音码。

部件过滤方法。当拼音输入后,同音字或同音词汇的数量太多需要过滤时,通过键盘输入汉字的部件来过滤同音字,遴选所需的汉字。部件的输入码为部件的名称的汉语拼音。汉字按照国家规范GF0014-2009分为成字部件和非成字部件,成字部件的输入码是该字的汉语拼音字母,非成字部件的输入码是该字的名称的汉语拼音首字母。

部件用名称的汉语拼音来表示,无需申请号2016102727310的发明所用的软键盘,无需键盘输入和鼠标输入相互转换,直接用键盘输入,输入速度快。而且所有的汉字部件都可以输入,不仅仅局限于12个常用的偏旁部首。

有人问:“您贵姓”。我们习惯这样回答:“木子李,弓长张,木易杨。”对应的汉语拼音是:“mu zi li,gong chang zhang,mu yi yang”。当需要区别同音字时,我们习惯将汉字按照部件拆分,然后用汉语拼音来表示和交流汉字部件。因此用部件的名称的汉语拼音字母来表示部件,符合我们的思维方式和交流习惯。用部件名称的汉语拼音来表示汉字的部件不仅仅换了个表示方法,而是拼音输入的汉语拼音惯性的延续。用该方法进行拼音输入法部件过滤,无需在软键盘上到处寻找并用鼠标点击偏旁部首,直接键盘输入。采用该部件过滤的拼音输入法,形式上是音形码,实质上是音码。

汉字结构过滤法。当拼音输入后,同音字或同音词汇的数量太多需要过滤时,通过汉字结构来遴选准备输入的目标汉字。

进一步地,汉字的笔画按照国家语言文字工作委员会和标准化工作委员会联合制定的《现代汉语通用字笔顺规范》(GF3002-1999)所规定的笔顺输入,直到汉字被遴选出来为止;该规范也是广大中小学校教学的指导文件,符合大多数人的汉字读写和使用习惯。

进一步地,汉字部件的拆分和命名均按照中华人民共和国教育部和国家语言文字工作委员会2009年联合发布的《现代常用字部件及部件名称规范》(GF0014-2009)进行;该规范也是广大中小学校教学的指导文件,符合大多数人的汉字读写和使用习惯。

进一步地,汉字的部件优先拆分成2个或者多个成字部件,成字部件容易记忆也容易输入。汉字如果是形声字,次级优先拆分成形旁和声旁。

进一步地,形声字如果拆分成形旁和声旁,则先输入形旁部件再输入声旁部件;其他汉字如果按照汉字的左右、上下、包围结构进行部件拆分,则分别按照从左到右、从上到下、从内到外的顺序输入部件。形声字是在象形字、指事字、会意字的基础上形成的,是由两个文或字(部件)复合成体,由表示意义范畴的意符(形旁)和表示声音类别的声符(声旁)组合而成。意符一般由象形字或指事字充当,声符可以由象形字、指事字、会意字充当。声符(声旁)本身用于表示汉字的声音及其类别,因此形声字用意符(形旁)过滤比较优越。形声字是最能产的造字形式。现代汉字中80%以上的字都是形声字,并且直到现在仍然能够创造新字(如一些新造的简化字、科技用字)。因此优先使用形声字的意符(形旁)来过滤汉字,过滤同音字词的速度更快。

进一步地,独体字原则上采用笔画过滤法进行过滤;合体字采用部件过滤法、笔画过滤法、结构过滤法或者3个方法混合使用。中华人民共和国教育部和国家语言文字工作委员会2009年制定的《现代常用独体字规范》(CF0013-2009)独体字只有256个。独体字数量少都是常用字使用频率高,一般情况下不需要同音字词过滤。由于笔画少,按笔画过滤法过滤比较合适。国家规范GF0013-2009明文规定,独体字不能或者不宜进行拆分,所以独体字不宜采用部件过滤法。合体字本发明的三种过滤方法都可以使用,或者混合使用。

进一步地,默认的同音字词过滤方法是汉字部件过滤方法。合体字笔画多,并且包含至少2个部件。除了256个独体字,其他汉字都是合体字。合体字中形声字又占了汉字的80%以上,特别适用于部件过滤输入法,部件的名称容易记忆也容易输入,部件过滤法的过滤速度一般比笔画过滤法速度快。因此默认的重码过滤方法是汉字部件过滤方法。

进一步地, 如果用笔画过滤法过滤独体字,候选字词按照笔画数从小到大排列。笔画过滤法适用于独体字,候选字词按照笔画数从小到大排列有利于遴选独体字。

进一步地,用拼音输入法输入词组时,先输入词组的汉语拼音输入码;如果同音词组太多需要过滤时,可以进行词组笔画过滤;词组笔画的输入顺序为,先依次输入词组的组员汉字的首笔笔画,然后依次输入词组的组员汉字的剩余顺序笔画,直到汉字被遴选出来为止。我们对汉字的首笔笔画比较敏感,先输入词组的组员汉字的首笔笔画有利于更快的遴选出准备输入的目标词组。

进一步地,输入词组时,先输入词组的汉语拼音,如果同音词组太多需要过滤时,可以进行词组部件过滤;依次输入词组的组员汉字的优先部件或者第1顺序部件的输入码,然后依次输入词组的组员汉字的剩余顺序部件,直到汉字被遴选出来为止;如果词组包含独体字,则空缺输入该独体字的部件。同音词组相对于同音字少得多,同音词过滤要容易得多。一般输入同音词的优先部件或者第1顺序部件输入码的首字母,就可以遴选出目的词组。

进一步地,汉字结构包含左右、上下、包围三种基本结构。左中右结构归类于左右结构,上中下结构归类于上下结构,全包围、半包围归类于包围结构。

附图说明

图1是本发明实施例拼音输入模式界面。

图2是本发明实施例汉字词笔画过滤模式和结构过滤界面。

图3是本发明实施例汉字词部件滤模式和结构过滤界面。

图4是本发明实施例汉字词笔画过滤、部件过滤和汉字结构过滤相结合的混合过滤界面。

图4的图示表格的第1行第1列是拼音编码输入框,表格的第1行第2、3和4列分别是拼音输入切换按钮、部件过滤切换按钮和笔画过滤切换按钮。表格的第2行第1列至第7列是候选字词框,有7个候选字词;表格的第2行第8列至第10列分别是部件左右结构拆分按钮、部件上下结构拆分按钮和部件包围结构拆分按钮。表格的第3行第1、2列分别是笔画输入框和笔画显示框,表格的第3行第3、4列分别是部件输入框和部件显示框。

具体实施方式

下面结合附图1、2、3、4介绍利用本发明实施的一种拼音输入法,做进一步的说明。

根据本发明的权利要求书,构造一个包含本发明的计算机汉字拼音输入法,暂命名为杨码拼音输入法。

输入法界面包含拼音编码输入框、候选字词框、笔画过滤按钮、部件过滤按钮、拼音输入切换按钮、部件左右结构拆分按钮、部件上下结构拆分按钮和部件包围结构拆分按钮。当拼音输入后,同音字或同音词的数量太多需要过滤时,点击输入法界面上的笔画过滤按钮或者按键盘上的笔画过滤切换键,进入笔画过滤模式。输入法界面增加笔画过滤界面,笔画过滤界面由笔画输入框和笔画显示框组成。

点击输入法界面的部件过滤按钮或者按键盘上的部件切换键,进入部件过滤模式。输入法界面增加部件过滤界面,部件过滤界面由部件输入框和部件显示框组成。

先后点击笔画过滤按钮和部件过滤按钮,或者先后按键盘上的笔画过滤切换键和部件切换键,只要不点击拼音输入切换按钮或者只要不按键盘上的拼音输入切换键,笔画过滤和部件过滤2种方法可以混合使用。

点击部件左右结构拆分、部件上下结构拆分和部件包围结构拆分按钮,或者按部件左右结构拆分键、部件上下结构拆分键和部件包围结构拆分键,可以进入部件左右结构拆分、部件上下结构拆分和部件包围结构拆分下的部件过滤模式;上述3个部件结构拆分可以利用汉字的结构进行过滤。

点击输入法界面上的拼音输入按钮或者按键盘上的拼音输入切换键,关闭笔画过滤和部件过滤界面同时关闭同音字词过滤模式,返回拼音输入模式。

本方法在统一的输入法界面下采用全拼编码和双拼编码双体模式输入,并规定,全拼用小写字母编码,双拼用大写字母编码,大小写字母的转换,按键盘上的Caps lock键。

字词候选数量为7,主键盘的数字键1、2、3、4、5、6、7,是候选字和候选词的确认键。例如按5,就选择候选框的第5个字词。如果候选字词的第1个字词就是准备输入的目标汉字,主键盘数字1、回车键和空格键就是确认键。

笔画过滤切换键、部件过滤切换键和拼音输入切换键分别是主键盘区的“-”“=”和“\”键。主键盘的数字键8、9、0分别是部件左右结构拆分、部件上下结构拆分和部件包围结构拆分下的部件过滤切换键。

杨码拼音输入法,包括常规汉语拼音输入法和同音字词过滤法。同音字词过滤法包含笔画过滤方法、部件过滤方法和汉字结构过滤法。同音字词过滤完成后输入法自动切换到常规输入法模式。

(1)笔画过滤方法。当拼音输入后,同音字或同音词汇数量太多需要过滤时,输入汉字的笔画来过滤同音字,遴选所需的汉字;汉字有五个基本笔画横、竖、撇、点、折,对应的笔画输入码为笔画的汉语拼音heng、shu、pie、dian、zhe的首字母h、s、p、d、z。

(2)部件过滤方法。当拼音输入后,同音字或同音词汇的数量太多需要过滤时,输入汉字的部件来过滤同音字,遴选所需的汉字;部件的输入码是部件名称的汉语拼音或者名称的汉语拼音首字母。

(3)汉字结构过滤法。当拼音输入后,同音字或同音词汇的数量太多需要过滤时,通过汉字结构来遴选准备输入的目标汉字。

进一步地,汉字的笔画按照国家语言文字工作委员会和标准化工作委员会联合制定的《现代汉语通用字笔顺规范》(GF3002-1999)所规定的笔顺输入,直到汉字被遴选出来为止。

进一步地,汉字部件的拆分和命名均按照中华人民共和国教育部和国家语言文字工作委员会2009年联合发布的《现代常用字部件及部件名称规范》(GF0014-2009)进行。

进一步地,汉字的部件优先拆分成2个或者多个成字部件;汉字如果是形声字,次级优先拆分成形旁和声旁。

进一步地,形声字如果拆分成形旁和声旁,则先输入形旁部件再输入声旁部件;其他汉字如果按照汉字的左右、上下、包围结构进行部件拆分,则分别按照从左到右、从上到下、从内到外的顺序输入部件。

进一步地,独体字原则上采用笔画过滤法进行过滤;合体字采用部件过滤法、笔画过滤法、结构过滤法或者3个方法混合使用。

进一步地,默认的同音字词过滤方法是汉字部件过滤方法。

进一步地,如果用笔画过滤法过滤独体字,候选字词按照笔画数从小到大排列。

进一步地,用拼音输入法输入词组时,先输入词组的汉语拼音输入码;如果同音词组太多需要过滤时,可以进行词组笔画过滤;词组笔画的输入顺序为,先依次输入词组的组员汉字的首笔笔画,然后依次输入词组的组员汉字的剩余笔画,直到汉字被遴选出来为止。

进一步地,输入词组时,先输入词组的汉语拼音,如果同音词组太多需要过滤时,可以进行词组部件过滤;依次输入词组的组员汉字的优先部件或者第1顺序部件的输入码,然后依次输入词组的组员汉字的剩余顺序部件,直到汉字被遴选出来为止;如果词组包含独体字,则空缺输入该独体字的部件。

进一步地,汉字结构包含左右、上下、包围三种基本结构。左中右结构归类于左右结构,上中下结构归类于上下结构,全包围、半包围归类于包围结构。

以下内容是杨码拼音输入法的使用方法介绍。

笔画过滤方法:如果需要输入汉字“丽”,点击输入法界面上的笔画过滤切换按钮或者按下计算机键盘的“-”键,进入笔画过滤模式。汉字“丽”的笔顺为“横竖折点竖折点”。依次输入字母“hszdszd”,直到汉字“丽”被遴选出来为止。笔画过滤模式下,候选的同音字按照汉字的笔画数从小到大排列,独体字笔画数少,往往独体字的第1笔就可以被遴选出来,个别独体字需要第2笔才被遴选出来。

部件过滤方法:如果需要输入汉字“徐”,输入汉字“徐”的汉语拼音“xu”,如果汉字“徐”没有出现在候选字词框中,需要同音字过滤。汉字“徐”是左右结构,按照左右结构进行部件拆分。点击输入法界面上的部件左右结构拆分按钮或者按主键盘的数字键8,进入左右结构拆分下的部件过滤模式。汉字“徐”按照国家规范GF0014-2009可以拆分为“彳”和“余”2个部件,这2个部件名称的按照国家规范GF0014-2009是“双立人”和“余”,对应的汉语拼音是“shuangliren”和“yu”,这2个部件的输入码分别是“slr”和“yu”。“徐”是形声字,“彳”部件是形旁,是优先部件,我们依次输入“slryu”直到汉字“徐”被遴选出来为止。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1