专利名称:一种向输入法词库中添加词条的方法及装置的制作方法
—种向输入法词库中添加词条的方法及装置
技术领域:
本发明涉及输入法技木,特别涉及一种向输入法词库中添加词条的方法及装置。背景技木随着电子设备越来越广泛地使用,输入法也成为越来越重要的文字输入工具。输入法是将输入设备(如键盘)上的符号序列所对应的文字录入到电子设备中的重要工具,该工具使用的便利与否,主要表现在用户为了输入想要录入的词条时,对输入设备的敲击次数。输入法词库中已录入的 词条,是影响用户输入时对输入设备敲击次数的关键因素。以拼音输入法为例,如果输入法词库中已有录入词条包含“神马”,则用户敲击“shenma”这ー键盘上的序列的时候,输入法的候选词条中就会出现“神马”这一候选项,用户直接选择该候选词条就可完成输入,反之,如果词库中没有这个录入词条,则用户需要分别选取“神”和“马”两个字才能完成录入,这大大増加了输入法在文字输入时的复杂性。可见,输入法词库中的已有词条对输入便捷性有很大影响,因此输入法词库中的词条应该能够根据用户的需要増加。在现有技术的输入法中,主要是通过用户手工录入未登录词条来增加输入法词库的词汇量的,这种方式操作繁琐,増加了用户的负担,降低了未登录词条的录入效率,此外,以拼音输入法为例,如果用户不知道未登录词条的读音,就很难为输入法词库录入新的词条。
发明内容本发明所要解决的技术问题是提供一种向输入法词库中添加词条的方法及装置,以解决现有技术中无法直接利用图片为输入法词库录入未登录词,从而降低了未登录词录入效率的缺陷。本发明为解决技术问题而采用的技术方案是提供一种向输入法词库中添加词条的方法,包括A.获取图片;B.从所述图片中提取未登录词条;C.将所述未登录词条添加到输入法词库中。根据本发明之一优选实施例,所述步骤A包括根据用户的截图行为获取所述用户截取的图片;或者,根据用户的拍摄行为获取所述用户拍摄的图片。根据本发明之一优选实施例,所述步骤B包括BI.从所述图片中提取文字;B2.对提取的文字进行分词,以确定提取的文字中包含的候选词条;B3.将所述候选词条与输入法词库中的词条进行比对,如果所述候选词条与输入法词库中的词条不匹配,则将所述候选词条作为未登录词条。根据本发明之一优选实施例,所述步骤BI包括Bll.确定所述图片中的文字区域;B12.识别所述文字区域中的各个文字。根据本发明之一优选实施例,所述步骤Bll中将用户指定区域作为所述图片中的文字区域。
根据本发明之一优选实施例,所述步骤Bll包括对所述图片进行灰度变换;对灰度变换后的图片进行霍夫变换,并在霍夫变换后的图片中确定文字区域。根据本发明之一优选实施例,所述步骤B12包括提取所述图片中的文字区域中的各个文字的笔划特征;针对各个文字,将该文字的笔划特征与预置的文字与特征之间的映射库中的特征进行比对,以确定各个文字的识别結果。根据本发明之一优选实施例,所述笔划特征包括文字包含的各种类型的笔划的数量及相对位置。根据本发明之一优选实施例,所述步骤B包括确定所述图片中的文字区域,并标记所述文字区域供用户从所述文字区域中进行选取;识别用户在所述文字区域选取的文字作为未登录词条。根据本发明之一优选实施例,所述步骤C包括根据输入法的类型确定所述未登录词条的输入代码序列,并将所述输入代码序列及所述未登录词条之间的对应关系添加到
输入法词库中。本发明还提供了一种向输入法词库中添加词条的装置,包括图片捕获单元,用于获取图片;提取单元,用于从所述图片中提取未登录词条;添加単元,用于将所述未登录词条添加到输入法词库中。根据本发明之一优选实施例,所述图像捕获单元包括截图单元,用于根据用户的截图行为获取所述用户截取的图片;或者,拍摄单元,用于根据用户的拍摄行为获取所述用户拍摄的图片。根据本发明之一优选实施例,所述提取単元包括文字提取单元,用于从所述图片中提取文字;分词单元,用于对提取的文字进行分词,以确定提取的文字中包含的候选词条;词条比对单元,用于将所述候选词条与输入法词库中的词条进行比对,如果所述候选词条与输入法词库中的词条不匹配,则将所述候选词条作为未登录词条。根据本发明之一优选实施例,所述文字提取单元包括区域确定单元,用于确定所述图片中的文字区域;识别单元,用于识别所述文字区域中的各个文字。根据本发明之一优选实施例,所述区域确定单元将用户指定区域作为所述图片中的文字区域。根据本发明之一优选实施例,所述区域确定单元包括第一变换单元,用于对所述图片进行灰度变换;第二变换单元,用于对灰度变换后的图片进行霍夫变换,并在霍夫变换后的图片中确定文子区域。根据本发明之一优选实施例,所述识别単元包括特征提取単元,用于提取所述图片中的文字区域中的各个文字的笔划特征;特征比对单元,用于针对各个文字,将该文字的笔划特征与预置的文字与特征之间的映射库中的特征进行比对,以确定各个文字的识别结
果O根据本发明之一优选实施例,所述笔划特征包括文字包含的各种类型的笔划的数量及相对位置。根据本发明之一优选实施例,所述提取単元包括标记单元,用于确定所述图片中的文字区域,并标记所述文字区域供用户从所述文字区域中进行选取;词条确定单元,用于识别用户在所述文字区域选取的文字作为未登录词条。
根据本发明之一优选实施例,所述添加単元将所述未登录词条添加到输入法词库中的方式包括根据输入法的类型确定所述未登录词条的输入代码序列,并将所述输入代码序列及所述未登录词条之间的对应关系添加到输入法词库中。由以上技术方案可以看出,本发明为录入输入法词库的未登录词条提供了ー种新途径,即从图片中提取未登录词条并添加到输入法词库中。在这种新途径下,即使是用户不知道读音的未登录词条,用户也可以通过图片的方式将该词条作为新词添加到词库中。本发明能够极大地提高未登录词条录入的效率,也能够很好地提高用户体验。
图I为本发明中向输入法词库 中添加词条的方法的实施例的流程示意图;图2为本发明中提取未登录词条的一个实施例的流程示意图;图3为本发明中对获取的图片进行灰度变换之后的实施例的不意图;图4为本发明中对灰度变换后的图片进行霍夫变换后的实施例的示意图;图5为本发明中提取未登录词条的另ー个实施例的流程示意图;图6为本发明中向输入法词库中添加词条的装置的实施例的结构示意框图;图7a为本发明中图片捕获单元的实施例一的结构示意框图;图7b为本发明中图片捕获单元的实施例ニ的结构示意框图;图8为本发明中提取单元的实施例一的结构示意框图;图9为本发明中文字提取单元的实施例的结构示意框图;图10为本发明中区域确定单元的实施例的结构示意框图;图11为本发明中识别单元的实施例的结构示意框图;图12为本发明中提取单元的实施例ニ的结构示意框图。
具体实施方式为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。请參考图1,图I为本发明中向输入法词库中添加词条的方法的实施例的流程示意图。如图I所示,该方法包括步骤SlOl :获取图片。步骤S102 :从获取的图片中提取未登录词条。步骤S103 :将未登录词条添加到输入法词库中。下面对上述步骤进行详细说明。步骤SlOl中获取图片,可以有多种方式,其中ー种方式是根据用户的截图行为获取用户截取的图片,作为本发明后续待处理的图片。例如,用户在互联网上浏览时,对感兴趣的内容采取截屏的方式进行截取,用户的这种行为将触发本发明的方法在步骤SlOl中获取用户截取的图片。此外,步骤SlOl中,还可以根据用户的拍摄行为获取用户拍摄的图片。例如,用户通过摄像头或移动设备的拍摄镜头等,对自己感兴趣的地方进行拍摄,这种行为将触发本发明的方法在步骤SlOl中获取用户拍摄的图片作为后续待处理的图片。请參考图2,图2为本发明中提取未登录词条的一个实施例的流程示意图。如图2所示,步骤S 102包括步骤S1021 :从图片中提取文字。步骤S1022 :对提取的文字进行分词,以确定提取的文字中包含的候选词条。步骤S1023 :将候选词条与输入法词库中的词条进行比对,如果候选词条与输入法词库中的词条不匹配,则将候选词条作为未登录词条。其中,步骤S1021具体包括步骤S1021_l :确定图片中的文字区域。步骤S1021_2 :识别文字区域中的各个文字。确定图片中的文字区域可以有多种方法,作为本发明中的一种实施方式,可以根据用户的选定动作来确定图片中哪块区域属于文字区域。例如将用户指定区域作为文字区域。如用户使用移动设备拍摄了一张图片,并在该图片上划定了ー个区域并触发该区域提交,则本发明在步骤S1021_l中会将用户划定的这一区域作为文字区域。这种方式下,如果图片上存在一片文本,用户想要从中提取多个未登录词时,可以在该图片上选定一片包含连续文本的区域,而如果用户仅仅想提取个别未登录词,也可以直接在该图片上选定某个词语,本发明无论用户的操作是什么,后续都能自动将图片中的未登录词添加到输入法的词库中。作为另ー种实施方式,步骤S1021_l中也可以自动地确定图片中的文字区域,具体地,该实施例中步骤S1021_l包括以下步骤步骤S1021_ll :对步骤S 101中获取的图片进行灰度变换;步骤S1021_12 :对灰度变换后的图片进行霍夫变换,在霍夫变换后的图片中确定文字区域。请參考图3和图4,图3为本发明中对获取的图片进行灰度变换之后的实施例的不意图,图4为本发明中对灰度变换后的图片进行霍夫变换后的实施例的示意图。对图片进行灰度变换是图像处理中的常用手段,目的是改善画质,使图像的显示效果更加清晰。霍夫变换是图像处理中从图像里识别几何形状的基本方法之一,从图4中可以看出,经过霍夫变换的图片中能够确定出文字的轮廓,而原图片背景中的不相关图形则被过滤掉了。步骤S1021_2中识别文字区域中的各个文字,可以采用各种现有的OCR (OpticalCharacter Recognition,光学字符识别)技术实现,此外,本发明给出了一种实施方式,在该实施方式中,步骤S1021_2包括步骤S1021_21 :提取图片中的文字区域中的各个文字的笔划特征。步骤S1021_22 :针对各个文字,将该文字的笔划特征与预置的文字与特征之间的映射库中的特征进行比对,以确定各个文字的识别結果。其中,文字与特征之间的映射库是预先对大量文字进行特征提取后建立的。在该映射库中,每个文字与该文字对应的笔划特征之间建立了关联关系。在步骤S1021_21中对待识别的每个文字提取笔划特征,并在步骤S1021_22中将该文字的笔划特征与映射库中的特征进行比对,比对上的特征所对应的文字,就是待识别文字的识别結果。
上述文字的笔划特征,指的是文字包含的各种类型的笔划的数量及相对位置。笔划的类型包括“横”、“竖”、“撇”、“掠”等。例如文字“三”的笔划特征就包括了 “横”的数量为三,且三个“横”的位置从上至下依次排列。请參考图5,图5为本发明中提取未登录词条的另ー个实施例的流程示意图。如图5所示,步骤S102包括步骤S102a :确定图片中的文字区域,并标记该文字区域供用户从该文字区域中进行选取。步骤S102b :识别用户在该文字区域选取的文字作为未登录词条。在本实施例中,步骤S102a中确定图片中的文字区域,可以采用与步骤S1021_l类似的方法,并且,步骤S102b中识别用户在该文字区域选取的文字,也可采用与步骤S1021_2类似的方法。本实施例,当步骤SlOl中一旦获取到图片,就可以触发步骤S102a标记该图片中的文字区域供用户选取,当用户选定其中的文字后,步骤S102b会将该文字的
识别结果作为未登录词条。这种方式有利于改善用户体验,并且,这种方式得到的未登录词条更符合用户的需要,准确度更高。本发明方法在步骤S102中得到未登录词条后,在步骤S103中,将根据输入法的类型确定未登录词条的输入代码序列,并将输入代码序列及未登录词条之间的对应关系添加到输入法词库中。可以理解,输入法的功能,就是根据输入代码序列,产生与输入代码序列一致的文字序列供用户选择。因此,词条在输入法词库中保存的形式就是输入代码序列与词条之间的关联关系。以汉语输入法为例,输入法的类型包括拼音输入法、五笔输入法等等。以拼音输入法为例,假设未登录词条为“你好”,则步骤S103中通过查找预设的词典,可以确定其对应的输入代码序列是“nihao”,并将未登录词条“你好”及“nihao”之间的对应关系添加到输入法词库中。请參考图6,图6为本发明中向输入法词库中添加词条的装置的实施例的结构示意框图。如图6所示,该装置包括图片捕获单元201、提取单元202及添加単元203。其中图片捕获单元201,用于获取图片。提取单元202,用于从获取的图片中提取未登录词条。添加単元203,用于将未登录词条添加到输入法词库中。请參考图7a和图7b,图7a和图7b分别为本发明中图片捕获单元的两个实施例的结构示意框图。如图7a所示,图片捕获单元201包括截图单元2011,其中截图单元2011用于根据用户的截图行为获取用户截取的图片,作为本发明后续待处理的图片。如图7b所示,图片捕获单元201包括拍摄单元2012,其中拍摄单元2012用于根据用户的拍摄行为获取用户拍摄的图片,作为本发明后续待处理的图片。请參考图8,图8为本发明中提取单元的实施例一的结构示意框图。如图8所示,提取单元202包括文字提取单元2021、分词单元2022及词条比对单元2023。其中文字提取单元2021,用于从图像捕获单元201获取的图片中提取文字。分词単元2022,用于对提取的文字进行分词,以确定提取的文字中包含的候选词条。词条比对单元2023,用于将候选词条与输入法词库中的词条进行比对,如果候选词条与输入法词库中的词条不匹配,则将候选词条作为未登录词条。请參考图9,图9为本发明中文字提取单元的实施例的结构示意框图。如图9所示,文字提取单元2021包括区域确定单元2021_1及识别单元2021_2。
其中区域确定单元2021_1,用于确定图片中的文字区域。识别单元2021_2,用于识别文字区域中的各个文字。作为ー种实施方式,区域确定单元2021_1将用户指定区域作为文字区域。如用户使用移动设备拍摄了一张图片,并在该图片上划定了ー个区域并触发该区域提交,则区域确定单元2021_1会将用户划定的这一区域作为文字区域。这种方式下,如果图片上存在一片文本,用户想要从中提取多个未登录词时,可以在该图片上选定一片包含连续文本的区域,而如果用户仅仅想提取个别未登录词,也可以直接在该图片上选定某个词语,本装置无论用户的操作是什么,后续都能自动将图片中的未登录词添加到输入法的词库中。作为另ー种实施方式,请參考图10,图10为本发明中区域确定单元的实施例的结构示意框图。如图10所示,区域确定 单元2021_1包括第一变换单元2021_11和第二变换单元 2021_12。其中第一变换单元2021_11,用于对图片捕获単元201捕获的图片进行灰度变换。第二变换单元2021_12,用于对灰度变换后的图片进行霍夫变换,并在霍夫变换后的图片中确定文字区域。请參考图3和图4,图3为本发明中对获取的图片进行灰度变换之后的实施例的不意图,图4为本发明中对灰度变换后的图片进行霍夫变换后的实施例的示意图。对图片进行灰度变换是图像处理中的常用手段,目的是改善画质,使图像的显示效果更加清晰。霍夫变换是图像处理中从图像里识别几何形状的基本方法之一,从图4中可以看出,经过霍夫变换的图片中能够确定出文字的轮廓,而原图片背景中的不相关图形则被过滤掉了。作为ー种实施方式,识别单元2021_2识别文字区域中的各个文字,可以采用各种现有的OCR技术。作为另ー种实施方式,请參考图11,图11为本发明中识别单元的实施例的结构示意框图。如图11所示,识别单元2021_2包括特征提取単元2021_21,用于提取图片中的文字区域中的各个文字的笔划特征。特征比对单元2021_22,用于针对各个文字,将该文字的笔划特征与预置的文字与特征之间的映射库中的特征进行比对,以确定各个文字的识别結果。其中,文字与特征之间的映射库是预先对大量文字进行特征提取后建立的。在该特征库中,每个文字与该文字对应的笔划特征之间建立了关联关系。上述笔划特征,指的是文字包含的各种类型的笔划的数量及相对位置。笔划的类型包括“横”、“竖”、“撇”、“掠”等。例如文字“三,,的笔划特征就包括了 “横”的数量为三,且三个“横”的位置从上至下依次排列。请參考图12,图12为本发明中提取单元的实施例ニ的结构示意框图。如图12所示,提取单元202包括标记单元202a和词条确定单元202b。其中标记单元202a,用于确定图片中的文字区域,并标记该文字区域供用户从该文字区域中进行选取。词条确定单元202b,用于识别用户在该文字区域选取的文字作为未登录词条。在本实施例中,标记单元202a确定图片中的文字区域的方式与区域确定单元2021_1确定文字区域的方式类似,词条确定单元202b识别文字的方式与识别单元2021_2识别文字的方式类似。本实施例的提取单元202有利于改善用户体验,并且,这种方式得到的未登录词条更符合用户的需要,准确度更高。
在本发明的装置中,添加单元203将未登录词条添加到输入法词库中的方式具体包括根据输入法的类型确定未登录词条的输入代码序列,并将该输入代码序列及未登录词条之间的对应关系添加到输入法词库中。可以理解,输入法的功能,就是根据输入代码序列,产生与输入代码序列一致的文字序列供用户选择。因此,词条在输入法词库中保存的形式就是输入代码序列与词条之间的关联关系。以汉语输入法为例,输入法的类型包括拼音输入法、五笔输入法等等。以拼音输入法为例,假设未登录词条为“你好”,则添加単元203通过查找预设的词典,可以确定其对应的输入代码序列是“nihao”,并将未登录词条“你好”及“nihao”之间的对应关系添加到输入法词库中。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
权利要求
1.一种向输入法词库中添加词条的方法,包括 A.获取图片; B.从所述图片中提取未登录词条; C.将所述未登录词条添加到输入法词库中。
2.根据权利要求I所述的方法,其特征在于,所述步骤A包括 根据用户的截图行为获取所述用户截取的图片;或者, 根据用户的拍摄行为获取所述用户拍摄的图片。
3.根据权利要求I所述的方法,其特征在于,所述步骤B包括 BI.从所述图片中提取文字; B2.对提取的文字进行分词,以确定提取的文字中包含的候选词条; B3.将所述候选词条与输入法词库中的词条进行比对,如果所述候选词条与输入法词库中的词条不匹配,则将所述候选词条作为未登录词条。
4.根据权利要求3所述的方法,其特征在于,所述步骤BI包括 Bll.确定所述图片中的文字区域; B12.识别所述文字区域中的各个文字。
5.根据权利要求4所述的方法,其特征在于,所述步骤Bll中将用户指定区域作为所述图片中的文字区域。
6.根据权利要求4所述的方法,其特征在于,所述步骤Bll包括 对所述图片进行灰度变换; 对灰度变换后的图片进行霍夫变换,并在霍夫变换后的图片中确定文字区域。
7.根据权利要求4所述的方法,其特征在于,所述步骤B12包括 提取所述图片中的文字区域中的各个文字的笔划特征; 针对各个文字,将该文字的笔划特征与预置的文字与特征之间的映射库中的特征进行比对,以确定各个文字的识别结果。
8.根据权利要求7所述的方法,其特征在于,所述笔划特征包括文字包含的各种类型的笔划的数量及相对位置。
9.根据权利要求I所述的方法,其特征在于,所述步骤B包括 确定所述图片中的文字区域,并标记所述文字区域供用户从所述文字区域中进行选取; 识别用户在所述文字区域选取的文字作为未登录词条。
10.根据权利要求I所述的方法,其特征在于,所述步骤C包括 根据输入法的类型确定所述未登录词条的输入代码序列,并将所述输入代码序列及所述未登录词条之间的对应关系添加到输入法词库中。
11.一种向输入法词库中添加词条的装置,包括 图片捕获单元,用于获取图片; 提取单元,用于从所述图片中提取未登录词条; 添加单元,用于将所述未登录词条添加到输入法词库中。
12.根据权利要求11所述的装置,其特征在于,所述图像捕获单元包括 截图单元,用于根据用户的截图行为获取所述用户截取的图片;或者,拍摄单元,用于根据用户的拍摄行为获取所述用户拍摄的图片。
13.根据权利要求11所述的装置,其特征在于,所述提取单元包括 文字提取单元,用于从所述图片中提取文字; 分词单元,用于对提取的文字进行分词,以确定提取的文字中包含的候选词条; 词条比对单元,用于将所述候选词条与输入法词库中的词条进行比对,如果所述候选词条与输入法词库中的词条不匹配,则将所述候选词条作为未登录词条。
14.根据权利要求13所述的装置,其特征在于,所述文字提取单元包括 区域确定单元,用于确定所述图片中的文字区域; 识别单元,用于识别所述文字区域中的各个文字。
15.根据权利要求14所述的装置,其特征在于,所述区域确定单元将用户指定区域作为所述图片中的文字区域。
16.根据权利要求14所述的装置,其特征在于,所述区域确定单元包括 第一变换单元,用于对所述图片进行灰度变换; 第二变换单元,用于对灰度变换后的图片进行霍夫变换,并在霍夫变换后的图片中确定文字区域。
17.根据权利要求14所述的装置,其特征在于,所述识别单元包括 特征提取单元,用于提取所述图片中的文字区域中的各个文字的笔划特征; 特征比对单元,用于针对各个文字,将该文字的笔划特征与预置的文字与特征之间的映射库中的特征进行比对,以确定各个文字的识别结果。
18.根据权利要求17所述的装置,其特征在于,所述笔划特征包括文字包含的各种类型的笔划的数量及相对位置。
19.根据权利要求11所述的装置,其特征在于,所述提取单元包括 标记单元,用于确定所述图片中的文字区域,并标记所述文字区域供用户从所述文字区域中进行选取; 词条确定单元,用于识别用户在所述文字区域选取的文字作为未登录词条。
20.根据权利要求11所述的装置,其特征在于,所述添加单元将所述未登录词条添加到输入法词库中的方式包括 根据输入法的类型确定所述未登录词条的输入代码序列,并将所述输入代码序列及所述未登录词条之间的对应关系添加到输入法词库中。
全文摘要
本发明提供了一种向输入法词库中添加词条的方法及装置,其中向输入法词库中添加词条的方法包括A.获取图片;B.从所述图片中提取未登录词条;C.将所述未登录词条添加到输入法词库中。通过上述方式,本发明能够极大地提高未登录词录入的效率,也能够很好地提高用户体验。
文档编号G06K9/00GK102855291SQ20121028291
公开日2013年1月2日 申请日期2012年8月9日 优先权日2012年8月9日
发明者栾涛, 侯建新, 连城 申请人:北京百度网讯科技有限公司