一种人名词库生成方法、装置及文字输入系统的制作方法

文档序号:6598788阅读:231来源:国知局
专利名称:一种人名词库生成方法、装置及文字输入系统的制作方法
技术领域
本发明属于计算机软件领域,尤其涉及一种人名词库生成方法、装置及文字输入系统。
背景技术
输入法是指为了将各种符号输入计算机或移动电话等其他设备而采用的编码方法。汉字输入的编码方法,基本上都是采用将音、形、义与特定的键相联系,再根据不同汉字进行组合来完成汉字的输入的。目前,很多汉字输入法都支持专有的人名输入模式,通过统计中国所有存在的姓氏,从同学录、邮箱或者其它数据库中提取人的姓名,形成人名语料,根据人名语料进行人名词库的训练,提取可能作为名字的字和词,并取得它们出现的频率,形成输入法的人名词库。在输入时,输入法根据用户输入的拼音串和人名词库的数据进行姓氏和名字的组词,得到输出的人名。上述基于人名语料统计只能找到有限的语料,不管是同学录还是邮箱,或者其他的人名语料能够获取到的人名都是有限的,导致语料训练结果、人名输出结果和准确率都受到很大限制。

发明内容
本发明实施例的目的在于提供一种人名词库生成方法,旨在解决现有的人名语料有限,导致语料训练结果、人名输出结果和准确率受到限制的问题。本发明实施例是这样实现的,一种人名词库生成方法,所述方法包括以下步骤获取用户词库;从所获取的用户词库中提取人名语料;从所述人名语料中筛选人名组词,生成人名词库;调整人名组词在所述人名词库中的词频。本发明实施例的另一目的在于提供一种人名词库生成装置,所述装置包括用户词库获取单元,用于获取用户词库;人名语料提取单元,用于从所获取的用户词库中提取人名语料;人名词库生成单元,用于从所述人名语料中筛选人名组词,生成人名词库;人名词库,用于存储所述人名组词;以及词频调整单元,用于调整人名组词在所述人名词库中的词频。本发明实施例的另一目的在于提供一种包含上述人名词库生成装置的文字输入系统。本发明实施例从用户词库中提取人名语料,筛选人名组词,建立人名词库,使得人名语料不受限制,能够生成更好的人名词库,提高输入法在输出人名时的合理性和准确率。


图1是本发明实施例提供的人名词库生成方法的实现流程图;图2是本发明实施例提供的人名词库生成装置的结构图。
具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。本发明实施例从输入法的用户词库提取人名语料,筛选生成人名词库,对人名词库进行训练优化,将训练优化后的人名词库更新到使用输入法的用户,提高人名组词的合理性和准确率。图1示出了本发明实施例提供的人名词库生成方法的实现流程,详述如下在步骤SlOl中,获取用户词库;用户输入文字时,输入法会将用户输入的字串记录在用户本地,形成用户词库。在本发明实施例中,可以由输入法自动将用户词库上报给后台服务器,或者由用户主动将本地的用户词库上报给后台服务器,后台服务器获取输入法或者用户上报的用户词库,以用户词库为基础,从用户词库中提取人名语料。在步骤S102中,从所获取的用户词库中提取人名语料;在本发明实施例中,要实现人名组词,首先要收集人名的姓氏,以区分一个词或者一个短语(2 4个字)是否是一个人名。由于中国的姓氏是有限的,通过基于百家姓的人工收集可以很容易完成,收集人名姓氏,生成姓氏词库。本发明实施例在获取用户词库后,根据姓氏从用户词库中提取人名语料。姓氏有单姓和复姓之分,人名一般有单名和双名之分,如果单姓,则人名一般最多为三个字,最少为两个字,如果是复姓,则人名一般最多为四个字,最少为三个字。本发明实施例在提取人名语料时,可以通过这些人名规则,利用姓氏词库中的姓氏作为关键字在用户词库中查找,根据一字或者二字的名,提取用户词库中可能存在的人名语料。例如用户词库中的字串为“张三去学校了”,从姓氏词库中可以判断出“张”是一个姓氏,则提取后面的 “三”和“三去”作为人名语料。在步骤S103中,从人名语料中筛选人名组词,生成人名词库;在本发明实施例中,由于人名语料是简单的按照一或者两个字的人名从用户词库中划分出来的,那么可能存在一些不是人名组词的数据,例如“张三去”,因此需要对人名语料进行筛选,过滤掉不是人名组词的数据。首先,将单名字直接作为人名组词,写入人名词库。单名的人名语料,例如“张三”中,这个“三”即便不是一个人名,也可以作为人名的一部分,因此对于单名的人名语料,可以认定为人名组词,直接写入人名词库。对于采用父母两方的姓氏加起来,然后再加一个字的名,例如“燕杨天”,这部分的人名语料作为单字的人名组词也直接写入人名词库。其次,用户在输入文字时,对于用户词库中没有,而需要经常输入的人名往往一次拼写完整,存入用户词库,以方便以后使用。因此,对于用户词库中的用户自造的人名组词,可以直接写入人名词库。另外,有意义的词语一般可以作为双字的人名组词,在本发明实施例中,将出现的双字的人名语料与输入法的核心词库,或者其他比较准确的词库的词语进行比对,筛选出有意义的词语和可能没有意义的词语,将有意义的词语基本上认定为一个人名组词。例如 “张三去”中的“三去”不是一个有意义的词语,在输入法的核心词库中找不到,因此保留进一步筛选。如果有一个双字为“高寿”,由于“高寿”可以在标准的词库中找到,则认为“高寿”是一个人名组词,写入人名词库。受限于标准词库的容量和精确度,对于筛选出来的可能不是人名组词的人名语料中,可能还有很大一部分也是人名组词。在本发明实施例中,对于这部分人名语料,可以通过人工参与进行筛选,将能够作为人名组词的无意义词语写入人名词库,以保证词库中人名组词的精度,例如“张三丰”中的“三丰”并不是一个有意义的词语,通过人工参与筛选, 将其作为一个人名组词,写入人名词库。对于贬义词或者含义不好的字,例如“坏”,“混蛋”之类的贬义词一般不会作为人名组词出现,但收集的人名语料中可能会出现,可以通过人工参与进行筛选和排查去除,或者通过收集相关的字词数据库去除。在步骤S104中,调整人名组词在人名词库中的出现频率。在本发明实施例中,通过上述方式可以获得一个相对比较全面的人名词库。通过统计人名组词出现的概率,调整人名词库中人名组词的词频,以保证人名组词的质量。在具体实现时,后台服务器根据提取到的用户词库,进行姓氏和人名的分词,统计人名组词在不同用户词库中出现的概率,作为输入法中人名组词频率的计算依据,从而调整人名组词在人名词库中的词频,例如一个人名组词在多个用户词库中出现,则说明该人名组词是很多用户都关心的高频率人名组词,则将该人名组词排在人名词库的前面,在用户输入时优先输出显示给用户选择。另外,根据取名习惯,由于取名时一般都会考虑顺口,例如很少有用音调全部相同的字词作为名字,这部分的数据只能是一个参考,这类词作为人名出现时的,其在人名词库中的频率可以适当调低。在本发明实施例中,将人名词库的词频调整完成后,可以将词频调整完成后的人名词库更新到用户。人名词库可以作为一个单独文件,供用户下载更新。具体实现时,可以在人名词库中按照一定的规则写入一个版本号,例如可以用主.副来表示,也可以用一个编号来表示, 不断递增,或者按照人名词库的生成日期做版本号。输入法启动后,调用其自动更新程序和后台服务器通讯,后台服务器校验人名词库的版本号信息,必要时判断是否满足其他的更新条件,例如对于某些版本的输入法可能不需要更新,或者不能更新人名词库。自动更新程序和后台服务器校验之后发现需要更新时,则从后台服务器下载人名词库到本地,并覆盖本地原来安装包中的人名词库文件。图2示出了本发明实施例提供的人名词库生成装置的结构,为了便于说明,仅示出了与本发明实施例相关的部分。该人名词库生成装置可以运行在各种文字输入系统中的后台服务器中,从输入法的本地用户词库中提取人名语料,筛选生成人名词库,对人名词库进行训练优化,并可以将训练优化后的人名词库更新到使用输入法的用户,提高人名组词的合理性和准确率。 用户词库获取单元21获取用户词库,用户词库具体可以由输入法自动上报,或者用户主动上报。人名语料提取单元22从所获取的用户词库中提取人名语料。作为本发明的一个实施例,姓氏词库221中存储姓氏信息,人名语料查找提取模块222根据姓氏词库221中的姓氏,以及人名规则,在用户词库中查找提取人名语料,具体实现如上所述,不再赘述。人名词库生成单元23从人名语料提取单元22提取的人名语料中筛选人名组词, 生成人名词库24,具体实现如上所述,不再赘述。人名词库24存储人名词库生成单元23筛选的人名组词。作为本发明的一个实施例,人名词库24中的人名组词包括单名字、两个姓氏叠加的单名字、用户自造的人名组词、有意义的词语,或者经人工筛选的无意义词语,具体实现如上所述,不再赘述。词频调整单元25调整人名组词在人名词库24中的词频。词频调整单元25对人名词库24中的人名组词进行词频调整时,作为本发明的一个实施例,姓名分词模块251根据提取到的用户词库和姓氏词库221,进行姓氏和人名的分词。出现概率统计模块252统计人名组词在不同用户词库中出现的概率。词频调整模块253根据人名组词在不同用户词库中出现的概率,调整人名组词在人名词库24中的词频。作为本发明的一个实施例,人名词库的词频调整完成后,可以将词频调整完成后的人名词库更新到用户。人名词库更新单元26将调整词频后的人名词库更新到用户,具体更新过程如上所述,不再赘述。本发明实施例从用户词库中提取人名语料,筛选人名组词,建立人名词库,使得人名语料不受限制,能够生成更好的人名词库,提高输入法在输出人名时的合理性和准确率。 同时,人名词库更新到用户,方便用户使用。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
权利要求
1.一种人名词库生成方法,其特征在于,所述方法包括以下步骤 获取用户词库;从所获取的用户词库中提取人名语料; 从所述人名语料中筛选人名组词,生成人名词库; 调整人名组词在所述人名词库中的词频。
2.如权利要求1所述的方法,其特征在于,所述从所获取的用户词库中提取人名语料的步骤具体为生成姓氏词库;根据所述姓氏词库中的姓氏和人名规则,在所述用户词库中查找提取人名语料。
3.如权利要求1所述的方法,其特征在于,所述从所述人名语料中筛选人名组词,生成人名词库的步骤具体为当所述人名语料中存在单名字时,将该单名字作为人名组词,写入所述人名词库; 当所述人名语料中存在两个姓氏叠加的单名字时,将该单名字作为人名组词,写入所述人名词库;当所述人名语料中存在用户自造的人名组词时,将该人名组词写入所述人名词库; 当所述人名语料中存在双字时,筛选有意义的词语,或者经人工筛选作为人名组词的无意义词语,写入所述人名词库。
4.如权利要求1所述的方法,其特征在于,所述调整人名组词在所述人名词库中的词频的步骤具体为根据提取到的用户词库,进行姓氏和人名的分词; 统计人名组词在不同用户词库中出现的概率;根据人名组词在不同用户词库中出现的概率,调整所述人名组词在人名词库中的词频。
5.如权利要求1所述的方法,其特征在于,所述方法进一步包括下述步骤 将调整词频后的人名词库更新到用户。
6.一种人名词库生成装置,其特征在于,所述装置包括 用户词库获取单元,用于获取用户词库;人名语料提取单元,用于从所获取的用户词库中提取人名语料; 人名词库生成单元,用于从所述人名语料中筛选人名组词,生成人名词库; 人名词库,用于存储所述人名组词;以及词频调整单元,用于调整人名组词在所述人名词库中的词频。
7.如权利要求6所述的装置,其特征在于,所述人名语料提取单元包括 姓氏词库,用于存储姓氏信息;以及人名语料查找提取模块,用于根据所述姓氏词库中的姓氏和人名规则,在所述用户词库中查找提取人名语料。
8.如权利要求6所述的装置,其特征在于,所述人名词库中的人名组词包括单名字、 两个姓氏叠加的单名字、用户自造的人名组词、有意义的词语,或者经人工筛选的无意义词语。
9.如权利要求6所述的装置,其特征在于,所述词频调整单元包括姓名分词模块,用于根据提取到的用户词库,进行姓氏和人名的分词; 出现概率统计模块,用于统计人名组词在不同用户词库中出现的概率;以及词频调整模块,用于根据人名组词在不同用户词库中出现的概率,调整所述人名组词在人名词库中的词频。
10.如权利要求6所述的装置,其特征在于,所述装置还包括 人名词库更新单元,用于将调整词频后的人名词库更新到用户。
11.一种包含权利要求6的人名词库生成装置的文字输入系统。
全文摘要
本发明适用于计算机软件领域,提供了一种人名词库生成方法、装置及文字输入系统,所述方法包括以下步骤获取用户词库;从所获取的用户词库中提取人名语料;从所述人名语料中筛选人名组词,生成人名词库;调整人名组词在所述人名词库中的词频。本发明实施例从用户词库中提取人名语料,筛选人名组词,建立人名词库,使得人名语料不受限制,能够生成更好的人名词库,提高输入法在输出人名时的合理性和准确率。
文档编号G06F17/30GK102193920SQ20101011802
公开日2011年9月21日 申请日期2010年3月4日 优先权日2010年3月4日
发明者宋爱元 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1