一种敏感词校对的方法及系统的制作方法

文档序号:6471004阅读:843来源:国知局

专利名称::一种敏感词校对的方法及系统的制作方法
技术领域
:本发明属于文字校对领域,特别涉及一种敏感词校对的方法及系统。
背景技术
:目前的文字校对领域中,主要通过先定义敏感词后检查的方式进行的,并且定义的敏感词要遍历所有可能出现的情况,然后通过一一匹配的方式进行校对。具体步骤如下步骤1、确定要定义的敏感词,如要定义一个敏感词"俯卧撑"。步骤2、将"俯卧撑"这个词,以及这个词的所有变形,如"负卧撑"、"俯卧程"等等都增加到敏感词库中。步骤3、从被校对文本中获取被校对词,根据敏感词及其变形进行校对,如果发现被校对文本中出现和已经定义的敏感词相同的被校对词就提示错误,并提示用户修改。基于上述的敏感词校对方法,必须遍历所有的敏感词及变形的组合,增加到敏感词库中,虽然在敏感词库中已经增加的敏感词及变形可以校对出来,但如果是没有定义增加的变形如"俯我撑",就校对不出,这样做,敏感词的变形词校对的准确率比较低。
发明内容本发明实施例的目的在于提供了一种敏感词校对的方法,为了解决现有技术中对敏感词的变形词校对的准确率比较低的问题。为实现上述目的,本发明实施例提供了一种敏感词校对的方法,包括通过组成敏感词的字的内码,及内码和字的拼音字母组成信息的对应关系,确定敏感词拼音字母组成信息;从被校对文本中获取被校对词,通过组成被校对词的汉字内码,及内码和字的拼音字母组成信息的对应关系,确定被校对词拼音字母组成信息;根据被校对词与敏感词,彼此之间的拼音字母组成信息相同,确定被校对词为敏感词。同时本发明实施例还提供一种敏感词校对的系统,包括存储装置用于存储内码和字的拼音字母组成信息的对应关系;敏感词获取装置用于通过组成敏感词的字的内码,及存储装置中存储的内码和字的拼音字母组成信息的对应关系,确定敏感词拼音字母组成信息;被校对词获取装置用于通过组成被校对词的汉字内码,及存储装置中存储的内码和字的拼音字母组成信息的对应关系,确定被校对词拼音字母组成信息;校对装置用于比较被校对词与敏感词,彼此之间的拼音字母组成信息,若相同,则确定被校对词为敏感词。由上述本发明提供的具体实施方案可以看出,正是由于通过语音校对,使得敏感词的变形词可以被校对出来,提高了敏感词的变形词的校对准确率。图1为本发明提供的第一实施例方法流程图;图2为本发明提供的第二实施例系统结构图。具体实施例方式为了解决现有技术中对敏感词的变形词校对的准确率比较低的问题,本发明实施例提供了一种敏感词校对的方法,首先确定组成敏感词的字的内码,并内码和字的拼音字母组成信息的对应关系表,确定敏感词拼音字母组成信息,随后从被校对文本中获取被校对词,通过组成被校对词的字的内码,及前述的对应关系表,确定被校对词拼音字母组成信息,若被校对词与敏感词,彼此之间的拼音字母组成信息相同,则确定被校对词为敏感词。本发明提供的第一实施例一种敏感词校对的方法,方法流程如图1所示,包括步骤102:确定组成敏感词"拔牙"的"拔"和"牙"字的内码(GBK内码)分别为B0CE和D1C0。本实施例中采用的内码为GBK内码,但并不局限于GBK内码,也可采用其它内码如区位码禾口Uincode码。通过查找相关内码的定义,可以确定"拔""牙"字的内码为分别为B0CE和D1C0(采用16进制表示)。通过所有的敏感词生成一个敏感词库,在进行后续校对时对敏感词库中的敏感词逐一校对。实际使用过程中可以在敏感词库中增加、删除和修改敏感词。步骤104:通过内码B0CE和D1C0以及表1(表1为内码和字的拼音字母组成信息的对应关系表),确定敏感词"拔牙"拼音字母组成信息为000100000100000000000000000110010000100000000000000000。<table>tableseeoriginaldocumentpage4</column></row><table>表1其中拼音字母组成信息可以为拼音字母本身如"ba""ya",或者表示拼音字母组成的数字编码。其中数字编码可采用如下定义字母A对应00001、字母B对应00010、字母C<table>tableseeoriginaldocumentpage5</column></row><table>分大小写),这样采用4个字节就可表示一个字的拼音字母组成信息,其中每个字母占用5个比特,4个字节最多可表示6个字母,若其中的某些字母不存在(比如一个字的拼音只有2个字母,则不存在第3、4、5、6个字母),则对应的比特被置为O,在字节2和字节4的最后一个比特可用于表示该字是否是多音字,若是则可都置为l,否则都置为0。字节1字节2拼音第1个字母一卜拼音第2个字母—拼音第3个字母>研曰矛U子^"^"若无则每个位置为o一若无则每个位置为广字节3字节4拼音第4个字母拼音第5个字母拼音第6个字母4若无则每个位置为0—卜若无则每个位置为0"^*若无则每个位置为0*其中"拔"字的拼音字母为"b"和"a","牙"字的拼音为"y"和"a","拔"字对应的数字编码为000100000100000000000000000,"牙"对应的数字编码为110010000100000000000000000,得到"拔牙"对应的数字编码为000100000100000000000000000110010000100000000000000000。步骤106:从被校对文本1.DOC中获取被校对词"坝崖",通过组成被校对词的字"坝""崖"内码B0D3、D1C2,及表l,确定被校对词拼音字母组成信息000100000100000000000000000110010000100000000000000000。步骤108:比较"坝崖"与"拔牙",彼此之间的拼音字母组成信息,因相同,则确定"坝崖"为敏感词。因"拔"字为多音字其拼音可以是"bo","bo"对应的拼音字母组成信息为000100111100000000000000000,因此,"拔牙"对应的数字编码不是唯一的其还对应000100111100000000000000000110010000100000000000000000。因此若在步骤106中从被校对文本1.DOC中还获取被校对词"博雅"通过组成被校对词的字"博""雅"内码B2A9、D1C5,及表l,确定拼音字母组成信息与"拔牙"相同,同样也确定为敏感词。步骤110:在被校对文本1.DOC中突显出"坝崖"。本发明提供的第二实施例是一种敏感词校对的系统,其结构如图2所示,包括存储装置202:用于存储内码和字的拼音字母组成信息的对应关系;敏感词获取装置204:用于通过组成敏感词的字的内码,及存储装置中存储的内码和字的拼音字母组成信息的对应关系,确定敏感词拼音字母组成信息;被校对词获取装置206:用于通过组成被校对词的汉字内码,及存储装置中存储的内码和字的拼音字母组成信息的对应关系,确定被校对词拼音字母组成信息;校对装置208:用于比较被校对词与敏感词,彼此之间的拼音字母组成信息,若相同,则确定被校对词为敏感词。进一步,敏感词获取装置204:还用于若敏感词中包括多音字,则通过敏感词内码,及存储装置中存储的内码和字的拼音字母组成信息的对应关系,确定敏感词的多个拼音字母组成信息;和/或被校对词获取装置206:还用于若被校对词中包括多音字,则通过被校对词内码,及存储装置中存储的内码和字的拼音字母组成信息的对应关系,确定被校对词的多个拼音字母组成信息。校对装置208:还用于比较被校对词与敏感词,彼此之间的拼音字母组成信息,若其中一对相同,则确定被校对词为敏感词。进一步,系统还包括敏感词库210:用于存储敏感词。进一步,系统还包括显示装置212:在被校对文本中突显出被确定为敏感词的被校对词。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。权利要求一种敏感词校对的方法,其特征在于,包括通过组成敏感词的字的内码,及内码和字的拼音字母组成信息的对应关系,确定敏感词拼音字母组成信息;从被校对文本中获取被校对词,通过组成被校对词的字的内码,及内码和字的拼音字母组成信息的对应关系,确定被校对词拼音字母组成信息;被校对词与敏感词,彼此之间的拼音字母组成信息相同时,确定被校对词为敏感词。2.如权利要求1所述的方法,其特征在于,拼音字母组成信息以数字编码的方式表示。3.如权利要求l所述的方法,其特征在于,还包括在被校对文本中突显出被确定为敏感词的被校对词。4.如权利要求2所述的方法,其特征在于,若敏感词中包括多音字,则通过敏感词内码,及内码和字的拼音字母组成信息的对应关系,确定敏感词的多个拼音字母组成信息;和/或,若被校对词中包括多音字,则通过被校对词内码,及内码和字的拼音字母组成信息的对应关系,确定被校对词的多个拼音字母组成信息;根据被校对词与敏感词,彼此之间的拼音字母组成信息中一对相同,确定被校对词为敏感词。5.如权利要求3所述的方法,其特征在于,将敏感词预存于敏感词库中,对敏感词库中的敏感词逐一校对。6.如权利要求4所述的方法,其特征在于,存储内码和字的拼音字母组成信息的对应关系的文件,按内码的顺序进行存储。7.—种敏感词校对的系统,其特征在于,包括存储装置用于存储内码和字的拼音字母组成信息的对应关系;敏感词获取装置用于通过组成敏感词的字的内码,及存储装置中存储的内码和字的拼音字母组成信息的对应关系,确定敏感词拼音字母组成信息;被校对词获取装置用于通过组成被校对词的汉字内码,及存储装置中存储的内码和字的拼音字母组成信息的对应关系,确定被校对词拼音字母组成信息;校对装置用于比较被校对词与敏感词,彼此之间的拼音字母组成信息,若相同,则确定被校对词为敏感词。8.如权利要求7所述的系统,其特征在于,敏感词获取装置还用于若敏感词中包括多音字,则通过敏感词内码,及存储装置中存储的内码和字的拼音字母组成信息的对应关系,确定敏感词的多个拼音字母组成信息;和/或被校对词获取装置还用于若被校对词中包括多音字,则通过被校对词内码,及存储装置中存储的内码和字的拼音字母组成信息的对应关系,确定被校对词的多个拼音字母组成信息;校对装置还用于比较被校对词与敏感词,彼此之间的拼音字母组成信息,若其中一对相同,则确定被校对词为敏感词。9.如权利要求7所述的系统,其特征在于,还包括敏感词库用于存储敏感词。10.如权利要求7所述的系统,其特征在于,还包括显示装置在被校对文本中突显出被确定为敏感词的被校对词。全文摘要本发明公开了一种敏感词校对的方法及系统,为了解决现有技术中敏感词校对的准确率比较低的问题,本发明公开的方法包括通过组成敏感词的字的内码,及内码和字的拼音字母组成信息的对应关系,确定敏感词拼音字母组成信息;从被校对文本中获取被校对词,通过组成被校对词的汉字内码,及内码和字的拼音字母组成信息的对应关系,确定被校对词拼音字母组成信息;若被校对词与敏感词,彼此之间的拼音字母组成信息相同,则确定被校对词为敏感词,因此通过语音校对,使得敏感词的变形词可以被校对出来,提高了敏感词的校对准确率。文档编号G06F17/27GK101727440SQ20081022489公开日2010年6月9日申请日期2008年10月24日优先权日2008年10月24日发明者朱建波,李少明,陈志雄申请人:北大方正集团有限公司;北京北大方正电子有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1