一种标注模型的建立方法、分词方法及装置与流程

文档序号:14554730阅读:262来源:国知局
一种标注模型的建立方法、分词方法及装置与流程

本发明涉及计算机技术领域,尤其涉及一种标注模型的建立方法、分词方法及装置。



背景技术:

一个中文文本从形式可以看做是由汉字(包括标点符号等)组成的一串字符串。由字可组成词,由词可组成句子,进而由一些句子组成段、节、章、篇。如果需要处理一篇中文语料,从中正确的识别出词是一件非常基础而重要的工作。分词的正确性和分词后每个词的信息完备性直接影响后续工作的正确性以及准确性。

分词本质是对一个字串中的每一个字做切分与否的二值决策过程,现有技术中常常采用字标注序列的方法对字串进行分词。虽然字标注序列的方法在分词上取得了更好的分词性能,但是随着使用的深入和领域细分,渐渐发现标注集合的一些不足,例如无法很好表示“叠字缩写”的信息。

例如,“海淀区政府一海淀区区政府”,“海淀区法院-海淀区区法院”,“宁愿脚踏机动车道与自行车道之间的草坪---宁愿脚踏机动车车道与自行车车道之间的草坪”等等类似的“叠字缩写”的形式。以上这种叠字往往既可以放在前面的词后,也可以放在后面的词前,但无论哪种方案都不能很好地表达作者的意思,因此大大影响了分词的准确性。



技术实现要素:

有鉴于此,本发明实施例提供一种标注模型建立方法、分词方法及装置,能够对出现叠字缩写情况的语料进行恰当的分词,大大提高了分词的准确性。

第一方面,本发明实施例提供一种标注模型建立方法,包括:使用预设标注集对训练语料进行分词标注,所述预设标注集中包括叠字标记,用于标注所述训练语料中的重叠缩写字;对分词标注后的训练语料进行特征提取;利用提取的特征进行模型训练,得到标注模型。

结合第一方面,在第一方面的第一种实施方式中,所述预设标注集包括以下至少一种:3词位标注集、5词位标注集、7词位标注集。

结合第一方面,在第一方面的第二种实施方式中,所述对分词标注后的训练语料进行特征提取包括:提取所述训练语料中被所述叠字标记标注的字所在语境的语境特征。

第二方面,本发明的实施例提供一种分词方法,包括:利用本发明实施例提供的任一种标注模型建立方法建立的标注模型,对输入语料进行分词标注;将分词标注后的所述输入语料中、标注有所述叠字标记的字进行叠字扩展;对叠字扩展后的所述输入语料进行分词。

结合第二方面,在第二方面的第一种实施方式中,所述将分词标注后的所述输入语料中、标注有所述叠字标记的字进行叠字扩展包括:将标注有所述叠字标记的字在紧邻该字的位置重复出现一次。

结合第二方面的第一种实施方式,在第二方面的第二种实施方式中,所述对叠字扩展后的所述输入语料进行分词包括:将所述输入语料中叠字扩展后重复出现的两个字分别分入前、后两个不同的词。

第三方面,本发明的实施例还提供一种标注模型建立装置,包括:标注单元,用于使用预设标注集对训练语料进行分词标注,所述预设标注集中包括叠字标记,用于标注所述训练语料中的重叠缩写字;提取单元,用于对所述标注单元分词标注后的训练语料进行特征提取;训练单元,用于利用所述提取单元提取的特征进行模型训练,得到标注模型。

结合第三方面,在第三方面的第一种实施方式中,所述预设标注集包括以下至少一种:3词位标注集、5词位标注集、7词位标注集。

结合第三方面,在第三方面的第二种实施方式中,所述提取单元,具体用于提取所述训练语料中被所述叠字标记标注的字所在语境的语境特征。

第四方面,本发明的实施例还提供一种分词装置,包括:模型标注单元,用于利用本发明实施例提供的任一种标注模型建立装置建立的标注模型,对输入语料进行分词标注;扩展单元,用于将所述模型标注单元分词标注后的所述输入语料中、标注有所述叠字标记的字进行叠字扩展;分词单元,用于对所述扩展单元叠字扩展后的所述输入语料进行分词。

结合第四方面,在第四方面的第一种实施方式中,所述扩展单元,具体用于将标注有所述叠字标记的字在紧邻该字的位置重复出现一次。

结合第四方面的第一种实施方式,在第四方面的第二种实施方式中,所述分词单元,具体用于将所述输入语料中叠字扩展后重复出现的两个字分别分入前、后两个不同的词。

第五方面,本发明的实施例还提供一种电子设备,所述电子设备包括:壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为上述电子设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行本发明的实施例提供的任一种标注模型建立方法。

第六方面,本发明的实施例还提供一种电子设备,所述电子设备包括:壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为上述电子设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行本发明的实施例提供的任一种分词方法。

第七方面,本发明的实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现本发明的实施例提供的任一种标注模型建立方法。

第八方面,本发明的实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现本发明的实施例提供的任一种分词方法。

本发明的实施例提供的标注模型建立方法、分词方法及装置,使用带有叠字标记的标注集对训练语料进行分词标注,并对标注后的训练语料进行特征提取,提取出可以描述叠字标记出现时伴随的特征,然后利用提取出的特征进行模型训练,从而得到可以对新的输入语料进行标注操作的标注模型。这样,即使语料中出现将两个重叠的字缩写成一个字的情况,也可以对其进行单独标注和识别,有效避免了分词的模棱两可所带来的歧义,大大提高了分词的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。

图1为本发明的实施例提供的标注模型建立方法的一种流程图;

图2为本发明的实施例提供的分词方法的一种流程图;

图3为本发明的实施例提供的标注模型建立装置的一种结构示意图;

图4为本发明的实施例提供的分词装置的一种结构示意图;

图5为本发明的实施例提供的电子设备的一种结构示意图;

图6为本发明的实施例提供的电子设备的另一种结构示意图。

具体实施方式

下面结合附图对本发明实施例进行详细描述。

应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

第一方面,本发明实施例提供一种标注模型建立方法,能够对出现叠字缩写情况的语料进行恰当的标注和分词,大大提高了分词的准确性。

如图1所示,本发明的实施例提供的一种标注模型建立方法,包括:

s11,使用预设标注集对训练语料进行分词标注,所述预设标注集中包括叠字标记,用于标注所述训练语料中的重叠缩写字;

可选的,该预设标注集可以包括一个或多个位置标记,每个位置标记可以用来标注一个字在一个词中所处的位置,还可以包括一个或多个叠字标记,每个叠字标记可以用来标注一个字是否为重叠缩写字。对于一串训练语料中的每一个字,可以使用预设标注集中的一个位置标记或者叠字标记来标注。

根据标注集中所含元素数量的不同,标注集可以分为多种类型。例如,本发明的实施例中,预设标注集可以包括以下一种或多种:3词位标注集(标注集中包括3个标记符号)、5词位标注集(标注集中包括5个标记符号)、7词位标注集(标注集中包括7个标记符号)等。

例如,在本发明的一个实施例中,预设标注集包括b、e、o三个标记符号,其中,b和e为位置标记,b表示一个字位于一个词的词头,e表示一个字位于一个词的词尾,o为叠字标记,表示一个字是两个重叠的字的缩写。当一个字被标注为o时,表示这个字是重叠缩写字,至于该字是位于一个词的词头还是位于一个词的词尾,在所不论。

可选的,在本发明的其它实施例中,预设标注集还可以采用其他形式,例如,一个预设标注集可以包括5个标记符号,其中b表示一个字位于一个词的词头,m表示一个字位于一个词的词中,e表示一个字位于一个词的词尾,s表示一个字单独成为一个词,o表示一个字是两个重叠的字的缩写。又例如,一个预设标注集中可以包括7个标记符号,其中b表示一个字位于一个词的词头,b1表示一个字位于一个词的第二个位置,b2表示一个字位于一个词的第三个位置,m表示一个字位于一个词的词中位置,e表示一个字位于一个词的词尾,s表示一个字单独成为一个词,o表示一个字是两个重叠的字的缩写。

举例说明,在本发明的一个实施例中,一个训练语料为“宁愿脚踏机动车道自行车道之间的草坪”,其所要表达的真实意思为“宁愿脚踏机动车车道自行车车道之间的草坪”。即,虽然训练语料中表示为“机动车道”,但其实它要表达的真实意思应该是“机动车车道”,虽然训练语料中表示为“自行车道”,但其实它要表达的真实意思应该是“自行车车道”。利用5词位标注集对该训练语料进行标注,标注结果可以为:

“宁/b愿/e脚/s踏/s机/b动/m车/o道/e与/s自/b行/m车/o道/e之/b间/e的/s草/b坪/e”。

s12,对分词标注后的训练语料进行特征提取;

本步骤中,需要对分词标注后的训练语料进行特征提取,将描述刻画标注与语境之间的对应关系的特征提取出来。例如,对于与叠字标记相关的特征提取,就可以提取训练语料中被所述叠字标记标注的字所在语境的语境特征,即提取出可以体现什么样的语境下需要用“叠字标记”进行标注,找出可以描述叠字标记出现的特征即可。

s13,利用提取的特征进行模型训练,得到标注模型。

本步骤中,由于经过大量的训练语料的学习,即可让计算机训练出一套能够进行分词标注的模型。

本发明的实施例提供的标注模型建立方法,使用带有叠字标记的标注集对训练语料进行分词标注,并对标注后的训练语料进行特征提取,提取出可以描述叠字标记出现时伴随的特征,然后利用提取出的特征进行模型训练,从而得到可以对新的输入语料进行标注操作的标注模型。这样,即使语料中出现将两个重叠的字缩写成一个字的情况,也可以对其进行单独标注和识别,有效避免了分词的模棱两可所带来的歧义,大大提高了分词的准确性。

需要说明的是,本发明的实施例中,可以根据实际需要自由选择使用哪种类型的标注集。随着词位标注集合中元素数量的扩充,对训练语料进行特征提取时,特征模板会相对简单,进行模型训练时,模型的未知参数的数量也会相对少一些。可以理解的,由于3词位标注集中提供的标注细节较少,因此需要使用复杂的特征来弥补特征标注集在表达能力上的不足。而7词位标注集,只需使用相对简单的特征模板集就可以取得较好的分词结果。这也表明尽管分词过程是一个二值决策过程,然而,通过选择合适的词位标注集以及特征模板能获得更好的分词性能。

第二方面,本发明的实施例还提供一种分词方法,能够对出现叠字缩写情况的语料进行恰当的分词,大大提高了分词的准确性。

如图2所示,本发明实施例提供的分词方法可包括:

s21,利用本发明的任一实施例提供的标注模型建立方法建立的标注模型,对输入语料进行分词标注;

本步骤中,输入语料也就是待分词的语料。输入语料与模型训练时所使用的训练语料不同。训练语料中每个字应该如何标注是已知的,用已知的标注方法去训练标注模型。而输入语料中,完全不知道语料中的每个字应该标注成什么,需要利用训练出的标注模型来对新的输入语料进行标注。由于对标注模型进行训练时,所使用的预设标注集中包括叠字缩写标记,因此,应用该标注模型对新的输入语料进行标注时,也能够将输入语料中出现的重叠缩写字标注出来。

举例说明,对标注模型的输入语料为“廊坊市政府针对三资企业后期服务存在的一些问题”,标注模型对其进行标注,输入结果为“廊/b坊/e市/o政/b府/e针/b对/e三/b资/m企/m业/e后/b期/e服/b务/e存/b在/e的/s一/b些/e问/b题/e”。

s22,将分词标注后的所述输入语料中、标注有所述叠字标记的字进行叠字扩展;

本步骤中,针对标注模型标注的输入语料中,标注有叠字标记的字在紧邻该字的位置重复出现一次。例如,上个步骤中,“廊/b坊/e市/o政/b府/e”的“市”字,被标注了叠字缩写标记,则本步骤中,需要对“市”字进行叠字扩展,由原来的一个“市”扩展为两个连续的“市”,则叠字扩展后,“廊坊市政府”变为“廊坊市市政府”。

s23,对叠字扩展后的所述输入语料进行分词。

本步骤中,需要对叠字扩展后的上诉如语料进行分词操作,具体的,可以将输入语料中叠字扩展后重复出现的两个字分别分入前、后两个不同的词。

仍以步骤s22中的实施例为例,本步骤中,将重复出现的两个“市”字分别分入前后两个不同的词。即,对“廊坊市市政府”进行分词的分词结果为“廊坊市/市政府”。

又例如,输入语料标记为:宁/b愿/e脚/s踏/s机/b动/m车/o道/e与/s自/b行/m车/o道/e之/b间/e的/s草/b坪/e;

叠字扩展结果为:宁/b愿/e脚/s踏/s机/b动/m车/o车/o道/e与/s自/b行/m车/o车/o道/e之/b间/e的/s草/b坪/e;

分词结果为:宁愿/脚/踏/机动车/车道/与/自行车/车道/之间/的/草坪/。

本发明的实施例提供的分词方法,能够利用本发明实施例提供的任一种标注模型建立方法建立的标注模型,对输入语料进行分词标注,然后将分词标注后的输入语料中、标注有叠字标记的字进行叠字扩展,对叠字扩展后的所述输入语料进行分词。这样,即使语料中出现将两个重叠的字缩写成一个字的情况,也可以对其进行单独标注和识别,有效避免了分词的模棱两可所带来的歧义,大大提高了分词的准确性。

第三方面,本发明的实施例还提供一种标注模型建立装置,能够对出现叠字缩写情况的语料进行恰当的标注,大大提高了分词的准确性。

如图3所示,本实施例提供的标注模型建立装置,可包括:

标注单元31,用于使用预设标注集对训练语料进行分词标注,所述预设标注集中包括叠字标记,用于标注所述训练语料中的重叠缩写字;

提取单元32,用于对所述标注单元分词标注后的训练语料进行特征提取;

训练单元33,用于利用所述提取单元提取的特征进行模型训练,得到标注模型。

本发明的实施例提供的标注模型建立装置,使用带有叠字标记的标注集对训练语料进行分词标注,并对标注后的训练语料进行特征提取,提取出可以描述叠字标记出现时伴随的特征,然后利用提取出的特征进行模型训练,从而得到可以对新的输入语料进行标注操作的标注模型。这样,即使语料中出现将两个重叠的字缩写成一个字的情况,也可以对其进行单独标注和识别,有效避免了分词的模棱两可所带来的歧义,大大提高了分词的准确性。

可选的,所述预设标注集包括以下至少一种:3词位标注集、5词位标注集、7词位标注集。

可选的,提取单元32,可具体用于提取所述训练语料中被所述叠字标记标注的字所在语境的语境特征。

第四方面,本发明的实施例还提供一种分词装置,能够对出现叠字缩写情况的语料进行恰当的分词,大大提高了分词的准确性。

如图4所示,本发明的实施例提供的分词装置可包括:

模型标注单元41,用于利用本发明任一实施例提供的标注模型建立装置建立的标注模型,对输入语料进行分词标注;

扩展单元42,用于将所述模型标注单元分词标注后的所述输入语料中、标注有所述叠字标记的字进行叠字扩展;

分词单元43,用于对所述扩展单元叠字扩展后的所述输入语料进行分词。

本发明的实施例提供的分词装置,能够利用本发明实施例提供的任一种标注模型建立方法建立的标注模型,对输入语料进行分词标注,然后将分词标注后的输入语料中、标注有叠字标记的字进行叠字扩展,对叠字扩展后的所述输入语料进行分词。这样,即使语料中出现将两个重叠的字缩写成一个字的情况,也可以对其进行单独标注和识别,有效避免了分词的模棱两可所带来的歧义,大大提高了分词的准确性。

可选的,扩展单元42,可具体用于将标注有所述叠字标记的字在紧邻该字的位置重复出现一次。

可选的,分词单元43,可具体用于将所述输入语料中叠字扩展后重复出现的两个字分别分入前、后两个不同的词。

第五方面,本发明实施例提供一种电子设备,能够对出现叠字缩写情况的语料进行恰当的标注,大大提高了分词的准确性。

如图5所示,本发明的实施例提供的电子设备,可以包括:壳体51、处理器52、存储器53、电路板54和电源电路55,其中,电路板54安置在壳体51围成的空间内部,处理器52和存储器53设置在电路板54上;电源电路55,用于为上述电子设备的各个电路或器件供电;存储器53用于存储可执行程序代码;处理器52通过读取存储器53中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行前述任一实施例提供的人数统计方法。

处理器52对上述步骤的具体执行过程以及处理器52通过运行可执行程序代码来进一步执行的步骤,可以参见前述实施例的描述,在此不再赘述。

第六方面,本发明实施例提供一种电子设备,能够对出现叠字缩写情况的语料进行恰当的分词,大大提高了分词的准确性。

如图5所示,本发明的实施例提供的电子设备,可以包括:壳体61、处理器62、存储器63、电路板64和电源电路65,其中,电路板64安置在壳体61围成的空间内部,处理器62和存储器63设置在电路板64上;电源电路65,用于为上述电子设备的各个电路或器件供电;存储器63用于存储可执行程序代码;处理器62通过读取存储器63中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行前述任一实施例提供的人数统计方法。

处理器62对上述步骤的具体执行过程以及处理器62通过运行可执行程序代码来进一步执行的步骤,可以参见前述实施例的描述,在此不再赘述。

上述电子设备以多种形式存在,包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iphone)、多媒体手机、功能性手机,以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:pda、mid和umpc设备等,例如ipad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如ipod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子设备。

第七方面,本发明的实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现前述实施例提供的任一种标注模型建立方法,因此也能实现相应的技术效果,前文已经进行了详细说明,此处不再赘述。

第八方面,本发明的实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现前述实施例提供的任一种分词方法,因此也能实现相应的技术效果,前文已经进行了详细说明,此处不再赘述。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。

尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

为了描述的方便,描述以上装置是以功能分为各种单元/模块分别描述。当然,在实施本发明时可以把各单元/模块的功能在同一个或多个软件和/或硬件中实现。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,rom)或随机存储记忆体(randomaccessmemory,ram)等。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1