中文词性的标注方法和装置与流程

文档序号:11918472阅读:564来源:国知局
中文词性的标注方法和装置与流程

本申请涉及数据处理领域,具体而言,涉及一种中文词性的标注方法和装置。



背景技术:

在自然语言处理中,词是能够独立活动的有意义的最小的语言成分,因此它是语言中表达内容的基本单位。词性标注(Part-of-Speech Tagging)的主要目的是给句中每一个词赋以正确的分类标记,它是词法分析的一个重要部分,词性标注的难点是正确判断多义词的词类以及生词词类的判别。国内外词性标注的研究方法主要有三种:基于规则的方法、基于转换错误驱动的方法、基于统计的方法。

但以上标注方法均存在标注方式复杂,并且准确度不高的问题。

针对上述的问题,目前尚未提出有效的解决方案。



技术实现要素:

本申请实施例提供了一种中文词性的标注方法和装置,以至少解决现有技术中中文词性的标注方式比较复杂的技术问题。

根据本申请实施例的一个方面,提供了一种中文词性的标注方法,包括:分解待标注语句,得到所述待标注语句中的n个文字和每个所述文字在所述待标注语句中的位置,其中,n为述待标注语句中文字的数量;从预设数据库中查找每个所述文字在各自位置上的至少一个初始词性,得到每个所述文字的词状态,其中,所述词状态为由位置与词性构成的组合标识,所述预设数据库中存储有位置和词性的对应关系;从所述预设数据库中查找每个所述文字的词状态的概率,其中,所述预设数据库中还存储有词状态和概率的对应关系;根据n个所述文字的词状态的概率,计算n个所述文字组成所述待标注语句的概率最大路径;以及确定所述概率最大路径上的每个所述文字的初始词性为对待标注语句中的文字进行标注的目标词性。

进一步地,根据n个所述文字的词状态的概率,计算n个所述文字组成所述待标注语句的概率最大路径包括:根据每两个相邻的所述文字的词状态的概率,计算所述每两个相邻的所述文字形成相邻关系的概率最大子路径,得到n-1个所述概率最大子 路径;以及确定n-1个所述概率最大子路径的连接路径为所述概率最大路径。

进一步地,从所述预设数据库中查找每个所述文字的词状态的概率包括:查找文字W2至文字Wn-1的词状态的初始概率、发射概率和转移概率,并查找文字W1的词状态的初始概率和转移概率,以及查找文字Wn的词状态的发射概率,其中,所述发射概率表示文字由隐状态转换为显状态的概率,前一文字的所述转移概率表示所述前一文字的词状态转换为后一文字的词状态的概率,所述前一文字和所述后一文字为所述待标注语句中相邻的两个文字,所述文字W1至所述文字Wn构成n个所述文字,根据每两个相邻的所述文字的词状态的概率,计算所述每两个相邻的所述文字形成相邻关系的概率最大子路径,得到n-1个所述概率最大子路径包括:根据所述前一文字的词状态的初始概率、所述后一文字的词状态的发射概率和所述前一文字的转移概率,计算所述前一文字和所述后一文字之间的所述概率最大子路径。

进一步地,每个所述文字具有至少一个词状态,根据所述前一文字的词状态的初始概率、所述后一文字的词状态的发射概率和所述前一文字的转移概率,计算所述前一文字和所述后一文字之间的所述概率最大子路径包括:根据所述前一文字的每个词状态的初始概率、所述后一文字的每个词状态的发射概率和所述前一文字的每个词状态至所述后一文字的每个词状态的转移概率,计算所述前一文字和所述后一文字的所述概率最大子路径。

进一步地,按照以下公式计算所述前一文字和所述后一文字之间的所述概率最大子路径:

P=max{p(x)+f(x,y)+q(y)},

其中,p(x)为所述前一文字m1个词状态中词状态x的初始概率,q(y)为所述后一文字m2个词状态中词状态y的发射概率,f(x,y)为所述前一文字的词状态x至所述后一文字的词状态y的转移概率,x∈{1,2,…,m1},y∈{1,2,…,m2}。

根据本申请实施例的另一方面,提供了一种中文词性的标注装置,包括:分解单元,用于分解待标注语句,得到所述待标注语句中的n个文字和每个所述文字在所述待标注语句中的位置,其中,n为述待标注语句中文字的数量;第一查找单元,用于从预设数据库中查找每个所述文字在各自位置上的至少一个初始词性,得到每个所述文字的词状态,其中,所述词状态为由位置与词性构成的组合标识,所述预设数据库中存储有位置和词性的对应关系;第二查找单元,用于从所述预设数据库中查找每个 所述文字的词状态的概率,其中,所述预设数据库中还存储有词状态和概率的对应关系;计算单元,用于根据n个所述文字的词状态的概率,计算n个所述文字组成所述待标注语句的概率最大路径;以及确定单元,用于确定所述概率最大路径上的每个所述文字的初始词性为对待标注语句中的文字进行标注的目标词性。

进一步地,所述计算单元包括:计算子单元,用于根据每两个相邻的所述文字的词状态的概率,计算所述每两个相邻的所述文字形成相邻关系的概率最大子路径,得到n-1个所述概率最大子路径;以及确定子单元,用于确定n-1个所述概率最大子路径的连接路径为所述概率最大路径。

进一步地,所述第二查找单元包括:查找子单元,用于查找文字W2至文字Wn-1的词状态的初始概率、发射概率和转移概率,并查找文字W1的词状态的初始概率和转移概率,以及查找文字Wn的词状态的发射概率,其中,所述发射概率表示文字由隐状态转换为显状态的概率,前一文字的所述转移概率表示所述前一文字的词状态转换为后一文字的词状态的概率,所述前一文字和所述后一文字为所述待标注语句中相邻的两个文字,所述文字W1至所述文字Wn构成n个所述文字,所述计算子单元包括:计算模块,用于根据所述前一文字的词状态的初始概率、所述后一文字的词状态的发射概率和所述前一文字的转移概率,计算所述前一文字和所述后一文字之间的所述概率最大子路径。

进一步地,每个所述文字具有至少一个词状态,所述计算模块包括:计算子模块,用于根据所述前一文字的每个词状态的初始概率、所述后一文字的每个词状态的发射概率和所述前一文字的每个词状态至所述后一文字的每个词状态的转移概率,计算所述前一文字和所述后一文字的所述概率最大子路径。

进一步地,所述计算子模块按照以下公式计算所述前一文字和所述后一文字之间的所述概率最大子路径:

P=max{p(x)+f(x,y)+q(y)},

其中,p(x)为所述前一文字m1个词状态中词状态x的初始概率,q(y)为所述后一文字m2个词状态中词状态y的发射概率,f(x,y)为所述前一文字的词状态x至所述后一文字的词状态y的转移概率,x∈{1,2,…,m1},y∈{1,2,…,m2}。

在本申请实施例中,采用分解待标注语句,得到所述待标注语句中的n个文字和 每个所述文字在所述待标注语句中的位置,其中,n为述待标注语句中文字的数量;从预设数据库中查找每个所述文字在各自位置上的至少一个初始词性,得到每个所述文字的词状态,其中,所述词状态为由位置与词性构成的组合标识,所述预设数据库中存储有位置和词性的对应关系;从所述预设数据库中查找每个所述文字的词状态的概率,其中,所述预设数据库中还存储有词状态和概率的对应关系;根据n个所述文字的词状态的概率,计算n个所述文字组成所述待标注语句的概率最大路径;以及确定所述概率最大路径上的每个所述文字的初始词性为对待标注语句中的文字进行标注的目标词性。通过对待标注语句进行分解,然后查找数据库得到每个文字的词状态的概率,进而基于概率计算出概率最大路径,确定概率最大路径上的每个文字的初始词性即是最终想要标注的目标词性,此种词性标注方式,实现了直接基于文字的词状态的概率进行最佳概率计算,达到了简化词性标注处理方式的目的,从而实现了提高标注效率的技术效果,进而解决了现有技术中中文词性的标注方式比较复杂的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1是根据本申请实施例的中文词性的标注方法的流程图;

图2是根据本申请实施例所提供的中文词性的标注方法进行中文词性标注过程确定出的一种路径图;

图3是根据本申请实施例所提供的中文词性的标注方法进行中文词性标注过程确定出的另一种路径图;以及

图4是根据本申请实施例的中文词性的标注装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这 样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先,对本申请实施例所涉及的技术术语作如下解释:

隐马尔科夫模型:是统计模型,它用来描述一个含有隐含未知参数的马尔科夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析,例如模式识别。

中文词性:中文词的词性,比如名词,动词等。

词性标注:一般用在分词系统中,对分词后的词汇进行词性标注。

维特比算法:是一种动态规划算法,用于寻找最有可能产生观测事件序列的维特比路径-隐含状态序列,特别是在马尔科夫信息源上下文和隐马尔科夫模型中。术语“维特比路径”和“维特比算法”也被用于寻找观察结果最有可能解释相关的动态规划算法。

根据本申请实施例,提供了一种中文词性的标注方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本申请实施例的中文词性的标注方法的流程图,如图1所示,该方法包括如下步骤:

步骤S102,分解待标注语句,得到待标注语句中的n个文字和每个文字在待标注语句中的位置,其中,n为述待标注语句中文字的数量。每个文字在语句中的位置有4种,为B(词头,英文为Begin)、E(词尾,英文为End)、M(词中,英文为Middle)和S(单字成词,英文为Single)。例如,待标注语句为“新西兰”时,“新”位于待标注语句的词头,也可以说,“新”位于待标注语句的B位置;“西”位于待标注语句的词中,也可以说,“西”位于待标注语句的M位置;“兰”位于待标注语句的词尾,也可以说,“西”位于待标注语句的E位置。再例如,待标注语句为“哎,今天天气真糟糕”时,“哎”在待标注语句中的位置是单字成词,也可以说是独立成词。

步骤S104,从预设数据库中查找每个文字在各自位置上的至少一个初始词性,得到每个文字的词状态,其中,词状态为由位置与词性构成的组合标识,预设数据库中 存储有位置和词性的对应关系。初始词性是文字处于待标注语句中的B、E、M、S之一的位置时,所有可能的词性。

一般来说,当文字在待标注语句中的位置不同时,初始词性也不同。文字在待标注语句的位置和文字在该位置的可能的词性构成了文字的词状态。例如,某一个字处于词头位置时,有3种可能的词性,分别为n、a、ad;当这个字处于词中位置时,有2种可能的词性,分别为nr、ns;当这个字处于词尾位置时,有4种可能的词性,分别为n、nr、ns、b;当这个字单字成词时,有1种可能的词性,为nr。那么这个字的词状态一共有10种,分别为B_n、B_a、B_ad、M_nr、M_ns、E_n、E_nr、E_ns、E_b、S_nr。其中,词状态B_n表示该字位于词头且词性为n,词状态E_ns表示该字位于词尾且词性为ns,其余8个词状态的含义以此类推,不再赘述。

步骤S106,从预设数据库中查找每个文字的词状态的概率,其中,预设数据库中还存储有词状态和概率的对应关系。文字的每个词状态都有一定的概率,从预先设置的数据库中可以找到文字处于某种词状态的概率。

步骤S108,根据n个文字的词状态的概率,计算n个文字组成待标注语句的概率最大路径。

步骤S110,确定概率最大路径上的每个文字的初始词性为对待标注语句中的文字进行标注的目标词性。由于待标注语句具有多个文字,每个文字在各自位置上具有多个可能词性,因此,待标注语句的各个文字的词状态具有多种组合方式,每种组合方式即为一种路径,这多种路径中,概率最大的路径是概率最大路径。将概率最大的路径上的每个文字的初始词性作为目标词性,对待标注语句进行标注。

通过对待标注语句进行分解,然后查找数据库得到每个文字的词状态的概率,进而基于概率计算出概率最大路径,确定概率最大路径上的每个文字的初始词性即是最终想要标注的目标词性,此种词性标注方式,实现了直接基于文字的词状态的概率进行最佳概率计算,达到了简化词性标注处理方式的目的,从而实现了提高标注效率的技术效果,进而解决了现有技术中中文词性的标注方式比较复杂的技术问题。

可选地,根据n个文字的词状态的概率,计算n个文字组成待标注语句的概率最大路径包括:根据每两个相邻的文字的词状态的概率,计算每两个相邻的文字形成相邻关系的概率最大子路径,得到n-1个概率最大子路径;以及确定n-1个概率最大子路径的连接路径为概率最大路径。

即,待标注语句中每两个相邻的文字的词状态形成相邻关系的概率是一定的,找到每两个相邻的文字的词状态形成相邻关系的概率最大时,相邻的两个文字中前一文 字和后一文字各自的词状态,此时,前一文字的词状态至后一文字的词状态即为概率最大子路径,将概率最大子路径按照前后顺序连接起来,就得到了概率最大路径。例如,待标注语句为“他是外国人”,从数据中查找“他”、“是”、“外”、“国”、“人”的词状态。根据“他”和“是”的词状态,确定概率最大子路径1;根据“是”和“外”的词状态,确定概率最大子路径2;根据“外”和“国”的词状态,确定概率最大子路径3;根据“国”和“人”的词状态,确定概率最大子路径4。将概率最大子路径1、最大子路径2、概率最大子路径3、概率最大子路径4连接起来,构成概率最大路径。

可选地,从预设数据库中查找每个文字的词状态的概率包括:查找文字W2至文字Wn-1的词状态的初始概率、发射概率和转移概率,并查找文字W1的词状态的初始概率和转移概率,以及查找文字Wn的词状态的发射概率,其中,发射概率表示文字由隐状态转换为显状态的概率,对于词性标注的问题来说,显状态是分词出来的结果(即分词后的单词),隐状态是需要标注的词性,前一文字的转移概率表示前一文字的词状态转换为后一文字的词状态的概率,前一文字和后一文字为待标注语句中相邻的两个文字,文字W1至文字Wn构成n个文字,根据每两个相邻的文字的词状态的概率,计算每两个相邻的文字形成相邻关系的概率最大子路径,得到n-1个概率最大子路径包括:根据前一文字的词状态的初始概率、后一文字的词状态的发射概率和前一文字的转移概率,计算前一文字和后一文字之间的概率最大子路径。

在本申请实施例中,预设数据库中存储有词状态表、初始概率表、转移概率表和发射概率表,其中,可以从词状态表中查找初始词性,从初始概率表中查找初始概率,从转移概率表查找转移概率,从发射概率表中查找发射概率。通过将各个信息存储在数据库中的不同表中,在进行信息的查找时,直接从相关的表中查找,此种针对性的查找方式,能够缩小查找范围,提高查找的速度和效率。

可选地,每个文字具有至少一个词状态,根据前一文字的词状态的初始概率、后一文字的词状态的发射概率和前一文字的转移概率,计算前一文字和后一文字之间的概率最大子路径包括:根据前一文字的每个词状态的初始概率、后一文字的每个词状态的发射概率和前一文字的每个词状态至后一文字的每个词状态的转移概率,计算前一文字和后一文字的概率最大子路径。

由于每个文字在各自位置上具有至少一个初始词性,故每个文字具有至少一个词状态。

在对待标注语句进行词性标注前,先准备好文字的词状态表、初始概率表、转移 概率表和发射概率表。

可选地,按照以下公式计算前一文字和后一文字之间的概率最大子路径:

P=max{p(x)+f(x,y)+q(y)},

其中,p(x)为前一文字m1个词状态中词状态x的初始概率,q(y)为后一文字m2个词状态中词状态y的发射概率,f(x,y)为前一文字的词状态x至后一文字的词状态y的转移概率,x∈{1,2,…,m1},y∈{1,2,…,m2}。

需要注意的是,此公式中使用的概率是一种相对概率,是对真实的概率数值以e为底做对数运算得到的。当一个词状态的真实概率为0时,相对概率为-3.14e+100;当一个词状态的真实概率为A(A>0)时,相对概率为ln(A),即相对概率是真实概率的自然对数。

本申请实施例所提供的中文词性的标注方法既可以使用真实概率表示概率,也可以使用相对概率来表示概率,在计算时保持统一即可,即要么从头至尾使用真实概率计算,要么从头至尾使用相对概率计算,不可在同一个式子中既出现真实概率,又出现相对概率。使用真实概率计算时,公式相应修改为P=max{p(x)×f(x,y)×q(y)}。

由于计算机进行加法运算的速度远远大于进行乘法运算的速度,而且加法运算的实现方式比乘法运算的实现方式简单,故使用相对概率可以提高计算机运算速度,因此具有更高的效率。

前一文字具有m1个词状态,后一文字具有m2个词状态,从前一文字某一个词状态至后一文字的某一个词状态一共有m1×m2条路径,这m1×m2条路径中概率最大的路径即为前一文字和后一文字之间的概率最大子路径,如果待标注的语句只有两个文字,那么这两个文字之间的概率最大子路径也即是这两个文件之间的概率最大路径。

如果待标注语句具有两个以上文字,那么每相邻的两个文字之间概率最大的路径是概率最大子路径,所有概率最大子路径连接起来构成概率最大路径。

接下来举例说明,为了使例子更具代表性,使用“RTYU”作为待标注语句,其中,“R”、“T”、“Y”、“U”分别代表一个文字,“R”所代表的文字有3种词状态,分别为词状态R1、R2、R3。“T”所代表的文字有2种词状态,分别为词状态T1、T2。“Y”所代表的文字有3种词状态,分别为Y1、Y2、Y3。“U”所代表的文字有4种词状态,分别为U1、U2、U3、U4。

图2是根据本申请实施例所提供的中文词性的标注方法进行中文词性标注过程确 定出的一种路径图。

“R”所代表的文字与“T”所代表的文字之间有6条子路径,分别为子路径a1(R1-T1)、子路径a2(R1-T2)、子路径a3(R2-T1)、子路径a4(R2-T2)、子路径a5(R3-T1)、子路径a6(R3-T2)。找到这6条子路径中概率最大的那条,即概率最大子路径。假设概率最大子路径是子路径a5,即R3-T1。

接下来寻找“T”所代表文字与“Y”所代表文字之间的概率最大子路径。需要注意的是,由于之前一个概率最大子路径是R3-T1,因此只寻找从词状态T1出发的子路径。“T”所代表文字与“Y”所代表文字之间有3条子路径,分别为子路径b1(T1-Y1)、子路径b2(T1-Y2)、子路径b3(T1-Y3)。找到这3条子路径中概率最大的那条,即概率最大子路径。假设概率最大子路径是子路径b1,即T1-Y1。

接下来寻找“Y”所代表文字和“U”所代表文字之间的概率最大子路径。由于之前一个概率最大子路径是T1-Y1,因此只寻找从词状态Y1出发的子路径。“Y”所代表文字与“U”所代表文字之间有4条子路径,分别为子路径c1(Y1-U1)、子路径c2(Y1-U2)、子路径c3(Y1-U3)、子路径c4(Y1-U4)。找到这4条子路径中概率最大的那条,即概率最大子路径。假设概率最大子路径是子路径c4,即Y1-U4。

故,待标注语句“RTYU”的概率最大路径为概率最大子路径a5、概率最大子路径b1、概率最大子路径c4连接起来构成的路径,即路径R3-T1-Y1-U4,使用R3所包含的词性对“R”所表示的文字进行词性标注,使用T1所包含的词性对“T”所表示的文字进行词性标注,使用Y1所包含的词性对“Y”所表示的文字进行词性标注,使用U4所包含的词性对“U”所表示的文字进行词性标注。至此,完成了对待标注语句“RTYU”的词性标注。

表1

表1为“一”、“丁”、“七”和“万”这4个文字的词状态表,词状态表示了文字的位置和文字在这个位置上可能的词性。例如,“七”的词状态一共有28种,分别为B_m、M_m、S_m、E_m、B_t、B_n、B_ns、B_i、M_i、M_nr、B_nz、E_ns、E_nr、M_nz、M_ns、B_b、M_n、B_l、E_t、M_nt、E_n、B_nt、B_j、B_nr、M_l、E_nz、M_mq、M_j。其中,词状态B_m表示“七”位于B位置且词性为m。“七”位于待标注语句的词头(B位置)时,可能的词性有11种,分别为m、t、n、ns、i、nz、b、l、nt、j、nr,因此对应的词状态也有11种,分别为B_m、B_t、B_n、B_ns、B_i、B_nz、B_b、B_l、B_nt、B_j、B_nr。“七”位于待标注语句的词中(M位置)时,可能的词性有10种,分别为m、i、nr、nz、ns、n、nt、l、mq、j,因此对应的词状态也有10种,分别为M_m、M_i、M_nr、M_nz、M_ns、M_n、M_nt、M_l、M_mq、M_j。“七”位于待标注语句的词尾(E位置)时,可能的词性有6种,分别为m、ns、nr、t、n、nz,因此对应的词状态也有6种,分别为E_m、E_ns、E_nr、E_t、E_n、E_nz。“七”独立成词时(S位置)时,可能的词性有1种,为m,因此对应的词状态也有1种,为S_m。

词性的分类参考《PFR人民日报标注语料库》的词性编码表。

表2

表2为初始化概率表,由于篇幅有限,未列出全部词状态的初始化概率。需要注意的是,表2中使用的概率是一种相对概率,是对真实的概率数值以e为底做对数运算得到的,例如词状态B_a的真实概率是0.008545887,ln(0.008545887)=-4.762305214596967,此时,用相对概率-4.762305214596967表示词状态B_a的概率。词状态B_ag的真实概率是0,即当一个文字位于词头位置,且这个文字的词性为ag的真实概率是0,此时,用相对概率-3.14e+100表示词状态B_ag的概率。当一个词状态的真实概率为0时,相对概率为-3.14e+100;当一个词状态的真实概率为A(A>0)时,相对概率为ln(A),即相对概率是真实概率的自然对数。本申请实施例的表2、表3、表4中所出现的概率均为相对概率。本申请实施例所提供的中文词性的标注方法既可以使用真实概率表示概率,也可以使用相对概率来表示概率,在计算时保持统一即可,即要么从头至尾使用真实概率计算,要么从头至尾使用相对概率计算,不可在同一个式子中既出现真实概率,又出现相对概率。

表3

表3为转移概率表,由于篇幅原因,仅仅列出一小部分。转移概率表示前一词状态与后一词状态相邻的概率,例如B_a---E_a的转移概率是-0.0050648453069648755,表示前一文字的词状态是B_a,且与其相邻的后一文字的词状态是E_a的概率是-0.0050648453069648755。B_a---M_a的转移概率是-5.287963037107507,表示前一文字的词状态是B_a,且与其相邻的后一文字的词状态是M_a的概率是-5.287963037107507。

表4a

表4b

表4c

表4a为词状态为B_b时文字的发射概率表,由于篇幅原因,这里仅列出了一部分文字的发射概率。

表4b为词状态为B_a时文字的发射概率表,由于篇幅原因,这里仅列出了一部分文字的发射概率。

表4c为词状态为M_b时文字的发射概率表,由于篇幅原因,这里仅列出了一部分文字的发射概率。

发射概率表有很多个,一个词状态对应一个发射概率表,表4a、表4b、表4c所表示的发射概率表仅仅是其中的3个,由于篇幅原因,未列举其余的发射概率表。

例如,词状态为M_b时,文字“一”的发射概率是-3.2635399339549105;词状态为M_b时,文字“上”的发射概率是-5.2883932853503435;词状态为M_b时,文字“下”的发射概率是-6.412323382002743;词状态为M_b时,文字“不”的发射概率是-8.284125558904334。

再例如,文字“下”在词状态为B_b时,发射概率是-5.929135801267075;文字“下”在词状态为B_a时,发射概率是-8.445222895280738;文字“下”在词状态为M_b时,发射概率是-6.412323382002743。

图3是根据本申请实施例所提供的中文词性的标注方法进行中文词性标注过程确定出的另一种路径图。

如图3所示,例如,待标注语句是“你是谁”。首先计算“你”和“是”之间的概 率最大子路径。“你”位于待标注语句的词头位置,即B位置,经过在初始概率表中查找,得到“你”位于B位置时词状态有3种,分别为B_r、B_i和B_l。

“是”位于待标注语句的词中位置,即M位置,经过在初始概率表中查找,得到“是”位于M位置时词状态有7种,分别为M_l、M_c、M_i、M_nr、M_n、M_nrfg、M_v。经过在转移概率表中查找,得到词状态B_r至词状态M_l、M_c、M_i、M_nr、M_n、M_nrfg、M_v的转移概率都为-3.14e+100。词状态B_i至词状态M_l、M_c、M_nr、M_n、M_nrfg、M_v的转移概率都为-3.14e+100,词状态B_i至词状态M_i的转移概率为f1(f1不为-3.14e+100)。词状态B_l至词状态M_l、M_c、M_i、M_nr、M_n、M_nrfg、M_v的转移概率都为-3.14e+100,词状态B_l至词状态M_l的转移概率为f2(f2不为-3.14e+100)。

考虑“你”的词状态为B_i且“是”的词状态为M_i的情况,“你”的词状态为B_i的初始概率是p1,经过在发射概率表中查找,可知“是”的词状态为M_i的发射概率是q1,由上述分析知词状态B_i至词状态M_i的概率为f1,故“你”的词状态为B_i至“是”的词状态为M_i这条路径的概率是P1,且P1=p1+q1+f1。

考虑“你”的词状态为B_l且“是”的词状态为M_l的情况,“你”的词状态为B_l的初始概率是p2,经过在发射概率表中查找,“是”的词状态为M_l的发射概率是q2,由上述分析知词状态B_l至词状态M_l的概率为f2,故“你”的词状态为B_l至“是”的词状态为M_l这条路径的概率是P2,且P2=p2+q2+f2。

概率最大子路径P=max{P1,P2},即将“你”的词状态为B_i至“是”的词状态为M_i这条路径的概率P1与“你”的词状态为B_l至“是”的词状态为M_l这条路径的概率P2进行比较,如果P1>P2,则“你”的词状态为B_i至“是”的词状态为M_i这条路径为概率最大子路径;如果P2>P1,则“你”的词状态为B_l至“是”的词状态为M_l这条路径为概率最大子路径;如果P1=P2,则这两条路径都是概率最大子路径。找到“你”的词状态至“是”的词状态的概率概率最大子路径后,继续寻找“是”的词状态至“谁”的词状态之间的概率最大子路径。注意此时只寻找前一个概率最大子路径上“是”的词状态出发的子路径。图3中未示出“是”与“谁”之间的路径。

使用同样的方法,找到“是”的词状态至“谁”之间的概率最大子路径。将“你”的词状态至“是”的词状态的概率最大子路径和“是”的词状态至“谁”的词状态的概率最大子路径连接起来,得到“你是谁”的概率最大路径。使用概率最大路径上的词性分别对“你”“是”“谁”进行词性标注。

根据本申请实施例,还提供了一种中文词性的标注装置。该中文词性的标注装置可以执行上述中文词性的标注方法,上述中文词性的标注方法也可以通过该中文词性 的标注装置实施。

图4是根据本申请实施例的中文词性的标注装置的示意图。如图4所示,该装置包括分解单元10、第一查找单元20、第二查找单元30、计算单元40和确定单元50。

分解单元10用于分解待标注语句,得到待标注语句中的n个文字和每个文字在待标注语句中的位置,其中,n为述待标注语句中文字的数量。每个文字在语句中的位置有4种,为B(词头,英文为Begin)、E(词尾,英文为End)、M(词中,英文为Middle)和S(单字成词,英文为Single)。例如,待标注语句为“新西兰”时,“新”位于待标注语句的词头,也可以说,“新”位于待标注语句的B位置;“西”位于待标注语句的词中,也可以说,“西”位于待标注语句的M位置;“兰”位于待标注语句的词尾,也可以说,“西”位于待标注语句的E位置。再例如,待标注语句为“哎,今天天气真糟糕”时,“哎”在待标注语句中的位置是单字成词,也可以说是独立成词。

第一查找单元20用于从预设数据库中查找每个文字在各自位置上的至少一个初始词性,得到每个文字的词状态,其中,词状态为由位置与词性构成的组合标识,预设数据库中存储有位置和词性的对应关系。初始词性是文字处于待标注语句中的B、E、M、S之一的位置时,所有可能的词性。

一般来说,当文字在待标注语句中的位置不同时,初始词性也不同。文字在待标注语句的位置和文字在该位置的可能的词性构成了文字的词状态。例如,某一个字处于词头位置时,有3种可能的词性,分别为n、a、ad;当这个字处于词中位置时,有2种可能的词性,分别为nr、ns;当这个字处于词尾位置时,有4种可能的词性,分别为n、nr、ns、b;当这个字单字成词时,有1种可能的词性,为nr。那么这个字的词状态一共有10种,分别为B_n、B_a、B_ad、M_nr、M_ns、E_n、E_nr、E_ns、E_b、S_nr。其中,词状态B_n表示该字位于词头且词性为n,词状态E_ns表示该字位于词尾且词性为ns,其余8个词状态的含义以此类推,不再赘述。

第二查找单元30用于从预设数据库中查找每个文字的词状态的概率,其中,预设数据库中还存储有词状态和概率的对应关系。文字的每个词状态都有一定的概率,从预先设置的数据库中可以找到文字处于某种词状态的概率。

计算单元40,用于根据n个文字的词状态的概率,计算n个文字组成待标注语句的概率最大路径。

确定单元50,用于确定概率最大路径上的每个文字的初始词性为对待标注语句中的文字进行标注的目标词性。由于待标注语句具有多个文字,每个文字在各自位置上具有多个可能词性,因此,待标注语句的各个文字的词状态具有多种组合方式,每种 组合方式即为一种路径,这多种路径中,概率最大的路径是概率最大路径。将概率最大的路径上的每个文字的初始词性作为目标词性,对待标注语句进行标注。

通过对待标注语句进行分解,然后查找数据库得到每个文字的词状态的概率,进而基于概率计算出概率最大路径,确定概率最大路径上的每个文字的初始词性即是最终想要标注的目标词性,此种词性标注方式,实现了直接基于文字的词状态的概率进行最佳概率计算,达到了简化词性标注处理方式的目的,从而实现了提高标注效率的技术效果,进而解决了现有技术中中文词性的标注方式比较复杂的技术问题。

可选地,计算单元40包括计算子单元和确定子单元,其中,计算子单元用于根据每两个相邻的文字的词状态的概率,计算每两个相邻的文字形成相邻关系的概率最大子路径,得到n-1个概率最大子路径;确定子单元用于确定n-1个概率最大子路径的连接路径为概率最大路径。

待标注语句中每两个相邻的文字的词状态形成相邻关系的概率是一定的,找到每两个相邻的文字的词状态形成相邻关系的概率最大时,相邻的两个文字中前一文字和后一文字各自的词状态,此时,前一文字的词状态至后一文字的词状态即为概率最大子路径,将概率最大子路径按照前后顺序连接起来,就得到了概率最大路径。例如,待标注语句为“他是外国人”,从数据中查找“他”、“是”、“外”、“国”、“人”的词状态。根据“他”和“是”的词状态,确定概率最大子路径1;根据“是”和“外”的词状态,确定概率最大子路径2;根据“外”和“国”的词状态,确定概率最大子路径3;根据“国”和“人”的词状态,确定概率最大子路径4。将概率最大子路径1、最大子路径2、概率最大子路径3、概率最大子路径4连接起来,构成概率最大路径。

可选地,第二查找单元30包括查找子单元。该查找子单元用于查找文字W2至文字Wn-1的词状态的初始概率、发射概率和转移概率,并查找文字W1的词状态的初始概率和转移概率,以及查找文字Wn的词状态的发射概率,其中,发射概率表示文字由隐状态转换为显状态的概率,对于词性标注的问题来说,显状态是分词出来的结果(即分词后的单词),隐状态是需要标注的词性,前一文字的转移概率表示前一文字的词状态转换为后一文字的词状态的概率,前一文字和后一文字为待标注语句中相邻的两个文字,文字W1至文字Wn构成n个文字,计算子单元包括计算模块。该计算模块用于根据前一文字的词状态的初始概率、后一文字的词状态的发射概率和前一文字的转移概率,计算前一文字和后一文字之间的概率最大子路径。

在本申请实施例中,预设数据库中存储有词状态表、初始概率表、转移概率表和 发射概率表,其中,可以从词状态表中查找初始词性,从初始概率表中查找初始概率,从转移概率表查找转移概率,从发射概率表中查找发射概率。通过将各个信息存储在数据库中的不同表中,在进行信息的查找时,直接从相关的表中查找,此种针对性的查找方式,能够缩小查找范围,提高查找的速度和效率。

可选地,每个文字具有至少一个词状态,计算模块包括计算子模块。该计算子模块用于根据前一文字的每个词状态的初始概率、后一文字的每个词状态的发射概率和前一文字的每个词状态至后一文字的每个词状态的转移概率,计算前一文字和后一文字的概率最大子路径。

由于每个文字在各自位置上具有至少一个初始词性,故每个文字具有至少一个词状态。

在对待标注语句进行词性标注前,先准备好文字的词状态表、初始概率表、转移概率表和发射概率表。

可选地,计算子模块按照以下公式计算前一文字和后一文字之间的概率最大子路径:

P=max{p(x)+f(x,y)+q(y)},

其中,p(x)为前一文字m1个词状态中词状态x的初始概率,q(y)为后一文字m2个词状态中词状态y的发射概率,f(x,y)为前一文字的词状态x至后一文字的词状态y的转移概率,x∈{1,2,…,m1},y∈{1,2,…,m2}。

需要注意的是,P=max{p(x)+f(x,y)+q(y)}中使用的概率是一种相对概率,是对真实的概率数值以e为底做对数运算得到的。当一个词状态的真实概率为0时,相对概率为-3.14e+100;当一个词状态的真实概率为A(A>0)时,相对概率为ln(A),即相对概率是真实概率的自然对数。

本申请实施例所提供的中文词性的标注装置既可以使用真实概率表示概率,也可以使用相对概率来表示概率,在计算时保持统一即可,即要么从头至尾使用真实概率计算,要么从头至尾使用相对概率计算,不可在同一个式子中既出现真实概率,又出现相对概率。使用真实概率计算时,公式相应修改为P=max{p(x)×f(x,y)×q(y)}。

由于计算机进行加法运算的速度远远大于进行乘法运算的速度,而且加法运算的实现方式比乘法运算的实现方式简单,故使用相对概率可以提高计算机运算速度,因此具有更高的效率。

前一文字具有m1个词状态,后一文字具有m2个词状态,从前一文字某一个词状态至后一文字的某一个词状态一共有m1×m2条路径,这m1×m2条路径中概率最大的路径即为前一文字和后一文字之间的概率最大子路径,如果待标注的语句只有两个文字,那么这两个文字之间的概率最大子路径也即是这两个文件之间的概率最大路径。

如果待标注语句具有两个以上文字,那么每相邻的两个文字之间概率最大的路径是概率最大子路径,所有概率最大子路径连接起来构成概率最大路径。

所述中文词性的标注装置包括处理器和存储器,上述分解单元10、第一查找单元20、第二查找单元30、计算单元40和确定单元50等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来简化词性标注处理方式。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:分解待标注语句,得到待标注语句中的n个文字和每个文字在待标注语句中的位置;从预设数据库中查找每个文字在各自位置上的至少一个初始词性,得到每个文字的词状态;从预设数据库中查找每个文字的词状态的概率;根据n个文字的词状态的概率,计算n个文字组成待标注语句的概率最大路径;确定概率最大路径上的每个文字的初始词性为对待标注语句中的文字进行标注的目标词性。

上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。

在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1