实体词识别方法及装置制造方法

文档序号:6488624阅读:160来源:国知局
实体词识别方法及装置制造方法
【专利摘要】本申请提供了一种实体词识别方法,包括以下步骤:接收待识别数据,对所述待识别数据按照第一预定规则切分得到分组数据;按照第二预定规则抽取所述每一组分组数据的特征,基于各特征的权重和预定单词类别计算每一组分组数据所属的类别组合以及概率;从每一组分组数据所属的类别组合中选取其中包含的实体词,并计算所述各实体词的识别概率;按照所述各实体词的概率大小对实体词进行排序。本申请还提供了一种实现前述方法的实体词识别装置。本申请的实体词识别方法及装置,能够提高实体词挖掘效率,且可以降低挖掘成本。
【专利说明】实体词识别方法及装置
【技术领域】
[0001]本申请涉及计算机数据处理【技术领域】,特别是涉及一种实体词识别方法及装置。【背景技术】
[0002]随着科学技术和互联网的快速发展,计算机和网络技术己经深入到人们工作、生活的方方面面。利用计算机来获取需要的信息也逐渐被人们采用,例如信息检索查询、计算机辅助翻译、自动问答等等。在计算机服务器的数据库中存储有一些实体词,例如产品名称、型号、公司名称、品牌名称等等。如果用户通过客户端输入的语句中包含该数据库中的实体词,则可以直接从服务器的数据库中查找对应的结果,例如对应的翻译结果、问答结果、检索结果,然后反馈给客户端。此种方式,对于已有实体词对应的结果,服务器可以快速反馈给客户端,从而可以提高系统的响应速度。另外,此种方式可以保证反馈数据的准确性,保证数据传输的有效性,避免用户通过客户端不断的发送检索、翻译等请求,从而减少服务器传输给客户端的数据量。
[0003]常见的服务器数据库中的实体词多通过人工搜集的方式获取,随着技术的不断发展,特别是在某些特殊领域,会不断产生新的实体词,采用人工搜集的方式往往无法及时对数据库中的实体词进行更新,在用户通过客户端向服务器发送检索、翻译等请求时,服务器便无法实现快速准确的响应,从而降低了响应速度。当用户无法得到准确或其期望的结果时,其往往会不断的发送新的请求,这就增加了服务器负担,同时增加了服务器的数据传输量。另外,通过人工搜集的方式来挖掘新的实体词需要耗费大量的工作量,增加人力成本。

【发明内容】

[0004]本申请提供一种实体词识别方法及装置,能够解决实体词挖掘效率低且成本高的问题。
[0005]为了解决上述问题,本申请公开了一种实体词识别方法,包括以下步骤:
[0006]接收待识别数据,对所述待识别数据按照第一预定规则切分得到分组数据;
[0007]按照第二预定规则抽取所述每一组分组数据的特征,基于各特征的权重和预定单词类别计算每一组分组数据所属的类别组合以及概率;
[0008]从每一组分组数据所属的类别组合中选取其中包含的实体词,并计算所述各实体词的识别概率;
[0009]按照所述各实体词的概率大小对实体词进行排序。
[0010]进一步地,所述预定单词类别包括无关词、左边词、右边词、中间词和独立词,所述从每一组分组数据所属的类别组合中选取其中包含的实体词根据如下方式确定:
[0011]若某个类别组合中包含有独立词,则确定该独立词为该类别组合中包含的实体词;和
[0012]若某个类别中包含有左边词和右边词,且所述左边词和右边词之间没有其他类别的词语或只有中间词,则确定从该左边词到右边词的组合为实体词。[0013]进一步地,计算所述各实体词的识别概率包括:
[0014]选取包含有某个实体词的所有类别组合;
[0015]将所述所有类别组合的概率相加得到所述实体词的识别概率。
[0016]进一步地,所述方法通过训练好的模型实现数据处理。
[0017]进一步地,所述在所述各步骤之前还包括:
[0018]准备训练数据,对模型进行训练。
[0019]进一步地,所述准备训练数据包括采用自动标注的方式进行准备,包括以下步骤:
[0020]获取待识别数据,判断其中是否包含有与某个实体词词典中匹配的文本,若有,则记录所述文本;
[0021]统计包含有所述文本的实体词词典的数量,并根据所述数量与每个实体词词典的优先级确定所述文本的分数;
[0022]根据所述分数对待识别数据中的文本进行标注。
[0023]本申请还公开了一种实体词识别装置,包括:
[0024]数据接收模块,用于接收待识别数据,对所述待识别数据按照第一预定规则切分得到分组数据;
[0025]类别组合概率计算模块,按照第二预定规则抽取所述每一组分组数据的特征,基于各特征的权重和预定单词类别计算每一组分组数据所属的类别组合以及概率;
[0026]实体词识别概率计算模块,用于从每一组分组数据所属的类别组合中选取其中包含的实体词,并计算所述各实体词的识别概率;
[0027]排序模块,用于按照所述各实体词的概率大小对实体词进行排序。
[0028]进一步地,所述预定单词类别包括无关词、左边词、右边词、中间词和独立词,所述实体词识别概率计算模块包括:
[0029]实体词识别单元,用于识别类别组合中的实体词,采用如下方式实现:若某个类别组合中包含有独立词,则确定该独立词为该类别组合中包含的实体词;和若某个类别中包含有左边词和右边词,且所述左边词和右边词之间没有其他类别的词语或只有中间词,则确定从该左边词到右边词的组合为实体词。
[0030]进一步地,实体词识别概率计算模块包括:
[0031]类别组合选取子模块,用于选取包含有某个实体词的所有类别组合;
[0032]计算子模块,用于将所述所有类别组合的概率相加得到所述实体词的识别概率。
[0033]进一步地,所述数据接收模块、类别组合及实体词确定模块、类别组合概率计算模块、识别概率计算模块和排序模块置于训练好的模型中,所述装置还包括:
[0034]模型训练模块,用于准备训练数据,对模型进行训练。
[0035]进一步地,所述模型训练模块包括数据准备子模块,所述数据准备子模块包括:匹配单元,用于获取待识别数据,判断其中是否包含有与某个实体词词典中匹配的文本,若有,则记录所述文本;统计单元,用于统计包含有所述文本的实体词词典的数量,并根据所述数量与每个实体词词典的优先级确定所述文本的分数;标注单元,用于根据所述分数对待识别数据中的文本进行标注。
[0036]与现有技术相比,本申请包括以下优点:[0037]本申请的实体词识别方法及装置通过在服务器中对待识别语句进行切分后提取特征的方式来确定待识别数据中每一组分组数据可能所属的类别组合以及概率,并利用该概率来计算待识别数据中被识别为实体词的概率,通过此种方式,可以对实体词进行自动识别,无需采用人工处理的方式,从而可以实现实体词的快速识别以及及时更新,提高了实体词挖掘效率,并减少挖掘成本。依靠实体词的识别概率来选取最终的实体词,而非依靠类别组合的概率,从而去除了无关数据,可以保证实体词识别的准确性。
[0038]其次,对于实体词的挖掘可以通过训练好的模型来实现,可以保证挖掘的准确性,还可以提高处理效率。
[0039]在对模型训练过程中,除了采用人工采集训练数据的方式,优选采用自动标注的方式来准备训练数据,利用已有数据,实现对训练数据的自动标注,可以减少工作量,提高训练数据的准备效率,且可以降低人力成本。
[0040]当然,实施本申请的任一产品不一定需要同时达到以上所述的所有优点。
【专利附图】

【附图说明】
[0041]图1是本申请的实体词识别方法实施例一的流程图;
[0042]图2是本申请的实体词识别方法实施例二的流程图;
[0043]图3是本申请的实体词识别装置实施例一的结构示意图;
[0044]图4是本申请的实体词识别装置实施例二的结构示意图。
【具体实施方式】
[0045]为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和【具体实施方式】对本申请作进一步详细的说明。
[0046]本申请的实体词是指描述某个物体或者事务的固定名词,例如产品名称、型号、公司名称、品牌名称等等。
[0047]参照图1,示出本申请的一种实体词识别方法实施例一,包括以下步骤:
[0048]步骤101,接收待识别数据,对所述待识别数据按照第一预定规则切分得到分组数据。
[0049]待识别数据可以是中文,也可以是英文或其他语言,可以是一个完整的句子,也可以是词组或短语。
[0050]第一预定规则为预先定义,可以根据实际情况确定。本申请中,根据人类从左到右的阅读习惯,对待识别数据以左数第一个单词顺序与其他单词组合的规则进行切分。即,每一组分组数据是左数第一个单词顺序与其它单词的组合。此处的单词为独立的一个字或单词,例如,可以为英文中的一个单词,也可以理解为中文中的一个字,也可以理解为其它语言中的一个独立个体。例如,以英文“high quality led advertising screen”为例,切分得到的各组分组数据分别为:“high”、“high quality”、“high quality led,,、“highquality led advertising,,以及“high quality led advertising screen,,。又如,以中文“广告屏”为例,切分得到的各组分组数据分别为:“广”、“广告”以及“广告屏”。
[0051]步骤102,按照第二预定规则抽取所述每一组分组数据的特征,基于各特征的权重和预定单词类别计算每一组分组数据所属的类别组合以及概率。[0052]服务器中预先定义了需要抽取的特征、各特征的抽取规则以及单词类别。当服务器接收到待识别数据并进行切分得到分组数据后,则会根据第二预定规则从每一组分组数据中抽取对应的特征,并基于各特征的权重计算得到每一组分组数据属于各类别组合的概率。
[0053]本申请中,预先定义的特征包括:当前词、前后两个词、前后词与当前词的组合、前两个词和后两个词、前一个词和后一个词的组合以及前两词所属类别。可以理解,预先定义的特征还可以包括每个词的词性。特征抽取规则为:当前词是指每一组分组数据中的最后一个词,其前后词则是在待识别数据中分别位于其前后的词。可以理解,此处的前后是根据读写习惯而言的前后。
[0054]分组数据的类别组合根据预定的单词类别确定,分组数据的类别组合为其中包含的各个单词的类别的组合。因为每个单词可能属于不同的单词类别,那么相应的每一组分组数据的类别组合便会不同。根据组合排列规则,假设单词类别的数量为A,每一组分组数据中所包含的单词数量为B,那么每个单词可能属于A个类别,相应地,每一组分组数据所属的类别组合数量则为:A的B次方。虽然每个单词可能会属于多个类别,但是其概率值会有所区别,例如,某个单词可能属于a和b两个类别,其属于a的概率为90%,属于b的概率为10%。因此,每一组分组数据所属的各类别组合的概率也会不相同。
[0055]例如,以前述的“high quality led advertising screen” 的其中一个分组数据“high quality led”为例,抽取的特征包括:当前词“led”、前后两个词“quality”和“advertising”、前后词与当前词的组合“quality led advertising”、前两个词和后两个词 “high quality” 和 “advertising screen”、前一个词和后一个词的组合“qualityadvertising”、以及前两个词所属类别。如前所述,每一个词可能属于多个类别,只是概率值不同,因此“前两个词所属类别”这一特征则可能出现多种可能。以当前词“led”为例,其“前两个词所属类别”这一特征可以由前述五个预定类别进行两两组合,最终得出25种组合结果。即在抽取“前两个词所属类别”这一特征时,可能会得到多个特征值,这需要根据该组分组数据中包含的单词数量来确定。
[0056]下面结合具体实例对每一分组数据所属类别组合以及概率进行说明。假设预先设定的单词类别包括无关词(II)、左边词(LU、中间词(MM)、右边词(RR)和独立词(RL)五种。其中,无关词是指与实体词无关的词语,左边词、中间词和右边词是指当实体词由多个字或单词组成时,按照书写顺序在对应位置上的词。当实体词由两个字或单词组成时,则该位于该实体词左边的为左边词,右边的为右边词,当实体词由三个或以上的字或单词组成时,则位于该实体词左边的为左边词,右边的为右边词,左边词和右边词之间的则为中间词,中间词可以是一个、两个或多个。独立词是指当实体词由一个字或单词时,该字或单词即为独立词。例如,对于“high quality led advertising screen”这一例子,假设“high”和“quality”的类别为无关词(II),“led advertising screen”为实体词,其中,“led”的类别为左边词(LL)、“advertising”为中间词(MM)、“screen”为右边词(RR)。那么,前述五组分组数据中,每一组分组数据的类别组合分别为“II”、“II ΙΙ”、“ΙΙ II LL”、“II II LLMM,,、“II II LL MM RR”。可以理解,“high quality led advertising screen”中的每个单词也可能属于其他类别,可以根据前述方式组合出每一组分组数据的其他可能类别。例如,对于第一组分组数据“high”,因为只有一个单词,所以单词所属的类别即为该分组数据的类别组合,可以是“ II ”、“LL”、“MM”、“RR”和“RL”,属于每一个类别的概率可以分别为90%、2%、2%、2% 和 4% ο
[0057]前述计算每一组分组数据所属的类别组合以及概率可以通过预先设定的公式进行计算,也可以直接通过训练好的模型进行计算。
[0058]步骤103,从每一组分组数据所属的类别组合中选取其中包含的实体词,并计算所述各实体词的识别概率。
[0059]根据前述描述,从每一组分组数据所属的类别组合中选取其中包含的实体词采用如下方式:
[0060]若某个类别组合中包含有独立词,则确定该独立词为该类别组合中包含的实体词。若某个类别中包含有左边词和右边词,且该两个词语之间没有其他类别的词语或只有中间词,则确定从该左边词到右边词的组合为实体词。即,从左边词开始到右边词结束的一个整体作为实体词,二者之间若有中间词,则左边词、右边词以及二者之间的所有中间词的组合为实体词,二者之间若没有中间词,则左边词和右边词的组合为实体词。
[0061]计算所述各实体词的识别概率。具体包括:
[0062]选取包含有某个实体词的所有类别组合;
[0063]将所述所有类别组合的概率相加得到所述实体词的识别概率。
[0064]即,只要将某个单词或短语确定为实体词的类别组合都会被选取,用于统计计算该实体词的识别概率。例如,“led advertising screen”作为实体词的识别概率,可以采用如下方式计算:因为“led advertising screen”整体出现是在最后一组分组数据“highquality led advertising screen” 中,当 “led advertising screen” 的类别组合为 “LL丽RR”时,其可能出现在“high”和“quality”分别为五个类别之一时的类别组合中,即其可能出现在25个类别组合中。此时,获取最后一组分组数据的这25个类别组合的概率,并相加,得到“led advertising screen”被确定为“LL MM RR”的概率,即确定为实体词的识别概率。又如,“screen”为实体词的识别概率,可以采用如下方式计算:因为一个单词确定为实体词,其类别应该为“LR”,那么可以在所有分组数据的各类别组合中查找“screen”的类别为“LR”的类别组合,然后将这些类别组合的概率相加,得到“screen”被确定为实体词的识别概率。
[0065]可以理解,对于实体词的概率还可以通过如下公式来进行计算:


m
[0066]Pn (A J) = P(K:? = h --+1 =7') = ΣΡ %,+l = j I = h =k,Wn)
k=1( I )




I
[0067]αβ{ {tWk.......tw/ })^ak (tWt) X β, (tWi) X Π Λ (Cj ,人)

<=*+ι( 2 )

m
[0068]A: I iJ,) = Σ ai(々)x 尸(H w,.), ,., p.,


I < / < I <: j < m 门)

m
_9]队、=分如我、丨丨Wwww (4)
[0070] MU,…r " ==K})
L 」Wtan+l{ROOT) PnJROOT) an+l{ROOT) (5)[0071]公式(1):wn是待识别数据中的第n个单词(按照书写习惯从左到右的顺序);twn是第n个词的单词类别,tw+1是第n+1个词的单词类别;i和j表示单词类别,二者可以相同,也可以不相同;
【权利要求】
1.一种实体词识别方法,其特征在于,包括以下步骤: 接收待识别数据,对所述待识别数据按照第一预定规则切分得到分组数据; 按照第二预定规则抽取所述每一组分组数据的特征,基于各特征的权重和预定单词类别计算每一组分组数据所属的类别组合以及概率; 从每一组分组数据所属的类别组合中选取其中包含的实体词,并计算所述各实体词的识别概率; 按照所述各实体词的概率大小对实体词进行排序。
2.如权利要求1所述的实体词识别方法,其特征在于,所述预定单词类别包括无关词、左边词、右边词、中间词和独立词,所述从每一组分组数据所属的类别组合中选取其中包含的实体词根据如下方式确定: 若某个类别组合中包含有独立词,则确定该独立词为该类别组合中包含的实体词;和若某个类别中包含有左边词和右边词,且所述左边词和右边词之间没有其他类别的词语或只有中间词,则确定从该左边词到右边词的组合为实体词。
3.如权利要求1所述的实体词识别方法,其特征在于,计算所述各实体词的识别概率包括: 选取包含有某个实体词的所有类别组合; 将所述所有类别组合的概率相加得到所述实体词的识别概率。
4.如权利要求1至3任一项所述的实体词识别方法,其特征在于,所述方法通过训练好的模型实现数据处理。
5.如权利要求4所述的实体词识别方法,其特征在于,所述在所述各步骤之前还包括: 准备训练数据,对模型进行训练。
6.如权利要求5所述的实体词识别方法,其特征在于,所述准备训练数据包括采用自动标注的方式进行准备,包括以下步骤: 获取待识别数据,判断其中是否包含有与某个实体词词典中匹配的文本,若有,则记录所述文本; 统计包含有所述文本的实体词词典的数量,并根据所述数量与每个实体词词典的优先级确定所述文本的分数; 根据所述分数对待识别数据中的文本进行标注。
7.一种实体词识别装置,其特征在于,包括: 数据接收模块,用于接收待识别数据,对所述待识别数据按照第一预定规则切分得到分组数据; 类别组合概率计算模块,按照第二预定规则抽取所述每一组分组数据的特征,基于各特征的权重和预定单词类别计算每一组分组数据所属的类别组合以及概率; 实体词识别概率计算模块,用于从每一组分组数据所属的类别组合中选取其中包含的实体词,并计算所述各实体词的识别概率; 排序模块,用于按照所述各实体词的概率大小对实体词进行排序。
8.如权利要求7所述的实体词识别装置,其特征在于,所述预定单词类别包括无关词、左边词、右边词、中间词和独立词,所述实体词识别概率计算模块包括: 实体词识别单元,用于识别类别组合中的实体词,采用如下方式实现:若某个类别组合中包含有独立词,则确定该独立词为该类别组合中包含的实体词;和若某个类别中包含有左边词和右边词,且所述左边词和右边词之间没有其他类别的词语或只有中间词,则确定从该左边词到右边词的组合为实体词。
9.如权利要求7所述的实体词识别装置,其特征在于,实体词识别概率计算模块包括: 类别组合选取子模块,用于选取包含有某个实体词的所有类别组合; 计算子模块,用于将所述所有类别组合的概率相加得到所述实体词的识别概率。
10.如权利要求7至9任一项所述的实体词识别装置,其特征在于,所述数据接收模块、类别组合及实体词确定模 块、类别组合概率计算模块、识别概率计算模块和排序模块置于训练好的模型中,所述装置还包括: 模型训练模块,用于准备训练数据,对模型进行训练。
11.如权利要求10所述的实体词识别装置,其特征在于,所述模型训练模块包括数据准备子模块,所述数据准备子模块包括: 匹配单元,用于获取待识别数据,判断其中是否包含有与某个实体词词典中匹配的文本,若有,则记录所述文本; 统计单元,用于统计包含有所述文本的实体词词典的数量,并根据所述数量与每个实体词词典的优先级确定所述文本的分数; 标注单元,用于根据所述分数对待识别数据中的文本进行标注。
【文档编号】G06F17/30GK103678336SQ201210326664
【公开日】2014年3月26日 申请日期:2012年9月5日 优先权日:2012年9月5日
【发明者】廖剑, 吴克文, 张永刚, 林锋 申请人:阿里巴巴集团控股有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1