名词词库提取方法、电子装置及计算机可读存储介质与流程

文档序号:15462412发布日期:2018-09-18 18:29阅读:229来源:国知局

本发明涉及文本识别技术领域,尤其涉及一种名词词库提取方法、电子装置及计算机可读存储介质。



背景技术:

针对法律领域的事实情节等文本内容,经常需要提取其中的名词等词库,以便后续进行分析。目前词库提取的方案有两种:一种是在网上爬取某些网站(如搜狗词库)中的词;另一种是通过互信息、信息熵或者其他深度学习算法和大量的语料去提取组合词语。然而,这两种方式得到的词或合成词语的词性多样,无法得到特定的对应名词词性的词库。



技术实现要素:

本发明的主要目的在于提出一种名词词库提取方法、电子装置及计算机可读存储介质,旨在解决如何提取名词词性的词库的问题。

为实现上述目的,本发明提供的一种名词词库提取方法,该方法包括步骤:

对文本内容进行命名实体识别和词性标注;

去掉时间词、地点词、量词、角色词后得到简化的句子;

对所述简化的句子进行句法结构分析;

在分析得到的句法结构树中由叶子节点向根节点进行深度遍历,查找名词和名词合成词,得到初步词表;及

对所述初步词表进行互信息计算和过滤,得到最终的名词词表。

可选地,使用语言技术平台LTP进行所述命名实体识别、词性标注及句法结构分析。

可选地,所述句法结构分析得到所述简化的句子中每个节点对应的父节点,以及与父节点之间的语法关系。

可选地,所述在分析得到的句法结构树中由叶子节点向根节点进行深度遍历,查找名词和名词合成词,得到初步词表的步骤包括,

从所述简化的句子的节点中去掉所有标点符号;

从去掉标点符号的句法结构树中查找所有叶子节点;

从每个叶子节点开始由下向上到根节点进行深度遍历,查找名词和名词合成词;

将查找到的名词和名词合成词记入所述初步词表。

可选地,所述名词为词性‘pos’为‘n’,且与父节点不相邻的节点。

可选地,针对所述名词合成词,在所述遍历时判断定中关系ATT、动宾关系VOB、前置宾语FOB三种语法关系,包括:

若叶子节点的语法关系‘relate’为ATT,且当前节点的词性‘pos’不属于预设列表['nh','nt','nl','o','m','wp','x','r','q','u','e']其中之一,并且当前节点与父节点相邻,则将该当前节点与其父节点组合,并继续向上查找到语法关系不是ATT的节点,将得到的组合词作为一个名词合成词;

若叶子节点的语法关系‘relate’为VOB或FOB,且与父节点相邻,并且父节点的长度为1,则将当前节点与其父节点组合,作为一个名词合成词。

可选地,所述对所述初步词表进行互信息计算和过滤,得到最终的名词词表的步骤包括:

计算所述初步词表中的名词组合词的互信息值;

过滤所述互信息值小于预设值的名词组合词,得到最终的名词词表。

可选地,所述预设值为4。

此外,为实现上述目的,本发明还提出一种电子装置,所述电子装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的名词词库提取程序,所述名词词库提取程序被所述处理器执行时实现如上述的名词词库提取方法的步骤。

进一步地,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有名词词库提取程序,所述名词词库提取程序被处理器执行时实现如上述的名词词库提取方法的步骤。

本发明提出的名词词库提取方法、电子装置及计算机可读存储介质,能够通过对文本内容进行命名实体识别、词性标注、句法结构分析等处理,并在找到句法结构树的叶子节点后,由叶子节点向根节点进行深度遍历,查找名词和名词合成词,然后根据互信息计算进行过滤,得到最终的名词词表,从而从所述文本内容中提取出名词词性的词表,以便后续进行相应分析。该方案可以针对特定词性的词语及合成词进行词库提取,提升了用户体验。

附图说明

图1为本发明第一实施例提出的一种电子装置的架构图;

图2为本发明第二实施例提出的一种名词词库提取方法的流程图;

图3为本发明第三实施例提出的一种名词词库提取方法的流程图;

图4为本发明一实施例中进行命名实体识别和词性标注后的结果的示意图;

图5为本发明一实施例中进行句法结构分析后的结果的示意图;

图6为本发明一实施例中去掉所有标点符号后的结果的示意图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

实施例一

参阅图1所示,本发明第一实施例提出一种电子装置2。所述电子装置2可以是移动电话、智能电话、笔记本电脑、PAD(平板电脑)等可移动设备,以及诸如台式计算机、服务器等固定终端,用于对法律领域的事实情节等文本内容进行名词提取。所述电子装置2包括存储器20、处理器22和名词词库提取程序28。

其中,所述存储器20至少包括一种类型的可读存储介质,用于存储安装于所述电子装置2的操作系统和各类应用软件,例如名词词库提取程序28的程序代码等。此外,所述存储器20还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制所述电子装置2的总体操作。本实施例中,所述处理器22用于运行所述存储器20中存储的程序代码或者处理数据,例如运行所述名词词库提取程序28等。

所述名词词库提取程序28被所述处理器22执行时,实现如下步骤:

(1)对文本内容进行命名实体识别和词性标注。

(2)去掉时间词、地点词、量词、角色词后得到简化的句子。

(3)对所述简化的句子进行句法结构分析。

(4)在得到的句法结构树中由叶子节点向根节点进行深度遍历,查找名词和名词合成词,得到初步词表。

(5)对所述初步词表进行互信息计算和过滤,得到最终的名词词表。

上述步骤的详细说明请参阅下述第二实施例和第三实施例,在此不再赘述。

本领域技术人员可以理解,图1中示出的结构并不构成对所述电子装置2的限定,所述电子装置2还可以包括其他必要部件,或者组合某些部件,或者不同的部件布置。

实施例二

参阅图2所示,本发明第二实施例提出一种名词词库提取方法。在本实施例中,根据不同的需求,图2所示的流程图中的步骤的执行顺序可以改变,某些步骤可以省略。该方法包括以下步骤:

S10,对文本内容进行命名实体识别和词性标注。

具体地,当需要对法律领域的事实情节等文本内容进行名词提取时,首先获取文本内容,然后使用语言技术平台(Language Technology Platform,LTP)将该文本切分为多个节点,并进行命名实体识别(Named Entity Recognition,NER)和词性标注(Part-of-speech Tagging,POS)。LTP中采用863词性标注集,例如‘n’为一般性名词、‘a’为形容词等。

例如,文本内容为:“2016年10月18日,被告人陶守松至太仓市沙溪镇半泾村十四组13号001室,入户窃得被害人陈某房间内电磁炉1个、锅1个、烧水壶1个、电动自行车1辆。”当使用LTP进行命名实体识别和词性标注后,结果如图4所示。其中,‘ne’表示命名实体,‘pos’表示词性。

S20,去掉时间词、地点词、量词、角色词后得到简化的句子。

具体地,当对所述文本进行命名实体识别和词性标注后,去掉时间词(‘ne’中包含time)、地点词(‘ne’中包含place)、量词(‘ne’中包含classifier)和角色词(‘ne’中包含role),从而得到简化的句子。

S30,对所述简化的句子进行句法结构分析。

具体地,使用LTP对得到的所述简化的句子进行句法结构分析,得到每个节点对应的父节点,以及与父节点之间的语法关系。在LTP中,所述语法关系共包括15种,包括:主谓关系(SBV)、动宾关系(VOB)、间宾关系(IOB)、前置宾语(FOB)、兼语(DBL)、定中关系(ATT)、状中结构(ADV)、动补结构(CMP)、并列关系(COO)、介宾关系(POB)、左附加关系(LAD)、右附加关系(RAD)、独立结构(IS)、标点(WP)、核心关系(HED)。如图5所示,是从图4所得到的简化的句子进行句法结构分析后的结果。其中,‘parent’表示父节点,‘relate’表示语法关系。

S40,在得到的句法结构树中由叶子节点向根节点进行深度遍历,查找名词和名词合成词,得到初步词表。

具体地,从所述句法结构树中的每个叶子节点开始,右下向上到根节点进行深度遍历。其中,所述名词主要是指词性‘pos’为‘n’,且与父节点不相邻的节点。针对所述名词合成词,主要判断三种语法关系:ATT、VOB、FOB。

(1)若叶子节点的语法关系‘relate’为ATT,且当前节点的词性‘pos’不属于预设列表['nh','nt','nl','o','m','wp','x','r','q','u','e']其中之一,并且当前节点与父节点相邻,则将该当前节点与其父节点组合,并继续向上查找到语法关系不是ATT的节点,将得到的组合词作为一个名词合成词。如果当前节点与父节点不相邻,即舍弃当前节点,继续向上查找。

(2)若叶子节点的语法关系‘relate’为‘VOB’或‘FOB’,且与父节点相邻,并且父节点的长度为1,则将当前节点与其父节点组合,作为一个名词合成词。

例如,图6的叶子节点为‘陶守松’、‘001室’、‘户’、‘陈某’、‘锅’、‘水壶’、‘电动’,得到的初步词表包括:‘入户’、‘电磁炉’、‘锅’、‘烧水壶’、‘电动自行车’。

关于步骤S40的具体介绍,请参图3中相关步骤。例如,步骤S40可以参照图3中步骤S106-S112实现,也可以涉及图4中更多其他的步骤。

S50,对所述初步词表进行互信息(Mutual Information)计算和过滤,得到最终的名词词表。

具体地,当计算出所述初步词表中的名词组合词的互信息值后,将互信息值小于预设值得名词组合词过滤掉,得到最终的名词词表。在本实施例中,所述预设值为4,即过滤掉互信息值小于4的名词组合词,得到所述名词词表。在上述例子中,名词组合词‘入户’、‘烧水壶’、‘电动自行车’的互信息值均不小于4,因此得到的所述名词词表仍包括:‘入户’、‘电磁炉’、‘锅’、‘烧水壶’、‘电动自行车’。

关于步骤S50的具体介绍,请参图3中相关步骤。例如,步骤S50可以参照图3中步骤S114-S116实现,也可以涉及图3中更多其他的步骤。

实施例三

参阅图3所示,本发明第三实施例提出一种名词词库提取方法。在本实施例中,根据不同的需求,图3所示的流程图中的步骤的执行顺序可以改变,某些步骤可以省略。该方法包括以下步骤:

S100,对文本内容进行命名实体识别和词性标注。

具体地,当需要对法律领域的事实情节等文本内容进行名词提取时,首先获取文本内容,然后使用LTP将该文本切分为多个节点,并进行命名实体识别和词性标注。LTP中采用863词性标注集,例如‘n’为一般性名词、‘a’为形容词等。

例如,文本内容为:“2016年10月18日,被告人陶守松至太仓市沙溪镇半泾村十四组13号001室,入户窃得被害人陈某房间内电磁炉1个、锅1个、烧水壶1个、电动自行车1辆。”当使用LTP进行命名实体识别和词性标注后,结果如图4所示。其中,‘ne’表示命名实体,‘pos’表示词性。

S102,去掉时间词、地点词、量词、角色词后得到简化的句子。

具体地,当对所述文本进行命名实体识别和词性标注后,去掉时间词(‘ne’中包含time)、地点词(‘ne’中包含place)、量词(‘ne’中包含classifier)和角色词(‘ne’中包含role),从而得到简化的句子。例如,上述文本内容去掉这些词后,得到简化的句子为“陶守松至001室,入户窃得陈某房间内电磁炉、锅、烧水壶、电动自行车。”

S104,对所述简化的句子进行句法结构分析。

具体地,使用LTP对得到的所述简化的句子进行句法结构分析,得到每个节点对应的父节点,以及与父节点之间的语法关系。在LTP中,所述语法关系共包括15种,包括:主谓关系(SBV)、动宾关系(VOB)、间宾关系(IOB)、前置宾语(FOB)、兼语(DBL)、定中关系(ATT)、状中结构(ADV)、动补结构(CMP)、并列关系(COO)、介宾关系(POB)、左附加关系(LAD)、右附加关系(RAD)、独立结构(IS)、标点(WP)、核心关系(HED)。如图5所示,是从图4所得到的简化的句子进行句法结构分析后的结果。其中,‘parent’表示父节点,‘relate’表示语法关系。

S106,去掉所有标点符号。

具体地,当对所述简化的句子进行句法结构分析之后,从中去掉所有的标点符号,即去掉所有语法关系‘relate’为标点(WP)的节点。如图6所示,为从图5中去掉所有标点符号后的结果。

S108,从得到的句法结构树中查找所有叶子节点。

具体地,当对所述简化的句子进行句法结构分析并去掉所有标点符号之后,针对所得到的句法结构树,将‘parent’中不包含的节点作为叶子节点。例如,图6的‘parent’中不包含的id有0、2、5、7、12、15、17,对应的节点为‘陶守松’、‘001室’、‘户’、‘陈某’、‘锅’、‘水壶’、‘电动’,为该句法结构树的叶子节点。

S110,从每个叶子节点开始由下向上到根节点进行深度遍历,查找名词和名词合成词。

具体地,从所得到的每个叶子节点开始,右下向上到根节点进行深度遍历。其中,所述名词主要是指词性‘pos’为‘n’,且与父节点不相邻的节点。例如,图6中的叶子节点‘锅’,词性‘pos’为‘n’,且与父节点‘电磁炉’不相邻,得到一个名词‘锅’。

针对所述名词合成词,主要判断三种语法关系:ATT、VOB、FOB。

(1)若叶子节点的语法关系‘relate’为ATT,且当前节点的词性‘pos’不属于预设列表['nh','nt','nl','o','m','wp','x','r','q','u','e']其中之一,并且当前节点与父节点相邻,则将该当前节点与其父节点组合,并继续向上查找到语法关系不是ATT的节点,将得到的组合词作为一个名词合成词。如果当前节点与父节点不相邻,即舍弃当前节点,继续向上查找。

例如,图6中的叶子节点‘电动’,语法关系‘relate’为ATT,词性‘pos’为‘b’,不在所述预设列表中,且与父节点‘自行车’相邻,则将‘电动’与‘自行车’组合,得到组合词‘电动自行车’。新的当前节点‘自行车’与父节点‘电磁炉’不相邻,不再继续组合,得到一个名词合成词‘电动自行车’。新的当前节点‘电磁炉’词性‘pos’为‘n’,且与父节点‘窃得’不相邻,得到一个名词‘电磁炉’。继续向上查找都不再有名词或名词合成词。

(2)若叶子节点的语法关系‘relate’为‘VOB’或‘FOB’,且与父节点相邻,并且父节点的长度为1,则将当前节点与其父节点组合,作为一个名词合成词。

例如,图6中的叶子节点‘户’,语法关系‘relate’为‘VOB’,与父节点‘入’相邻,并且父节点‘入’的长度为1,则将‘入’与‘户’组合,得到一个名词合成词‘入户’。继续向上查找都不再有名词或名词合成词。又例如,图6中的叶子节点‘水壶’,语法关系‘relate’为‘VOB’,与父节点‘烧’相邻,并且父节点‘烧’的长度为1,则将‘烧’与‘水壶’组合,得到一个名词合成词‘烧水壶’。新的当前节点‘烧’的父节点为‘电磁炉’,与前述例子相同,不再赘述。

S112,将查找到的名词和名词合成词记入初步词表。

具体地,当根据不再S110中的方式从每个叶子节点开始由下向上到根节点进行深度遍历后,将查找到的名词和名词合成词记入一个初步词表。例如,针对上述例子,所述初步词表包括:‘入户’、‘电磁炉’、‘锅’、‘烧水壶’、‘电动自行车’。

S114,计算所述初步词表中的名词组合词的互信息值。

具体地,互信息是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。设两个随机变量(X,Y)的联合分布为p(x,y),边际分布分别为p(x),p(y),互信息I(X;Y)是联合分布p(x,y)与乘积分布p(x)p(y)的相对熵,即:

S116,过滤互信息值小于预设值的名词组合词,得到最终的名词词表。

具体地,当计算出所述初步词表中的名词组合词的互信息值后,将互信息值小于预设值得名词组合词过滤掉,得到最终的名词词表。在本实施例中,所述预设值为4,即过滤掉互信息值小于4的名词组合词,得到所述名词词表。在上述例子中,名词组合词‘入户’、‘烧水壶’、‘电动自行车’的互信息值均不小于4,因此得到的所述名词词表仍包括:‘入户’、‘电磁炉’、‘锅’、‘烧水壶’、‘电动自行车’。

所述名词词表,即为从所述文本内容中提取出的所有名词和名词合成词,可以用于后续对法律领域的事实情节等文本内容的分析。

本实施例所提出的名词词库提取方法,通过对文本内容进行命名实体识别、词性标注、句法结构分析等处理,并在找到句法结构树的叶子节点后,由叶子节点向根节点进行深度遍历,查找名词和名词合成词,然后根据互信息计算进行过滤,得到最终的名词词表,从而从所述文本内容中提取出名词词性的词表,以便后续进行相应分析。该方案可以针对特定词性的词语及合成词进行词库提取,提升了用户体验。

实施例四

本发明还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有名词词库提取程序,所述名词词库提取程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的名词词库提取方法的步骤。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1