中医文本分词过程中的消歧方法、系统、设备及介质与流程

文档序号:19251344发布日期:2019-11-27 20:17阅读:234来源:国知局
中医文本分词过程中的消歧方法、系统、设备及介质与流程
本公开涉及文本分词
技术领域
,特别是涉及中医文本分词过程中的消歧方法、系统、设备及介质。
背景技术
:本部分的陈述仅仅是提到了与本公开相关的
背景技术
,并不必然构成现有技术。在实现本公开的过程中,发明人发现现有技术中存在以下技术问题:现有对中医文本分词的过程中,分词结果不够精确,尤其对于组合型歧义的词汇不能做到精准分词和精准消歧,导致分词结果不尽人意。技术实现要素:为了解决现有技术的不足,本公开提供了中医文本分词过程中的消歧方法、系统、设备及介质;第一方面,本公开提供了中医文本分词过程中的消歧方法;中医文本分词过程中的消歧方法,包括:获取待分词的中医文本;对中医文本进行预处理,所述预处理包括:删除停用词、重复词和语气词;对预处理后的中医文本进行分词处理;对分词处理后的结果与预先构建的组合歧义词库进行匹配,从分词处理后的结果中,筛选出组合歧义词和非组合歧义词;将非组合歧义词存储到分词结果数据库中;对筛选出的组合歧义词进行词频和词性标记,根据筛选出的组合歧义词的词性和词频,计算出当前组合歧义词的互信息向量,将互信息向量输入到预先训练好的支持向量机模型中,输出当前组合歧义词的类别是否为可拆分类别;根据类别实现对当前组合歧义词的拆分或不拆分处理。第二方面,本公开还提供了中医文本分词过程中的消歧系统;中医文本分词过程中的消歧系统,包括:预处理模块,用于获取待分词的中医文本;对中医文本进行预处理,所述预处理包括:删除停用词、重复词和语气词;分词模块,用于对预处理后的中医文本进行分词处理;匹配模块,用于对分词处理后的结果与预先构建的组合歧义词库进行匹配,从分词处理后的结果中,筛选出组合歧义词和非组合歧义词;将非组合歧义词存储到分词结果数据库中;消歧模块,用于对筛选出的组合歧义词进行词频和词性标记,根据筛选出的组合歧义词的词性和词频,计算出当前组合歧义词的互信息向量,将互信息向量输入到预先训练好的支持向量机模型中,输出当前组合歧义词的类别是否为可拆分类别;根据类别实现对当前组合歧义词的拆分或不拆分处理。第三方面,本公开还提供了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成第一方面所述方法的步骤。第四方面,本公开还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述方法的步骤。与现有技术相比,本公开的有益效果是:本公开具有分词结果准确,分词结果消除了组合型词汇有歧义的问题;尤其消除了中医文本分词过程中组合型词汇的正确分词,实现组合型中医词汇的准确消歧。附图说明构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。图1为第一个实施例的方法流程图。具体实施方式应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属
技术领域
的普通技术人员通常理解的相同含义。需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。实施例一,本公开提供了中医文本分词过程中的消歧方法;如图1所示,中医文本分词过程中的消歧方法,包括:s1:获取待分词的中医文本;对中医文本进行预处理,所述预处理包括:删除停用词、重复词和语气词;s2:对预处理后的中医文本进行分词处理;s3:对分词处理后的结果与预先构建的组合歧义词库进行匹配,从分词处理后的结果中,筛选出组合歧义词和非组合歧义词;将非组合歧义词存储到分词结果数据库中;s4:对筛选出的组合歧义词进行词频和词性标记,根据筛选出的组合歧义词的词性和词频,计算出当前组合歧义词的互信息向量,将互信息向量输入到预先训练好的支持向量机模型中,输出当前组合歧义词的类别是否为可拆分类别;根据类别实现对当前组合歧义词的拆分或不拆分处理。作为一个或多个实施例,所述获取待分词的中医文本,包括中医病历文本,具体包括患者自述病情或医生诊断结论。作为一个或多个实施例,所述对预处理后的中医文本进行分词处理,是利用中科院中文分词系统进行分词处理。作为一个或多个实施例,预先构建的组合歧义词库,构建步骤为:对所有数据集进行分词,将分词后的每个字段分别与其后最邻接的一个字段进行组合,若组合出来的词也存在于中医词典中,则将当前字段与其后最邻接的一个字段进行标注,再利用对所有标注的字段进行人工识别,若确实为组合词,则将标注的字段放入组合词库;或者,对所有数据集进行分词,将分词后的所有词进行统计;将每个词再单独进行第二次分词,若某个词能进行第二次的分词,则对能进行第二次分词的词进行标注,将标注的词提取出来,再利用人工对提取出来的词进行识别若确实为组合词,将该字段放入组合词库。作为一个或多个实施例,对筛选出的歧义词进行词频标记,是指对当前歧义词在当前中医文本中出现的频率进行标记。作为一个或多个实施例,对筛选出的歧义词进行词性标记,是指对当前歧义词在中医文本中的词性进行标记。所述词性,包括:名词、动词、形容词、时间词等等。作为一个或多个实施例,根据筛选出的歧义词的词性和词频,计算出当前歧义词的互信息向量;具体步骤包括:mi3=p(wi-1|si-1)p(si|si-1)p(wi|si)p(si+1|si)p(wi+1|si+1);(3)mi4=p(wi-1|si-1)p(si1|si-1)p(wi1|si1)p(si2|si1)p(wi2|si2)p(si+1|si2)p(wi+1|si+1);(4)其中,mi1表示第一互信息向量;mi2表示第二互信息向量;mi3表示第三互信息向量;mi4表示第四互信息向量;wi-1表示歧义字段的前一个词,si-1表示歧义字段的前一个词的词性;wi+1表示歧义字段的后一个词,si+1表示歧义字段的后一个词的词性;wi表示组合型歧义字段为不拆分处理的单个字段,si表示组合型歧义字段为不拆分处理的单个字段的词性;wi1与wi2表示组合型歧义字段为能够拆分处理的两个字段;si1与si2表示组合型歧义字段为能够拆分处理的两个字段的词性。作为一个或多个实施例,预先训练好的支持向量机模型;具体训练步骤包括:s41:选取若干份中医医案文本进行分词;s42:将分词结果中的每个字段与预先构建的组合歧义词库匹配;进行歧义词识别,对歧义词进行标注:若某个字段存在于组合歧义词库中,且该字段与其后一个字段的组合也存在于组合词库中,则对该字段进行标注,对其的标注表示为当前组合词为可拆分处理的形式;若某个字段存在于组合歧义词库中,但该字段与其后一个字段的组合不存在于组合词库中,则对该字段进行标注,对其的标注表示为当前组合词为不可拆分处理的形式;若某个字段不存在于组合词库中,则继续进行其他字段与组合歧义词库的匹配;s43:分别计算出歧义词的互信息向量mi1、mi2、mi3和mi4,得到向量<mi1,mi2,mi3,mi4>;s44:将向量<mi1,mi2,mi3,mi4>和已知的当前歧义词是否可拆分类别代入支持向量机模型训练,得到训练好的支持向量机模型。作为一个或多个实施例,所述根据类别实现对当前歧义词的拆分或不拆分处理;具体步骤包括:如果是可拆分类别,则对当前歧义词进行分词,将当前歧义词的拆分结果存储到分词结果数据库中,作为最终的分词结果;如果不是可拆分类别,则对当前歧义词不进行分词,将当前歧义词直接存储到分词结果数据库中,作为最终的分词结果。1.特征选取在中医医案中,医师对于医案文本描写存在一定规律,有一个或多个字词组成一个症状:中医专业名词性症状,如雷头风、中风、眩晕等;症状+变化,如窒感缓解、气促缓解、月经过少等;身体部位+形容词或形容词+身体部位,如腹痛、头晕、青舌等。由此可以看出,在中医医案中,文本字词与其前后一个字词之间联系度强,前后词之间的词性存着一定的规律。本文根据字词的词频以及词性,建立词频与词性互信息用于特征选取。1.1传统的互信息wi表示当前组合型歧义字段为“合”的状态,wi1和wi2表示当前组合型歧义字段为“分”的状态。w=w1w2…wi…wn表示分词后的句子,且当前组合型歧义字段为“合”的形式,w=w1w2…wi1wi2…wn表示当前组合型歧义字段为“分”的形式。互信息常常被用来进行文本特征的提取,利用互信息可以反映出词与词之间的相关程度,两词之间的互信息值越高,其之间的相关程度也就越高。计算公式可以表示为:其中,p(wi-1|wi)表示特征词,wi-1在组合型歧义字段wi为“合”形式时在中医医案数据集中出现的概率,p(wi-1)表示特征词wi-1在数据集中出现的概率。根据相关研究发现,相比较其他的特征选取方法(卡方、信息增益),互信息的实验效果不太理想。这是因为当选择低频词作为特征时,低频词作为分母使得整个公式的值变大,导致低频词的互信息值变大,使得在过去的研究中往往会提取出低频词作为重要特征,忽略了词频、词性等因素的重要性,严重影响文本的歧义消解效果。1.2改进的词频互信息当特征词为低频词时,传统的互信息计算方法中p(wi-1)作为公式中的分母会使得低频词的特征值变大。在中医文本中,中高频词是一段或一句话中最重要的特征,文本的数据挖掘有着重要意义,而低频词对文本的贡献度不高,可能成为噪音。为解决低频词的互信息值高的问题,在本研究中在互信息中加入特征词的词频因子ηi,作为特征词在不同的类型的歧义中的词频,其公式如下:其中,p(wi-1|wi)表示组合型歧义字段wi为“合”时特征词wi-1的词频,p*(wi-1|wi)表示特征词wi-1在组合型歧义字段wi“合”时出现的医案数,p*(wi)表示组合型歧义字段wi为“合”时的所有的医案数。当互信息公式加入词频因子ηi后,互信息的公式为:1.3词性互信息构建结合中医文本的特点以及组合型歧义字段的研究,发现在中医医案中的词与词之间的词性有很大的关联。组合型歧义字段与其上下文中的特征词之间的词性有很大的关联程度,尤其是在对组合型歧义字段的“合”与“分”形式有一定的重要性。根据组合型歧义字段与其上下文中的特征词之间的词性的关联特点,用mi1,mi2表示组合型歧义字段为“合”与“分”形式与特征词之间的词性互信息值。s=s1s2…si…sn和s=s1s2…si1si2…sn分别组合型歧义歧义字段为“合”与“分”形式是在句子中所对应的词性标记串。si表示当歧义字段wi为“合”形式时的词性,si-1为歧义字段wi前一个词wi-1的词性,si1和si2分别为歧义字段“分”形式时词wi1和词wi2的词性。定义词性互信息如公式(2),(3)mi3=p(wi-1|si-1)p(si|si-1)p(wi|si)p(si+1|si)p(wi+1|si+1)(2)mi4=p(wi-1|si-1)p(si1|si-1)p(wi1|si1)p(si2|si1)p(wi2|si2)p(si+1|si2)p(wi+1|si+1)(3)p(wi|ti)表示在中医医案中,当词wi的词性为si时,词wi出现的概率;p(ti|ti-1)指词wi前一个词wi-1的词性是si-1时,词wi的词性si出现的概率。1.4向量的构建在本实施例中将mi1表示当组合型歧义字段wi为“合”时与上下文构成的词频互信息,mi2表示当组合型歧义字段wi为“分”时与上下文构成的词频互信息。将mi3表示组合型歧义字段wi“合”时与上下文的词性互信息,mi4表示组合型歧义字段wi“分”时与上下文的词性互信息。根据词频互信息与词性互信息求出的值将每个歧义字段表示为一个向量,记为<mi1,mi2,mi1,mi4>。2支持向量机模型支持向量机(supportvectormachine)svm是一种常用的机器学习算法,有良好的分类精度,尤其在解决两分类为提上。其工作原理就是寻找一个最优超分类平面,这个平面在满足分类精度的同时到两侧的距离最大。中医医案中的组合型歧义有“合”和“分”两种歧义情况,可以将组合型歧义的“合”和“分”两种形式视为两类,利用支持向量机解决组合型歧义的二分类问题。svm算法的基本思想:在所使用的数据集中存在(x1,y1),…,(xi,yi),…,(xn,yn),i=1,2,…,n,xi∈rd,yi∈{-1,+1}。svm给出的可分超平面如下:wtx+b=0支持向量函数定义为:wtx+b=±1svm的决策超平面:g(x)=sgn(w*x+b*)对于待分类样本x进行测试时,可以通过计算g(x)来确定x的分类,此函数值的输出就是分类的结果。根据公式(1)、(2)、(3)分别计算出组合型歧义字段的mi1,mi2,mi3,mi4的值,得到向量<mi1,mi2,mi1,mi4>,把得到的向量代入到分类函数g(x)中,若得到的计算结果等于1,则该歧义字段为“合”形式;若得到的计算结果等于-1,则该歧义字段为“分”形式。3消歧模型构建3.1组合词库的定义、构建、获取(1)组合型歧义定义本文对组合型歧义字段的定义:组合型歧义字段:假设有一字段ab,由a与b字段组成,且a、b、ab都可以为词。中医文本中存在一个句子w,在w中a、b在语法和语义都成立。组合型歧义字段的实例如下:1:失眠/多于/安眠/2:近/3/年/来/阵发/气促/,/多/于/劳累/后/发生/在上述句子中即可认为词“多于”为组合型歧义字段。在例1中,“多于”为组合词“合”的形式;在例2中,“多于”切分为两个词“多”和“于”,为组合词“分的形式。(2)组合词库的建立在现有研究中,组合型歧义消解技术已逐步成熟。但缺乏供消歧使用的组合歧义语料库,尤其是在中医文本消歧领域涉没有合适的组合歧义语料库,且没有充分利用语句中的词频特征、词性特征等重要特征使得消歧性能不理想。针对组合型歧义消解结合词典的特性,在本研究中通过从医案中挑选出的组合型歧义词建立组合词词库,用于识别在中医医案中所存在的组合型歧义词。(3)组合歧义字段的获取将得到的中医医案进行分词、词性标注等预处理,之后通过匹配算法利用建立的面向中医文本的组合词库进行组合型歧义字段的识别、标注、抽取。在中医医案数据集中,同时存在组合型歧义的“合”形式(a、b)和“分”形式(ab)的字段即为组合型歧义字段同时进行标注。根据实验所需,共从中医医案的分词语料中抽取出组合歧义字段500份。组合型歧义字段抽取方法的流程如图1所示。以下的句子是进行分词及词性标注后如下:以下句子即为存在组合型歧义字段且已进行分词与词性标注的句子:最近/t几/m个/q月/n,/un夜晚/t失眠/v多于/v安眠/v。/un近/a三/m年来/n阵/q发/v气促/n,/un气促/n多/v于/p劳累/an后/f发生/v。/un表1所列即为上述例句中在窗口大小为2时包含的特征信息。表1特征信息特征类型特征值局部词失眠,安眠,气促,劳累局部词词性ti-1=v,ti+1=v,ti-1=n,ti+1=an3.2歧义消除的步骤具体的消歧算法描述如下:(1)训练阶段的主要步骤:步骤1选取200份中医医案进行分词。步骤2对已分词的中医医案与组合词库匹配,利用匹配抽取算法进行歧义词识别,对歧义词进行标注。步骤3分别计算出组合型歧义字段的互信息值mi1,mi2,mi3,mi4,得到向量<mi1,mi2,mi3,mi4>。步骤4将向量<mi1,mi2,mi3,mi4>代入支持向量机模型训练得到分类函数g(x)。(2)测试阶段的主要步骤:步骤1选取300份中医医案进行分词,得到分词后的数据集,通过组合词库对数据集进行匹配,识别句子中所含的组合型歧义字段。步骤2在含组合型歧义字段的句子中,得到“合”“分”形式的两条切分路径以及所对应的词性标注串。步骤3提取出词以及其对应的词性,计算其词频以及词性频率。然后将这些代入公式(1)(2)(3)中计算出mi1,mi2,mi3,mi4的值,表示为向量<mi1,mi2,mi3,mi4>。步骤4将所求出的向量代入到训练出的分类函数g(x)中,得到类别“1”或“-1”,得到相应的切分结果。步骤5消解组合型歧义字段的歧义,得到经过歧义消解的分词结果,实验结束。4实验4.1实验数据在中医文本中,存在着中医术语名词、古汉语以及现代语言掺杂的特点。要对中医所使用到的语言进行分词,既要考虑词频又要考虑词与词之间的关系。为解决在中医文本组合型歧义消解工作中没有公开的测评语料的特点,为此本研究建立了中医医案歧义性词语料库用于测试医案消歧方法效果。本文采用的主要语料来自于山东中医药大学附属医院的2万份医案,对所获得的中医文本分段、分句、分词等步骤进行词性的标注,最终获得实验所需要的分词语料。经过人工扫描、组合词提取等步骤构建中医组合词库,其次使用匹配算法将中医组合词库与分词语料匹配,获取的中医文本组合歧义字段并进行标注。对所用的中医语料的编码方式均采用utf-8。选取其中2000份医案进行歧义词消解实验。歧义词消解实验分为三组:实验一采用基于传统的互信息的进行特征提取的方法进行分词;实验二:采用基于词性互信息的进行特征提取的方法进行分词;实验三采用本文提出的歧义消解方法进行分词。本文利用所使用的标准语料做实验语料,共计25052字,10356个词。4.2结果分析本文抽取了测试语料中的5个例句来展现消歧结果。例一:2年内体重下降15kg。例二:患者舌体略肿胀。例三:阴雨天腰痛、气短及大便下坠感明显好转。例四:患者平素月经正常,2年前服用冷饮后出现月经周期延长7天。表3列举了测试语料中5个例句在实验一到实验二中的对比结果。表3测试语料分词结果展现从表3中可以看出基于上下文信息的消歧方法,在句首时,由于不存在前驱词所以使得消歧结果不理想。基于支持向量机的消歧方法在遇到专业名词时,使得分词结果不理想。从实验结果来看,加入消歧方法后的分词系统总体呈现良好分词效果。实施例二,本公开还提供了中医文本组合型歧义的消歧系统;中医文本分词过程中的消歧系统,包括:预处理模块,用于获取待分词的中医文本;对中医文本进行预处理,所述预处理包括:删除停用词、重复词和语气词;分词模块,用于对预处理后的中医文本进行分词处理;匹配模块,用于对分词处理后的结果与预先构建的组合歧义词库进行匹配,从分词处理后的结果中,筛选出组合歧义词和非组合歧义词;将非组合歧义词存储到分词结果数据库中;消歧模块,用于对筛选出的组合歧义词进行词频和词性标记,根据筛选出的组合歧义词的词性和词频,计算出当前组合歧义词的互信息向量,将互信息向量输入到预先训练好的支持向量机模型中,输出当前组合歧义词的类别是否为可拆分类别;根据类别实现对当前组合歧义词的拆分或不拆分处理。本公开还提供了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成方法中的各个操作,为了简洁,在此不再赘述。所述电子设备可以是移动终端以及非移动终端,非移动终端包括台式计算机,移动终端包括智能手机(smartphone,如android手机、ios手机等)、智能眼镜、智能手表、智能手环、平板电脑、笔记本电脑、个人数字助理等可以进行无线通信的移动互联网设备。应理解,在本公开中,该处理器可以是中央处理单元cpu,该处理器还算可以是其他通用处理器、数字信号处理器dsp、专用集成电路asic,现成可编程门阵列fpga或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。该存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本公开所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元即算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能的划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外一点,所显示或讨论的相互之间的耦合或者直接耦合或者通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1