一种文本信息识别模型的建立方法、装置及终端设备与流程

文档序号:23894327发布日期:2021-02-09 11:31阅读:77来源:国知局
一种文本信息识别模型的建立方法、装置及终端设备与流程

[0001]
本发明属于计算机领域,尤其涉及一种文本信息识别模型的建立方法、装置及终端设备。


背景技术:

[0002]
近年来人们生活水平逐渐提升,国民开始越来也注重自身身体健康,因此对医疗健康的需要也日渐增加。随着智能时代的到来,人们开始不满足于线下求医问诊,希望可以通过互联网获得有用的医疗信息。希望通过对现有的医疗卫生方面的信息,特别是文本信息,譬如问诊记录、医生医嘱、电子病历等资料进行必要的处理,从中获取有用的信息。对医疗领域文本进行自然语言处理的关键步骤是识别医疗实体比如疾病,症状,身体部位等。但是由于中文实体识别需要大量的语料进行模型训练,而现实中语料数据很缺乏,所以需要大量的人力物力去进行数据标注。尤其是健康领域对于数据的的保密性要求更高,其标注的语料就更少。
[0003]
现有技术中健康行业的文本信息实体识别模型需要足够数量的样本数据,且这些需要对这些样本数据进行标注,从而在客观上难以获取到满足要求的样本数量,这样使得实际中无法获得理想的健康行业的文本信息实体识别模型。


技术实现要素:

[0004]
有鉴于此,本发明提供了一种文本信息识别模型的建立方法、装置及终端设备,以解决现有技术中客观上难以获得满足要求的样本数量来训练健康行业的文本信息实体识别模型,使得实际中无法获得理想的健康行业的文本信息信息实体识别模型的问题。
[0005]
本发明实施例的第一方面,提供了一种文本信息识别模型的建立方法,包括:
[0006]
获取中文文本信息的数据集;
[0007]
获取健康行业的文本信息的数据集;
[0008]
基于所述健康行业的文本信息的数据集,采用k近邻算法对所述中文文本信息的数据集进行分类,得到迁移数据集;
[0009]
在所述迁移数据集中加入所述健康行业的文本信息的数据集,生成扩展数据集;
[0010]
利用所述扩展数据集训练已知命名实体识别模型,得到健康行业的文本信息的识别模型。
[0011]
在一些实施例中,获取中文文本信息的数据集,具体包括:
[0012]
获取中文文本;
[0013]
将所述中文文本转换成文档向量,得到中文文本信息的数据集。
[0014]
在一些实施例中,获取健康行业的文本信息的数据集,具体包括:
[0015]
获取健康行业的文本;
[0016]
将所述健康行业的文本转换成文档向量,得到健康行业的文本信息的数据集。
[0017]
在一些实施例中,基于所述健康行业的文本信息的数据集,采用k近邻算法对所述
中文文本信息的数据集进行分类,得到迁移数据集,具体包括:
[0018]
设定初始k值;
[0019]
基于所述健康行业的文本信息的数据集和欧氏距离,采用k近邻算法对所述中文文本信息的数据集进行分类,得到迁移数据集。
[0020]
在一些实施例中,基于所述健康行业的文本信息的数据集和欧氏距离,采用k近邻算法对所述中文文本信息的数据集进行分类,得到迁移数据集,具体包括:
[0021]
基于所述健康行业的文本信息的数据集,采用k近邻算法对所述中文文本信息的数据集进行分类,得到样本数据集;
[0022]
选择k个与所述健康行业的文本信息的数据集欧氏距离最小的样本数据集,得到迁移数据集。
[0023]
在一些实施例中,利用所述扩展数据集训练已知命名实体识别模型,得到健康行业的文本信息的识别模型,具体包括:
[0024]
用所述扩展数据集训练已知命名实体识别模型,输出目标数据集;
[0025]
根据所述扩展数据集,判断所述目标数据集是否满足预设条件;
[0026]
若是,则得到健康行业的文本信息的识别模型;
[0027]
若否,则返回步骤基于所述健康行业的文本信息的数据集,采用k近邻算法对所述中文文本信息的数据集进行分类,得到迁移数据集。
[0028]
在一些实施例中,若否,则返回步骤基于所述健康行业的文本信息的数据集,采用k近邻算法对所述中文文本信息的数据集进行分类,得到迁移数据集,具体包括:
[0029]
所述目标数据集不满足预设条件,则调整k值;
[0030]
基于所述健康行业的文本信息的数据集,采用k近邻算法对所述中文文本信息的数据集进行分类,得到迁移数据集。
[0031]
本发明实施例的第二方面,提供了一种文本信息识别模型的建立装置,包括:
[0032]
中文数据集获取模块,被配置为获取中文文本信息的数据集;
[0033]
健康数据集获取模块,被配置为获取健康行业的文本信息的数据集;
[0034]
迁移数据集生成模块,被配置为基于所述健康行业的文本信息的数据集,采用k近邻算法对所述中文文本信息的数据集进行分类,得到迁移数据集;
[0035]
扩展数据集生成模块,被配置为在所述迁移数据集中加入所述健康行业的文本信息的数据集,生成扩展数据集;
[0036]
文本信息识别模型建立模块,被配置为利用所述扩展数据集训练已知命名实体识别模型,得到健康行业的文本信息的识别模型。
[0037]
本发明实施例的第三方面,提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述文本信息识别模型的建立方法的步骤。
[0038]
本发明实施例的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述文本信息识别模型的建立方法的步骤。
[0039]
本发明实施例提供的一种文本信息识别模型的建立方法的有益效果至少在于:本发明实施例首先通过获取中文文本信息的数据集;其次获取健康行业的文本信息的数据
集;再次基于所述健康行业的文本信息的数据集,采用k近邻算法对所述中文文本信息的数据集进行分类,得到迁移数据集;然后在所述迁移数据集中加入所述健康行业的文本信息的数据集,生成扩展数据集;实现了k近邻算法在筛选扩展数据集的应用和迁移学习在筛选扩展数据集中的应用;最后利用所述扩展数据集训练已知命名实体识别模型,得到健康行业的文本信息的识别模型;本发明以健康行业的文本信息的数据集作为目标领域数据集,以中文文本信息的数据集作为源领域数据集,实现了迁移学习在健康领域的应用。本发明采用迁移学习模型,将成熟领域的的实体识别模型应用于健康行业的文本信息识别,并利用扩展数据集训练模型,解决了现有技术中客观上难以获得满足要求的样本数量来训练健康行业的文本信息实体识别模型,使得实际中无法获得理想的健康行业的文本信息实体识别模型的问题。从而解决了现有技术中健康行业的文本信息实体识别需要对大量的语料进行标注所导致的耗费大量人力、物力等问题。
附图说明
[0040]
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0041]
图1是本发明实施例提供的文本信息识别模型的建立方法的流程图;
[0042]
图2是本发明实施例提供的获取中文文本信息的数据集的流程实现图;
[0043]
图3是本发明实施例提供的获取健康行业的文本信息的数据集的流程实现图;
[0044]
图4是本发明实施例提供的基于所述健康行业的文本信息的数据集,采用k近邻算法对所述中文文本信息的数据集进行分类,得到迁移数据集的流程实现图;
[0045]
图5是本发明实施例提供的基于所述健康行业的文本信息的数据集和欧氏距离,采用k近邻算法对所述中文文本信息的数据集进行分类,得到迁移数据集的流程实现图;
[0046]
图6是本发明实施例提供的利用所述扩展数据集训练已知命名实体识别模型,得到健康行业的文本信息的识别模型的流程实现图;
[0047]
图7是本发明实施例提供的k值调整的流程实现图;
[0048]
图8是本发明实施例提供的文本信息识别模型的建立装置的实现流程示意图;
[0049]
图9是本发明实施例提供的终端设备的示意图。
具体实施方式
[0050]
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。基于所描述的本发明的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。若未特别指明,实施例中所用的技术手段为本领域技术人员所熟知的常规手段。
[0051]
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、
操作、元素、组件和/或其集合的存在或添加。
[0052]
还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
[0053]
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0054]
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
[0055]
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
[0056]
第一实施例
[0057]
图1是本发明在一实施例中提供的文本信息识别模型的建立方法的流程图。
[0058]
如图1所示,所述文本信息识别模型的建立方法,包括步骤s110-s150:
[0059]
s110:获取中文文本信息的数据集。
[0060]
在本实施例中,中文文本信息的数据集为已经转化后的中文文档向量数据集。具体转化步骤请参见图2,图2是本发明在一实施例中提供的获取中文文本信息的数据集的流程实现图。
[0061]
如图2所示,获取中文文本信息的数据集,具体可以包括以下步骤s210-s220:
[0062]
s210,获取中文文本。
[0063]
在本实施例中,所述中文文本为已经标注好的的中文语料,所述中文语料属于生物、化学、金融、计算机、健康等领域的可识别的实体中文;但本发明方法并不限于此领域,由于所涉及应用领域之多,因此不一一赘述。
[0064]
s220,将所述中文文本转换成文档向量,得到中文文本信息的数据集。
[0065]
在本实施例中,采用word2vec(wordtovector)将中文文本转换成文档向量。word2vec是一个将单词转换成向量形式的工具,可以把对文本内容的处理简化为向量空间中的向量运算。采用word2vec将中文文本的文本信息转化为数据信息,以便于后续进行计算。
[0066]
s120:获取健康行业的文本信息的数据集。
[0067]
在本实施例中,健康行业的文本信息的数据集为已经转化后的健康行业的文档向量数据集。具体转化步骤请参见图3,图3是本发明在一实施例中提供的获取健康行业的文本信息的数据集的流程实现图。
[0068]
如图3所示,获取健康行业的文本信息的数据集,具体可以包括以下步骤s310-s320:
[0069]
s310,获取健康行业的文本。
[0070]
在本实施例中,所述健康行业的文本包括已经标注过和未标注的健康行业的文本,已经标注过的健康行业的文本来源于目前国内公开可用的医疗文本数据集数,例如ccks系列数据集、cmedqa系列数据集等;未标注的健康行业的文本来源于问诊记录、医生医嘱、电子病历等。
[0071]
s320,将所述健康行业的文本转换成文档向量,得到健康行业的文本信息的数据集。
[0072]
在本实施例中,若健康行业的文本为未标注的健康行业的文本需要对其进行标注后,再转化为文档向量。
[0073]
在本实施例中,采用word2vec将健康行业的文本转换成文档向量。word2vec是一个将单词转换成向量形式的工具,可以把对文本内容的处理简化为向量空间中的向量运算。采用word2vec将健康行业的文本的文本信息转化为数据信息,以便于后续进行计算。
[0074]
s130:基于所述健康行业的文本信息的数据集,采用k近邻算法对所述中文文本信息的数据集进行分类,得到迁移数据集。
[0075]
在本实施例中,k近邻算法为k最近邻(k-nearestneighbor,knn)分类算法,是机器学习的算法之一。k近邻算法的思路是:在特征空间中,如果一个样本附近的k个最近(即特征空间中最邻近)样本的大多数属于某一个类别,则该样本也属于这个类别。基于所述健康行业的文本信息的数据集,所述中文文本信息的数据集为待分类样本,采用k近邻算法对待分类样本进行分类。采用k近邻算法中文文本信息的数据集中的数据可以直接加入健康行业的文本信息的数据集而不必进行重新训练;k近邻算法理论简单,容易实现;k近邻算法准确性高,对异常值和噪声有较高的容忍度。
[0076]
在分类前需要设定初始k值,k值具体设定步骤请参见图4,图4是本发明在一实施例中提供的基于所述健康行业的文本信息的数据集,采用k近邻算法对所述中文文本信息的数据集进行分类,得到迁移数据集的流程实现图。
[0077]
如图4所示,基于所述健康行业的文本信息的数据集,采用k近邻算法对所述中文文本信息的数据集进行分类,得到迁移数据集,具体可以包括以下步骤s410-s420:
[0078]
s410,设定初始k值。
[0079]
在本实施例中,初始k值为一个正整数,根据现有经验进行确定,例如可以为3、4、5、6、7、8、9、10等。
[0080]
s420,基于所述健康行业的文本信息的数据集和欧氏距离,采用k近邻算法对所述中文文本信息的数据集进行分类,得到迁移数据集。
[0081]
在本实施例中,k近邻算法的实现是基于欧氏距离,具体实现过程请参见图5,图5是本发明在一实施例中提供的基于所述健康行业的文本信息的数据集和欧氏距离,采用k近邻算法对所述中文文本信息的数据集进行分类,得到迁移数据集的流程实现图。
[0082]
如图5所示,基于所述健康行业的文本信息的数据集和欧氏距离,采用k近邻算法对所述中文文本信息的数据集进行分类,得到迁移数据集,具体可以包括以下步骤s510-s520:
[0083]
s510,基于所述健康行业的文本信息的数据集,采用k近邻算法对所述中文文本信息的数据集进行分类,得到样本数据集。
[0084]
s520,选择k个与所述健康行业的文本信息的数据集欧氏距离最小的样本数据集,得到迁移数据集。
[0085]
在本实施例中,欧氏距离是在m维空间中两个点之间的真实距离,在二维空间中的欧氏距离就是两点之间的直线段距离。
[0086]
二维空间的欧氏距离公式的计算公式为:
[0087]
d=sqrt((x1-x2)^2+(y1-y2)^2);
[0088]
三维空间的欧氏距离公式的计算公式为:
[0089]
d=sqrt((x1-x2)^2+(y1-y2)^2+(z1-z2)^2);
[0090]
n维欧氏空间是一个点集,它的每个点x可以表示为(x[1]x[2]

x[n]),其中x(i=12

n)是实数称为x的第i个坐标,两个点a=(a[1]a[2]

a[n])和b=(b[1]b[2]

b[n])之间的欧氏距离d(ab)的计算公式为:
[0091]
d(ab)=sqrt[∑((a-b)^2)](i=12

n)。
[0092]
计算样本数据集与健康行业的文本信息的数据集的欧氏距离,选择k个与所述健康行业的文本信息的数据集欧氏距离最小的样本数据集,得到迁移数据集。
[0093]
在本实施例中,采用word2vec对中文实体识别成熟领域中已经标注好的中文语料转换成文档向量,得到中文文本信息的数据集;然后基于健康行业的文本信息的数据集,设定初始k值,利用k近邻算法对中文文本信息的数据集进行分类,得到样本数据集;计算样本数据集与健康行业的文本信息的数据集的欧氏距离,选取k个欧氏距离最小的样本数据集,得到迁移数据集。
[0094]
s140:在所述迁移数据集中加入所述健康行业的文本信息的数据集,生成扩展数据集。
[0095]
在本实施例中,扩展数据集包括了由已经标注好的中文语料得到的迁移数据集和健康行业的文本信息的数据集。基于健康行业的文本信息的数据集,采用k近邻算法对中文文本信息的数据集进行分类,得到迁移数据集,并在迁移数据集中加入健康行业的文本信息的数据集,得到扩展数据集,从而实现了k近邻算法在筛选扩展数据集的应用和迁移学习在筛选扩展数据集中的应用。
[0096]
s150:利用所述扩展数据集训练已知命名实体识别模型,得到健康行业的文本信息的识别模型。
[0097]
在本实施例中,命名实体识别模型用于识别文本中具有特定意义的实体,主要包括疾病,症状,身体部位、人名、地名、机构名、专有名词等。已知命名实体识别模型包括lstm-crf和gru-crf模型等。
[0098]
lstm-crf模型用于序列标注,包括中文分词、词性识别、命名实体识别、机器翻译等。lstm在处理长距离序列数据时具有优势,可以通过双向lstm学习到输入的词或句子之间的依赖关系,在学习期间,双向lstm能根据词向量或字向量的特征提取出来这些实体的特征,但是lstm不能学习到输出标注之间的关系。为了解决输出标注之间的关系,我们就引用了crf层,crf层可以对隐含状态进行建模,学习到标注上下文之间的关系。但是crf也有自己的缺点,crf不能自动提取实体的特征。这样结合双向lstm和crf可以取长补短,有效的识别出命名实体。
[0099]
gru-crf模型用于序列标注,包括中文分词、词性识别、命名实体识别、机器翻译等。可以通过双向gru学习到输入的词或句子之间的依赖关系,在学习期间,双向gru能根据词向量或字向量的特征提取出来这些实体的特征,但是gru跟lstm类似不能学习到输出标注之间的关系。同理引用crf层,这样结合双向gru和crf可以取长补短,有效的识别出命名实体。
[0100]
具体地,以健康行业的文本信息的数据集作为目标领域数据集,以中文文本信息
的数据集作为源领域数据集;基于健康行业的文本信息的数据集,采用k近邻算法对中文文本信息的数据集进行分类,得到迁移数据集;在迁移数据集中加入健康行业的文本信息的数据集,生成扩展数据集;用扩展数据集训练已知命名实体识别模型,得到健康行业的文本信息的识别模型,从而实现了迁移学习在健康领域的应用。
[0101]
在本实施例中采用迁移学习模型,将成熟领域的的实体识别模型应用于健康行业的文本信息识别,并利用扩展数据集训练模型,解决了现有技术中客观上难以获得满足要求的样本数量来训练健康行业的文本信息实体识别模型,使得实际中无法获得理想的健康行业的文本信息实体识别模型的问题。从而解决了现有技术中健康行业的文本信息实体识别需要对大量的语料进行标注所导致的耗费大量人力、物力等问题。
[0102]
在本实施例中,还需要判断得到的健康行业的文本信息的识别模型是否符合预设条件,具体请参见图6,图6是本发明在一实施例中提供的利用所述扩展数据集训练已知命名实体识别模型,得到健康行业的文本信息的识别模型的流程实现图。
[0103]
如图6所示,利用所述扩展数据集训练已知命名实体识别模型,得到健康行业的文本信息的识别模型,具体可以包括以下步骤s610-s640:
[0104]
s610:用所述扩展数据集训练已知命名实体识别模型,输出目标数据集。
[0105]
s620:根据所述扩展数据集,判断所述目标数据集是否满足预设条件。
[0106]
在本实施例中,预设条件为识别结果的准确性,可根据实际情况将识别结果设定为一个固定值,例如90%、95%等。
[0107]
s630:若是,则得到健康行业的文本信息的识别模型。
[0108]
在本实施例中,识别结果的准确性大于或等于预设的固定值,得到健康行业的文本信息的识别模型。
[0109]
s640:若否,则返回步骤基于所述健康行业的文本信息的数据集,采用k近邻算法对所述中文文本信息的数据集进行分类,得到迁移数据集。
[0110]
在本实施例中,识别结果的准确性小于预设的固定值,需要返回步骤基于所述健康行业的文本信息的数据集,采用k近邻算法对所述中文文本信息的数据集进行分类,得到迁移数据集中,调整k值重新得到迁移数据集。调整k值的具体步骤参见图7,图7是本发明在一实施例中提供的k值调整的流程实现图。
[0111]
如图7所示,若否,则返回步骤基于所述健康行业的文本信息的数据集,采用k近邻算法对所述中文文本信息的数据集进行分类,得到迁移数据集,具体可以包括以下步骤s710-s720:
[0112]
s710:所述目标数据集不满足预设条件,则调整k值。
[0113]
在本实施例中,识别结果的准确性小于预设的固定值,则调整k值;调整后的k值需大于初始k值,例如初始k值为10,则调整后的k值可以为11、12、13、14、15等。
[0114]
s720:基于所述健康行业的文本信息的数据集,采用k近邻算法对所述中文文本信息的数据集进行分类,得到迁移数据集。
[0115]
在本实施例中,基于健康行业的文本信息的数据集和调整后的k值,采用k近邻算法对中文文本信息的数据集进行分类,得到迁移数据集。
[0116]
本发明实施例首先通过获取中文文本信息的数据集;其次获取健康行业的文本信息的数据集;再次基于所述健康行业的文本信息的数据集,采用k近邻算法对所述中文文本
信息的数据集进行分类,得到迁移数据集;然后在所述迁移数据集中加入所述健康行业的文本信息的数据集,生成扩展数据集;实现了k近邻算法在筛选扩展数据集的应用和迁移学习在筛选扩展数据集中的应用;最后利用所述扩展数据集训练已知命名实体识别模型,得到健康行业的文本信息的识别模型;本发明以健康行业的文本信息的数据集作为目标领域数据集,以中文文本信息的数据集作为源领域数据集,实现了迁移学习在健康领域的应用。本发明采用迁移学习模型,将成熟领域的的实体识别模型应用于健康行业的文本信息识别,并利用扩展数据集训练模型,解决了现有技术中客观上难以获得满足要求的样本数量来训练健康行业的文本信息实体识别模型,使得实际中无法获得理想的健康行业的文本信息实体识别模型的问题。从而解决了现有技术中健康行业的文本信息实体识别需要对大量的语料进行标注所导致的耗费大量人力、物力等问题。
[0117]
第二实施例
[0118]
基于与第一实施例中方法相同的发明构思,相应的,本实施例还提供了一种文本信息识别模型的建立装置。
[0119]
图8是本发明实施例提供的文本信息识别模型的建立装置的实现流程示意图。
[0120]
如图8所示,所示装置包括81中文数据集获取模块、82健康数据集获取模块、83迁移数据集生成模块、84扩展数据集生成模块以及85文本信息识别模型建立模块。
[0121]
其中,81中文数据集获取模块,被配置为获取中文文本信息的数据集;
[0122]
82健康数据集获取模块,被配置为获取健康行业的文本信息的数据集;
[0123]
83迁移数据集生成模块,被配置为基于所述健康行业的文本信息的数据集,采用k近邻算法对所述中文文本信息的数据集进行分类,得到迁移数据集;
[0124]
84扩展数据集生成模块,被配置为在所述迁移数据集中加入所述健康行业的文本信息的数据集,生成扩展数据集;
[0125]
85文本信息识别模型建立模块,被配置为利用所述扩展数据集训练已知命名实体识别模型,得到健康行业的文本信息的识别模型。
[0126]
在一些示例性实施例中,所述中文数据集获取模块,具体包括:
[0127]
第一数据获取单元,被配置为获取中文文本;
[0128]
第一数据转化单元,被配置为将所述中文文本转换成文档向量,得到中文文本信息的数据集。
[0129]
在一些示例性实施例中,所述健康数据集获取模块,具体包括:
[0130]
第二数据获取单元,被配置为获取健康行业的文本;
[0131]
第二数据转化单元,被配置为将所述健康行业的文本转换成文档向量,得到健康行业的文本信息的数据集。
[0132]
在一些示例性实施例中,所述迁移数据集生成模块,具体包括:
[0133]
初始k值设置单元,被配置为设定初始k值;
[0134]
第一迁移数据集生成单元,被配置为基于所述健康行业的文本信息的数据集和欧氏距离,采用k近邻算法对所述中文文本信息的数据集进行分类,得到迁移数据集。
[0135]
在一些示例性实施例中,所述迁移数据集生成模块,还包括:
[0136]
样本数据集生成单元,被配置为基于所述健康行业的文本信息的数据集,采用k近邻算法对所述中文文本信息的数据集进行分类,得到样本数据集;
[0137]
第二迁移数据集生成单元,被配置为选择k个与所述健康行业的文本信息的数据集欧氏距离最小的样本数据集,得到迁移数据集。
[0138]
在一些示例性实施例中,所述文本信息识别模型建立模块,具体包括:
[0139]
目标数据集生成单元,被配置为用所述扩展数据集训练已知命名实体识别模型,输出目标数据集;
[0140]
判断单元,被配置为根据所述扩展数据集,判断所述目标数据集是否满足预设条件;
[0141]
执行单元,被配置为若是,则得到健康行业的文本信息的识别模型;
[0142]
返回单元,被配置为若否,则返回步骤基于所述健康行业的文本信息的数据集,采用k近邻算法对所述中文文本信息的数据集进行分类,得到迁移数据集。
[0143]
在一些示例性实施例中,所述返回单元,具体包括:
[0144]
k值调整单元,被配置为所述目标数据集不满足预设条件,则调整k值;
[0145]
第三迁移数据集生成单元,被配置为基于所述健康行业的文本信息的数据集,采用k近邻算法对所述中文文本信息的数据集进行分类,得到迁移数据集。
[0146]
第三实施例
[0147]
上述方法和装置可以应用于例如桌上型计算机、笔记本、掌上电脑及云端服务器的终端设备中。
[0148]
图9为本发明在一实施例中提供的可以应用上述方法和装置的终端设备的示意图,如图所示,所述设备9,包括存储器91、处理器90以及存储在所述存储器91中并可在所述处理器90上运行的计算机程序92,所述处理器90执行所述计算机程序92时实现如所述文本信息识别模型的建立方法的步骤。例如图8所示模块81至85的功能。
[0149]
所述设备9可以是云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器90、所述存储器91。本领域技术人员可以理解,图9仅仅是设备9的示例,并不构成对终端设备9的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
[0150]
所述处理器90可以是中央处理单元(centralprocessingunit,cpu),还可以是其它通用处理器、数字信号处理器(digitalsignal processor,dsp)、专用集成电路(applicationspecificintegrated circuit,asic)、现场可编程门阵列(field-programmablegatearray,fpga)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0151]
所述存储器91可以是所述设备9的内部存储单元,例如设备9的硬盘或内存。所述存储器91也可以是设备9的外部存储设备,例如所述设备9上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。进一步地,所述存储器91还可以既包括所述设备9的内部存储单元也包括外部存储设备。所述存储器91用于存储所述计算机程序以及所述终端设备所需的其它程序和数据。所述存储器91还可以用于暂时地存储已经输出或者将要输出的数据。
[0152]
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计
算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)、随机存取存储器(ram,randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
[0153]
具体可以如下,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质;也可以是单独存在,未装配入终端设备中的计算机可读存储介质。所述计算机可读存储介质存储有一个或者一个以上计算机程序:
[0154]
计算机可读存储介质,包括所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述文本信息识别模型的建立方法的步骤。
[0155]
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0156]
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
[0157]
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0158]
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
[0159]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目
的。
[0160]
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0161]
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)、随机存取存储器(ram,randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
[0162]
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1