一种文本分类与术语网络生长的共演化方法与流程

文档序号：29850246发布日期：2022-04-30 07:37阅读：66来源：国知局

1.本发明属于自然语言处理领域、以及知识工程中的知识获取领域。主要涉及给定文本对目标领域的二分类问题，以及从语料中建立特定领域的术语网络的方法。

背景技术：

2.文本分类是一项常用的算法，用以将某项文本归于某个指定的类别，当前的文本分类算法有很多。当只需要判定文本是否属于某类别时，则为文本的二分类算法。几乎所有能用于二分类的算法都可以用作文本分类，并且在有标签的情况下，这些算法可以实现较高的准确度(cn107908635a)。
3.尽管如此，在很多场景下，现有算法仍然不能满足实际需求。原因在于实际场景中除了给定分类结果往往还伴随着其他需求。例如提取文本中的关键信息，可以帮助读者快速地了解文本内容，并且对于分类结果起到了解释性的作用。又例如获取知识库的需求，人们希望通过获取更多的文本而积累知识，尤其是建立相关领域的术语库。
4.已有文本分类算法只在某些简单情况下结合了可解释性，例如在情感分类中关键表示积极或消极情绪的词（cn102760153a）。在更普遍的分类场景，尤其是学科领域分类的场景中，还没有此类算法或应用。本发明使用术语网络实现了学科领域的文本分类。同时，本发明将基于术语网络的文本分类器与术语网络的迭代结合起来，同步实现了可生长的领域术语网络。为文本分类和知识积累的需求场景提供了解决方案。
5.本发明涉及的背景知识和背景技术主要包括术语提取、知识表示、图论。术语提取是从语料中提取出科学概念的自然语言处理技术，本发明的术语提取技术使用的是公示号cn112966508a提出的方法，知识表示用于单篇文本的结构化表示，图论用于构造分类器的特征。

技术实现要素：

6.本发明给出了一种文本分类与术语网络生长的共演化方法。如图1所示，其特征在于该方法由文本分类和术语网络生长两部分构成，这两个部分互为输入，互相优化，能够达到共演化的效果。
7.本发明具有如下特点：在对文本分类时，该方法可以识别出单篇文本中每一个术语对分类结果的贡献，从而使对目标领域的文本分类具有可解释性；将该文本分类方法用于多篇文本后，就能同步构建出目标领域的术语网络；使用本方法只需给定通用术语网络、小规模领域术语网络和待分类文本即可获得高精度的文本分类器和相应领域的术语网络；随着语料规模的扩大，提取的特定领域的术语网络会愈来愈丰富，基于术语网络的文本分类效果也将愈来愈好。
8.本发明中，通用术语网络是指以多个领域的术语作为节点，以术语之间的语义或关联联系作为连边的大规模网络，用表示，其中表示通用术语网络的节点集合，表示通用术语网络的连边集合。在本发明中通用术语网络的作用是提供术语的
背景知识，具体而言我们将使用通用术语网络g查询某个术语的相关术语，以及查询多个术语的共同相关术语。通用术语网络g在本发明中为外部输入，需要预先给定，实际应用中可通过多种方式获得，如专家指定、算法构造等。
9.领域术语网络是指以特定领域的术语作为节点、术语语义关联为连边的网络，用表示，其中表示通用术语网络的节点集合，表示通用术语网络的连边集合。在本发明中领域术语网络的作用是提供领域知识、标定术语的领域相关性，当一个术语的关联术语大都集中在目标领域时，则当前术语也有较大的概率从属于目标领域。在本发明中，领域术语网络在初始化时为外部输入，之后将通过本发明中的算法更新和扩充，最终作为本发明的输出，也就是目标领域的知识库。
[0010] 术语子图是指从单篇文本中构建的术语网络，用表示，其中表示术语子图的节点集合，表示术语子图的连边集合。文本的术语子图表示抓住了文本中的主要语义——术语、以及术语的共现关系，并转换成计算机易处理的图结构，是本发明的基础。
[0011]
基于术语子图和术语网络的文本分类算法。
[0012]
基于本文的术语网络分类方法，可以不断提高文本分类器的精度，主要步骤如下。
[0013]
1.构造输入，算法的输入包括通用术语网络、少量带领域标签的文本和待分类文本。其中，本发明所用的通用术语网络的构造方法是：
①
在大型语料上提取一定规模的术语，提取术语使用的技术是termate（专利公示号cn112966508a)；
②
利用术语在文档中的共现关系建立网络。
[0014]
2.初始化领域术语网络。领域术语网络，初始化的领域术语网络可由专家给定或算法构造。在本发明中，使用少量带标签的文本t提取术语，并根据术语的共现关系构建连边，从而获得初始化的领域术语网络。
[0015]
3.构建术语子图。对于单篇文本，按如下步骤建立术语子图：
①
按单元（段落或句子）将文本划分。
②
每个文本单元中共现的术语之间两两连接，上一单元的最后术语和下一单元的起始术语建立连接。
③
每次连接的权重为1，权重可以累加，从而得到无向带权的术语子图。
[0016]
4.术语子图节点的领域相关性评分。给定通用术语网络g，领域术语网络，术语子图g， g术语子图中的节点n。n在g中的邻居节点为，在中的邻居节点为。本发明中，规定节点的邻居包含它自身。
[0017]
我们用n在术语网络中的邻居节点集合表示该术语的知识背景，如果知识背景中关于目标领域的术语比重越高，则n从属于目标领域的可能性也越大。
[0018]
进一步，我们将知识背景按通用领域与目标领域划分:在通用领域中获取的相关知识，用来刻画术语对目标领域的外延相关性；在目标领域内获取的相关知识，用来刻画术语对目标领域的内涵相关性。
[0019]
节点n对目标领域的内涵相关性定义为，节点n对目标领域的外延相关性定义为，节点的领域相关性定义为和的加权和：，其中，
ꢀꢀ
越大，表示该节点对目标领域的相关性越高。
[0020]
5.术语子图中连边的领域相关性评分。给定通用术语网络g，领域术语网络，术语子图g，g中的节点，与节点的领域相关性类似，我们用的共同邻居表示连边的知识背景，用该知识背景所覆盖的目标领域的术语范围来刻画连边的领域相关性。
[0021]
进一步地，通用术语网络中的背景知识用来刻画连边e对目标领域的外延相关性，领域术语网络中的知识背景用来刻画e对目标领域的内涵相关性。
[0022]
连边e对目标领域的的内涵相关性定义为，连边e对目标领域的的外延相关性定义为，连边的领域相关性定义为：，其中，
ꢀꢀ
越大，表示该连边对目标领域的相关性越高。
[0023]
6.术语子图中三阶超图的领域相关性评分。给定通用术语网络g，领域术语网络，将术语子图g看做三阶超图，g中的超边。
[0024]
与连边的领域相关性类似，我们用的共同邻居表示超边的知识背景，用该知识背景所覆盖的目标领域的术语范围来刻画超边的领域相关性。
[0025]
在非稠密的小型网络中，当节点数增多时，节点的共同邻居很容易变成0。因此对于超边，我们用通用术语网络g中的背景知识用来刻画h对目标领域的相关性。
[0026]
超边h对目标领域的的相关性定义为，其中，越大，表示该超边对目标领域的相关性越高。
[0027]
7.术语子图的分类。依据术语子图的节点、连边和超边得分判定待分类文本是否属于目标领域d，本发明给出两种判定方式，即无监督分类方法和有监督分类方法，二者任选其一即可。
[0028]
1）无监督分类。给定术语子图，节点的领域相关性，连边的领域相关性,
向量和的均值分别记为和。当g中的节点数时，计算超边的领域相关性，是将g看做三阶超图时的超边，向量的均值记为。
[0029]
将作为输入，构造文本分类器c：设定阈值thresh，当时，判定该文本属于目标领域d，当时，判定该文本不属于目标领域d。
[0030]
2）有监督分类。给定术语子图，节点的领域相关性，连边的领域相关性，当g中的节点数时，超边的领域相关性，是将g看做三阶超图时的超边。
[0031]
使用多层前馈神经网络将拼接得到作为输入，构造文本分类器c并训练，输出为文本术语目标领域d的概率p，当p≥0.5时，判定文本属于目标领域d，p《0.5时，判定文本不属于目标领域d。
[0032]
领域术语网络生长即某一领域术语网络的不断扩充和更新的过程，如附图2所示，主要步骤如下。
[0033]
1.构建样本子图。样本子图包括正样本子图和负样本子图。构建正负样本子图的好处是既充分利用了样本信息，又能聚合网络的拓扑特征增强稳健性，具体步骤如下。
[0034]
1）用训练好的文本分类器c对待分类文本u进行分类,得到正样本和负样本。
[0035]
2）按基于术语子图和术语网络的文本分类算法中的第3步构建术语子图的步骤为每个正样本和负样本构建样本子图。
[0036]
3）将所有正样本的子图聚合为正样本子图。
[0037]
4）将所有负样本的子图聚合为负样本子图。
[0038]
2.样本子图正则化。对于样本子图，我们采用如下方法进行正则化：计算样本子图中每个节点的kcore值，删掉kcore小于2的节点及其连边，保留kcore大于等于2的节点及其连边。kcore≥2保证了每个节点至少在一个局部三角形motif中，相当于加强了节点进入正样本子图和负样本子图的条件：在正样本中仅出现过一次，或出现多次但没有形成两两共现的三角形motif的那些节点，将不会进入正样本子图；负样本子图同理。正样本子图正则化后得到,负样本子图正则化后得到。
[0039]
3.术语网络更新。术语网络的更新规则如下：将步骤2中得到的正样本子图添加到现有的领域术语网络中，并从中减去步骤2中得到的负样本子图，，减法表示对应连边的权重值相减，当被减后的连边权重小于等于0时，删除该条连边，当删除连边后节点的度为0时，删掉该节点。
[0040]
有益效果：本发明结合文本分类与术语网络技术，开发了一套共演化算法，本算法具有如下优势。
[0041]
1）完善领域术语网络。通过多篇语料的累积可以建立相应的术语网络，传统的文本分类器作用于多个样本不能产生知识积累，本发明通过将分类器与术语网络相结合，使正负样本均能对领域术语网络的生成做出贡献，并且随着语料规模的扩大，生成的术语网络会更完善。
[0042]
2）对样本量要求少。该方法需要的样本量较少，能够在与术语网络生长共同演化的过程中实现越来越好的文本分类效果。
[0043]
3）可迁移性高。该方法横向可迁移至各个领域，纵向也可以适用于自定义的领域层级。对于学科界限较为模糊的一些领域，尤其是负责科学等跨学科领域，或领域中某个具体的主题分类均可适用。
[0044]
4）文本分类算法具有可解释性。算法在实现文本分类的同时，给出了相关的术语信息，并给出了术语及术语共现对该分类的相对贡献，这为文本分类提供了解释性。
附图说明
[0045]
图1 是文本分类和术语网络生长示意图。
[0046]
图2 是文本分类示意图。
[0047]
图3 是通用术语网络示意图。
[0048]
图4-5是带标签文本示意图。
[0049]
图6-9是待分类文本示意图。
[0050]
图10 是带标签文本t1,t2的术语子图的示意图。
[0051]
图11 是示例中初始化的领域术语网络示意图。
[0052]
图12 是示例中未分类文本u1-u4的术语子图的示意图。
[0053]
图13 是示例中正则化之前的正负样本子图的示意图。
[0054]
图14 是示例中正则化之后的正负样本子图的示意图。
[0055]
图15 是示例中更新后的领域术语网络的示意图。
具体实施方式
[0056]
为进一步说明本发明的技术方案，现结合附图和示例来具体说明。
[0057]
本节选择网络科学领域来说明本发明的实施方法，需要注意本发明在实际使用时更适用于处理较大规模的篇章集合。本节的案例中我们只选用了少量的篇章，其结果可以体现本发明的特点和相对优势，但不是本发明预期的最好结果。在实际应用中随着数据扩增，本方法的效果也会随之提升。
[0058]
一、基于术语子图和术语网络的文本分类。
[0059]
1.构造输入。
[0060]
算法的输入包括通用术语网络、少量带领域标签的文本和待分类文本。附图3是通用术语网络的示意图。
[0061]
网络科学领域的样本为，见附图4-5。待分类的文本为，见附图6-9。
[0062]
2.初始化领域术语网络。领域术语网络，由专家给定或算法构造。在本发明中，使用少量带标签的文本t提取术语，并根据术语的共现关系构建连边，从而获得初始化的。
[0063] 建立术语子图。以通用术语网络中的术语作为本例的术语库，在t1中，我们匹配到术语{generation model, scale-free networks, power-law}，对应的连边为(generation model, scale-free networks, 1),(scale-free network, power-law, 1)。在t2中，我们匹配到的术语为{complex networks, scale-free network}，对应的连边为(complex network, scale-free network,1)。t1和t2对应的术语子图，记为，如附图10所示。
[0064]
2）术语子图聚合为领域术语网络，的节点为的并集，的连边为连边的并集，如果有共同的连边，则连边的权重应相加。附图11为初始化的领域术语网络示意图。
[0065]
3.构建术语子图。根据文本的术语节点和术语连边分别构造文本的术语子图。附图12分别为未分类文本u中的u1,u2,u3,u4构建的术语子图。
[0066]
4.术语子图中节点的领域相关性评分（以为例进行说明）。的节点为{statistical physics, social network, scale-free network}，statistical physics在g中的邻居节点为{statistical physics，many-body system, generation model}，数量为3，但这些节点均不在中；statistical physic在中无邻居节点。根据内涵相关性和外延相关性的定义计算节点statistical physic的内涵相关性和为：，取w=1/2,对网络科学领域的相关性为：。类似地，social network在g中的邻居节点为{social network, scale-free, complex network, social interaction},其中有scale-free, complex network 2个节点在中；social network在中无邻居节点。social network的内涵相关性和外延相关性分别为：，对网络科学领域的相关性为：。scale-free在g中的邻居节点为{scale-free, power-law, complex network, social network, epidemic spreading, evolutionary dynamics},其中有3个节点在中；scale-free在
中的邻居节点为{scale-free, complex network, power-law}scale-free的内涵相关性和外延相关性分别为：，对网络科学领域的相关性为：。
[0067]
因此，术语子图的节点对网络科学的领域相关性为：[0, 1/4, 3/4]。同理可以求得术语子图的节点对网络科学领域的相关性分别为[1/2, 3/4, 1/4, 0]， 1/8, 0, 0]。从上述结果可以看出和的节点相关性得分较高，而和的节点相关性得分较低。
[0068] 5.术语子图中连边的领域相关性评分（以为例进行说明）。的连边为(statistical physics, social network,1),(social network,scale-free,1)。对于连边(statistical physics, social network,1)，其两个节点在g中没有共同邻居，在中也没有。按照定义。对于连边(social network, scale-free, 1)，两个节点在g中有共同邻居complex network，social network, scale-free，其中complex network和scale-free在中，两个节点在中没有共同邻居。连边(social network, scale-free, 1)的内涵相关性和外延相关性分别为：，从而的连边对网络科学的领域相关性为[0, 1/2]。同理，可以算出子图的连边对网络科学的领域相关性为：[1/2, 1, 1/2, 0]，[0, 0, 0]，[0]。我们再次发现，子图和的节点相关性得分较高，而和的节点相关性得分较低。
[0069]
与节点相比，连边的领域相关性利用的信息更多，也因而具有更好的区分性。
[0070]
6.术语子图中三阶超图的领域相关性评分（以为例进行说明）。中，超边（statistical physics, social network, scale-free）的三个节点在g中没有共同邻居，因而超边对网络科学领域的相关性为0。同理可计算子图的超边对网络科学的领域相关性分别为[1/4,0,0]，[0]，[0]。由于超边要求三个节点具有共同邻居，当网络规模较小时，三个节点具有共同邻居的可能性比较低。因此如果超边的领域相关性不为0，则意味着该文本与网络科学的相关性具有较大的可能性。
[0071]
7.术语子图的分类（以为例进行说明）。术语子图的分类可以采用无监督方法或有监督方法，本示例采用无监督方法。
[0072]
令分类阈值thresh=1/4，节点的相关性得分向量为。连边的相关性得分向量为，超边的相关性得分向量为。计算得，因此判定样本 u1属于网络科学领域。同理对于子图计算结果如下：，，。
[0073]
因此，我们判定样本u1，u2属于网络科学领域，u3，u4属于网络科学领域，从而实现了对样本的文本分类。
[0074]
二、术语网络的生长。
[0075]
1.构建样本子图。根据上述基于术语子图和术语网络的文本分类算法的分类结果，将属于网络科学领域的文本u1，u2作为正样本，不属于网络科学领域的文本u3，u4作为负样本，分别记作。将聚合，得到正样本子图。将聚合，得到负样本子图，如附图13所示。
[0076]
2.样本子图正则化对于和，分别计算节点的kcore值，取kcore≥2的节点作为正则化的正负样本子图，，如附图14所示。
[0077]
3、术语网络更新。按照公式更新领域术语网络。将中的连边添加到中，其中social network是新增的节点，(social network, scale-free)和(social network, power-law)是新增的连边，(scale-free, power-law)的权重在原来的基础上加1.将中的连边从中减去，由于中不含有的连边，故不变。经过一步更新得到的术语网络如附图15所示。可以看到在原有的基础上得到了一步生长。
[0078]
我们还可以用重新对样本做分类，由于的变化，术语子图的节点得分和连边得分等可能发生变化，进而可以重新分类，重新更新网络，直到达到我们的期望或达到设定的停止条件。
[0079]
以上所述实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围，均应包含在本技术的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：胡乔周莉徐恩峤
技术所有人：集智学园（北京）科技有限公司
我是此专利的发明人

上一篇：一种车辆调度处理方法及服务器与流程
上一篇：一种SOC芯片复位处理方法、装置、SOC芯片及介质与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。