1.本发明属于自然语言处理与金融的交叉领域,特别涉及一种融合正则表达式的金融文本关系抽取与分类方法。
背景技术:2.自然语言处理等技术的创新与发展,极大的提高了金融行业的科技生产力。从金融新闻和公告等文本中自动抽取重大金融事件关系并进行分类,能有效节省从业人员的人力成本,显著提高工作效率。
3.目前已知金融领域的文本关系抽取与分类技术,存在下列不足:1)现有金融文本的关系抽取方法需要事先对金融文本进行人工标注,再进行关系分类,而实际场景中原始金融文本都是无标注的,使得这些方法在实际中的应用受到很大限制;2)现有基于深度神经网络进行金融领域关系抽取的方法不能有效利用符合人类逻辑的规则信息,无法捕获到金融文本中的一些重要特征,影响了关系抽取的准确性。
技术实现要素:4.针对现有技术不足,本发明提出一种融合正则表达式的金融文本关系抽取与分类方法。本发明方法依靠有逻辑的先验知识,融合正则表达式信息,提升了金融文本关系分类的准确率。
5.本发明解决其技术问题所采用的技术方案是:一种融合正则表达式的金融文本关系抽取与分类方法,该方法于金融文本关系抽取过程按如下步骤进行:(1)将金融文本库中的金融文本进行编码,将金融文本中的每个词都转换为词向量,通过深度神经网络对各个词向量进行标注,识别出金融文本中包含的关系实体对,对该关系实体对进行标记,得到标注结果;(2)将金融文本依次和正则表达式数据库中的各项正则表达式进行匹配,将匹配结果转换为该金融文本的正则表达式标签,将步骤(1)得到的关系实体对标注结果输入双向长短期记忆网络,提取特征;(3)将步骤(2)得到的正则表达式标签与步骤(2)得到的双向长短期记忆网络的输出特征进行拼接,通过深度神经网络完成金融文本关系分类,并通过查询关系类型索引c对应的关系类型,得到最终的金融文本关系抽取结果。
6.进一步地,所述步骤(1)具体过程如下:(1.1)从金融文本库中取出一个金融文本s,将其进行分词,得到以词为单位进行表示的金融文本:其中,s代表金融文本分好的词,n为总词数;(1.2)使用embedding映射方法将分好词的金融文本s映射为高维词向量集合e:
所述高维词向量集合,其中代表金融文本中各词s对应的词向量;(1.3)将词向量集合通过由bert、全连接神经网络fc1、条件随机场crf组成的深度神经网络得到实体对标注结果l:。
7.进一步地,步骤(2)具体过程如下:(2.1)将金融文本与正则表达式库中的正则表达式依次匹配,匹配成功后,将匹配结果转换为一个由0,1组成的向量,该向量即为正则表达式标签relabel;(2.2)将所述正则表达式标签作为一个全连接神经网络的输入,经过该全连接神经网络后转换得到正则表达式特征,将正则表达式特征融入深度神经网络:其中,refeature代表得到的正则表达式特征,fc2代表该模块中用于将正则表达式标签转换为正则表达式特征的全连接神经网络;(2.3)步骤(1.3)得到的标注结果l输入双向长短期记忆网络中,得到从标注结果中提取的特征:其中为双向长短期记忆网络的输出。
8.进一步地,步骤(3)具体过程如下:(3.1)将双向长短期记忆网络输出特征和正则表达式特征进行拼接,得到总体特征:;(3.2)将总体特征送入注意力层,得到注意力层的输出,具体计算过程如下:其中,tanh为tanh激活函数,softmax为softmax函数,是可训练的参数向量,代表其转置,t是文本长度;(3.3)将注意力层的输出输入全连接分类网络并经过softmax运算后便可得到各关系类型的分类概率,取概率最大值对应的类别作为分类结果,具体运算过程如下:各关系类型的分类概率,取概率最大值对应的类别作为分类结果,具体运算过程如下:其中,fc3代表全连接分类网络,代表各关系类型的分类概率,m为关系类别数,argmax代表取最大值对应的关系类型索引的函数,c代表得到的关系类型索引值;(3.4)通过查询关系类型索引值c对应的关系类型,得到金融关系抽取结果。
9.本发明的技术构思为:将金融文本库中的文本进行编码,将文本中的每个词都转换为词向量,然后将编码得到的特征利用深度神经网络对各个词向量进行标注,识别出文
本中包含的关系实体对,并对实体进行标记;将金融文本依次和正则表达式库中的各项正则表达式进行匹配,将匹配结果转换为该金融文本的正则表达式标签,并将该标签与关系实体抽取的结果进行结合,通过深度神经网络对两个关系实体之间包含的关系进行分类。
10.本发明的有益效果主要表现在:1、无需人工标注便可获得关系实体对以及关系类别,这种端到端的关系抽取形式实用性强,应用价值高; 2、融合正则表达式信息,能够捕获到规则特征,提高抽取与分类性能,满足应用场景中对于关系抽取与分类准确率高的需求;3、成功识别实体对并标注,形成大量有标注金融文本,为其它需要有标注文本的关系抽取系统或者其他它用于金融文本的自然语言处理技术提供了宝贵的数据资源。
附图说明
11.图1是本发明所提出的关系实体抽取示意图;图2是本发明所提出的关系分类示意图。
具体实施方式
12.下面结合本发明实施例的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
13.本发明提出一种融合正则表达式的金融文本关系抽取与分类方法,图1为本发明所提出的关系实体抽取示意图,图2为本发明所提出的关系分类示意图,具体包括以下实施步骤:(1)将金融文本库中的金融文本进行编码,将金融文本中的每个词都转换为词向量,通过深度神经网络对各个词向量进行标注,识别出金融文本中包含的关系实体对,对每个关系实体对进行标记;所述金融文本库中存储的金融文本是包含了某种金融关系的句子。
14.具体包括以下子步骤:(1.1)从金融文本库中取出一个金融文本,将其进行分词,得到以词为单位进行表示的金融文本s:。
15.其中s代表分好的词,n为总词数。比如令,经过分词后将其变为,,那么n=9,分好的各个词就分别对应。
16.(1.2)使用embedding映射方法将分好词的金融文本s映射为高维词向量集合e:。
17.所述高维词向量集合,本例中n=9,其中代表金融文本中各词s对应的词向量。
18.(1.3)将词向量集合通过由图1中所示的一个双向transformer组成的编码器bert(bidirectional encoder representations from transformers,bert)、全连接神经网络(fully connected neural network,fc)、条件随机场(conditional random field,crf)组成的深度神经网络得到实体对标注结果l:
。
19.其中,为标注结果所述代表不是关系实体,比如“昨天”、“收购”、“三成”、“的”和“股权”。代表关系实体1,代表关系实体2,和共同组成关系实体对。每个关系实体都由1个或以上的词组成,比如由词“公司”和“甲”组成实体1,即 =“公司甲”,由词“公司”和“乙”组成实体2,即 =“公司乙”。
20.(2)将金融文本依次和正则表达式数据库中的各项正则表达式进行匹配,所述正则表达式库中包括了能够匹配金融文本的正则表达式,将匹配结果转换为该金融文本的正则表达式标签,并将该正则表达式标签与步骤(1)得到的关系实体对标记结果进行结合,通过深度神经网络对两个关系实体之间包含的关系进行抽取与分类。
21.具体包括以下子步骤:(2.1)将金融文本s与正则表达式库中的正则表达式依次匹配,匹配成功后,便能将匹配结果转换为一个由0和1组成的向量,该向量即为正则表达式标签relabel。可选的,这里给出10种常见金融实体关系,如表1所示,分别对应符号c1
‑
c10:表1:常见金融实体关系表
c1c2c3c4c5c6c7c8c9c10质押股东增持股东减持公司上市公司破产企业收购企业融资高管变动被约谈盈亏
由于为每种关系类型分别编写正则表达式是一项繁琐且耗时的工作,且编写的正则表达式对于新的语料不一定能够适用,泛化能力差,所以这里不需要利用正则表达式的匹配结果来进行精确的分类,只利用正则表达式的匹配结果来获得一些对于关系分类任务有帮助的信息。具体来说,正则表达式数据库中的一条正则表达式能够匹配不止一种关系类型,比如本例中的金融文本s能够被正则表达式c2_c6所匹配,而对于c2_c6的定义是:能被此正则表达式所匹配的关系类型很可能是c2或者c6关系类型。当然也可能都不属于这两种关系类型,如前所述,我们不需要通过正则表达式对文本关系类型进行精确分类,只需要让其提供一些先验规则特征,最终分类任务还是交给模块中的深度神经网络完成的。
22.被正则表达式c1_c6所匹配后,便转换成了在c2和c6对应位置上位1,其余位置上为0的向量作为文本s对应的正则表达式标签relabel。
23.(2.2)将所述正则表达式标签作为一个全连接神经网络的输入,所述全连接神经网络fc2如图2所示,将经过该全连接神经网络fc2后转换得到正则表达式特征refeature,将正则表达式特征融入深度神经网络:其中,refeature代表得到的正则表达式特征,fc2代表该模块中用于将正则表达式标签转换为正则表达式特征的全连接神经网络。
24.(2.4)步骤(1.3)得到的标注结果l输入如图2中的双向长短期记忆网络bilstm中,得到从标注结果中提取的特征:
其中,为双向长短期记忆网络bilstm的输出特征。
25.(3)将步骤(2)得到的正则表达式标签与步骤(2)得到的双向长短期记忆网络bilstm的输出特征进行拼接,通过深度神经网络完成金融文本关系分类,并通过查询关系类型索引c对应的关系类型,得到最终的金融文本关系抽取结果。
26.具体包括以下步骤:(3.1)将双向长短期记忆网络bilstm输出特征和正则表达式特征refeature进行拼接,得到总体特征:。
27.(3.2)将总体特征送入如图2中的注意力(attention)层,得到attention层的输出,具体计算过程如下:其中,tanh为tanh激活函数,softmax为softmax函数,是可训练的参数向量,代表其转置。
28.(3.3)将attention层的输出送入如图2中的全连接分类网络fc3并经过softmax运算后便可得到各关系类型的分类概率,取概率最大值对应的类别作为分类结果,具体运算过程如下:算过程如下:其中代表各关系类型的分类概率,m为关系类别数,本例中m为10,argmax代表取最大值对应的关系类型索引的函数,c代表得到的关系类型索引值。
29.(3.4)通过查询关系类型索引c对应的关系类型,得到最终的金融关系抽取结果。本例中概率最大,即c=6,所以最终得到的金融文本s中关系实体对为“公司甲”和“公司乙”,金融关系类型为c6,即“公司收购”。至此,就通过本发明提出的一种融合正则表达式的金融文本关系抽取与分类方法实现了对于金融文本s的关系抽取与分类。
30.上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明做出的任何修改和改变,都落入本发明的保护范围。