一种适于事件归因的上市公司知识图谱构建方法及装置与流程

文档序号:17288790发布日期:2019-04-03 03:47阅读:222来源:国知局
一种适于事件归因的上市公司知识图谱构建方法及装置与流程

本发明涉及知识图谱构建领域,特别涉及一种适于事件归因的上市公司知识图谱构建方法及装置。



背景技术:

随着互联网的迅速发展,我们获得的财经资讯呈现出爆发式增长,各大财经证券门户网站也如雨后春笋般相继涌现。为了能够保证新闻的时效性以及丰富性,以便更好争夺用户资源,各大财经网站都相继提高财经新闻的发布密度与广度,新闻资讯膨胀爆发趋势愈加剧烈。然而目前中国绝大多数投资者都是散户,并没有充足的时间精力去浏览大量的新闻资讯,也没有足够的检索分析能力去追踪各个新闻的之间的关联程度。因此将各大上市公司相关新闻提炼出来,并构造出一个事件归因的图谱网络是很有必要,也是很有价值的。这将会更有利于一般的散户能够精确快速地识别到哪些上市公司或股票的涨跌可能受哪些新闻事件的影响,从而做出更有价值的投资判断。此外,这种基于事件归因的知识图谱还可以应用于量化交易。量化交易人员可以从图谱当中抽取相关联的新闻事件内容,结合相关的自然语言处理技术方法,形成一系列有价值的指标,从而更有利于指导量化投资。

目前的知识图谱构建主要涉及两个关键技术,一个是实体关系识别技术,另一个是知识推理技术。

实体关系识别是指将文章中具有特定信息含义的名词提取出来,将其作为特定的处理单元进行分析研究。最早在1998你年muc会议中被提出来,其目的是通过填充关系模板槽的方式抽取文本中特定的关系。随着统计学方法的发展,从文本中识别实体间关系的问题逐步转化为分类问题,zelenko[3]等人提出使用浅层句法分析树上最小公共子树来表达关系实例,计算两棵子树之间的核函数,通过训练(如利用svm分离器)对实例进行划分。但由于核函数相似度计算过程匹配约束比较严格,特别是对于上市公司名称表示上存在较大的冗余性,导致基于核函数的方法召回率普遍较低。随着时间的推移,语料的增多,信息抽取逐渐转向了基于神经模型的研究,相关的语料被提出作为测试标准。基于神经网络模型显著的特点是不需要加入太多的特征,一般可用的特征有词向量、位置等。后来又有人提出利用基于联合抽取模型,这种模型可以同时抽取实体及其之间的关系。但是不管是神经模型的方法,还是基于联合抽取的方法,都需要大量的训练语料,而财经新闻当中并不具有足够的标签信息,不满足可利用大量语料进行模型训练这一条件,因此这种基于分类的方法不适合构建集成上市公司与相关新闻信息的知识图谱。

知识推理技术的一般思想是能通过图谱中已有的节点关系及节点信息,在某些节点发生变化的时候,能推断出与之相联系的节点的相应变化情况。具体的,相关人员提出了一种基于符号的推理方法,运用一种易处理概念语言,并开发了一些商用化的语义网络系统,以便使得语义网络同时具备形式化语义和高效推理。后来相关人员采用了多核多处理技术,及基于网络通信的分布式技术(如mapreduce计算框架、peer-to-peer网络框架等),以解决形式化语义上的效率问题。但是由于财经新闻数量呈爆发式增长,这些系统的推理效率还是难以满足日益增长的数据需要,难以很好地利用起来。此外,这里的知识图谱除了包含上市公司行情信息如股东、高管等基本信息之外,一些隐性的行情信息也需要包含在其中,如公司主营产品的内容,主营产品的上下游行业关系等。上游行业涉及到原材料和供应商,下游行业涉及到消费品和消费商等问题,此外,主营产品当前行业状况也是个关键的信息点,它涉及到行业竞争对手的关联性。因此仅用这种基于符号的推理方法无法深入地将对应的财经新闻信息加入到图谱中,影响图谱事件归因的追踪能力。



技术实现要素:

本发明的主要目的是提出一种适于事件归因的上市公司知识图谱构建方法,旨在克服以上问题。

为实现上述目的,本发明提出的一种适于事件归因的上市公司知识图谱构建方法,其特征在于,包括:

s10生成金融词典:获取若干上市公司个股基本面信息及历史新闻,提取关键词句生成金融词典;

s20生成实时新闻数据库:获取上市公司实时新闻,生成实时新闻数据库;

s30设计文本分类器:借用金融词典从实时新闻库中抽取出实时新闻语料,以用来训练文本分类器,采用第一卷积神经网络模型对实时新闻进行文本分类;

s40文本信息抽取:借用金融词典对归类后的实时新闻进行信息抽取,将非结构化信息转化为适配新闻数据库的结构化信息;

s50构建实体知识图谱:利用neo4j图形数据库的数据结构中图的概念建立上市公司知识图谱的初始模型,其中以上市公司个股基本面信息为节点,以各个上市公司之间的关系为边界,输入由s40信息抽取得到的实体新闻信息,生成上市公司知识图谱。

优选地,所述s10之前还包括:

s01链接知名抄股网站,采用爬虫程序获取上市公司的股票列表、个股基本面信息、个股的相关历史新闻;

所述s10之后,所述s20之前还包括:

s02链接各大证券财经资讯的网站,采用爬虫程序获取各上市公司的实时新闻。

优选地,所述第一卷积神经网络模型分为四层:

第一层为embedding层,这一层将每个词映射到低维的向量表示;

第二层为卷积层,由不同窗口大小的filter构成,同一个filter参数共享,一个filter为一类特征识别器,窗口大小就是识别的n-gram信息;

第三层为池化层,池化层操作为将卷积得到的列向量的最大值提取出来,从而得到与filter数量一致的行向量;

第四层为全连接层,即在池化层后加一个softmax层,以将池化层输出的向量转化为所需的输出结果,即我们所需的新闻类别标签。

优选地,所述embedding层将每个词映射到低维的向量表示的方法利用开源word2vec工具包。

优选地,所述s30中采用第一卷积神经网络对实时新闻进行文本分类之前还包括:

s301预处理阶段:对各实时新闻信息进行分词处理,过滤掉低频词以及停用词、特殊符号、标点符号和无关系的标记信息。

优选地,所述s40中将非结构化信息转化为适配新闻数据库的结构化信息的步骤包括:

s401实体标注:借用金融词典,从每一条新闻当中识别出相应的实体,并对其进行实体标注;

s402关系抽取:采用基于深度学习的方法查询预先训练的词向量表,生成每个句子的词向量矩阵,同时加入位置向量特征,通过关键词抽取算法得到表征类别的关键词特征,利用第二卷积神经网络进行实体之间语义关系抽取,即采用词汇向量和词的位置向量作为第二卷积神经网络的输入,获得句子表示,其中第二卷积神经网络结构包括卷积层、池化层、非线性层,首先对表征类别的关键词特征经过卷积运算得到一系列特征,在池化层的作用下选择每个句子的关键特征,组合成特征向量,最后通过非线性层进入到分类器中进行分类;

s403事件抽取:把含有事件信息的非结构化文本以结构化形式呈现出来,依据公司名信息、金融领域动词信息及语句位置,以判断当前句子是否为一篇新闻的事件句。

优选地,所述s403具体为:

(1)公司名信息:将公司名作为事件句的一个重要特征,通过如下公式求得:scorecompany(si)=count(si);

(2)金融领域动词信息:借用金融词典,计算动词信息的权值,计算公式如下:

(3)句子位置:句子位置权值计算公式如下:

本发明还公开了一种基于事件归因的上市公司知识图谱构建装置,包括:

第一生成模块,用于获取若干上市公司个股基本面信息及历史新闻,提取关键词句生成金融词典;

第二生成模块,用于获取上市公司实时新闻,生成实时新闻数据库;

分类模块,用于借用金融词典从实时新闻库中抽取出实时新闻语料,以用来训练文本分类器,采用第一卷积神经网络模型对实时新闻进行文本分类,其中还包括预处理单元,所述预处理单元用于在对实时新闻进行文本分类之前对各实时新闻信息进行分词处理,过滤掉低频词以及停用词、特殊符号、标点符号和无关系的标记信息;

抽取模块,用于借用金融词典对归类后的实时新闻进行信息抽取,将非结构化信息转化为适配新闻数据库的结构化信息;

第三生成模块,用于利用neo4j图形数据库的数据结构中图的概念建立上市公司知识图谱的初始模型,其中以上市公司个股基本面信息为节点,以各个上市公司之间的关系为边界,输入由s40信息抽取得到的实体新闻信息,生成上市公司知识图谱。

优选地,还包括链接爬取模块,用于链接知名抄股网站,采用爬虫程序获取上市公司的股票列表、个股基本面信息、个股的相关历史新闻;及链接各大证券财经资讯的网站,采用爬虫程序获取各上市公司的实时新闻。

优选地,所述抽取模块包括:

实体标注单元,用于借用金融词典,从每一条新闻当中识别出相应的实体,并对其进行实体标注;

关系抽取单元,用于采用基于深度学习的方法查询预先训练的词向量表,生成每个句子的词向量矩阵,同时加入位置向量特征,通过关键词抽取算法得到表征类别的关键词特征,利用第二卷积神经网络进行实体之间语义关系抽取,即采用词汇向量和词的位置向量作为第二卷积神经网络的输入,获得句子表示,其中第二卷积神经网络结构包括卷积层、池化层、非线性层,首先对表征类别的关键词特征经过卷积运算得到一系列特征,在池化层的作用下选择每个句子的关键特征,组合成特征向量,最后通过非线性层进入到分类器中进行分类;

事件抽取单元,用于把含有事件信息的非结构化文本以结构化形式呈现出来,依据公司名信息、金融领域动词信息及语句位置,以判断当前句子是否为一篇新闻的事件句。

本发明的目的是构筑一个具备事件归因功能的上市公司图谱,为金融市场的投资者提供清楚明晰的财经新闻及对应上市公司的内在线索,帮助投资者花更少的时间却能更全面地理清各大上市公司财经新闻资讯的联系,从而做出更准确的价值投资判断,同时也可为量化交易从业人员提供与新闻资讯相关的重要指标。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。

图1为本发明的适于事件归因的上市公司知识图谱构建方法一实施例的方法流程图;

图2为所述s40中将非结构化信息转化为适配新闻数据库的结构化信息的方法流程图;

图3为本发明的适于事件归因的上市公司知识图谱构建方法另一实施例的方法流程图;

图4为本发明的适于事件归因的上市公司知识图谱构建装置一实施例的功能模块图;

图5为所述抽取模块的功能细化图;

图6为所述第一卷积神经网络模型的结构示意图;

图7为所述第二卷积神经网络的结构示意图;

图8为一个具体某酒类股票的知识图谱框架。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要说明,若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后……),则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。

另外,若本发明实施例中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。

如图1-7所示,本发明提出的一种适于事件归因的上市公司知识图谱构建方法,其特征在于,包括:

s10生成金融词典:获取若干上市公司个股基本面信息及历史新闻,提取关键词句生成金融词典;

s20生成实时新闻数据库:获取上市公司实时新闻,生成实时新闻数据库;

s30设计文本分类器:借用金融词典从实时新闻库中抽取出实时新闻语料,以用来训练文本分类器,采用第一卷积神经网络模型对实时新闻进行文本分类;

s40文本信息抽取:借用金融词典对归类后的实时新闻进行信息抽取,将非结构化信息转化为适配新闻数据库的结构化信息;

s50构建实体知识图谱:利用neo4j图形数据库的数据结构中图的概念建立上市公司知识图谱的初始模型,其中以上市公司个股基本面信息为节点,以各个上市公司之间的关系为边界,输入由s40信息抽取得到的实体新闻信息,生成上市公司知识图谱。

在本发明实施例中,本发明先行构筑金融词典和实时新闻数据库,金融词典用于为后续的实时新闻句子分词,提取关键词、句等做准备;实时新闻数据库用于后续的上市公司事件归因追溯的图谱分析;文本分类器用于对实时新闻进行文本分类,每一条实时新闻都有特定的主题分类,涉及到某个个股,某个行业概念,所以需要将各种实时新闻归为相应的一些类别,以便为后续关于图谱的舆情分析做准备;文本信息抽取用于将非结构化信息转化为适配新闻数据库的结构化信息;实体知识图谱用于根据特定新闻内容,对图谱上的节点进行跟踪归因。

优选地,所述s10之前还包括:

s01链接知名抄股网站,采用爬虫程序获取上市公司的股票列表、个股基本面信息、个股的相关历史新闻;

所述s10之后,所述s20之前还包括:

s02链接各大证券财经资讯的网站,采用爬虫程序获取各上市公司的实时新闻。

优选地,所述第一卷积神经网络模型分为四层:

第一层为embedding层,这一层将每个词映射到低维的向量表示;

第二层为卷积层,由不同窗口大小的filter构成,同一个filter参数共享,一个filter为一类特征识别器,窗口大小就是识别的n-gram信息;

第三层为池化层,池化层操作为将卷积得到的列向量的最大值提取出来,从而得到与filter数量一致的行向量;

第四层为全连接层,即在池化层后加一个softmax层,以将池化层输出的向量转化为所需的输出结果,即我们所需的新闻类别标签。

优选地,所述embedding层将每个词映射到低维的向量表示的方法利用开源word2vec工具包。

优选地,所述s30中采用第一卷积神经网络对实时新闻进行文本分类之前还包括:

s301预处理阶段:对各实时新闻信息进行分词处理,过滤掉低频词以及停用词、特殊符号、标点符号和无关系的标记信息。

优选地,所述s40中将非结构化信息转化为适配新闻数据库的结构化信息的步骤包括:

s401实体标注:借用金融词典,从每一条新闻当中识别出相应的实体,并对其进行实体标注;

s402关系抽取:采用基于深度学习的方法查询预先训练的词向量表,生成每个句子的词向量矩阵,同时加入位置向量特征,通过关键词抽取算法得到表征类别的关键词特征,利用第二卷积神经网络进行实体之间语义关系抽取,即采用词汇向量和词的位置向量作为第二卷积神经网络的输入,获得句子表示,其中第二卷积神经网络结构包括卷积层、池化层、非线性层,首先对表征类别的关键词特征经过卷积运算得到一系列特征,在池化层的作用下选择每个句子的关键特征,组合成特征向量,最后通过非线性层进入到分类器中进行分类;

s403事件抽取:把含有事件信息的非结构化文本以结构化形式呈现出来,依据公司名信息、金融领域动词信息及语句位置,以判断当前句子是否为一篇新闻的事件句。

优选地,所述s403具体为:

(1)公司名信息:将公司名作为事件句的一个重要特征,通过如下公式求得:scorecompany(si)=count(si);

(2)金融领域动词信息:借用金融词典,计算动词信息的权值,计算公式如下:

(3)句子位置:句子位置权值计算公式如下:

本发明还公开了一种基于事件归因的上市公司知识图谱构建装置,用于实现上述方法,由于本装置采用了上述方法的所有实施例的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果,在此不再一一赘述。本装置包括:

第一生成模块10,用于获取若干上市公司个股基本面信息及历史新闻,提取关键词句生成金融词典;

第二生成模块20,用于获取上市公司实时新闻,生成实时新闻数据库;

分类模块30,用于借用金融词典从实时新闻库中抽取出实时新闻语料,以用来训练文本分类器,采用第一卷积神经网络模型对实时新闻进行文本分类,其中还包括预处理单元,所述预处理单元用于在对实时新闻进行文本分类之前对各实时新闻信息进行分词处理,过滤掉低频词以及停用词、特殊符号、标点符号和无关系的标记信息;

抽取模块40,用于借用金融词典对归类后的实时新闻进行信息抽取,将非结构化信息转化为适配新闻数据库的结构化信息;

第三生成模块50,用于利用neo4j图形数据库的数据结构中图的概念建立上市公司知识图谱的初始模型,其中以上市公司个股基本面信息为节点,以各个上市公司之间的关系为边界,输入由s40信息抽取得到的实体新闻信息,生成上市公司知识图谱。

优选地,还包括链接爬取模块01,用于链接知名抄股网站,采用爬虫程序获取上市公司的股票列表、个股基本面信息、个股的相关历史新闻;及链接各大证券财经资讯的网站,采用爬虫程序获取各上市公司的实时新闻。

优选地,所述抽取模块40包括:

实体标注单元401,用于借用金融词典,从每一条新闻当中识别出相应的实体,并对其进行实体标注;

关系抽取单元402,用于采用基于深度学习的方法查询预先训练的词向量表,生成每个句子的词向量矩阵,同时加入位置向量特征,通过关键词抽取算法得到表征类别的关键词特征,利用第二卷积神经网络进行实体之间语义关系抽取,即采用词汇向量和词的位置向量作为第二卷积神经网络的输入,获得句子表示,其中第二卷积神经网络结构包括卷积层、池化层、非线性层,首先对表征类别的关键词特征经过卷积运算得到一系列特征,在池化层的作用下选择每个句子的关键特征,组合成特征向量,最后通过非线性层进入到分类器中进行分类;

事件抽取单元403,用于把含有事件信息的非结构化文本以结构化形式呈现出来,依据公司名信息、金融领域动词信息及语句位置,以判断当前句子是否为一篇新闻的事件句。

本发明的实操实例:

事先获得同花顺,东方财富等网站链接,然后利用实现的爬虫程序获取a股股票列表,个股基本面信息,以及大量相关的个股历史新闻,用于构筑金融词典。金融词典主要包含两大部分,一部分是包含各种实体,包含公司名、公司代码、董事、高管、行业信息等,另一部分是用于描述财经新闻个股表现状况的具体行为词汇。另外事先获取各大证券财经资讯的网站,然后同样利用类似的爬虫程序获取各上市公司相关的实时新闻,形成相应的新闻数据库,用于加入后续的图谱分析。

从实时新闻数据库中抽取出实时新闻语料用来训练。在分类前,首先进行预处理阶段,对各实时新闻信息进行分词处理,过滤掉低频词以及停用词、特殊符号、标点符号和一些无关的标记信息。这里采用cnn实现文本分类,整个模型分为四层。第一层为embedding层,这一层将每个词映射到低维的向量表示(采用word2vec的方法);第二层为卷积层,由不同窗口大小的filter构成,同一个filter参数共享,极大地减少参数个数,并且一个filter只能识别同一类特征,所以一个filter就是一类特征识别器,窗口大小就是识别的n-gram信息。第三层为池化层,池化操作即将卷积得到的列向量的最大值提取出来,从而得到与filter数量一致的行向量。第四层是全连接层,即在池化层后加上一个softmax层,其目的是为了将池化层输出的向量转化为所需的输出结果,即我们所需的新闻类别标签,第一卷积神经网络模型结构如图6所示。

完成了实时新闻的文本分类后,还需要在特定类别的基础上进行新闻的信息抽取。信息抽取的目的是将已有的非结构化新闻信息转化为一般的结构化信息,具体过程可分为以下三步。

(1)实体标注,利用s1构筑的金融词典库,可从每一条新闻当中识别出相应的实体,并对其进行实体标注。下面用一个简单的新闻例子进行解释。其中‘山东海化’、‘净利润’、‘纯碱’等都分别以不同的类别类型被识别为相关实体。

例如:山东海化【公司名】28日晚间公告,预计2017年年度实现归属于上市公司股东的净利润【业绩指标】63,000万元–69,000万元,实现扭亏为盈。上年同期亏损:12,308.68万元。报告期内,主导产品纯碱【主营产品】产销量较上年同期大幅增加,销价也较上年同期大幅上升。

(2)关系抽取,其主要目的是从文本中识别实体并抽取实体之后,再识别出实体之间的语义关系。在这里,关系抽取主要采用基于深度学习的方法,利用卷积神经网络进行关系抽取。具体的,采用词汇向量和词的位置向量作为卷积神经网络的输入,通过卷积层、池化层和非线性层得到句子表示。首先通过查询预先训练的词向量表,生成每个句子的词向量矩阵,同时加入位置向量特征,通过关键词抽取算法得到表征类别的关键词特征。然后经过卷积运算得到一系列特征,在池化层的作用下选择每个句子的关键特征,组合成特征向量,最后通过全连接层进入到分类器中进行分类,第二卷积神经网络如图7所示。

(3)事件抽取,即把含有事件信息的非结构化文本以结构化的形式呈现出来。要分析一个句子是否为一篇新闻的事件句,主要考虑三个特征:公司名信息、领域动词信息和语句位置。

(a)公司名信息。新闻事件的重要主题为公司,所以将公司名作为事件句的一个重要特征。可用如下公式求得:

scorecompany(si)=count(si)

(b)金融领域动词信息,动词一般作为一个事件的核心,根据先前构造的金融领域词典,可计算动词信息的权值。其计算公式如下:

(c)句子位置。在财经新闻中,信息含量高的句子通常出现在前几句,所以其权值计算公式如下:

通过以上处理,s2给出的新闻最终得到的事件抽取内容如下:

<业绩信息>山东海化预计实现扭亏为赢。

<产品信息>主导产品纯碱产量较上年同期大幅增加,销价也较上年同期大幅上升。

(4)知识图谱的构建

完成了新闻信息的抽取后,即可利用已有的内容创建知识图谱。这里采用图数据库neo4j实现上市公司知识图谱。neo4j使用数据结构中图的概念来进行建模,其中最基本的概念是节点和边。节点表示实体,如个股、股东、高管等内容。边则表示实体之间的关系。利用neo4j的相应接口,我们可以将s3中得到的事件抽取内容添加其中。图8所示的是一个具体某酒类股票的知识图谱框架。每个实体与实体之间都会有相应的对应关系,并且每个实体都会有一个与之相关联的实时新闻事件列表。根据这个图谱的信息,我们就可以进行事件归因的分析。例如,若该酒类股票价格上涨,我们就可以从从该节点出发,去追溯可能导致该酒类股票价格上涨的那些相关节点的相关新闻事件,清晰准确地做出事件的归因。

以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1