面向自然灾害的金融事件库构建方法、装置与流程

文档序号:32868251发布日期:2023-01-07 02:36阅读:28来源:国知局
面向自然灾害的金融事件库构建方法、装置与流程

1.本发明属于中文信息处理技术领域,特别是关于一种面向自然灾害的金融事件库构建方法、装置。


背景技术:

2.自然灾害是指由于纯自然的原因而给人类社会造成巨大经济损失或严重人员伤亡的一类自然现象。常见的自然灾害爆发和持续的时间有长有短,比如洪灾、雪灾爆发和持续的事件较长,可达数十天,而地震、台风等爆发和持续的事件较短,可达数天甚至短至几个小时。通常,自然灾害影响的时间均较长,从历史金融数据来看,较严重的自然灾害一般也会影响股市、期货市场的走势,影响大小主要取决于灾害造成损失的严重程度和可挽回程度,影响的具体标的取决于灾害类型,例如,较严重的台风会影响农作物、道路基础设施等,利空以受损农作物为原料的上市公司的股价,并利空以高速公路运营、码头港口运营等为主要业务的上市公司的股价,当然,考虑到灾后重建等工作,也会利好灾区周边以水泥、医药等为主要业务的上市公司的股价。
3.每年我国不同地域均会发生一些较严重的自然灾害。考虑到灾害类型、灾害程度、具体地域等各种因素的综合影响,这些自然灾害对资本市场的影响不尽相同,很难通过逻辑分析建立相对比较准确的灾害影响模型。但是,可通过对历史灾害事件的追溯、评估,形成对未来自然灾害事件影响程度的预判和预测。因此,从技术角度看,建立面向自然灾害的金融事件库有一定的必要性。
4.以近十年的财经新闻为例,如果新闻来源是多个数据源,则其数量级可达到千万量级,其中包括大量重复转发新闻或者标题略有不同以及正文略有不同的财经新闻。要在数量为千万量级的新闻中过滤、识别出与自然灾害相关的财经新闻,仅采用关键词过滤的技术方案存在一定的弊端,例如,无法准确判断财经新闻中提及的自然灾害是否影响到了相关标的、无法对灾害类型进行准确分类等,需要进行一定的技术处理,筛选出部分样本进行进一步标注、检查、核验,例如,自然灾害类别的标注,自然灾害是否造成了影响的判断,是否影响到了相关标的的核查等。


技术实现要素:

5.本发明提供一种面向自然灾害的金融事件库构建方法,包括以下步骤:构建影响金融资产价格的自然灾害分类体系及自然灾害关键词词库;构建自然灾害金融事件样本及分类模型;在自然灾害金融事件新闻中提取并计算关键信息项;将所述关键信息项录入自然灾害金融事件库。
6.进一步地,将关键信息项录入自然灾害金融事件库后,还包括以下步骤:将每日新增样本入库。
7.进一步地,构建影响金融资产价格的自然灾害分类体系及自然灾害关键词词库,包括以下步骤:将自然灾害分类后,构建基础关键词库;调用同义词词库、近义词词库,来扩
展基本关键词词库,形成自然灾害关键词词库。
8.进一步地,将每日新增样本入库,包括以下步骤:采用自然灾害关键词词库对新采集的新闻样本中的关键词进行过滤;过滤到相关自然灾害金融事件时,采用分类模型进一步过滤新采集的新闻样本;在经过前面两次过滤得到的自然灾害金融事件新闻中提取并计算新的关键信息项;将新的关键信息项录入自然灾害金融事件库。
9.进一步地,构建自然灾害金融事件样本及分类模型,包括以下步骤:基于自然灾害关键词词库,在财经新闻库中搜索标题包含自然灾害关键词词库中的自然灾害关键词的财经新闻;基于搜索的结果,标注出内容属于自然灾害类型的财经新闻,并将其依据自然灾害类型进行分类标注,作为每种自然灾害类型的样本;基于开源预训练模型,载入由样本构成的样本集并进行模型训练,通过不断调整模型参数,得到自然灾害金融事件分类模型。
10.进一步地,在自然灾害金融事件新闻中提取并计算关键信息项,包括以下步骤:对每一自然灾害金融事件新闻,提取其所提及的自然灾害事件的关键信息;查询并计算受自然灾害事件影响标的的资产价格波动值以及标的所在行业的资产价格波动值。
11.进一步地,自然灾害事件的关键信息包括:自然灾害发生时间、自然灾害类型、自然灾害等级、影响标的名称。
12.本发明还提供一种面向自然灾害的金融事件库构建装置,包括:第一构建单元,用于构建影响金融资产价格的自然灾害分类体系及自然灾害关键词词库;第二构建单元,用于构建自然灾害金融事件样本及分类模型;提取和计算单元,用于在自然灾害金融事件新闻中提取并计算关键信息项;录入单元,用于将关键信息项录入自然灾害金融事件库。
13.本发明进一步提供一种计算机可读存储介质,其存储有计算机程序,该计算机程序被处理器执行时实现前述面向自然灾害的金融事件库构建方法。
14.本发明进一步提供一种计算机设备,其包括存储器、处理器和存储在存储器中的计算机程序,该计算机程序被处理器执行时实现前述面向自然灾害的金融事件库构建方法。
15.与现有技术相比,根据本发明的面向自然灾害的金融事件库构建方法,通过构建影响金融资产价格的自然灾害分类体系及自然灾害关键词词库、构建自然灾害金融事件样本及分类模型、在自然灾害金融事件新闻中提取并计算关键信息项、将关键信息项录入自然灾害金融事件库,可从海量财经新闻中搜索、过滤相关自然灾害事件,自动发现新增的自然灾害类金融事件,有助于预测自然灾害事件带来的资产价格如股票价格的波动。
附图说明
16.图1示出了本发明实施例的面向自然灾害的金融事件库构建方法的流程图;
17.图2示出了本发明实施例的面向自然灾害的金融事件库构建方法中、构建自然灾害金融事件样本及分类模型这一步骤的流程图;
18.图3示出了本发明实施例的面向自然灾害的金融事件库构建方法中、在自然灾害金融事件新闻中提取并计算关键信息项这一步骤的流程图;
具体实施方式
19.下面对本发明的具体实施方式进行详细描述,但应当理解本发明的保护范围并不
受具体实施方式的限制。
20.除非另有其它明确表示,否则在整个说明书和权利要求书中,术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分,而并未排除其它元件或其它组成部分。
21.图1示出了本发明提供的面向自然灾害的金融事件库构建方法的流程图,参见图1,面向自然灾害的金融事件库构建方法包括以下四个步骤。
22.s1、构建影响金融资产价格的自然灾害分类体系及自然灾害关键词词库。
23.财经新闻来源丰富,每年的财经新闻的数量在百万级,要在历年财经新闻中提取自然灾害类型事件,需要构建一套自然灾害关键词词库,通过这些关键词可以快速地过滤出与自然灾害可能相关的各类财经新闻事件。
24.自然灾害有多种类型,根据我国历史自然灾害情况以及历史上对资产价格产生影响的事件,本发明将自然灾害分为以下主要类型:气象灾害类,如洪涝、台风、冻雨、暴雪等;地质灾害类,如地震、泥石流、滑坡等;海洋灾害类,如风暴潮、海啸等;森林草原火灾以及重大生物灾害等。
25.针对上述自然灾害类型先构建丰富的基础关键词库,例如,洪涝类自然灾害的基础关键词库包括洪灾、水灾、洪水、暴雨、决堤、溃决等,台风类自然灾害的基础关键词包括台风、大风、阵风、飓风、狂风等,地震类自然灾害的基础关键词包括地震、大地震、强震、强烈地震、震级等。
26.为了减少自然灾害类财经新闻被遗漏的情况,本发明在构建出基本关键词库后,通过调用开放的同义词词库、近义词词库api,得到每一个关键词的同义词,实现对基本关键词词库的扩展,形成自然灾害关键词词库,如“洪涝”的同义词有“洪流”、“大水”,“台风”的同义词有“厉风”、“疾风”,“地震”的同义词有“地动”。
27.s2、构建自然灾害金融事件样本及分类模型。
28.图2示出了本发明提供的面向自然灾害的金融事件库构建方法中、步骤s2的流程图,参见图2,构建自然灾害金融事件样本及分类模型包括以下三个子步骤:
29.s2.1、基于已构建的自然灾害关键词词库,在财经新闻库中搜索标题包含自然灾害关键词词库中的自然灾害关键词的财经新闻,搜索引擎可以采用开源搜索引擎,例如lucence、elasticsearch等比较稳定可靠、性能佳的开源搜索引擎;
30.s2.2、基于步骤s2.1的搜索结果,标注出内容属于自然灾害类型的财经新闻,并将这些新闻依据自然灾害类型进行分类标注,作为每种自然灾害类型的样本;
31.以某财经新闻样本为例,对步骤s2.2进一步阐释如下:
32.设有如下财经信息或财经样本:
33.财经新闻标题:“强台风或影响主产区甘蔗产量白糖概念股纷纷走强”;和
34.财经新闻内容:“a股白糖概念股早盘走强,南宁糖业涨超9%,中粮糖业、贵糖股份、粤桂股份也集体走高。消息面上,今年最强台风“山竹”16日晚在广东江门登陆后将横穿广西,给当地带来持续的大风和大面积的降水。据悉,当前广西与湛江的甘蔗株高已经超过2米,台风带来的大量降雨和大风或使得台风经过的蔗区甘蔗出现头重脚轻的情况,甘蔗容易出现倒伏,甚至折茎,这会影响后期甘蔗产量及出糖率。”35.则通过关键词“台风”命中上述新闻样本后,对该样本进行核实,确认其属于自然
灾害类金融事件,也对相关标的如南宁糖业、中粮糖业、贵糖股份、粤桂股份的股价产生了影响,它的自然灾害类型为台风,通过步骤s2.2得到的样本例如下:
36.强台风或影响主产区甘蔗产量白糖概念股纷纷走强(标题)台风(类别)。
37.由步骤s2.2得到的所有样本构成各种自然灾害类型的样本集。
38.s2.3、基于开源预训练模型,载入步骤s2.2得到的样本集并进行模型训练,通过不断调整模型参数,得到准确的自然灾害金融事件分类模型;
39.得到上述样本集后,采用其中的样本进行模型训练,可以采用bert(bidirectional encoder representation from transformers,即双向transformer的encoder)、gpt(generative pre-training,即生成式预训练)等开源预训练模型,样本集中样本的分配比例可以60%的样本为训练集、20%的样本为验证集、20%的样本为测试集,再通过不断调整模型参数,得到准确的自然灾害金融事件分类模型。
40.s3、在自然灾害金融事件新闻中提取并计算关键信息项。
41.图3示出了本发明提供的面向自然灾害的金融事件库构建方法中、步骤s3的流程图,参见图3,在自然灾害金融事件新闻中提取并计算关键信息项包括以下两个子步骤:
42.s3.1、对每一自然灾害金融事件新闻,提取其所提及的自然灾害事件的关键信息,关键信息具体包括自然灾害发生时间、自然灾害类型、自然灾害等级、影响标的名称,关键信息不全面的需要从其他资料源中进行补充,例如自然灾害发生时间、自然灾害等级信息等可通过查询中国气象网、中国地震台网等进行补充。
43.如果自然灾害金融事件新闻中并未提及影响的标的,则剔除该新闻;反之,则根据标的名称,查询并记录其所在行业。需注意,部分自然灾害发生后并未影响到相关上市公司的股价,原因可能是地处偏远、自然灾害等级较低等。
44.s3.2、查询并计算受所述自然灾害事件影响的标的的资产价格波动值以及该标的所在行业的资产价格波动值。
45.受影响的标的的资产价格波动值定义为:自然灾害事件发生的交易日以及下一个交易日标的涨跌幅,涨跌幅用%表示,涨跌幅=涨跌值/昨日收盘价*100%。
46.受影响的标的所在行业的资产价格波动值定义为:自然灾害事件发生的交易日以及下一个交易日标的所在行业的涨跌幅,行业涨跌幅可通过查询相对权威的金融数据服务商给出的数值获取,例如万得、同花顺等专业网站或相关专业app均提供了相关信息。
47.s4、将关键信息项录入自然灾害金融事件库。
48.执行完步骤s1-s3后,还需将关键信息项录入自然灾害金融事件库,录入的关键信息项具体包括:财经新闻标题、财经新闻原文、自然灾害发生时间、自然灾害类型、自然灾害等级、事件当日标的波动值、事件次日标的波动值、事件当日标的所在行业波动值、事件次日标的所在行业波动值。
49.本发明提供的面向自然灾害的金融事件库构建方法还可包括以下五个步骤:s1、构建影响金融资产价格的自然灾害分类体系及自然灾害关键词词库;s2、构建自然灾害金融事件样本及分类模型;s3、在自然灾害金融事件新闻中提取并计算关键信息项;s4、将关键信息项录入自然灾害金融事件库;s5、每日新增样本入库。即本发明提供的面向自然灾害的金融事件库构建方法可在前四个步骤的基础上,新增加“每日新增样本入库”这一步骤,该步骤中,采用构建的自然灾害关键词词库对新采集的新闻样本中的关键词进行过滤,若
过滤到相关自然灾害金融事件,则再采用构建的自然灾害金融事件分类模型进一步过滤该新闻样本,进而在经过上面两次过滤之后所得到的自然灾害金融事件新闻中提取并计算新的关键信息项、将新的关键信息项录入自然灾害金融事件库,实现每日新增自然灾害金融事件入库。
50.本发明还提供了一种面向自然灾害的金融事件库构建装置,其包括:第一构建单元,用于构建影响金融资产价格的自然灾害分类体系及自然灾害关键词词库;第二构建单元,用于构建自然灾害金融事件样本及分类模型;提取和计算单元,用于在自然灾害金融事件新闻中提取并计算关键信息项;录入单元,用于将关键信息项录入自然灾害金融事件库。
51.本发明进一步提供了一种计算机可读存储介质,其存储有计算机程序,该计算机程序被处理器执行时实现前述面向自然灾害的金融事件库构建方法。
52.本发明进一步提供了一种计算机设备,其包括存储器、处理器和存储在存储器中的计算机程序,该计算机程序被处理器执行时实现前述面向自然灾害的金融事件库构建方法。
53.尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1