本发明涉及风险分析和舆情监测技术领域,特别是一种从公开信息中针对特定目标实体预测其潜在风险的方法。
背景技术:
近年来,中国互联网舆论发展迅猛,伴随着传播技术的日新月异,网络舆情事件愈发呈现多发趋势,一件不起眼的小事都很可能会触发“蝴蝶效应”,对相关的人物、机构、地点等产生可能产生巨大的影响。
从发展周期来看,舆情事件存在潜伏期、形成期、波动期、消退期等阶段。萌芽时期的潜在风险很容易被人忽视,而一旦进入舆情发酵的“快车道”,就会很快形成铺天盖地之势,令人难以招架。因此需要洞见风险预控和舆情引导的关键点,快速辨别网络舆情的潜在风险。
目前对于舆情风险的预测,包括人工搜索和舆情风险分析平台的方式。人工搜索的方式在查找可能存在的风险点很容易产生遗漏,并且难以保证时效性。目前舆情检测平台在进行风险分析时,主要存在以下不足:
(1)基于关键词:企业可能有着成千上万的渠道商和终端客户,舆情系统不能把每一个都作为关键词去搜索,然后把不同关键词的结果合并,这会带来信息的爆炸;
(2)缺乏特定性:现有的舆情检测平台大多从负面事件出发,采用广度优先的方法,分析负面事件可能影响的对象,而不是针对特定的目标对象分析其可能的风险,因此预测的结果缺乏针对性;
(3)分析深度不够:由于现有的舆情风险方法在分析时产生路径爆炸,难以得到较长的影响路径,因此无法进行深度分析。
(4)分析结果不够准确:在风险预测中需要经过一定步骤的因果推理和关联分析,例如推理某地的一场大火灾是否影响到某一家企业等,而现有的方法在进行影响扩散时,根据知识图谱或者相似性进行,没有考虑到因果逻辑,因此分析的结果不够准确。
技术实现要素:
本发明所要解决的技术问题是克服现有技术的不足而提供一种从公开信息中针对特定目标实体预测其潜在风险的方法,本发明的潜在分析预警方法能够针对特定目标,通过双向迎面广度优先遍历然后碰撞的上市指定负面事件进行深层次的潜在风险分析,从而有针对性的进行舆情风险预防工作。
本发明为解决上述技术问题采用以下技术方案:
根据本发明提出的一种从公开信息中针对特定目标实体预测其潜在风险的方法,包括以下步骤:
步骤1、定义所关注的目标实体集合t以及实体间的关系类型集合r,定义与目标实体相关的网上范围;
步骤2、对每一个目标实体o∈t,基于实体间的关系和风险经验库进行扩展,得到目标实体o的相关目标集合c;
步骤3、对负面事件进行搜集和整理,抽取其中的事件要素构成实体集合h;
步骤4、基于实体间的关系和风险经验库对集合h进行扩展,得到集合m;
步骤5、计算集合c和集合m的交集,若不为空,则存在从负面事件到目标实体o的路径,即目标实体o存在潜在风险;
步骤6、生成从负面事件列表、到目标实体集合中每一个目标实体的每一条关联路径;并基于路径长短、关系类型进行排序,排序排在第一个的作为与每一个目标最相关的负面事件,该负面事件作为其潜在风险。
作为本发明所述的一种从公开信息中针对特定目标实体预测其潜在风险的方法进一步优化方案,步骤1中,所关注的目标实体是人物、机构、地点;所关注的实体间的关系类型包括人物与人物之间的关系、机构与机构之间的关系、机构与人物之间的关系。
作为本发明所述的一种从公开信息中针对特定目标实体预测其潜在风险的方法进一步优化方案,步骤2的过程具体是:
首先在步骤1中定义的网上范围中获得文本,在文本中根据步骤1所关注的目标实体集合t以及实体间的关系类型集合r进行关系抽取,得到三元组(e1,r1,e2),其中e1∈t,r1∈r,e1为目标实体,r1是关注的某种实体间关系,e2是实体,然后基于风险经验库进行扩展;风险经验库包括风险逻辑规则集合和条件集合,其中风险逻辑规则集合中给出了风险传播时的经验规则;条件集合中给出对关联实体进行限定的方法;对于之前在实体抽取中获得的e2若能满足风险逻辑规则集合和条件集合的约束,则令c=c∪e2,即对c进行了扩展。
作为本发明所述的一种从公开信息中针对特定目标实体预测其潜在风险的方法进一步优化方案,其中风险逻辑规则集合中给出了风险传播时的经验规则是由一阶逻辑规则组成。
作为本发明所述的一种从公开信息中针对特定目标实体预测其潜在风险的方法进一步优化方案,其中步骤3中,负面事件的来源是每天的网络热门事件;对负面事件进行搜集,是指基于爬虫技术获取网页的文本信息;对负面事件进行整理,是指负面事件根据严重程度、应用场景进行分类处理。
作为本发明所述的一种从公开信息中针对特定目标实体预测其潜在风险的方法进一步优化方案,步骤3中,事件要素指事件涉及的人物、机构、地点。
作为本发明所述的一种从公开信息中针对特定目标实体预测其潜在风险的方法进一步优化方案,步骤4中,基于实体间的关系和风险经验库对集合h中的实体进行扩展的方法与步骤2中的方法相同。
作为本发明所述的一种从公开信息中针对特定目标实体预测其潜在风险的方法进一步优化方案,步骤6中,生成关联路径的方法是将其中的实体作为路径上的节点,将实体间的关系作为边,生成路径。
作为本发明所述的一种从公开信息中针对特定目标实体预测其潜在风险的方法进一步优化方案,步骤6中,基于路径长短、关系类型进行排序,是考虑到路径长短、关系类型的权重来进行排序的。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
本发明的潜在分析预警方法能够针对设定的目标,通过双向迎面广度优先遍历然后碰撞的上市指定负面事件进行深层次的潜在风险分析,从而有针对性的进行舆情风险预防工作。
附图说明
图1为本发明的风险分析方法的流程图。
图2为本发明的分析方法的系统框架图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明进行详细描述。
本发明涉及潜在风险分析和舆情检测领域的应用,是一种基于风险影响经验库,通过事件抽取、关联分析和因果推理等方法,进行从公开信息中得到每一个目标最相关的负面事件的方法。
图1为本发明的分析方法的流程图,图2为本发明的分析方法的系统框架图;一种从公开信息中针对特定目标实体预测其潜在风险的方法包括:
步骤1、定义所关注的目标实体集合t以及实体间的关系类型集合r,定义与目标实体相关的网上范围;
步骤2、对每一个目标实体o∈t,基于实体间的关系和风险经验库进行扩展,得到目标实体o的相关目标集合c;
步骤3、对负面事件进行搜集和整理,抽取其中的事件要素构成实体集合h;
步骤4、基于实体间的关系和风险经验库对集合h进行扩展,得到集合m;
步骤5、计算集合c和集合m的交集,若不为空,则存在从负面事件到目标实体o的路径,即目标实体o存在潜在风险;
步骤6、生成从负面事件列表、到目标实体集合中每一个目标实体的每一条关联路径;并基于路径长短、关系类型进行排序,排序排在第一个的作为与每一个目标最相关的负面事件,该负面事件作为其潜在风险。
具体地,其中步骤1中,所关注的目标实体可以是人物、机构、地点等,关注目标的数量可以为数万个;所关注的实体间的关系类型包括但不限于人物与人物之间的关系、机构与机构之间的关系、机构与人物之间的关系。每种关系举例如下:
(一)人物与人物之间的关系
(1)校友关系:人物p1与人物p2是校友,记做(p1,校友,p2)且(p2,校友,p1),即校友关系是对称关系;数据来源为新闻类网站中公开的官员简历、上市公司高管简历以及论文中的作者简介、各类百科网站中的人物介绍等;
(2)同乡关系:人物p1与人物p2是同乡,记做(p1,同乡,p2)且(p2,同乡,p1),即同乡关系是对称关系;数据来源为新闻类网站中公开的官员简历、上市公司高管简历以及论文中的作者简介、各类百科网站中的人物介绍等;
(3)合著关系:人物p1与p2合著论文或专著等,记做(p1,合著,p2)且(p2,合著,p1),即合著关系是对称关系;数据来源为论文中的作者信息;
(4)同事关系:人物p1与p2为同事关系,记做(p1,同事,p2)且(p2,同事,p1),即同事关系是对称关系;数据开源为新闻类网站中公开的官员简历、上市公司高管简历以及论文中的作者简介等。
(二)机构与机构之间的关系
(1)合作关系:机构i1和机构i2具有合作关系,记为(i1,合作,i2)且(i2,合作,i1),即合作关系为对称关系;数据来源为各种公开的新闻文档、自媒体文章如微信公众号文章等。
(2)持股关系与被持股关系:机构i2持股机构i1,记为(i2,持股,i1);相应的,机构i1被机构i2持股,记为(i1,被持股,i2);数据来源为各种公开的企业信息网站如国家企业信用信息公示系统等;
(3)分支关系:机构i1是机构i2的子机构,记为(i1,属于,i2);数据来源为各类网站公开的中标文档。
(三)机构与人物之间的关系
(1)成员关系与任职关系:机构i的成员包含人物p,记为(i,成员,p);相应的,人物p在机构i中任职,记为(p,任职,i);数据开源为新闻文档、自媒体文章如微信公众号文章以及系统用户自定义上传的员工简历数据等;
(2)持股关系与被持股关系:人物p持股机构i,记为(p,持股,i);相应的,机构i被人物p持股,记为(i,被持股,p);数据来源为各种公开的企业信息网站如国家企业信用信息公示系统等;
(3)决策关系与被决策关系:人物p对机构i具有决策关系,记为(p,决策,i);相应的,机构i被人物p决策,记为(i,被决策,p);数据来源为官员简历中的现职工作、上市公司的现职高管等;
其中步骤2中,基于实体间的关系进行扩展的方法,首先在步骤1中指定的网上范围中获得文本,在相应文本中根据步骤1所关注的目标实体集合t以及实体间的关系类型集合r进行关系抽取,得到三元组(e1,r1,e2),其中e1∈t,r1∈r,然后基于风险经验库进行扩展。风险经验库包括风险逻辑规则集合和条件集合,其中风险逻辑规则集合中给出了风险传播时的经验规则,可选的由一阶逻辑规则组成;条件集合中给出关联实体的限定方法,例如国家发布的法律只影响女性员工,则性别为女性作为实体属性条件。对于之前在实体抽取中获得的e2若能满足风险逻辑规则集合和条件集合的约束,则令c=c∪e2,即对c进行了扩展。在判断是否满足风险逻辑规则集合时,使用逻辑推理方法,可选的方法包括马尔可夫逻辑网络和朴素贝叶斯方法等。
其中步骤3中,负面事件的来源可以是每天的网络热门事件,也可以指定其他来源;对负面事件进行搜集,是指基于爬虫等技术获取网页的文本信息等;对负面事件进行整理,是指负面事件根据严重程度、应用场景等进行分类等处理。其中严重程度涉及了风险等级评估;由用户进行指定,例如园区营商形象和企业风险监测,前者主要从公共交通、工商管理、生产事故等方面进行对负面事件进行分类;后者从市场活动、盈利情况等方面进行分类。
其中步骤3中,事件要素指事件涉及的人物、机构、地点等。
其中步骤4中,基于实体间的关系和风险经验库对集合h中的实体进行扩展的方法与步骤2中的方法相同;
其中步骤6中,生成负面事件到指定目标实体的关联路径的方法是将其中的实体作为路径上的节点,将实体间的关系作为边,生成从负面事件到关注目标的路径。其中步骤6中,在对路径进行排序时,考虑到路径长短、关系类型等不同因素的权重。对于用户关注的子公司、员工、客户、经销商、供应链、竞争对手、监管部门等成千上万种目标,对这些目标按照内容进行聚合,按照轻重缓急进行排序,得到与每一个目标最相关的负面事件作为其潜在风险。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围内。