一种基于自然语言处理技术的企业ESG评价方法

文档序号:36089050发布日期:2023-11-18 07:21阅读:47来源:国知局
一种基于自然语言处理技术的企业

本发明属于企业esg评估,具体涉及一种基于自然语言处理技术的企业esg评价方法。


背景技术:

1、伴随可持续发展、企业社会责任理念逐渐深入人心,esg(环境、社会、公司治理)概念受到社会的广泛关注。esg是一种关注企业在环境、社会及公司治理维度的绩效表现,而非仅仅关注企业在传统财务绩效方面表现的投资理念和企业评价体系。esg也是一种投资理念,是市场主体的一种价值观,区别于传统的重视财务绩效的投资策略。esg已经被越来越多的企业所接受,越来越多的企业投入到esg实践中,但如何衡量企业esg水平仍没有一个标准的、统一的方法。

2、esg评价是esg建设的关键环节,是衡量企业esg绩效的工具。开展esg评价,有利于“以评促改”,精准洞察企业在esg实践中需要改进和强化的环节,促进企业持续深化esg实践;有利于营造全社会开展esg实践的氛围,促使更多的市场主体积极参与esg建设,推动esg理念良好健康发展;有利于esg投资向科学、理性的方向发展。

3、esg不仅是对企业可持续发展水平的测度,更是转变企业生产方式的导向和治理工具。随着esg的兴起,esg投资、esg学术研究、esg治理、esg咨询等相关生态产业得到发展,而esg理念和生态的深化都要基于esg评价的准确和完善,构建科学的esg指数和评价方法,进一步客观量化企业esg水平是必要的。由于企业信息繁多,esg涉及面广,科学评价企业esg水平还存在一定的困难。

4、目前国内外已存在多个评价机构,但不同机构的评价体系、评价方法的标准并不统一,导致评价结果存在较大差异。现有的评价体系和方法是:主要运用层次分析法,针对不同行业的特点设置esg不同层次的评价指标以及相应的权重,然后对不同评价指标进行评分,依次计算出上一级指标分数直至总指标得分;依据现有评价体系在进行企业esg评价时还存在如下缺陷:

5、1、在数据来源方面,各评价体系和方法所依据的资料存在差异;

6、2、不同评价体系和方法考察范围和底层指标各有侧重、不尽相同;

7、3、依赖个人经验,评价上存在一定程度的主观影响,对争议事件和风险的处理认定各有特色,导致评价结果不具有稳定性。


技术实现思路

1、本发明的目的就在于提供一种基于自然语言处理技术的企业esg评价方法,以解决背景技术中提出的问题。

2、本发明通过以下技术方案来实现上述目的:

3、一种基于自然语言处理技术的企业esg评价方法,包括如下步骤:

4、s1:获取企业esg的相关文本数据,并以此初始化数据集d1,对所述数据集d1依次执行剔除异常文本、文本分词、去除停用词以及去除情感词的预处理,以生成预处理后的数据集d2;

5、s2:将所述数据集d2导入预先构建的lda主题模型中,通过模型参数优化后对数据集d2进行主题分析,以输出主题集、连贯性分数、每个主题的频率和对应主题下每个主题词的频率;

6、s3:基于表征esg相关的主题词对所述主题集进行筛选,以形成表征企业esg水平的主题词表,在对主题词表进行分级后赋予对应权重,并以此构建esg评价指数模型;基于所述esg评价指数模型对待评价企业的文本数据进行分析,以生成对应此文本数据的企业当年esg评分。

7、作为本发明的进一步优化方案,步骤s1中,获取n家企业m年的企业年报、esg报告和csr报告的文本数据ti,t以初始化数据集d1={t1,1,…,tn,1,t1,2,…,tn,2,…,tn,t},其中,n和m均为大于等于1的整数;

8、所述预处理操作具体包括:

9、s101:在对数据集d1剔除异常文本后,采用中文分词工具进行文本分词;

10、s102:在分词后采用中文停用词表去除停用词;

11、s103:采用情感分析工具对去除停用词的文本去除表达明显情感的文本,得到数据集d2={t′1,1,…,t′n,1,t′1,2,…,t′n,2,…,t′n,t};

12、其中,预处理过程中程序逐条读取文本数据;步骤s101中异常文本为含有文本乱码、繁体字的文本数据。

13、作为本发明的进一步优化方案,步骤s2中,采用预先构建的lda主题模型中的genism模型包,对所述数据集d2进行主题分析;其中,

14、采用词袋模型将所述数据集d2中每个文本数据t视为一个词频向量,将文本数据转化为数字信息形式的输入lda主题模型;

15、模型输入过程中,定义词大小为l,一个l维向量“1,0,0,…,0,0”表示一个词wi,由n个词构成的文本记为t=(w1,w2,…,wn),文本数据集d由n篇文本构成,记为d=(t1,t2,…,tn);n篇文本数据分布着k个主题,将文本主题记为zi(i=1,2,…,k),记α和β为狄利克雷函数的先验参数,θ为主题在文档中的多项分布的参数,其服从超参数为α的dirichlet先验分布,为词在主题中的多项分布的参数,其服从超参数β的dirichlet先验分布。

16、作为本发明的进一步优化方案,步骤s2还包括:在实时调整模型参数k,α和β后,程序输出主题数k与连贯性分数的曲线图、以及文本主题频率矩阵、以及对应主题下的多个相关词汇,并利用pyldavis命令对主题集和主题词进行处理得到主题分布图。

17、作为本发明的进一步优化方案,步骤s3中,表征esg相关的主题词为与“环境”“社会”和“治理”相关的主题词,所述主题词表包括:

18、核心词,其对应权重为3w;其包括“环境保护、绿色、能源、公益、社会、责任、管理制度、风险、合规”;

19、重点词,其对应权重为2w;其包括“排污、生物、资源、慈善、捐赠、助力、运营、防控、品牌”;

20、一般词,其对应权重为w;其包括“废气、废水、温室、固废、教育、医疗、产业、智能、标准、研发、员工”。

21、作为本发明的进一步优化方案,步骤s3中,设表征企业esg水平的主题词表为:

22、list=(v1,v2,…,vn),

23、对主题词表中的主题词vi进行分级,赋予不同权重wi;构建esg评价指数模型为:

24、

25、其中,pi为所述主题集中每个主题的频率,pi为对应主题下每个的主题词,n为数据集d2中的文本数。

26、作为本发明的进一步优化方案,步骤s3中,采用所述esg评价指数模型计算esg评分过程中按预设计算规则对esg评分进行计算;

27、其中,预设计算规则为对esg评分的计算结果乘以设定倍数,且计算得到的结果均为正数,其数值越大,则代表企业的esg水平越高。

28、本发明的有益效果在于:

29、(1)本发明提出了一种基于自然语言处理技术的esg评价方法,用于系统解决企业esg评价问题,提出将lda主题模型应用到esg评价中,减少了评价过程中的主观性,增强了评价结果的科学性和稳定性,能避免传统评价学习的“主观性”问题,保证评价结果的稳定性和准确性,并具有较高的实用性;

30、(2)本发明提出系统性将企业esg评价资料集中收集,通过构建数据集并严格执行预处理,提高了esg评价资料收集和处理的效率,且评价过程科学客观,减少了评价中人为主观因素的影响,使评价结果稳定且准确,可为需要企业esg评价结果的单位提供参考。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1