基于文本情感倾向的违规检测方法

文档序号：29132683发布日期：2022-03-05 01:29阅读：来源：国知局

技术特征：
1.一种基于文本情感倾向的违规检测方法，其特征在于：包括如下步骤：s1：构建情感词典：获取上市公司年报文本，并利用该文本构建合适情感词典；s2：进一步提取文本特征：计算基于情感词典的tf-idf值，然后利用变分自编码器vae进一步做文本特征提取；s3：对长短期记忆网络lstm做数学建模：使用变分自编码器vae的长短期记忆网络lstm构建出vae-lstm预测模型；s4：文本检测及结果输出：通过vae-lstm预测模型对s2步骤中提取的特征数据进行检测分析，基于分析出的数据结果输出年报文本为违规或者正常。2.如权利要求1所述的基于文本情感倾向的违规检测方法，其特征在于：在s1步骤的构建情感词典的具体步骤如下：s1-1：从上市公司信息披露网站上下载上市公司年度报告；s1-2：将年报转换成html格式；s1-3：解析年报，使用python解析年报，清理成文本，将年报中的年报标题以及表格中数字占总字数的比例大于25％的表格；s1-4：提取文本，利用python的jieba库自定义字典功能，选用金融类词典对文本进行分词；s1-5：参照中文停用词库，手动添加特殊字符，去除停用词；s1-6：年报保存上述处理的词为.txt格式，根据保存的年报分词数据建立上市公司的积极和消极词汇词典。3.如权利要求1所述的基于文本情感倾向的违规检测方法，其特征在于：在步骤s2中，tf-idf为词频-逆文档频率，是一种统计方法，具体公式如下：其中，n表示年报总数，tf
i,j
表示第j个年报中出现第i个词的次数之比，df
i
表示包含第i个词的年报数。4.如权利要求1所述的基于文本情感倾向的违规检测方法，其特征在于：在步骤s2中，变分自编码器包括编码、采样和解码，使用神经网络编码，提取数据特征，再解码生成数据。5.如权利要求1所述的基于文本情感倾向的违规检测方法，其特征在于：在s3步骤中的长短期记忆网络模型如下：f
t
＝σ(w
f
[h
t-1
,x
t
]+b
f
)i
t
＝σ(w
i
[h
t-1
,x
t
]+b
i
))o
t
＝σ(w
o
[h
t-1
,x
t
]+b
o
)h
t
＝o
t
*tanh(c
t
)其中x
t
是输入向量，i
t
是时间步长t中的输入状态，f
t
是时间步长t中的遗忘状态，o
t
是时间步长t中的输出状态，h
t-1
和c
t-1
是时间步长t-1中的隐藏状态和单元状态，以tanh和sigmoid激活函数σ的形式添加非线性，w
f
、w
i
、w
c
、w
o
分别代表遗忘门、输入门、记忆单元和输
出门的权值向量，b
f
、b
i
、b
c
、b
o
分别代表遗忘门、输入门、记忆单元和输出门的损坏变量，*是矩阵的hadamard积。6.如权利要求1所述的基于文本情感倾向的违规检测方法，其特征在于：在s4步骤中，所述vae-lstm预测模型内设有多方位评估指标；所述多方位评估指标包括：准确率、敏感度和特异度、综合指标f
β-score以及假阳性率和真阳性率之间的曲线下覆盖的面积auc。7.如权利要求6所述的基于文本情感倾向的违规检测方法，其特征在于：准确率的计算公式为：敏感度的计算公式为：特异度的计算公式为：综合指标f
β-score的计算公式为：8.如权利要求6所述的基于文本情感倾向的违规检测方法，其特征在于：所述auc的值越大，越能区分年报违规与正常。

技术总结
本发明基于建立适用的情感词典提取文本特征数据，提供一种基于变分自编码器的长短期记忆网络的文本情感倾向的违规检测方法，该方法包括如下步骤：构建情感词典、进一步提取文本特征、对长短期记忆网络LSTM做数学建模以及文本检测及结果输出；有效检测年报文本中的具有情感倾向的文本，从情感的角度发现上市公司违规，解决了目前市场上缺乏基于文本情感倾向的上市公司违规检测的问题，有效克服现有的不足；同时本方法通过设置多方位评估指标，有效提高了上市公司违规检测的效率和准确性。提高了上市公司违规检测的效率和准确性。

技术研发人员：张熠李维萍周晓文雷万保徐阳
受保护的技术使用者：南京审计大学
技术研发日：2021.12.09
技术公布日：2022/3/4

完整全部详细技术资料下载

当前第2页1 2