财务舞弊风险评估的方法、系统及设备与流程

文档序号：24070719发布日期：2021-02-26 15:04阅读：198来源：国知局

[0001]
本发明涉及数据处理与计算机技术领域，更具体地，涉及一种财务舞弊风险评估的方法、系统及设备。

背景技术：

[0002]
现有技术中，对于财务舞弊的分析主要基于财务报表会计科目、财务指标、舆情等异常的经验总结，依赖专家的经验判断，而缺乏系统的、高效的、量化分析模型，导致对财务舞弊的分析识别多为个案，而缺少对大批量财务报表质量的定期全面回溯研究。因此，亟待发明一种用于财务舞弊风险评估的方法、系统及设备，实现对于财务舞弊智能化、高效化、系统化的风险评估。

技术实现要素：

[0003]
有鉴于此，本发明提供了一种财务舞弊风险评估的方法、系统及设备，用以改善对于财务舞弊的分析缺乏系统的、高效的、量化分析方法的问题。
[0004]
第一方面，本申请提供一种财务舞弊风险评估的方法，包括：
[0005]
获取至少1份财务报表和所述财务报表对应主体的基本信息，并根据所述财务报表提取至少1份财务指标信息；
[0006]
建立训练样本集和预测样本集，其中，以实际财务舞弊数据、实际非财务舞弊数据为训练样本集，以待评估数据为预测样本集；
[0007]
将所述财务指标信息转换为多个指标数据，包括m个维度的定性指标、n个维度的定量指标；其中，m≥100，n≥50，且m、n均为正整数；
[0008]
采用随机森林算法对所述训练样本集中的训练样本进行建模，生成随机森林模型，评估至少部分所述指标数据的重要性值，并计算交叉验证误判率；以所述随机森林模型作为财务舞弊风险的第一评估模型对所述预测样本集中的预测样本进行预测，所述预测结果为财务舞弊高风险的第一数据集；和/或，
[0009]
采用自适应增强算法对所述训练样本集中的训练样本进行建模，生成自适应增强模型，评估至少部分所述指标数据的重要性值，并计算交叉验证误判率；以所述自适应增强模型作为财务舞弊风险的第二评估模型对所述预测样本集中的预测样本进行预测，所述预测结果为财务舞弊高风险的第二数据集；和/或，
[0010]
采用引导聚集算法所述训练样本集中的训练样本进行建模，生成引导聚集模型，评估至少部分所述指标数据的重要性值，并计算交叉验证误判率；以所述引导聚集模型作为财务舞弊风险的第三评估模型对所述预测样本集中的预测样本进行预测，所述预测结果为财务舞弊高风险的第三数据集；
[0011]
基于所述基本信息和所述财务指标信息，将所述预测样本集中的数据划分为至少2个子预测样本集；
[0012]
通过至少部分所述指标数据对所述子预测样本集搭建财务舞弊风险的第四评估
模型，以所述第四评估模型对所述子预测样本集中的预测样本进行预测，所述预测结果为财务舞弊高风险的第四数据集；
[0013]
提取所述第一数据集、和/或所述第二数据集、和/或所述第三数据集中超过预设阈值的数据，并提取所述第四数据集中超过预设阈值的数据，构建财务舞弊高风险数据集；
[0014]
根据所述财务舞弊高风险数据集生成风险分析报告。
[0015]
可选地，其中：
[0016]
所述定性指标包括固定资产结构异常、会计政策突变、工程量虚增、财务费用资本化、销售费用资本化、收入和利润异常、内部管理异常。
[0017]
可选地，其中：
[0018]
所述定量指标包括固定资产周转率、贷款损失准备金、关联交易集中度、存货增长率、短期借款、应付款、经营活动现金流。
[0019]
可选地，其中：
[0020]
所述财务报表包括财务季报、财务半年报、财务年报。
[0021]
可选地，其中：
[0022]
所述基本信息包括所属行业、主营业务；
[0023]
所述财务指标信息包括资产负债表、现金流量表、利润表、审计意见、会计政策、合并财务报表项目注释、关联方及关联交易。
[0024]
可选地，其中：
[0025]
所述基于所述基本信息和所述财务指标信息，将所述预测样本集中的数据划分为至少2个子预测样本集，具体为：
[0026]
至少根据所述所属行业和所述主营业务，及所述资产负债表、所述现金流量表和所述利润表，将所述预测样本集中的数据划分为至少2个子预测样本集。
[0027]
可选地，其中：
[0028]
所述实际财务舞弊数据的数量和所述实际非财务舞弊数据的数量比值为1:10。
[0029]
第二方面，本申请提供一种财务舞弊风险评估的系统，用于财务舞弊风险评估的方法，包括数据存储单元、数据准备单元、模型搭建与筛选单元、风险报告生成单元；其中，
[0030]
所述数据存储单元用于获取至少1份财务报表和所述财务报表对应主体的基本信息，并根据所述财务报表提取至少1份财务指标信息；
[0031]
所述数据准备单元用于建立训练样本集和预测样本集，其中，以实际财务舞弊数据、实际非财务舞弊数据为训练样本集，以待评估数据为预测样本集；
[0032]
所述数据准备单元还用于将所述财务指标信息转换为多个指标数据，包括m个维度的定性指标、n个维度的定量指标；其中，m≥100，n≥50，且m、n均为正整数；
[0033]
所述模型搭建与筛选单元用于采用随机森林算法对所述训练样本集中的训练样本进行建模，生成随机森林模型，评估至少部分所述指标数据的重要性值，并计算交叉验证误判率；以所述随机森林模型作为财务舞弊风险的第一评估模型对所述预测样本集中的预测样本进行预测，所述预测结果为财务舞弊高风险的第一数据集；和/或，
[0034]
所述模型搭建与筛选单元用于采用自适应增强算法对所述训练样本集中的训练样本进行建模，生成自适应增强模型，评估至少部分所述指标数据的重要性值，并计算交叉验证误判率；以所述自适应增强模型作为财务舞弊风险的第二评估模型对所述预测样本集
中的预测样本进行预测，所述预测结果为财务舞弊高风险的第二数据集；和/或，
[0035]
所述模型搭建与筛选单元用于采用引导聚集算法所述训练样本集中的训练样本进行建模，生成引导聚集模型，评估至少部分所述指标数据的重要性值，并计算交叉验证误判率；以所述引导聚集模型作为财务舞弊风险的第三评估模型对所述预测样本集中的预测样本进行预测，所述预测结果为财务舞弊高风险的第三数据集；
[0036]
所述数据准备单元还用于基于所述基本信息和所述财务指标信息，将所述预测样本集中的数据划分为至少2个子预测样本集；
[0037]
所述模型搭建与筛选单元还用于通过至少部分所述指标数据对所述子预测样本集搭建财务舞弊风险的第四评估模型，以所述第四评估模型对所述子预测样本集中的预测样本进行预测，所述预测结果为财务舞弊高风险的第四数据集；
[0038]
所述模型搭建与筛选单元还用于提取所述第一数据集、和/或所述第二数据集、和/或所述第三数据集中超过预设阈值的数据，并提取所述第四数据集中超过预设阈值的数据，构建财务舞弊高风险数据集；
[0039]
所述风险报告生成单元用于根据所述财务舞弊高风险数据集生成风险分析报告。
[0040]
第三方面，本申请提供一种财务舞弊风险评估的设备，包括：
[0041]
一个或多个处理器；
[0042]
存储器；以及
[0043]
一个或多个计算机程序，其中，所述计算机程序被存储在所述存储器上，并能够在所述处理器上运行，所述计算机程序被所述处理器执行时实现财务舞弊风险评估的方法。
[0044]
与现有技术相比，本发明提供的一种财务舞弊风险评估的方法、系统及设备，至少实现了如下的有益效果：
[0045]
本申请提供了一种财务舞弊风险评估的方法、系统及设备，通过基于多份财务报表中的财务指标信息，提取相应的定性指标和定量指标，搭建财务舞弊风险的第一评估模型、第二评估模型、第三评估模型和第四评估模型，通过筛查输出财务舞弊高风险数据集，并生成相应的风险分析报告；通过将财务报表对应的定性指标和定量指标进行提取，运用计算机模型对数据进行处理，实现对于财务舞弊智能化、高效化、系统化的风险评估，提高了财务舞弊分析识别的效率和准确性，且有利于实现对大批量财务报表数据的定期回溯研究。
[0046]
当然，实施本发明的任一产品必不特定需要同时达到以上所述的所有技术效果。
[0047]
通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。
附图说明
[0048]
被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。
[0049]
图1所示为本申请实施例所提供的财务舞弊风险评估的方法的一种流程图；
[0050]
图2所示为本申请实施例所提供的财务舞弊风险评估的系统的一种模块图；
[0051]
图3所示为本申请实施例所提供的财务舞弊风险评估的设备的一种示意图；
[0052]
图4所示为本申请实施例所提供的财务舞弊风险评估的方法的另一种流程图。
具体实施方式
[0053]
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
[0054]
以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。
[0055]
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。
[0056]
在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。
[0057]
应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。
[0058]
现有技术中，对于财务舞弊的分析主要基于财务报表会计科目、财务指标、舆情等异常的经验总结，依赖专家的经验判断，而缺乏系统的、高效的、量化分析模型，导致对财务舞弊的分析识别多为个案，而缺少对大批量财务报表质量的定期全面回溯研究。因此，亟待发明一种用于财务舞弊风险评估的方法、系统及设备，实现对于财务舞弊智能化、高效化、系统化的风险评估。
[0059]
有鉴于此本发明提供了一种财务舞弊风险评估的方法、系统及设备，用以改善对于财务舞弊的分析缺乏系统的、高效的、量化分析方法的问题。
[0060]
图1所示为本申请实施例所提供的财务舞弊风险评估的方法的一种流程图，请参照图1，本申请提供了一种财务舞弊风险评估的方法，包括：
[0061]
步骤101、获取至少1份财务报表和财务报表对应主体的基本信息，并根据财务报表提取至少1份财务指标信息；
[0062]
步骤102、建立训练样本集和预测样本集，其中，以实际财务舞弊数据、实际非财务舞弊数据为训练样本集，以待评估数据为预测样本集；
[0063]
步骤103、将财务指标信息转换为多个指标数据，包括m个维度的定性指标、n个维度的定量指标；其中，m≥100，n≥50，且m、n均为正整数；
[0064]
步骤104、采用随机森林算法对训练样本集中的训练样本进行建模，生成随机森林模型，评估至少部分指标数据的重要性值，并计算交叉验证误判率；以随机森林模型作为财务舞弊风险的第一评估模型对预测样本集中的预测样本进行预测，预测结果为财务舞弊高风险的第一数据集；和/或，
[0065]
步骤105、采用自适应增强算法对训练样本集中的训练样本进行建模，生成自适应增强模型，评估至少部分指标数据的重要性值，并计算交叉验证误判率；以自适应增强模型作为财务舞弊风险的第二评估模型对预测样本集中的预测样本进行预测，预测结果为财务舞弊高风险的第二数据集；和/或，
[0066]
步骤106、采用引导聚集算法训练样本集中的训练样本进行建模，生成引导聚集模型，评估至少部分指标数据的重要性值，并计算交叉验证误判率；以引导聚集模型作为财务舞弊风险的第三评估模型对预测样本集中的预测样本进行预测，预测结果为财务舞弊高风险的第三数据集；
[0067]
步骤107、基于基本信息和财务指标信息，将预测样本集中的数据划分为至少2个子预测样本集；
[0068]
步骤108、通过至少部分指标数据对子预测样本集搭建财务舞弊风险的第四评估模型，以第四评估模型对子预测样本集中的预测样本进行预测，预测结果为财务舞弊高风险的第四数据集；
[0069]
步骤109、提取第一数据集、和/或第二数据集、和/或第三数据集中超过预设阈值的数据，并提取第四数据集中超过预设阈值的数据，构建财务舞弊高风险数据集；
[0070]
步骤1010、根据财务舞弊高风险数据集生成风险分析报告。
[0071]
具体地，本申请提供了一种财务舞弊风险评估的方法，包括步骤101-步骤1010，其中步骤101为首先获取若干份财务报表和财务报表对应主体的基本信息，并根据所获取的财务报表提取若干份财务指标信息；需要说明一下的是，上述的“财务报表对应主体”具体为财务报表对应的公司、企业、部门等。步骤102为建立训练样本集和预测样本集，具体方法为：以已经被明确的实际财务舞弊数据、实际非财务舞弊数据作为训练样本集，以待评估是否为财务舞弊或者非财务舞弊的数据作为预测样本集；通过步骤103将步骤101中获得的财务指标信息转换为多个指标数据，所得到的指标数据包括m个维度的定性指标、以及n个维度的定量指标；其中，本申请提供了m和n的一种可选的取值范围为m≥100，n≥50，且m、n均为正整数；但本申请并不以此为限，用户可根据实际需求对定性指标和定量指标的维度进行分别取值；且本申请并不对“指标数据”所包括的内容仅限于“定性指标”和“定量指标”，其余所需的指标数据也可包含进来。
[0072]
步骤104首先通过采用常规的随机森林算法对步骤102中所建立的训练样本集中的至少部分训练样本进行建模，从而生成随机森林模型；而后评估至少部分指标数据的重要性值，具体例如评估m个维度的定性指标、n个维度的定量指标中至少部分指标数据对于财务舞弊评估的重要性值，并计算交叉验证误判率；进而以随机森林模型作为财务舞弊风险的第一评估模型对步骤102所建立的预测样本集中的预测样本进行预测，其预测结果为财务舞弊高风险的第一数据集。需要说明的是，“重要性值”指的是例如m个维度的定性指标、n个维度的定量指标中各个指标数据对于财务舞弊评估的重要性，或是说对于财务舞弊评估的比重值。
[0073]
除了步骤104所提供的获得财务舞弊高风险对应的数据集的方法外，本申请还提供了一种可选的方法为步骤105，首先通过采用自适应增强(adaboost)算法对步骤102中所建立的训练样本集中的至少部分训练样本进行建模，从而生成自适应增强(adaboost)模型；而后评估至少部分指标数据的重要性值，具体例如评估m个维度的定性指标、n个维度的定量指标中至少部分指标数据对于财务舞弊评估的重要性值，并计算交叉验证误判率；进而以自适应增强(adaboost)模型作为财务舞弊风险的第二评估模型对步骤102所建立的预测样本集中的预测样本进行预测，其预测结果为财务舞弊高风险的第二数据集。
[0074]
除了步骤104和步骤105分别提供的获得财务舞弊高风险对应的数据集的方法外，本申请还提供了一种可选的方法为步骤106，首先通过采用引导聚集(bagging)算法对步骤102中所建立的训练样本集中的至少部分训练样本进行建模，从而生成引导聚集(bagging)模型；而后评估至少部分指标数据的重要性值，具体例如评估m个维度的定性指标、n个维度的定量指标中至少部分指标数据对于财务舞弊评估的重要性值，并计算交叉验证误判率；
进而以引导聚集(bagging)模型作为财务舞弊风险的第三评估模型对步骤102所建立的预测样本集中的预测样本进行预测，其预测结果为财务舞弊高风险的第三数据集。
[0075]
需要说明的是，本申请提供的上述步骤104、步骤105、步骤106的方法均可以用于获得财务舞弊高风险的数据集，在对财务舞弊风险评估的方法中，可任选步骤104、步骤105、步骤106的其中一者，或者其中任意两者的结合，或者三者的结合进行使用，本申请提供一种优选的方式为选用步骤104、步骤105、步骤106三者中的至少两者来获得财务舞弊高风险的数据集；当同时通过步骤104、步骤105、步骤106的方法均获得相应的财务舞弊高风险的数据集时，可以提高财务舞弊高风险数据集获取的准确率。
[0076]
步骤107为基于步骤101中的基本信息(公司、企业、部门等对应的基本信息)和财务指标信息，将步骤102中预测样本集中的数据划分为多个子预测样本集，进而通过步骤108结合例如指标数据中所包括的m个维度的定性指标、n个维度的定量指标对子预测样本集搭建财务舞弊风险的第四评估模型，以第四评估模型对步骤107中所得到的子预测样本集中的预测样本进行预测，其预测结果为财务舞弊高风险的第四数据集。
[0077]
步骤109为提取步骤104得到的财务舞弊高风险的第一数据集、和/或提取步骤105得到的财务舞弊高风险的第二数据集、和/或提取步骤106得到的财务舞弊高风险的第三数据集中超过预设阈值的数据，并进一步提取步骤108得到的财务舞弊高风险的第四数据集中超过预设阈值的数据，而后通过提取出的超过预设阈值的这些数据构建财务舞弊高风险数据集；步骤109所得到的财务舞弊高风险数据集中的数据，即经过评估所得到的财务舞弊高风险数据。需要说明的是，财务舞弊高风险数据为至少在第一数据集、第二数据集、第三数据集、及第四数据集中的至少两个数据集中所出现过的数据。进而通过步骤1010将步骤109得到的财务舞弊高风险数据集进行汇总，得到财务舞弊高风险的数据集，并生成对应的风险分析报告。
[0078]
本申请通过上述步骤101-步骤1010，通过将财务报表对应的定性指标和定量指标进行提取，运用计算机模型对数据进行处理，实现对于财务舞弊智能化、高效化、系统化的风险评估，提高了财务舞弊分析识别的效率和准确性，且有利于实现对大批量财务报表数据的定期回溯研究。
[0079]
可选地，定性指标包括固定资产结构异常、会计政策突变、工程量虚增、财务费用资本化、销售费用资本化、收入和利润异常、内部管理异常。
[0080]
具体地，步骤103中所提到的“定性指标”包括固定资产结构异常、会计政策突变、工程量虚增、财务费用资本化、销售费用资本化、收入和利润异常、内部管理异常等内容。需要说明的是，本申请此处仅示例性例举出“定性指标”所包括的部分内容，并不以此为限。
[0081]
可选地，定量指标包括固定资产周转率、贷款损失准备金、关联交易集中度、存货增长率、短期借款、应付款、经营活动现金流。
[0082]
具体地，步骤103中所提到的“定量指标”包括固定资产周转率、贷款损失准备金、关联交易集中度、存货增长率、短期借款、应付款、经营活动现金流等内容。需要说明的是，本申请此处仅示例性例举出“定量指标”所包括的部分内容，并不以此为限。
[0083]
可选地，财务报表包括财务季报、财务半年报、财务年报。
[0084]
具体地，步骤101中所获取的财务报表至少包括财务周报、财务月报、财务季报、财务半年报、财务年报等。
[0085]
可选地，基本信息包括所属行业、主营业务；
[0086]
财务指标信息包括资产负债表、现金流量表、利润表、审计意见、会计政策、合并财务报表项目注释、关联方及关联交易。
[0087]
具体地，步骤101中根据财务报表提取得到的财务指标信息包括资产负债表、现金流量表、利润表、审计意见、会计政策、合并财务报表项目注释、关联方及关联交易等，财务报表所对应的公司/企业/部门等对应的基本信息包括所属行业、主营业务等信息，可用于对相应的公司/企业/部门进行定性、分类等。
[0088]
可选地，基于基本信息和财务指标信息，将预测样本集中的数据划分为至少2个子预测样本集，具体为：
[0089]
至少根据所属行业和主营业务，及资产负债表、现金流量表和利润表，将预测样本集中的数据划分为至少2个子预测样本集。
[0090]
具体地，上述步骤107中“基于基本信息和财务指标信息，将预测样本集中的数据划分为至少2个子预测样本集”，具体为，根据步骤101中基本信息和财务指标信息中具体的所属行业和主营业务，及资产负债表、现金流量表和利润表、审计意见、会计政策、合并财务报表项目注释、关联方及关联交易等将预测样本集中的数据划分为多个子预测样本集。
[0091]
可选地，实际财务舞弊数据的数量和实际非财务舞弊数据的数量比值为1:10。
[0092]
具体地，步骤102中所获取的实际财务舞弊数据的数量一般要求远小于所获取的实际非财务舞弊数据的数量，本申请提供一种实际财务舞弊数据的数量和实际非财务舞弊数据的数量比值为1:10。
[0093]
图2所示为本申请实施例所提供的财务舞弊风险评估的系统的一种模块图，请参照图2，基于同一发明构思，本申请还提供了一种财务舞弊风险评估的系统，用于所述财务舞弊风险评估，包括数据存储单元10、数据准备单元11、模型搭建与筛选单元12、风险报告生成单元13；其中，
[0094]
数据存储单元10用于获取至少1份财务报表和财务报表对应主体的基本信息，并根据财务报表提取至少1份财务指标信息；
[0095]
数据准备单元11用于建立训练样本集和预测样本集，其中，以实际财务舞弊数据、实际非财务舞弊数据为训练样本集，以待评估数据为预测样本集；
[0096]
数据准备单元11还用于将财务指标信息转换为多个指标数据，包括m个维度的定性指标、n个维度的定量指标；其中，m≥100，n≥50，且m、n均为正整数；
[0097]
模型搭建与筛选单元12用于采用随机森林算法对训练样本集中的训练样本进行建模，生成随机森林模型，评估至少部分指标数据的重要性值，并计算交叉验证误判率；以随机森林模型作为财务舞弊风险的第一评估模型对预测样本集中的预测样本进行预测，预测结果为财务舞弊高风险的第一数据集；和/或，
[0098]
模型搭建与筛选单元12用于采用自适应增强算法对训练样本集中的训练样本进行建模，生成自适应增强模型，评估至少部分指标数据的重要性值，并计算交叉验证误判率；以自适应增强模型作为财务舞弊风险的第二评估模型对预测样本集中的预测样本进行预测，预测结果为财务舞弊高风险的第二数据集；和/或，
[0099]
模型搭建与筛选单元12用于采用引导聚集算法训练样本集中的训练样本进行建模，生成引导聚集模型，评估至少部分指标数据的重要性值，并计算交叉验证误判率；以引
导聚集模型作为财务舞弊风险的第三评估模型对预测样本集中的预测样本进行预测，预测结果为财务舞弊高风险的第三数据集；
[0100]
数据准备单元11还用于基于基本信息和财务指标信息，将预测样本集中的数据划分为至少2个子预测样本集；
[0101]
模型搭建与筛选单元12还用于通过至少部分指标数据对子预测样本集搭建财务舞弊风险的第四评估模型，以第四评估模型对子预测样本集中的预测样本进行预测，预测结果为财务舞弊高风险的第四数据集；
[0102]
模型搭建与筛选单元12还用于提取第一数据集、和/或第二数据集、和/或第三数据集中超过预设阈值的数据，并提取第四数据集中超过预设阈值的数据，构建财务舞弊高风险数据集；
[0103]
风险报告生成单元13用于根据财务舞弊高风险数据集生成风险分析报告。
[0104]
具体地，本申请还提供了一种财务舞弊风险评估的系统，用于所述财务舞弊风险评估，财务舞弊风险评估的系统至少包括数据存储单元10、数据准备单元11、模型搭建与筛选单元12、风险报告生成单元13。
[0105]
其中，数据存储单元10用于获取若干份财务报表和财务报表对应主体的基本信息，并根据所获取的财务报表提取若干份财务指标信息。需要说明一下的是，上述的“财务报表对应主体”具体为财务报表对应的公司、企业、部门等。
[0106]
数据准备单元11用于建立训练样本集和预测样本集，其中，具体方法为：以已经被明确的实际财务舞弊数据、实际非财务舞弊数据作为训练样本集，以待评估是否为财务舞弊或者非财务舞弊的数据作为预测样本集。
[0107]
数据准备单元11还用于将财务指标信息转换为多个指标数据，所得到的指标数据包括m个维度的定性指标、n个维度的定量指标；其中，本申请提供了m和n的一种可选的取值范围为m≥100，n≥50，且m、n均为正整数；但本申请并不以此为限，用户可根据实际需求对定性指标和定量指标的维度进行分别取值；且本申请并不对“指标数据”所包括的内容仅限于“定性指标”和“定量指标”，其余所需的指标数据也可包含进来。
[0108]
模型搭建与筛选单元12用于采用随机森林算法对训练样本集中的至少部分训练样本进行建模，从而生成随机森林模型；而后评估至少部分指标数据的重要性值，具体例如评估m个维度的定性指标、n个维度的定量指标中至少部分指标数据对于财务舞弊评估的重要性值，并计算交叉验证误判率；进而以随机森林模型作为财务舞弊风险的第一评估模型对预测样本集中的预测样本进行预测，其预测结果为财务舞弊高风险的第一数据集。需要说明的是，“重要性值”指的是例如m个维度的定性指标、n个维度的定量指标中各个指标数据对于财务舞弊评估的重要性，或是说对于财务舞弊评估的比重值。
[0109]
模型搭建与筛选单元12除了上述用途外，还可以用于采用自适应增强(adaboost)算法对训练样本集中的训练样本集中的至少部分训练样本进行建模，从而生成自适应增强(adaboost)模型；而后评估m个维度的定性指标、n个维度的定量指标中至少部分指标数据对于财务舞弊评估的重要性值，并计算交叉验证误判率；进而以自适应增强(adaboost)模型作为财务舞弊风险的第二评估模型对预测样本集中的预测样本进行预测，其预测结果为财务舞弊高风险的第二数据集。
[0110]
模型搭建与筛选单元12除了上述用途外，还可以用于采用引导聚集(bagging)算
法对训练样本集中的至少部分训练样本进行建模，从而生成引导聚集(bagging)模型；而后评估至少部分指标数据的重要性值，具体例如评估m个维度的定性指标、n个维度的定量指标中至少部分指标数据对于财务舞弊评估的重要性值，并计算交叉验证误判率；进而以引导聚集模型(bagging)作为财务舞弊风险的第三评估模型对预测样本集中的预测样本进行预测，其预测结果为财务舞弊高风险的第三数据集。
[0111]
需要说明的是，本申请提供的模型搭建与筛选单元12的上述三种用途均可以用于获得财务舞弊高风险的数据集，在对财务舞弊风险评估的系统中，可任选三种中的一者进行执行，或者任选其中任意两者的结合进行执行，或者三者的结合；本申请提供一种优选的方式为任选三者中的至少两者的结合来获得财务舞弊高风险的数据集。当同时通过模型搭建与筛选单元12执行上述三种方式时，可均用于获得相应的财务舞弊高风险的数据集，有利于提高财务舞弊高风险数据集获取的准确率。
[0112]
数据准备单元11还用于基于数据存储单元10中的基本信息(公司、企业、部门等对应的基本信息)和财务指标信息，将预测样本集中的数据划分为多个子预测样本集。
[0113]
模型搭建与筛选单元12还用于通过例如指标数据中所包括的m个维度的定性指标、n个维度的定量指标对子预测样本集搭建财务舞弊风险的第四评估模型，以第四评估模型对子预测样本集中的预测样本进行预测，其预测结果为财务舞弊高风险的第四数据集。
[0114]
模型搭建与筛选单元12还用于提取财务舞弊高风险的第一数据集、和/或提取财务舞弊高风险的第二数据集、和/或提取财务舞弊高风险的第三数据集中超过预设阈值的数据，并进一步提取财务舞弊高风险的第四数据集中超过预设阈值的数据，进而通过超过预设阈值的这些数据建财务舞弊高风险数据集；所得到的财务舞弊高风险数据集中的数据，即为经过评估所得到的财务舞弊高风险数据。
[0115]
风险报告生成单元13用于将模型搭建与筛选单元12输出的财务舞弊高风险数据集进行汇总，得到财务舞弊高风险的数据集，并生成对应的风险分析报告。
[0116]
本申请通过上述财务舞弊风险评估的系统，通过将财务报表对应的定性指标和定量指标进行提取，运用计算机模型对数据进行处理，实现对于财务舞弊智能化、高效化、系统化的风险评估，提高了财务舞弊分析识别的效率和准确性，且有利于实现对大批量财务报表数据的定期回溯研究。
[0117]
图3所示为本申请实施例所提供的财务舞弊风险评估的设备的一种示意图，请参照图3，基于同一发明构思，本申请还提供了一种财务舞弊风险评估的设备，包括：
[0118]
一个或多个处理器；
[0119]
存储器；以及
[0120]
一个或多个计算机程序，其中，计算机程序被存储在存储器上，并能够在处理器上运行，计算机程序被处理器执行时实现所述的财务舞弊风险评估的方法。
[0121]
具体地，财务舞弊风险评估的设备是基于财务舞弊风险评估的方法相同的发明构思得到的，可参考方法部分的描述。财务舞弊风险评估的设备不限于pc、终端、服务器。比如此设备可以设置在服务器中，间隔设定的时间采集财务报表，并自动进行计算，最终给出判断结果，输出对应的风险分析报告。
[0122]
以下，为本申请所提供的一种具体的实施例。
[0123]
图4所示为本申请实施例所提供的财务舞弊风险评估的方法的另一种流程图，请
参照图4，上述财务舞弊风险评估的方法，具体可用于上市公司财务舞弊风险评估，相关的应用步骤可如下：
[0124]
步骤201，数据准备，获取所有上市公司历年的财务报表数据和财务报表对应的公司/企业/部门等的基本信息，提取重要财务指标和附注信息，即提取相应财务指标信息。
[0125]
步骤202，样本准备，划分训练样本和预测样本。
[0126]
本步骤202中，将被证监会查实和网络舆情质疑存在财务造假的上市公司标识为财务舞弊公司，并按照1：10的比例随机选取同一时段与其同行业、同主营业务的上市公司标识为非财务舞弊公司，将这两部分样本公司组合构成训练样本，汇总得到训练样本集。将其他待评估的上市公司划归为预测样本，汇总得到预测样本集。
[0127]
步骤203，指标准备，结合已提取的重要财务指标和附注信息(财务指标信息)，转化为174个维度的定性指标、76个维度的定量指标用于建模。
[0128]
步骤204，采用随机森林算法对训练样本进行建模，评估174个维度的定性指标和76个维度的定量指标对财务舞弊筛查的重要性，计算交叉验证误判率，并根据已建立的随机森林模型作为财务舞弊风险第一评估模型对预测样本进行预测。
[0129]
本步骤204中，(1)利用bootstrap法对训练数据进行有放回等可能重复500次抽样，得到500个新的子训练数据集，对每个子训练数据集随机选取50个自变量，所有子预测模型预测结果最终的分类为训练数据评估模型的返回结果；(2)利用每次再抽样没有抽到的观测值(oob)数据进行交叉验证，评估模型交叉验证的误判率；(3)采用随机森林算法对训练数据进行特征评估，返回变量重要性排序列表；(4)将训练数据评估模型(变量重要性排序列表)应用至预测样本，返回预测样本的分类结果。
[0130]
步骤205，采用adaboost算法对训练样本进行建模，评估174个维度的定性指标和76个维度的定量指标重要性，计算交叉验证误判率，并根据已建立的adaboost模型作为财务舞弊风险第二评估模型对预测样本进行预测。
[0131]
本步骤205中，(1)利用bootstrap法对训练数据进行有放回不等可能重复500次抽样，具体如下：第1次抽样得到子训练数据t1，样本量为200，对t1搭建决策树模型m1，运用m1模型对全部训练数据建模，根据错判率调整抽样概率，进行第2次抽样得到子训练数据t2，对t2搭建决策树模型m2，运用m2模型对全部训练数据建模，根据错判率调整抽样概率，进行第3次抽样得到子训练数据t3。按此逻辑，有放回不等可能重复抽取循环500次后，根据得到一系列新的子训练数据，对每个子训练数据建立子预测模型，所有子预测模型预测结果中最终的分类为训练数据评估模型的返回结果；(2)利用10折交叉验证，评估模型交叉验证的误判率；(3)采用adaboost算法对训练数据进行特征评估，返回变量重要性排序列表；(4)将训练数据评估模型(变量重要性排序列表)应用至预测样本，返回预测样本的分类结果。
[0132]
步骤206，采用bagging算法对训练样本进行建模，计算交叉验证误判率，并根据已建立的bagging模型作为财务舞弊风险第三评估模型对预测样本进行预测。
[0133]
本步骤206中，(1)利用bootstrap法对训练数据进行500次抽样(有放回等可能重复抽取)，得到500个新的子训练数据集，对每个子训练数据集建立子预测模型，所有子预测模型预测结果最终的分类为训练数据评估模型的返回结果；(2)利用10折交叉验证，屁股古模型交叉验证误判率；(3)将训练数据评估模型应用至预测样本，返回预测样本分类结果。
[0134]
步骤207，基于步骤201已提取的行业分类和主营业务分类信息，将预测样本划分
为若干子预测样本集。
[0135]
步骤208，针对每一类子预测样本集，根据174个维度的定性指标和76个维度的定量指标分析建模，提取聚类分析结果，搭建财务舞弊风险第四评估模型，寻找聚类分析离群点，结合其他基础信息，汇总各子预测模型识别高风险上市公司构建财务舞弊风险较高的第四上市公司集。
[0136]
步骤209，针对财务舞弊风险第一、第二、第三、第四评估模型预测结果中超过阈值的上市公司，构建财务舞弊风险较高的上市公司集。
[0137]
步骤2010，将步骤209筛选出的上市公司集汇总，得到财务舞弊风险较高的汇总上市公司集，并生成对应的风险分析报告，将所述风险分析报告发送至监控终端。
[0138]
通过上述实施例可知，本发明提供的财务舞弊风险评估的方法、系统及设备，至少实现了如下的有益效果：
[0139]
本申请提供了一种财务舞弊风险评估的方法、系统及设备，通过基于多份财务报表中的财务指标信息，提取相应的定性指标和定量指标，搭建财务舞弊风险的第一评估模型、第二评估模型、第三评估模型和第四评估模型，通过筛查输出财务舞弊高风险数据集，并生成相应的风险分析报告；通过将财务报表对应的定性指标和定量指标进行提取，运用计算机模型对数据进行处理，实现对于财务舞弊智能化、高效化、系统化的风险评估，提高了财务舞弊分析识别的效率和准确性，且有利于实现对大批量财务报表数据的定期回溯研究。
[0140]
虽然已经通过例子对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上例子仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员应该理解，可在不脱离本发明的范围和精神的情况下，对以上实施例进行修改。本发明的范围由所附权利要求来限定。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：苏晶晶
技术所有人：北京安九信息技术有限公司
我是此专利的发明人

上一篇：一种基于vSphere的智能资源调度方法与流程
上一篇：一种公路工程沥青铺设方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。