非正常纳税人识别方法及装置与流程

文档序号:17867861发布日期:2019-06-11 23:22阅读:189来源:国知局

本发明涉及信息处理技术领域,尤指一种非正常纳税人识别方法及装置。



背景技术:

税收是国家公共财政最主要的收入形式和来源。尽管增值税防伪税控系统的推广使用,是税收征管和增加国家收入的一个强有力手段,但在税收风险管理方面仍然不足,还是主要依托于税收分析人员的业务经验,不仅主观成分浓厚,准确性不强,而且效率低下,尤其在虚开发票企业和走逃企业的判别上。借助机器学习算法和大数据技术,来构建非正常纳税人识别模型来识别纳税人是否正常,不仅可以提升可疑企业的监控识别效果和识别效率,而且有助于维持正常的税收和经济秩序。



技术实现要素:

本发明实施例提供一种非正常纳税人识别方法及装置,用以实现借助机器学习算法和大数据技术,来构建非正常纳税人识别模型来识别纳税人是否正常。

根据本发明实施例,提供一种非正常纳税人识别方法,所述方法包括:

获取待识别纳税人的选定信息;

从所述待识别纳税人的选定信息中获取所述待识别纳税人的至少一个选定特征的特征值;

将所述待识别纳税人的至少一个选定特征的特征值依次输入第一设定数量的训练后的xgboost模型中,得到所述待识别纳税人的第一设定数量的概率值;

基于所述待识别纳税人的第一设定数量的概率值得到所述待识别纳税人的识别结果。

具体的,从所述待识别纳税人的选定信息中获取所述待识别纳税人的至少一个选定特征的特征值,具体包括:

从所述待识别纳税人的选定信息中获取所述待识别纳税人的至少一个选定特征的初始特征值;

将所述待识别纳税人的至少一个选定特征的初始特征值中不合理的初始特征值更改为设定值、将所述待识别纳税人的至少一个选定特征的初始特征值中表示类别的初始特征值标识为类别、将所述待识别纳税人的至少一个选定特征的初始特征值进行标准化处理,得到所述待识别纳税人的至少一个选定特征的特征值。

具体的,基于所述第一设定数量的概率值得到识别结果,具体包括:

计算所述第一设定数量的概率值的均值;

将所述均值与设定阈值进行比较;

若所述均值大于或等于所述设定阈值,则确定所述待识别纳税人为非正常纳税人;若所述均值小于所述设定阈值,则确定所述待识别纳税人为正常纳税人。

具体的,还包括:

获取第二设定数量的正常纳税人的选定信息和第三设定数量的非正常纳税人的选定信息;

从所述第二设定数量的正常纳税人的选定信息中获取对应的正常纳税人的至少一个选定特征的特征值,将各个正常纳税人的至少一个选定特征的特征值和正常纳税人标签添加到特征值标签宽表中;

从所述第三设定数量的非正常纳税人的选定信息中获取对应的非正常纳税人的至少一个选定特征的特征值,将各个非正常纳税人的至少一个选定特征的特征值和非正常纳税人标签添加到所述特征值标签宽表中;

从所述特征值标签宽表中获取测试样本集和所述第一设定数量的训练样本集;

将所述第一设定数量的训练样本集中各个纳税人的至少一个选定特征的特征值和对应的标签分别输入到初始的xgboost模型,得到所述第一设定数量的候选的xgboost模型;

使用所述测试样本集中各个纳税人的至少一个选定特征的特征值和对应的标签测试所述第一设定数量的候选的xgboost模型;

基于测试结果确定精确率和召回率;

若所述精确率和所述召回率均达标,则将所述第一设定数量的候选的xgboost模型确定为所述第一设定数量的训练后的xgboost模型。

具体的,从所述第二设定数量的正常纳税人的选定信息中获取对应的正常纳税人的至少一个选定特征的特征值,具体包括:

从所述第二设定数量的正常纳税人的选定信息中获取对应的正常纳税人的至少一个选定特征的初始特征值;

将所述第二设定数量的正常纳税人的至少一个选定特征的初始特征值中不合理的初始特征值更改为设定值、将所述第二设定数量的正常纳税人的至少一个选定特征的初始特征值中表示类别的初始特征值标识为类别、将所述第二设定数量的正常纳税人的至少一个选定特征的初始特征值进行标准化处理,得到对应的正常纳税人的的至少一个选定特征的特征值。

具体的,从所述第三设定数量的非正常纳税人的选定信息中获取对应的非正常纳税人的至少一个选定特征的特征值,具体包括:

从所述第三设定数量的非正常纳税人的选定信息中获取对应的非正常纳税人的至少一个选定特征的初始特征值;

将所述第三设定数量的非正常纳税人的至少一个选定特征的初始特征值中不合理的初始特征值更改为设定值、将所述第三设定数量的非正常纳税人的至少一个选定特征的初始特征值中表示类别的初始特征值标识为类别、将所述第三设定数量的非正常纳税人的至少一个选定特征的初始特征值进行标准化处理,得到对应的非正常纳税人的的至少一个选定特征的特征值。

具体的,从所述特征值标签宽表中获取测试样本集和所述第一设定数量的训练样本集,具体包括:

将所述特征值标签宽表中的非正常纳税人按照预设比例划分为两份,得到第一非正常纳税人集合和第二非正常纳税人集合;

针对所述第一设定数量的训练样本集中的每个训练样本集,执行:从所述特征值标签宽表中抽取与所述第一非正常纳税人集合包括的非正常纳税人数量相同且之前未被抽取的正常纳税人,将抽取的正常纳税人的至少一个选定特征的特征值和对应的标签、与所述第一非正常纳税人集合中的非正常纳税人的至少一个选定特征的特征值和对应的标签组合,得到一个训练样本集;

将所述特征值标签宽表中未被抽取的正常纳税人的至少一个选定特征的特征值和对应的标签、与所述第二非正常纳税人集合中的非正常纳税人的至少一个选定特征的特征值和对应的标签组合,得到测试样本集。

具体的,基于测试结果确定精确率和召回率,具体包括:

所述精确率的计算公式如下:

precision=tp/(tp+fp);

所述召回率的计算公式如下:

recall=tp/(tp+fn);

其中,假设将非正常纳税人样本为正样本,正常纳税人样本为负样本,tp表示测试结果为正样本、实际也为正样本的样本数量,fp表示测试结果为正样本、实际为负样本的样本数量,fn表示测试结果为负样本、实际为正样本的样本数量。

根据本发明实施例,还提供一种非正常纳税人识别装置,所述装置包括:

第一获取模块,用于获取待识别纳税人的选定信息;

第二获取模块,用于从所述待识别纳税人的选定信息中获取所述待识别纳税人的至少一个选定特征的特征值;

输入模块,用于将所述待识别纳税人的至少一个选定特征的特征值依次输入第一设定数量的训练后的xgboost模型中,得到所述待识别纳税人的第一设定数量的概率值;

识别模块,用于基于所述待识别纳税人的第一设定数量的概率值得到所述待识别纳税人的识别结果。

具体的,所述第二获取模块,用于从所述待识别纳税人的选定信息中获取所述待识别纳税人的至少一个选定特征的特征值,具体用于:

从所述待识别纳税人的选定信息中获取所述待识别纳税人的至少一个选定特征的初始特征值;

将所述待识别纳税人的至少一个选定特征的初始特征值中不合理的初始特征值更改为设定值、将所述待识别纳税人的至少一个选定特征的初始特征值中表示类别的初始特征值标识为类别、将所述待识别纳税人的至少一个选定特征的初始特征值进行标准化处理,得到所述待识别纳税人的至少一个选定特征的特征值。

具体的,所述识别模块,用于基于所述第一设定数量的概率值得到识别结果,具体用于:

计算所述第一设定数量的概率值的均值;

将所述均值与设定阈值进行比较;

若所述均值大于或者等于所述设定阈值,则确定所述待识别纳税人为非正常纳税人;若所述均值小于所述设定阈值,则确定所述待识别纳税人为正常纳税人。

具体的,还包括:

第三获取模块,用于获取第二设定数量的正常纳税人的选定信息和第三设定数量的非正常纳税人的选定信息;

添加模块,用于从所述第二设定数量的正常纳税人的选定信息中获取对应的正常纳税人的至少一个选定特征的特征值,将各个正常纳税人的至少一个选定特征的特征值和正常纳税人标签添加到特征值标签宽表中;从所述第三设定数量的非正常纳税人的选定信息中获取对应的非正常纳税人的至少一个选定特征的特征值,将各个非正常纳税人的至少一个选定特征的特征值和非正常纳税人标签添加到所述特征值标签宽表中;

第四获取模块,用于从所述特征值标签宽表中获取测试样本集和所述第一设定数量的训练样本集;

训练模块,用于将所述第一设定数量的训练样本集中各个纳税人的至少一个选定特征的特征值和对应的标签分别输入到初始的xgboost模型,得到所述第一设定数量的候选的xgboost模型;

测试模块,用于使用所述测试样本集中各个纳税人的至少一个选定特征的特征值和对应的标签测试所述第一设定数量的候选的xgboost模型;

第一确定模块,用于基于测试结果确定精确率和召回率;

第二确定模块,用于若所述精确率和所述召回率均达标,则将所述第一设定数量的候选的xgboost模型确定为所述第一设定数量的训练后的xgboost模型。

具体的,所述添加模块,用于从所述第二设定数量的正常纳税人的选定信息中获取对应的正常纳税人的至少一个选定特征的特征值,具体用于:

从所述第二设定数量的正常纳税人的选定信息中获取对应的正常纳税人的至少一个选定特征的初始特征值;

将所述第二设定数量的正常纳税人的至少一个选定特征的初始特征值中不合理的初始特征值更改为设定值、将所述第二设定数量的正常纳税人的至少一个选定特征的初始特征值中表示类别的初始特征值标识为类别、将所述第二设定数量的正常纳税人的至少一个选定特征的初始特征值进行标准化处理,得到对应的正常纳税人的的至少一个选定特征的特征值。

具体的,所述添加模块,用于从所述第三设定数量的非正常纳税人的选定信息中获取对应的非正常纳税人的至少一个选定特征的特征值,具体用于:

从所述第三设定数量的非正常纳税人的选定信息中获取对应的非正常纳税人的至少一个选定特征的初始特征值;

将所述第三设定数量的非正常纳税人的至少一个选定特征的初始特征值中不合理的初始特征值更改为设定值、将所述第三设定数量的非正常纳税人的至少一个选定特征的初始特征值中表示类别的初始特征值标识为类别、将所述第三设定数量的非正常纳税人的至少一个选定特征的初始特征值进行标准化处理,得到对应的非正常纳税人的的至少一个选定特征的特征值。

具体的,所述第四获取模块,用于从所述特征值标签宽表中获取测试样本集和所述第一设定数量的训练样本集,具体用于:

将所述特征值标签宽表中的非正常纳税人按照预设比例划分为两份,得到第一非正常纳税人集合和第二非正常纳税人集合;

针对所述第一设定数量的训练样本集中的每个训练样本集,执行:从所述特征值标签宽表中抽取与所述第一非正常纳税人集合包括的非正常纳税人数量相同且之前未被抽取的正常纳税人,将抽取的正常纳税人的至少一个选定特征的特征值和对应的标签、与所述第一非正常纳税人集合中的非正常纳税人的至少一个选定特征的特征值和对应的标签组合,得到一个训练样本集;

将所述特征值标签宽表中未被抽取的正常纳税人的至少一个选定特征的特征值和对应的标签、与所述第二非正常纳税人集合中的非正常纳税人的至少一个选定特征的特征值和对应的标签组合,得到测试样本集。

具体,所述第一确定模块,用于基于测试结果确定精确率和召回率,具体用于:

所述精确率的计算公式如下:

precision=tp/(tp+fp);

所述召回率的计算公式如下:

recall=tp/(tp+fn);

其中,假设将非正常纳税人样本为正样本,正常纳税人样本为负样本,tp表示测试结果为正样本、实际也为正样本的样本数量,fp表示测试结果为正样本、实际为负样本的样本数量,fn表示测试结果为负样本、实际为正样本的样本数量。

本发明有益效果如下:

本发明实施例提供一种非正常纳税人识别方法及装置,通过获取待识别纳税人的选定信息;从所述待识别纳税人的选定信息中获取所述待识别纳税人的至少一个选定特征的特征值;将所述待识别纳税人的至少一个选定特征的特征值依次输入第一设定数量的训练后的xgboost模型中,得到所述待识别纳税人的第一设定数量的概率值;基于所述待识别纳税人的第一设定数量的概率值得到所述待识别纳税人的识别结果。该方案中,可以预先训练第一设定数量的xgboost模型,然后使用第一设定数量的训练后的xgboost模型得到待识别纳税人的第一设定数量的概率值,然后基于第一设定数量的概率值确定待识别纳税人是否是非正常纳税人,从而可以实现借助机器学习算法和大数据技术,来构建非正常纳税人识别模型来识别纳税人是否正常。

附图说明

图1为本发明实施例中一种非正常纳税人识别方法的流程图;

图2为本发明实施例中一种非正常纳税人识别装置的结构示意图。

具体实施方式

为了实现借助机器学习算法和大数据技术,来构建非正常纳税人识别模型来识别纳税人是否正常,本发明实施例提供一种非正常纳税人识别方法,xgboost算法作为比单一学习器泛化能力更优越的集成学习模型之一,因其支持并行,在损失函数中加入了正则项可防止过拟合等优点,具有出众的效率和较高的预测准确度,在工业界和kaggle竞赛中都被频繁使用。增值税发票数据量庞大,增量也大,而且企业的多样性和差异性导致提取的特征变量中存在大量缺失值,对缺失值的处理也是xgboost的一个特性,它可以自动学习出分裂方向。所以本实施例提出了一种基于xgboost算法的非正常纳税人识别方法,旨在改变以往风险识别单纯依靠经验判断的传统做法,提高识别效率,为完善增值税税收风险管理做出有益探索。

上述非正常纳税人识别方法的流程如图1所示,执行步骤如下:

s11:获取待识别纳税人的选定信息。

本实施例中的纳税人主要是针对企业而言的,那么相应的待识别纳税人的选定信息可以但不限于包括企业信息、增值税发票数据、商品明细数据等等。

s12:从待识别纳税人的选定信息中获取待识别纳税人的至少一个选定特征的特征值。

基于待识别纳税人的企业信息、增值税发票数据、商品明细数据等,从企业信息、经营状况、与同行业其他企业发展状况比较、发票开具、发票作废、发票领用、发票认证、进销项商品明细差异分析、省内外交易情况和上下游交易情况等多个角度,来设计选定特征变量。

从企业信息角度,设计选定特征变量有行业代码、登记注册类型是否为个体和私营企业、是否为一般纳税人、法人是否为外地人、企业成立时间、企业是否一址多照、是否与多家企业共用法人、办税员是否为多家企业共用、财务人员是否为多家企业共用、法人与财务人员是否交叉担任。

从企业经营状况角度,设计选定特征变量有销项税额变动率的统计值、进项税额变动率的统计值、应纳税额变动率的统计值、发票量变动率的统计值、价税合计变动率的统计值、利润变动率的统计值、税负变动率的统计值、不同时间段(最近3个月,t-6到t-3这3个月,t-9到t-6这3个月)内的平均销项金额和平均利润,以上所说的统计值包括中位数、方差和均值,t指模型数据提取的截止时间。

从与同行业其他企业发展状况比较的角度,设计选定特征变量有价税合计差异率的统计值、利润差异率的统计值、税负差异率的统计值,这里的统计值包括中位数、方差和均值。

从发票开具角度,设计选定特征变量有异常发票张数或金额占比,不开票的月份数占比,没有进项发票的月份数占比,发票开具对象或地域总数,受票对象或地域总数,红字与蓝字发票的份数、金额或税额比,顶板开具发票份数或金额占比,有销项发票无进项发票的月份数占比。以上特征均在不同时间段(最近3个月,t-6到t-3这3个月,t-9到t-6这三个月)内进行计算,其中t指模型数据提取的截止时间。此外,还设计了最小时间粒度为5天的特征,即最近5天作废发票张数或金额占比。

从发票作废角度,设计选定特征变量有不同时间段(3个月,t-6到t-3这3个月,t-9到t-6这3个月)内作废发票张数或金额占比,异常作废发票份数或金额占比,其中t指模型数据提取的截止时间。

从发票领用角度,设计选定特征变量有最近1个月或3个月,或t-6到t-3这3个月,或t-9到t-6这3个月内是否频繁领用发票,最近1个月发票购买数量,这里的t指模型数据提取的截止时间。

从发票认证角度,设计选定特征变量有不同时间段(最近3个月,t-6到t-3这3个月,t-9到t-6这三个月)内认证时或认证后失控的发票份数或金额占比,这里的t指模型数据提取的截止时间。

从进销项商品明细差异分析角度,设计选定特征变量有不同时间段(最近3个月,t-6到t-3这3个月,t-9到t-6这三个月)内进销项税额差异度,进销项金额差异度,进销项物品差异度,这里的t指模型数据提取的截止时间。

从省内外交易情况和上下游交易情况角度,设计选定特征变量有不同时间段(最近3个月,t-6到t-3这3个月,t-9到t-6这三个月)内,与省内或省外企业交易的销项金额或进项金额占比的均值和方差,下/上游外省交易企业数变动率的统计值,下/上游外省交易额变动率的统计值,上/下游企业数发散度,上/下游交易额发散度,上/下游交易稳定度。上述统计值包括中位数、方差和均值。

s13:将待识别纳税人的至少一个选定特征的特征值依次输入第一设定数量的训练后的xgboost模型中,得到待识别纳税人的第一设定数量的概率值。

s14:基于待识别纳税人的第一设定数量的概率值得到待识别纳税人的识别结果。

该方案中,可以预先训练第一设定数量的xgboost模型,然后使用第一设定数量的训练后的xgboost模型得到待识别纳税人的第一设定数量的概率值,然后基于第一设定数量的概率值确定待识别纳税人是否是非正常纳税人,从而可以实现借助机器学习算法和大数据技术,来构建非正常纳税人识别模型进而识别纳税人是否正常。

具体的,上述12中从待识别纳税人的选定信息中获取待识别纳税人的至少一个选定特征的特征值,具体包括:

从待识别纳税人的选定信息中获取待识别纳税人的至少一个选定特征的初始特征值;

将待识别纳税人的至少一个选定特征的初始特征值中不合理的初始特征值更改为设定值、将待识别纳税人的至少一个选定特征的初始特征值中表示类别的初始特征值标识为类别、将待识别纳税人的至少一个选定特征的初始特征值进行标准化处理,得到待识别纳税人的至少一个选定特征的特征值。

从待识别纳税人的选定信息中获取待识别纳税人的至少一个选定特征的初始特征值,这些初始特征值并不一定都符合标准,可以根据以上方式进行规范化处理,从而得到待识别纳税人的至少一个选定特征的特征值。以上仅仅是列举了三种方式,还可以采用其他方式,这里不再一一说明。

具体的,上述s14中的基于第一设定数量的概率值得到识别结果,具体包括:

计算第一设定数量的概率值的均值;

将均值与设定阈值进行比较;

若均值大于或等于设定阈值,则确定待识别纳税人为非正常纳税人;若均值小于设定阈值,则确定待识别纳税人为正常纳税人。

对第一设定数量的xgboost模型的预测结果求均值作为该待识别纳税人被预测为非正常纳税人的概率。可以根据实际需要设置设定阈值,例如,可以但不限于设定为0.9,若概率值>=0.9,则判定该待识别纳税人为非正常纳税人,否则,判定该待识别纳税人为正常纳税人。

可选的,还包括:

获取第二设定数量的正常纳税人的选定信息和第三设定数量的非正常纳税人的选定信息;

从第二设定数量的正常纳税人的选定信息中获取对应的正常纳税人的至少一个选定特征的特征值,将各个正常纳税人的至少一个选定特征的特征值和正常纳税人标签添加到特征值标签宽表中;

从第三设定数量的非正常纳税人的选定信息中获取对应的非正常纳税人的至少一个选定特征的特征值,将各个非正常纳税人的至少一个选定特征的特征值和非正常纳税人标签添加到特征值标签宽表中;

从特征值标签宽表中获取测试样本集和第一设定数量的训练样本集;

将第一设定数量的训练样本集中各个纳税人的至少一个选定特征的特征值和对应的标签分别输入到初始的xgboost模型,得到第一设定数量的候选的xgboost模型;

使用测试样本集中各个纳税人的至少一个选定特征的特征值和对应的标签测试第一设定数量的候选的xgboost模型;

基于测试结果确定精确率和召回率;

若精确率和召回率均达标,则将第一设定数量的候选的xgboost模型确定为第一设定数量的训练后的xgboost模型。

可以设置第一设定数量的xgboost模型的参数,利用第一设定数量的训练样本进行训练,得到第一设定数量的候选的xgboost模型,然后这些第一设定数量的xgboost模型应用于测试样本集进行预测。xgboost模型的参数可以但不限于包含:

‘objective’:‘binary:logistic’,二分类的逻辑回归问题,输出为概率

‘max_depth’:构建树的深度

‘eta’:为了防止过拟合,更新过程中用到的收缩步长

‘silent’:0,不输出运行信息

‘eval_metric’:‘map’,评估指标,map表示平均预测

‘lambda’:l2正则化项参数,控制模型复杂度

‘min_child_weight’:每个叶子节点中二阶导的和的最小值

‘nthread’:cpu线程数

‘num_rounds’:迭代次数。

具体的,上述从第二设定数量的正常纳税人的选定信息中获取对应的正常纳税人的至少一个选定特征的特征值,具体包括:

从第二设定数量的正常纳税人的选定信息中获取对应的正常纳税人的至少一个选定特征的初始特征值;

将第二设定数量的正常纳税人的至少一个选定特征的初始特征值中不合理的初始特征值更改为设定值、将第二设定数量的正常纳税人的至少一个选定特征的初始特征值中表示类别的初始特征值标识为类别、将第二设定数量的正常纳税人的至少一个选定特征的初始特征值进行标准化处理,得到对应的正常纳税人的的至少一个选定特征的特征值。

具体的,上述从第三设定数量的非正常纳税人的选定信息中获取对应的非正常纳税人的至少一个选定特征的特征值,具体包括:

从第三设定数量的非正常纳税人的选定信息中获取对应的非正常纳税人的至少一个选定特征的初始特征值;

将第三设定数量的非正常纳税人的至少一个选定特征的初始特征值中不合理的初始特征值更改为设定值、将第三设定数量的非正常纳税人的至少一个选定特征的初始特征值中表示类别的初始特征值标识为类别、将第三设定数量的非正常纳税人的至少一个选定特征的初始特征值进行标准化处理,得到对应的非正常纳税人的的至少一个选定特征的特征值。

具体的,上述从特征值标签宽表中获取测试样本集和第一设定数量的训练样本集,具体包括:

将特征值标签宽表中的非正常纳税人按照预设比例划分为两份,得到第一非正常纳税人集合和第二非正常纳税人集合;

针对第一设定数量的训练样本集中的每个训练样本集,执行:从特征值标签宽表中抽取与第一非正常纳税人集合包括的非正常纳税人数量相同且之前未被抽取的正常纳税人,将抽取的正常纳税人的至少一个选定特征的特征值和对应的标签、与第一非正常纳税人集合中的非正常纳税人的至少一个选定特征的特征值和对应的标签组合,得到一个训练样本集;

将特征值标签宽表中未被抽取的正常纳税人的至少一个选定特征的特征值和对应的标签、与第二非正常纳税人集合中的非正常纳税人的至少一个选定特征的特征值和对应的标签组合,得到测试样本集。

因非正常纳税人的数目很少,导致样本严重不均衡。为了保证xgboost模型效果,将非正常纳税人按照预设比例划分为两份,得到第一非正常纳税人集合和第二非正常纳税人集合,针对第一设定数量的训练样本集中的每个训练样本集,执行:从特征值标签宽表中抽取与第一非正常纳税人集合包括的非正常纳税人数量相同且之前未被抽取的正常纳税人,将抽取的正常纳税人的至少一个选定特征的特征值和对应的标签、与第一非正常纳税人集合中的非正常纳税人的至少一个选定特征的特征值和对应的标签组合,得到一个训练样本集。

将特征值标签宽表中未被抽取的正常纳税人的至少一个选定特征的特征值和对应的标签、与第二非正常纳税人集合中的非正常纳税人的至少一个选定特征的特征值和对应的标签组合,得到测试样本集。

其中,预设比例需保证最终的测试样本集中正常纳税人和非正常纳税人的比例接近现实生活中的实际比例。

具体的,上述基于测试结果确定精确率和召回率,具体包括:

精确率的计算公式如下:

precision=tp/(tp+fp);

召回率的计算公式如下:

recall=tp/(tp+fn);

其中,假设非正常纳税人样本为正样本,正常纳税人样本为负样本,tp表示测试结果为正样本、实际也为正样本样本数量,fp表示测试结果为正样本、实际为负样本的样本数量,fn表示测试结果为负样本、实际为正样本的样本数量。

精确率和召回率并不是正相关关系,往往在提高精确率时会降低召回率,而提高召回率也会降低精确率。所以需不断尝试,调整参数,寻求折中的满足精确率和召回率的参数组合。在最优参数组合下,输出特征重要性排序结果。最终结果显示上下游交易稳定度,行业等对判别纳税人是否是非正常纳税人有着重要作用。

基于同一发明构思,本发明实施例提供一种非正常纳税人识别装置,该装置的结构如图2所示,包括:

第一获取模块21,用于获取待识别纳税人的选定信息;

第二获取模块22,用于从待识别纳税人的选定信息中获取待识别纳税人的至少一个选定特征的特征值;

输入模块23,用于将待识别纳税人的至少一个选定特征的特征值依次输入第一设定数量的训练后的xgboost模型中,得到待识别纳税人的第一设定数量的概率值;

识别模块24,用于基于待识别纳税人的第一设定数量的概率值得到待识别纳税人的识别结果。

该方案中,可以预先训练第一设定数量的xgboost模型,然后使用第一设定数量的训练后的xgboost模型得到待识别纳税人的第一设定数量的概率值,然后基于第一设定数量的概率值确定待识别纳税人是否是非正常纳税人,从而可以实现借助机器学习算法和大数据技术,来构建非正常纳税人识别模型来识别纳税人是否正常。

具体的,第二获取模块,用于从待识别纳税人的选定信息中获取待识别纳税人的至少一个选定特征的特征值,具体用于:

从待识别纳税人的选定信息中获取待识别纳税人的至少一个选定特征的初始特征值;

将待识别纳税人的至少一个选定特征的初始特征值中不合理的初始特征值更改为设定值、将待识别纳税人的至少一个选定特征的初始特征值中表示类别的初始特征值标识为类别、将待识别纳税人的至少一个选定特征的初始特征值进行标准化处理,得到待识别纳税人的至少一个选定特征的特征值。

具体的,识别模块,用于基于第一设定数量的概率值得到识别结果,具体用于:

计算第一设定数量的概率值的均值;

将均值与设定阈值进行比较;

若均值大于或等于设定阈值,则确定待识别纳税人为非正常纳税人;若均值小于设定阈值,则确定待识别纳税人为正常纳税人。

可选的,还包括:

第三获取模块,用于获取第二设定数量的正常纳税人的选定信息和第三设定数量的非正常纳税人的选定信息;

添加模块,用于从第二设定数量的正常纳税人的选定信息中获取对应的正常纳税人的至少一个选定特征的特征值,将各个正常纳税人的至少一个选定特征的特征值和正常纳税人标签添加到特征值标签宽表中;从第三设定数量的非正常纳税人的选定信息中获取对应的非正常纳税人的至少一个选定特征的特征值,将各个非正常纳税人的至少一个选定特征的特征值和非正常纳税人标签添加到特征值标签宽表中;

第四获取模块,用于从特征值标签宽表中获取测试样本集和第一设定数量的训练样本集;

训练模块,用于将第一设定数量的训练样本集中各个纳税人的至少一个选定特征的特征值和对应的标签分别输入到初始的xgboost模型,得到第一设定数量的候选的xgboost模型;

测试模块,用于使用测试样本集中各个纳税人的至少一个选定特征的特征值和对应的标签测试第一设定数量的候选的xgboost模型;

第一确定模块,用于基于测试结果确定精确率和召回率;

第二确定模块,用于若精确率和召回率均达标,则将第一设定数量的候选的xgboost模型确定为第一设定数量的训练后的xgboost模型。

具体的,添加模块,用于从第二设定数量的正常纳税人的选定信息中获取对应的正常纳税人的至少一个选定特征的特征值,具体用于:

从第二设定数量的正常纳税人的选定信息中获取对应的正常纳税人的至少一个选定特征的初始特征值;

将第二设定数量的正常纳税人的至少一个选定特征的初始特征值中不合理的初始特征值更改为设定值、将第二设定数量的正常纳税人的至少一个选定特征的初始特征值中表示类别的初始特征值标识为类别、将第二设定数量的正常纳税人的至少一个选定特征的初始特征值进行标准化处理,得到对应的正常纳税人的的至少一个选定特征的特征值。

具体的,添加模块,用于从第三设定数量的非正常纳税人的选定信息中获取对应的非正常纳税人的至少一个选定特征的特征值,具体用于:

从第三设定数量的非正常纳税人的选定信息中获取对应的非正常纳税人的至少一个选定特征的初始特征值;

将第三设定数量的非正常纳税人的至少一个选定特征的初始特征值中不合理的初始特征值更改为设定值、将第三设定数量的非正常纳税人的至少一个选定特征的初始特征值中表示类别的初始特征值标识为类别、将第三设定数量的非正常纳税人的至少一个选定特征的初始特征值进行标准化处理,得到对应的非正常纳税人的的至少一个选定特征的特征值。

具体的,第四获取模块,用于从特征值标签宽表中获取测试样本集和第一设定数量的训练样本集,具体用于:

将特征值标签宽表中的非正常纳税人按照预设比例划分为两份,得到第一非正常纳税人集合和第二非正常纳税人集合;

针对第一设定数量的训练样本集中的每个训练样本集,执行:从特征值标签宽表中抽取与第一非正常纳税人集合包括的非正常纳税人数量相同且之前未被抽取的正常纳税人,将抽取的正常纳税人的至少一个选定特征的特征值和对应的标签、与第一非正常纳税人集合中的非正常纳税人的至少一个选定特征的特征值和对应的标签组合,得到一个训练样本集;

将特征值标签宽表中未被抽取的正常纳税人的至少一个选定特征的特征值和对应的标签、与第二非正常纳税人集合中的非正常纳税人的至少一个选定特征的特征值和对应的标签组合,得到测试样本集。

具体的,第一确定模块,用于基于测试结果确定精确率和召回率,具体用于:

精确率的计算公式如下:

precision=tp/(tp+fp);

召回率的计算公式如下:

recall=tp/(tp+fn);

其中,假设非正常纳税人样本为正样本,正常纳税人样本为负样本,tp表示测试结果为正样本、实际也为正样本的样本数量,fp表示测试结果为正样本、实际为负样本的样本数量,fn表示测试结果为负样本、实际为正样本的样本数量。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的可选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括可选实施例以及落入本发明范围的所有变更和修改。

显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1