信息处理方法、装置、设备及介质与流程

文档序号:26588139发布日期:2021-09-10 19:59阅读:101来源:国知局
信息处理方法、装置、设备及介质与流程

1.本公开涉及信息处理技术领域,尤其涉及一种信息处理方法、装置、设备及介质。


背景技术:

2.税务领域的空壳实体是指利用盗用的身份信息注册的用于大量虚开发票且没有实际经营活动的企业等社会实体。
3.为了提高税收征管和稽查的效率,一般会对税务领域潜在的空壳实体进行检测,以实现对涉嫌涉及违法纳税的社会实体进行风险预警。但是,已有的空壳实体检测方案很难对社会实体进行准确地检测,难以满足税务稽查、风控预警等部门的实际业务需求。


技术实现要素:

4.为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种信息处理方法、装置、设备及介质。
5.第一方面,本公开实施例提供了一种信息处理方法,包括:获取目标社会实体的目标社会实体信息;从目标社会实体信息中提取目标社会实体的与登记注册相关的目标特征向量;将目标特征向量输入预先训练好的梯度提升树模型,得到预先训练好的梯度提升树模型输出的目标社会实体的预测信用评分;若目标社会实体的预测信用评分符合预设的空壳实体检测条件,则确定目标社会实体为空壳实体。
6.第二方面,本公开实施例提供了一种信息处理装置,包括:第一获取单元,配置为获取目标社会实体的目标社会实体信息;向量提取单元,配置为从目标社会实体信息中提取目标社会实体的与登记注册相关的目标特征向量;第一预测单元,配置为将目标特征向量输入预先训练好的梯度提升树模型,得到预先训练好的梯度提升树模型输出的目标社会实体的预测信用评分;类型确定单元,配置为若目标社会实体的预测信用评分符合预设的空壳实体检测条件,则确定目标社会实体为空壳实体。
7.第三方面,本公开实施例提供了一种信息处理设备,包括:处理器;存储器,用于存储可执行指令;其中,处理器用于从存储器中读取可执行指令,并执行可执行指令以实现上述第一方面所述的信息处理方法。
8.第四方面,本公开实施例提供了一种计算机可读存储介质,存储介质存储有计算机程序,当计算机程序被处理器执行时,使得处理器实现上述第一方面所述的信息处理方法。
9.本公开实施例提供的技术方案与现有技术相比具有如下优点:本公开实施例的信息处理方法、装置、设备及介质,能够在获取目标社会实体的目标社会实体信息之后,从目标社会实体信息中提取目标社会实体的与登记注册相关的目标特征向量,并且将目标特征向量输入预先训练好的梯度提升树模型,得到预先训练好的梯度提升树模型输出的目标社会实体的预测信用评分,若目标社会实体的预测信用评分符合预设的空壳实体检测条件,则确定目标社会实体为空壳实体,由此,能够利用目标社会实体的与登记注册相关的目标特征向量和预先训练好的梯度提升树模型对目标社会实体进行较高准确性和鲁棒性的信用评分预测,进而提高对目标社会实体进行空壳实体检测的准确性,以满足税务稽查、风控预警等部门的实际业务需求。
附图说明
10.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
11.为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
12.图1为本公开实施例提供的一种信息处理方法的流程示意图;图2为本公开实施例提供的一种模型训练方法的流程示意图;图3为本公开实施例提供的另一种模型训练方法的流程示意图;图4为本公开实施例提供的一种信息处理装置的结构示意图;图5为本公开实施例提供的一种信息处理设备的硬件电路结构示意图。
具体实施方式
13.为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
14.在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
15.税务领域的空壳实体是指利用盗用的身份信息注册的用于大量虚开发票且没有实际经营活动的企业等社会实体。
16.为了提高税收征管和稽查的效率,一般会对税务领域潜在的空壳实体进行检测,以实现对涉嫌涉及违法纳税的社会实体进行风险预警。
17.目前,已有的空壳实体检测方案主要包括基于专家评价指标体系的检测方案和基于传统机器学习的检测方案,这些检测方案存在以下不足:首先,基于专家评价指标体系的检测方案的检测性能取决于评价指标的选取、指标权重的设定以及风险定性阈值的设定等三项工作,但是评价指标的选取、指标权重和风险定性阈值的设定工作非常依赖税务专家的领域经验,导致该检测方案的泛化性以及可扩展性较差,很难对社会实体进行准确地检测。
18.其次,基于专家评价指标体系的检测方案中指标阈值的确定工作也非常依赖税务专家的领域经验,导致该检测方案对于新型作案手法的适应性较差,很难对社会实体进行准确地检测。
19.最后,基于传统机器学习的检测方案不能对训练数据中的噪声数据进行过滤,导致基于高噪声训练数据训练所得的模型的检测精确性较差,很难对社会实体进行准确地检测。
20.综上,已有的空壳实体检测方案很难对社会实体进行准确地检测,难以满足税务稽查、风控预警等部门的实际业务需求。
21.为了解决上述的问题,本公开实施例提供了一种信息处理方法、装置、设备及介质,能够利用融合标记自适应机制的梯度提升树模型实现空壳实体检测,以期基于低质量高噪声的训练数据进行模型高效训练,并利用社会实体的社会实体信息更加精准、稳定地检测出空壳实体,缩短空壳实体检测的时间延迟,提高税务稽查、风控预警等部门对涉税风险预警响应的时效性和敏捷性。
22.下面首先结合图1至图3对本公开实施例提供的信息处理方法进行说明。
23.图1示出了本公开实施例提供的一种信息处理方法的流程示意图。
24.在本公开一些实施例中,图1所示的信息处理方法可以由服务器执行。其中,服务器可以是云服务器或者服务器集群等具有存储及计算功能的设备。
25.如图1所示,该信息处理方法可以包括如下步骤。
26.s110、获取目标社会实体的目标社会实体信息。
27.在本公开实施例中,服务器可以获取待进行空壳实体检测的目标社会实体的目标社会实体信息。
28.其中,目标社会实体可以包括纳税企业,目标社会实体信息可以包括目标社会实体的登记注册数据。
29.可选地,登记注册数据可以至少包括目标社会实体的注册地址、法人信息、实体名称、申报经营范围、财务人员信息、股东信息、兼职人员信息等数据。
30.可选地,法人信息可以包括法人身份证信息等。
31.可选地,财务人员信息可以包括财务负责人身份证信息和办税员身份证信息等。
32.可选地,股东信息可以包括股东身份证信息等。
33.可选地,兼职人员信息可以包括兼职人员的数量和岗位等。
34.在本公开实施例中,可选地,s110可以具体包括:从预设数据库获取目标社会实体的实时社会实体信息;对实时社会实体信息进行预处理,得到目标社会实体信息。
35.具体地,服务器可以从用于存储各个社会实体的实时社会实体信息的预设数据库中,读取目标社会实体的实时社会实体信息,然后对目标社会实体的实时社会实体信息进行预处理,实现对信息格式和信息内容的标准化处理,得到目标社会实体信息。
36.进一步地,预处理可以包括下列中的至少一种:缺失处理、异常处理、量纲处理、去重处理、噪声处理。
37.在缺失处理的过程中,可以查找出实时社会实体信息中仅包含符号或者无内容的信息项,并将查找出的信息项设置为预设数值。其中,预设数值可以为根据需要预先设置的非正整数,例如0、

1等。
38.在异常处理的过程中,可以查找出实时社会实体信息中存在明显笔误的信息项,并将查找出的信息项设置为其他社会实体的所有正确样本的平均值。
39.在量纲处理的过程中,可以查找出实时社会实体信息中的数值型的信息项,并对查找出的信息项进行归一化处理。
40.在去重处理的过程中,可以查找出实时社会实体信息中的重复信息项,并对重复信息项进行去重处理。
41.在噪声处理的过程中,可以查找出实时社会实体信息中与校对数据库中的和目标社会实体关联存储的校对信息不同的信息项,并将该信息项替换为校对信息中的对应内容。
42.由此,在本公开实施例中,可以将目标社会实体的实时社会实体信息预处理为标准化的目标社会实体信息,使目标社会实体信息符合机器学习算法的要求,降低数据因素对模型检测准确性的影响。
43.s120、从目标社会实体信息中提取目标社会实体的与登记注册相关的目标特征向量。
44.在本公开实施例中,服务器在获取到目标社会实体的目标社会实体信息之后,从目标社会实体信息中提取目标社会实体的与登记注册相关的目标特征向量,该目标特征向量可以用于预测目标社会实体的信用评分。
45.进一步地,服务器可以从目标社会实体信息中提取目标社会实体的与空壳违法行为特点相关的目标特征向量。
46.在本公开实施例中,可选地,s120可以具体包括:从目标社会实体信息中提取目标社会实体的与登记注册相关的目标社会实体特征;根据目标社会实体特征生成目标特征向量。
47.具体地,服务器可以按照不同社会实体特征类型对应的特征提取方式,从目标社会实体信息中提取目标社会实体的与登记注册尤其是空壳违法行为特点相关的各种目标社会实体特征。
48.进一步地,目标社会实体特征可以至少包括下列中的至少一种:法人特征、注册地址特征、实体命名特征、财务人员特征、兼职人员特征。
49.可选地,法人特征可以包括法人籍贯特征、法人年龄特征和法人性别特征。
50.服务器可以从法人身份证信息中抽取出法人籍贯所在的省、市、县三级行政区特征,将三级行政区特征作为法人籍贯特征。服务器可以基于法人身份证信息计算法人年龄,将法人年龄作为法人年龄特征。服务器可以基于法人身份证信息提取的法人性别,将法人性别作为法人性别特征。
51.可选地,注册地址特征可以用于确定该社会实体所注册的地址对于涉税违法的敏感程度。
52.服务器可以提取注册地址中的区、街道、社区、楼宇、产业园等地理实体特征,将地理实体特征作为注册地址特征。
53.可选地,实体命名特征可以用于确定社会实体命名的罕见程度。
54.服务器可以从实体名称中各个字符出现的联合概率特征,将联合概率特征作为实体命名特征。
55.可选地,财务人员特征可以包括财务负责人籍贯特征和办税员籍贯特征。
56.服务器可以从财务负责人身份证信息中抽取出财务负责人籍贯所在的省、市、县三级行政区特征,将三级行政区特征作为财务负责人籍贯特征。服务器可以从办税员身份证信息中抽取出办税员籍贯所在的省、市、县三级行政区特征,将三级行政区特征作为办税员籍贯特征。
57.可选地,兼职人员特征可以用于确定实体内部重要岗位的兼职情况。
58.服务器可以根据兼职人员的数量和岗位计算预设岗位的人均任职变量特征,并将人均任职变量特征作为兼职人员特征。
59.由此,服务器可以获得上述的目标社会实体特征之后,可以按照不同社会实体特征对应的数值转化方式,将各类目标社会实体特征转化为对应的数值,进而按照预设的特征排列顺序,对各类目标社会实体特征对应的数值进行排列,得到目标特征向量。
60.在一些实施例中,在社会实体特征以长文本形式体现的情况下,可以将文本字符数作为该社会实体特征对应的数值。
61.在另一些实施例中,在社会实体特征以变量或概率形式体现的情况下,可以直接将该变量或概率作为该社会实体特征对应的数值。
62.在又一些实施例中,在社会实体特征以地址、年龄或性别形式体现的情况下,可以利用预设的各个地址、年龄或性别与预警评分之间的对应关系,查找该社会实体特征对应的预警评分,并将该预警评分作为该社会实体特征对应的数值。
63.s130、将目标特征向量输入预先训练好的梯度提升树模型,得到预先训练好的梯度提升树模型输出的目标社会实体的预测信用评分。
64.在本公开实施例中,服务器可以在提取到目标特征向量之后,将目标特征向量输入预先训练好的用于预测社会实体的信用评分的梯度提升树模型,得到预先训练好的梯度提升树模型输出的预测值,该预测值即可以作为目标社会实体的预测信用评分。
65.其中,梯度提升树模型是一种基于boosting集成策略整合多个决策树模型的分类器,梯度提升树模型可以集成全部决策树模型的分类聚合结果,在拥有较高分类准确率的同时还能保证分类过程的鲁棒性。
66.s140、若目标社会实体的预测信用评分符合预设的空壳实体检测条件,则确定目标社会实体为空壳实体。
67.在本公开实施例中,服务器在得到目标社会实体的预测信用评分之后,判断目标社会实体的预测信用评分是否符合预设的空壳实体检测条件,如果目标社会实体的预测信用评分符合预设的空壳实体检测条件,则可以确定目标社会实体为空壳实体,否则,确定目标社会实体为非空壳实体。
68.可选地,预设的空壳实体检测条件可以包括预测信用评分落入预设评分范围。
69.其中,预设评分范围可以为根据需要预先设定的评分范围,在此不作限制。
70.具体地,预设评分范围可以为训练梯度提升树模型时用于标记空壳实体的标记信用评分所对应的评分范围。
71.具体地,服务器在得到目标社会实体的预测信用评分之后,可以判断目标社会实体的预测信用评分是否落入预设评分范围,如果是,则可以确定目标社会实体为空壳实体,否则,确定目标社会实体为非空壳实体。
72.在本公开实施例中,能够在获取目标社会实体的目标社会实体信息之后,从目标社会实体信息中提取目标社会实体的与登记注册相关的目标特征向量,并且将目标特征向量输入预先训练好的梯度提升树模型,得到预先训练好的梯度提升树模型输出的目标社会实体的预测信用评分,若目标社会实体的预测信用评分符合预设的空壳实体检测条件,则确定目标社会实体为空壳实体,由此,能够利用目标社会实体的与登记注册相关的目标特征向量和预先训练好的梯度提升树模型对目标社会实体进行较高准确性和鲁棒性的信用评分预测,进而提高对目标社会实体进行空壳实体检测的准确性、精确率以及召回率,在提高空壳实体检测效率的同时确保稽查工作的有效开展,以满足税务稽查、风控预警等部门的实际业务需求。
73.在本公开另一种实施方式中,为了保证能够利用梯度提升树模型实现空壳实体检测,服务器执行在s110之前,还可以执行对梯度提升树模型的模型训练步骤。
74.图2示出了本公开实施例提供的一种模型训练方法的流程示意图。
75.如图2所示,该信息处理方法在获取目标社会实体的目标社会实体信息之前,还可以包括如下步骤。
76.s210、获取样本数据。
77.其中,样本数据可以包括多个样本社会实体的与登记注册相关的样本特征向量和每个样本社会实体的标记信用评分。
78.可选地,样本社会实体可以为用于存储已标记为空壳实体或非空壳实体的标记数据库中所包含的社会实体。
79.服务器可以从用于存储各个社会实体的实时社会实体信息的预设数据库中,读取多个样本社会实体的实时社会实体信息,然后对每个样本社会实体的实时社会实体信息分别进行预处理,得到每个样本社会实体的处理后的社会实体信息,接着,从每个样本社会实体的处理后的社会实体信息中分别提取每个样本社会实体的样本社会实体特征,最后,将每个样本社会实体的样本社会实体特征分别转化为每个样本社会实体的样本特征向量。
80.需要说明的是,样本社会实体特征的提取方法与目标社会实体特征的提取方法相同,样本特征向量的生成方法与目标特征向量的生成方法相同,在此不做赘述。
81.进一步地,若样本社会实体在标记数据库中被标记为空壳实体,则该样本社会实体的标记信用评分可以为预先设置的用于标记空壳实体的标记信用评分,例如,标记信用评分可以为1。若样本社会实体在标记数据库中被标记为非空壳实体,则该样本社会实体的标记信用评分可以为预先设置的用于标记非空壳实体的标记信用评分,例如,标记信用评分可以为

1。
82.此时,相应地,标记空壳实体的标记信用评分所对应的评分范围即前述的预设评分范围可以为[0,1),标记非空壳实体的标记信用评分所对应的评分范围可以为[0,

1)。
[0083]
s220、基于样本数据,构造第一训练数据、第一测试数据和第一验证数据。
[0084]
具体地,服务器可以按照预设构造比例,将样本数据划分为第一训练数据、第一测试数据和第一验证数据。
[0085]
其中,预设构造比例可以为根据需要预先设置的比例,在此不作限制。例如,预设构造比例可以为7:2:1,即第一训练数据、第一测试数据和第一验证数据的数据量比值可以为7:2:1。
[0086]
s230、利用第一训练数据、第一测试数据和第一验证数据对第一梯度提升树模型进行迭代训练,得到训练好的梯度提升树模型。
[0087]
具体地,服务器可以利用第一训练数据、第一测试数据和第一验证数据联合对第一梯度提升树模型进行迭代训练,得到训练好的梯度提升树模型。
[0088]
其中,第一梯度提升树模型可以为第一训练数据、第一测试数据和第一验证数据进行模型训练时所采用的梯度提升树模型。
[0089]
在本公开实施例中,可选地,s230可以具体包括:利用第一训练数据和第一测试数据训练第一梯度提升树模型;利用第一验证数据,检测第一梯度提升树模型的第一准确度;在第一准确度小于第一准确度阈值的情况下,返回执行利用第一训练数据和第一测试数据训练第一梯度提升树模型,直至第一准确度大于或等于第一准确度阈值,得到训练好的梯度提升树模型。
[0090]
其中,第一准确度阈值可以为根据需要预先设置的准确度阈值,在此不作限制。第一准确度可以为第一梯度提升树模型的的准确度。
[0091]
具体地,服务器可以采用交叉验证方式,利用第一训练数据和第一测试数据对第一梯度提升树模型进行一次迭代训练,并且利用第一验证数据对该一次迭代训练得到的第一梯度提升树模型进行验证,得到该一次迭代训练得到的第一梯度提升树模型的第一准确度,接着将第一准确度和第一准确度阈值进行比较,如果第一准确度小于第一准确度阈值,则对该一次迭代训练得到的第一梯度提升树模型的模型参数进行调整,采用交叉验证方式,利用第一训练数据和第一测试数据对第一梯度提升树模型进行下一次迭代训练,并且利用第一验证数据对该下一次迭代训练得到的第一梯度提升树模型进行验证,得到该下一次迭代训练得到的第一梯度提升树模型的第一准确度,以此类推,直至第一准确度大于或等于第一准确度阈值,得到训练好的梯度提升树模型。
[0092]
需要说明的是,该训练好的梯度提升树模型可以为二分类模型,利用该训练好的梯度提升树模型得到目标社会实体的预测信用评分之后,可以利用标记空壳实体的标记信用评分所对应的评分范围判断目标社会实体是否为空壳实体。
[0093]
由此,在本公开实施例中,能够获得每个样本社会实体的与登记注册相关的样本特征向量,该特征向量实现了对社会实体的登记注册行为的精准刻画,使得利用样本特征向量训练的梯度提升树模型在实际应用时所需输入的目标特征向量也能对目标社会实体的登记注册行为进行精准刻画,从而提高了对目标社会实体进行空壳实体检测的准确性。同时,在本公开实施例中,能够利用基于样本数据所构造的第一训练数据、第一测试数据和第一验证数据对第一梯度提升树模型进行迭代训练,得到训练好的梯度提升树模型,能够保证训练好的梯度提升树模型对目标社会实体进行较高准确性和鲁棒性的信用评分预测。
[0094]
在本公开又一种实施方式中,为了进一步提高预先训练好的梯度提升树模型的准确性和鲁棒性,服务器执行在s230之后,还可以执行对梯度提升树模型的模型优化步骤。
[0095]
图3示出了本公开实施例提供的另一种模型训练方法的流程示意图。
[0096]
如图3所示,该模型训练方法在s230之后,还可以包括如下步骤。
[0097]
s240、将各个样本社会实体的样本特征向量分别输入训练好的梯度提升树模型,得到训练好的梯度提升树模型输出的各个样本社会实体的预测信用评分。
[0098]
在本公开实施例中,服务器可以将各个样本社会实体的样本特征向量分别输入训
练好的梯度提升树模型,得到训练好的梯度提升树模型输出的各个样本特征向量对应的预测值,各个样本特征向量对应的预测值即可以作为各个样本社会实体的预测信用评分。
[0099]
s250、根据样本社会实体的预测信用评分和样本社会实体的标记信用评分,重新标记各个样本社会实体的信用评分,得到重新标记后的样本数据。
[0100]
具体地,针对每个样本社会实体,服务器可以判断该样本社会实体的预测信用评分是否落入该样本社会实体的标记信用评分所对应的评分范围,如果落入,则无需对该样本社会实体的标记信用评分进行更新,否则,需要对该样本社会实体的标记信用评分进行更新。在服务器对每个样本社会实体进行判断和更新之后,服务器可以将多个样本社会实体的样本特征向量和更新后的每个样本社会实体的标记信用评分作为重新标记后的样本数据。
[0101]
进一步地,在对该样本社会实体的标记信用评分进行更新的过程中,服务器可以判断该样本社会实体的标记信用评分是用于标记空壳实体的信用评分,还是用于标记非空壳实体的信用评分。如果是用于标记空壳实体的信用评分,则可以将该样本社会实体的标记信用评分更新为第一信用评分;如果是用于标记非空壳实体的信用评分,则可以将该样本社会实体的标记信用评分更新为第二信用评分。
[0102]
其中,第一信用评分可以用于表征被预测为非空壳实体的空壳实体。第一信用评分可以为与用于标记空壳实体的标记信用评分相关联的信用评分。以用于标记空壳实体的标记信用评分为1为例,第一信用评分可以为2。
[0103]
第二信用评分可以用于表征被预测为空壳实体的非空壳实体。第二信用评分可以为与用于标记非空壳实体的标记信用评分相关联的信用评分。以用于标记非空壳实体的标记信用评分为

1为例,第二信用评分可以为

2。
[0104]
此时,相应地,应基于用于标记空壳实体的标记信用评分和第一信用评分来共同确定前述的预设评分范围,例如,前述的预设评分范围可以为[0,2)。
[0105]
由此,在本公开实施例中,可以利用标记自适应机制得到重新标记后的样本数据,重新标记后的样本数据中可以包含用于标记空壳实体的标记信用评分、用于标记非空壳实体的标记信用评分、第一信用评分和第二信用评分,进而将多个样本社会实体分为四类,实现对原有训练数据的标记体系的重构。其中,第一信用评分对应的一类样本社会实体的样本特征向量为容易被预测为非空壳实体的空壳实体的特征向量,第二信用评分对应的一类样本社会实体的样本特征向量为容易被预测为空壳实体的非空壳实体的特征向量,这样,可以在糅合较多数据噪声的场景下,有效地对训练数据中因标记误差、特征向量模糊等原因造成的噪声数据进行过滤和矫正,进而有效地缓解噪声数据在模型训练过程中对参数学习的影响,显著缩短模型训练收敛时间的同时提升模型推理的准确性,并且利用第一信用评分和第二信用评分对这类社会实体进行更精确地分类。
[0106]
s260、基于重新标记后的样本数据,构造第二训练数据、第二测试数据和第二验证数据。
[0107]
具体地,服务器可以按照前述的预设构造比例,将重新标记后的样本数据划分为第二训练数据、第二测试数据和第二验证数据。
[0108]
s270、利用第二训练数据、第二测试数据和第二验证数据对第二梯度提升树模型进行迭代训练,得到重新训练好的梯度提升树模型。
[0109]
具体地,服务器可以利用第二训练数据、第二测试数据和第二验证数据联合对第二梯度提升树模型进行迭代训练,得到重新训练好的梯度提升树模型。
[0110]
其中,第二梯度提升树模型可以为第二训练数据、第二测试数据和第二验证数据进行模型训练时所采用的梯度提升树模型。
[0111]
在本公开实施例中,可选地,s270可以具体包括:利用第二训练数据和第二测试数据训练第二梯度提升树模型;利用第二验证数据,检测第二梯度提升树模型的第二准确度;在第二准确度小于第二准确度阈值的情况下,返回执行利用第二训练数据和第二测试数据训练第二梯度提升树模型,直至第二准确度大于或等于第二准确度阈值,得到重新训练好的梯度提升树模型。
[0112]
其中,第二准确度阈值可以为根据需要预先设置的准确度阈值,在此不作限制。第二准确度可以为第二梯度提升树模型的的准确度。
[0113]
具体地,服务器可以采用交叉验证方式,利用第二训练数据和第二测试数据对第二梯度提升树模型进行一次迭代训练,并且利用第二验证数据对该一次迭代训练得到的第二梯度提升树模型进行验证,得到该一次迭代训练得到的第二梯度提升树模型的第二准确度,接着将第二准确度和第二准确度阈值进行比较,如果第二准确度小于第二准确度阈值,则对该一次迭代训练得到的第二梯度提升树模型的模型参数进行调整,采用交叉验证方式,利用第二训练数据和第二测试数据对第二梯度提升树模型进行下一次迭代训练,并且利用第二验证数据对该下一次迭代训练得到的第二梯度提升树模型进行验证,得到该下一次迭代训练得到的第二梯度提升树模型的第二准确度,以此类推,直至第二准确度大于或等于第二准确度阈值,得到重新训练好的梯度提升树模型。
[0114]
需要说明的是,该重新训练好的梯度提升树模型可以为四分类模型,利用该重新训练好的梯度提升树模型得到目标社会实体的预测信用评分之后,可以利用基于用于标记空壳实体的标记信用评分和第一信用评分来共同确定的预设评分范围判断目标社会实体是否为空壳实体。
[0115]
由此,在本公开实施例中,能够基于上述构造的特征向量来兼容数据缺失问题,利用融合标记自适应机制对梯度提升树模型进行模型训练,使得梯度提升树模型能够适用于高维数据,并且提高梯度提升树模型所具备的分类准确率。
[0116]
综上所述,本公开实施例所提供的信息处理方法,能够考虑训练数据中的噪声数据对模型推理带来的干扰,基于标记自适应机制重构训练数据,实现对噪声数据的有效过滤与甄别,显著提升训练所得模型的推理性能和泛化性能,并且显著提升对数据标记过程的容错能力,可有效降低数据标记成本,将空壳实体的检测建模工作拓展到小样本领域。同时,本公开实施例所提供的信息处理方法,能够利用目标社会实体的与登记注册相关的目标特征向量和预先训练好的梯度提升树模型对目标社会实体进行较高准确性和鲁棒性的信用评分预测,进而能够提高空壳实体检测和风险量化系统的准确性和鲁棒性,满足税务稽查、风控预警等部门的实际业务需求。
[0117]
图4示出了本公开实施例提供的一种信息处理装置的结构示意图。
[0118]
在本公开一些实施例中,图4所示的信息处理装置可以应用于服务器中。其中,服务器可以是云服务器或者服务器集群等具有存储及计算功能的设备。
[0119]
如图4所示,该信息处理装置400可以包括第一获取单元410、向量提取单元420、第
一预测单元430和类型确定单元440。
[0120]
该第一获取单元410可以配置为获取目标社会实体的目标社会实体信息。
[0121]
该向量提取单元420可以配置为从目标社会实体信息中提取目标社会实体的与登记注册相关的目标特征向量。
[0122]
该第一预测单元430可以配置为将目标特征向量输入预先训练好的梯度提升树模型,得到预先训练好的梯度提升树模型输出的目标社会实体的预测信用评分。
[0123]
该类型确定单元440可以配置为若目标社会实体的预测信用评分符合预设的空壳实体检测条件,则确定目标社会实体为空壳实体。
[0124]
在本公开实施例中,能够在获取目标社会实体的目标社会实体信息之后,从目标社会实体信息中提取目标社会实体的与登记注册相关的目标特征向量,并且将目标特征向量输入预先训练好的梯度提升树模型,得到预先训练好的梯度提升树模型输出的目标社会实体的预测信用评分,若目标社会实体的预测信用评分符合预设的空壳实体检测条件,则确定目标社会实体为空壳实体,由此,能够利用目标社会实体的与登记注册相关的目标特征向量和预先训练好的梯度提升树模型对目标社会实体进行较高准确性和鲁棒性的信用评分预测,进而提高对目标社会实体进行空壳实体检测的准确性,以满足税务稽查、风控预警等部门的实际业务需求。
[0125]
在本公开一些实施例中,该信息处理装置400还可以包括第二获取单元、第一构造单元和第一训练单元。
[0126]
该第二获取单元可以配置为在获取目标社会实体的目标社会实体信息之前,获取样本数据,样本数据包括多个样本社会实体的与登记注册相关的样本特征向量和每个样本社会实体的标记信用评分。
[0127]
该第一构造单元可以配置为基于样本数据,构造第一训练数据、第一测试数据和第一验证数据。
[0128]
该第一训练单元可以配置为利用第一训练数据、第一测试数据和第一验证数据对第一梯度提升树模型进行迭代训练,得到训练好的梯度提升树模型。
[0129]
在本公开一些实施例中,该第一训练单元可以包括第一训练子单元、第一检测子单元和第一迭代子单元。
[0130]
该第一训练子单元可以配置为利用第一训练数据和第一测试数据训练第一梯度提升树模型。
[0131]
该第一检测子单元可以配置为利用第一验证数据,检测第一梯度提升树模型的第一准确度。
[0132]
该第一迭代子单元可以配置为在第一准确度小于第一准确度阈值的情况下,返回执行利用第一训练数据和第一测试数据训练第一梯度提升树模型,直至第一准确度大于或等于第一准确度阈值,得到训练好的梯度提升树模型。
[0133]
在本公开一些实施例中,该信息处理装置400还可以包括第二预测单元、样本更新单元、第二构造单元和第二训练单元。
[0134]
该第二预测单元可以配置为在利用第一训练数据、第一测试数据和第一验证数据对第一梯度提升树模型进行迭代训练,得到训练好的梯度提升树模型之后,将各个样本社会实体的样本特征向量分别输入训练好的梯度提升树模型,得到训练好的梯度提升树模型
输出的各个样本社会实体的预测信用评分。
[0135]
该样本更新单元可以配置为根据样本社会实体的预测信用评分和样本社会实体的标记信用评分,重新标记各个样本社会实体的信用评分,得到重新标记后的样本数据。
[0136]
该第二构造单元可以配置为基于重新标记后的样本数据,构造第二训练数据、第二测试数据和第二验证数据。
[0137]
该第二训练单元可以配置为利用第二训练数据、第二测试数据和第二验证数据对第二梯度提升树模型进行迭代训练,得到重新训练好的梯度提升树模型。
[0138]
在本公开一些实施例中,该第二训练单元可以包括第二训练子单元、第二检测子单元和第二迭代子单元。
[0139]
该第二训练子单元可以配置为利用第二训练数据和第二测试数据训练第二梯度提升树模型。
[0140]
该第二检测子单元可以配置为利用第二验证数据,检测第二梯度提升树模型的第二准确度。
[0141]
该第二迭代子单元可以配置为在第二准确度小于第二准确度阈值的情况下,返回执行利用第二训练数据和第二测试数据训练第二梯度提升树模型,直至第二准确度大于或等于第二准确度阈值,得到重新训练好的梯度提升树模型。
[0142]
在本公开一些实施例中,该向量提取单元420可以包括向量提取子单元和向量生成子单元。
[0143]
该向量提取子单元可以配置为从目标社会实体信息中提取目标社会实体的与登记注册相关的目标社会实体特征。
[0144]
该向量生成子单元可以配置为根据目标社会实体特征生成目标特征向量。
[0145]
其中,目标社会实体特征可以至少包括下列中的至少一种:法人特征、注册地址特征、企业命名特征、财务人员特征、兼职人员特征。
[0146]
在本公开一些实施例中,该第一获取单元410可以包括第一获取子单元和预处理子单元。
[0147]
该第一获取子单元可以配置为从预设数据库获取目标社会实体的实时社会实体信息。
[0148]
该预处理子单元可以配置为对实时社会实体信息进行预处理,得到目标社会实体信息。
[0149]
其中,预处理可以包括下列中的至少一种:缺失处理、异常处理、量纲处理、去重处理、噪声处理。
[0150]
需要说明的是,图4所示的信息处理装置400可以执行图1和图3所示的方法实施例中的各个步骤,并且实现图1和图3所示的方法实施例中的各个过程和效果,在此不做赘述。
[0151]
图5示出了本公开实施例提供的一种信息处理设备的硬件电路结构示意图。
[0152]
如图5所示,该信息处理设备500可以包括处理器501以及存储有计算机程序指令的存储器502。
[0153]
具体地,上述处理器501可以包括中央处理器(cpu),或者特定集成电路(application specific integrated circuit,asic),或者可以被配置成实施本技术实施例的一个或多个集成电路。
[0154]
存储器502可以包括用于信息或指令的大容量存储器。举例来说而非限制,存储器502可以包括硬盘驱动器(hard disk drive,hdd)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(universal serial bus,usb)驱动器或者两个及其以上这些的组合。在合适的情况下,存储器502可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器502可在综合网关设备的内部或外部。在特定实施例中,存储器502是非易失性固态存储器。在特定实施例中,存储器502包括只读存储器(read

only memory,rom)。在合适的情况下,该rom可以是掩模编程的rom、可编程rom(programmable rom,prom)、可擦除prom(electrical programmable rom,eprom)、电可擦除prom(electrically erasable programmable rom,eeprom)、电可改写rom(electrically alterable rom,earom)或闪存,或者两个或及其以上这些的组合。
[0155]
处理器501通过读取并执行存储器502中存储的计算机程序指令,以执行本公开实施例所提供的信息处理方法的步骤。
[0156]
在一个示例中,该信息处理设备500还可包括收发器503和总线504。其中,如图5所示,处理器501、存储器502和收发器503通过总线504连接并完成相互间的通信。
[0157]
总线504包括硬件、软件或两者。举例来说而非限制,总线可包括加速图形端口(accelerated graphics port,agp)或其他图形总线、增强工业标准架构(extended industry standard architecture,eisa)总线、前端总线(front side bus,fsb)、超传输(hyper transport,ht)互连、工业标准架构(industrial standard architecture,isa)总线、无限带宽互连、低引脚数(low pin count,lpc)总线、存储器总线、微信道架构(micro channel architecture,mca)总线、外围控件互连(peripheral component interconnect,pci)总线、pci

express(pci

x)总线、串行高级技术附件(serial advanced technology attachment,sata)总线、视频电子标准协会局部(video electronics standards association local bus,vlb)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线504可包括一个或多个总线。尽管本技术实施例描述和示出了特定的总线,但本技术考虑任何合适的总线或互连。
[0158]
本公开实施例还提供了一种计算机可读存储介质,存储介质存储有计算机程序,当计算机程序被处理器执行时,使得处理器实现本公开实施例所提供的信息处理方法。
[0159]
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
[0160]
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1