本技术涉及计算机,尤其涉及一种基于动态策略的行业预测方法及设备。
背景技术:
1、现有技术中,行业分类的用途很广,最新的行业分类标准是gb/t4754-2017《国民经济行业分类》。在统计局报告和统计年鉴里,经常根据行业做统计结果。在信用卡申请时,为了简化用户体验,需要申请人同时提供公司名称,然后根据现有的预测方式来预测申请人所在的行业,现有的预测方式可以是去查询数据库,调用规则或及其学习模型等来预测行业。但,基于数据库查询的预测方式存在预测能力有限的问题,即不具有泛化能力,无法预测不在数据库里的企业名称。基于模型的预测方式需要收集大量有行业标记的样本数据,才可以让模型达到很好的效果,由于收集时间很长,模型短期无法单独使用;无法直接拒绝预测。基于规则的预测方式中,规则积累需要很长的时间。
技术实现思路
1、本技术的一个目的是提供一种基于动态策略的行业预测方法及设备,通过用于对行业进行预测的数据库处于的不同时期,采用不同的预测策略,来对需要进行行业预测的目标公司名称进行行业预测,实现了对待预测的目标公司名称进行动态策略的选取,确保预测行业的精确度和实际契合度。
2、根据本技术的一个方面,提供了一种基于动态策略的行业预测方法,其中,该方法包括:获取待预测行业的目标公司名称,并确定用于对行业进行预测的数据库当前所处的目标阶段;
3、为所述目标阶段匹配对应的目标预测策略,所述目标预测策略包括至少一种预测方式;
4、通过所述目标预测策略中的每种所述预测方式,分别对所述目标公司名称进行行业预测,得到每种所述预测方式对应的至少一个备选行业及其行业分;
5、基于所述目标预测策略中的每种所述预测方式对应的至少一个备选行业及其行业分,确定所述目标公司名称对应的至少一个预测行业。
6、进一步地,上述方法中,所述基于所述目标预测策略中的每种所述预测方式对应的至少一个备选行业及其行业分,确定所述目标公司名称对应的至少一个预测行业,包括:
7、将所述目标预测策略中所有的所述预测方式对应的至少一个备选行业进行合并后去重,得到所述目标预测策略对应的备选行业列表及其中的行业数量,所述备选行业列表包括至少一个备选行业;
8、判断所述备选行业列表中的行业数量是否大于等于预设数量;
9、若是,则将所述备选行业列表中的各备选行业,按照所述行业分从高到低的顺序进行排序,并将所述行业分最高的所述预设数量的备选行业,作为所述目标公司名称对应的所述预设数量的预测行业;
10、若否,则直接将所述备选行业列表中的各所述备选行业,确定为所述目标公司名称对应的至少一个预测行业。
11、进一步地,上述方法中,所述预测方式包括数据预测方式、规则预测方式及模型预测方式。
12、进一步地,上述方法中,若所述预测方式为数据预测方式,其中,所述通过所述目标预测策略中的所述预测方式,对所述目标公司名称进行行业预测,得到所述预测方式对应的至少一个备选行业及其行业分,包括:
13、对所述目标公司名称进行清洗,以保留中文和/或英文名称,得到所述目标公司名称对应的第一公司名称;
14、对所述第一公司名称进行加密处理,得到对应的第一加密公司名称;
15、查询所述第一加密公司名称是否存在于预设的数据集内,其中,所述预设的数据集包括至少一个样本数据,每个所述样本数据包括预设加密公司名称与行业之间的映射关系;
16、若是,则将所述预设的数据集中的、与所述第一加密公司名称对应的行业确定为所述数据预测方式对应的备选行业,并计算所述备选行业的行业分。
17、进一步地,上述方法中,所述查询所述第一加密公司名称是否存在于预设的数据集内之后,还包括:
18、若否,则去掉所述第一公司名称中的第一个中文形式的公司字符和/或第一个英文形式的公司字符之后的所有字符,得到第二公司名称;
19、对所述第二公司名称进行加密处理,得到对应的第二加密公司名称;
20、若所述第二加密公司名称存在于所述预设的数据集内,则将所述预设的数据集中的、与所述第二加密公司名称对应的行业确定为所述数据预测方式对应的备选行业,并计算所述备选行业的行业分。
21、进一步地,上述方法中,若所述预测方式为规则预测方式,其中,所述通过所述目标预测策略中的所述预测方式,对所述目标公司名称进行行业预测,得到所述预测方式对应的至少一个备选行业及其行业分,包括:
22、将所述目标公司名称输入至预设的规则库进行行业预测,输出所述规则预测方式对应的至少一个备选行业及其行业分,其中,所述预设的规则库通过预设的规则来预测公司名称对应的一个或多个行业并给出每个行业的行业分。
23、进一步地,上述方法中,若所述预测方式为模型预测方式,其中,所述通过所述目标预测策略中的所述预测方式,对所述目标公司名称进行行业预测,得到所述预测方式对应的至少一个备选行业及其行业分,包括:
24、将所述目标公司名称输入至用于对公司名称对应的行业进行预测的行业预测模型,输出所述目标公司名称对应的至少一个第一行业及其行业分;
25、分别对每个所述第一行业的行业分进行归一化处理,得到每个所述第一行业对应的归一化行业分;
26、分别计算所述目标公司名称对应的所有所述第一行业的归一化行业分的样本标准差、最大值和平均值u;
27、若所述样本标准差小于预设的最小标准差,则拒绝对所述目标公司名称进行对应的行业的预测;
28、若所述最大值小于预设的最小等同分p/n,则拒绝对所述目标公司名称进行对应的行业的预测,其中,p为最小等同分倍数,n为所述第一行业的数量;
29、对所述至少一个第一行业进行遍历,若所述第一行业的归一化行业分大于等于u×t,则将所述归一化行业分大于等于u×t时对应的第一行业确定为所述目标公司名称对应的第二行业,以得到所述目标公司名称对应的至少一个第二行业并统计所述第二行业的数量,其中,t为预设的最小平均分倍数;
30、判断所述第二行业的数量是否大于预设的备选数量;
31、若是,则对所述至少一个第二行业的归一化行业分按照从高到低的顺序进行排序,并将所述归一化行业分最高的所述预设的备选数量的第二行业,作为所述目标公司名称对应的备选行业;
32、若否,则将所述目标公司名称对应的至少一个第二行业,作为所述目标公司名称对应的备选行业。
33、进一步地,上述方法中,所述方法还包括:
34、获取用于对行业预测模型进行训练的训练样本集,所述训练样本集包括至少一个初始样本,每个所述初始样本中包括原始公司名称;
35、分别对每个所述初始样本中的原始公司名称进行仅保留中文和/或英文的操作,得到原始公司名称对应的第一名称;
36、基于所述第一名称对所述训练样本集中的所有所述初始样本进行样本过滤,得到至少一个训练样本;
37、基于所述至少一个训练样本进行公司名称对应的行业的模型训练,得到所述用于对公司名称对应的行业进行预测的行业预测模型。
38、根据本技术的另一个方面,还提供了一种非易失性存储介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行时,使所述处理器实现如上述基于动态策略的行业预测方法。
39、根据本技术的另一个方面,还提供了一种基于动态策略的行业预测设备,其中,该设备包括:
40、一个或多个处理器;
41、计算机可读介质,用于存储一个或多个计算机可读指令,
42、当所述一个或多个计算机可读指令被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述基于动态策略的行业预测方法。
43、与现有技术相比,本技术通过获取待预测行业的目标公司名称,并确定用于对行业进行预测的数据库当前所处的目标阶段;为所述目标阶段匹配对应的目标预测策略,所述目标预测策略包括至少一种预测方式;通过所述目标预测策略中的每种所述预测方式,分别对所述目标公司名称进行行业预测,得到每种所述预测方式对应的至少一个备选行业及其行业分;基于所述目标预测策略中的每种所述预测方式对应的至少一个备选行业及其行业分,确定所述目标公司名称对应的至少一个预测行业,通过用于对行业进行预测的数据库处于的不同时期,采用不同的预测策略,来对需要进行行业预测的目标公司名称进行行业预测,实现了对待预测的目标公司名称进行动态策略的选取,确保预测行业的精确度和实际契合度。