1.本技术涉及数据处理及分析技术领域,尤其涉及一种优势主体的筛选方法及设备。
背景技术:2.数据处理是对数据的采集、存储、检索、加工、变换和传输,是系统工程和自动控制的基本环节,贯穿于社会生产和社会生活的各个领域。数据分析是一个检查、清理、转换和建模数据的过程,目的是发现有用的信息、告知结论和支持决策,使决策更加科学。
3.目前,筛选头部主体或优势产业等优势主体的常见方式是对指标做简单升序或降序排列,罗列出前十名、前五十名等榜单。例如,某地市纳税额top 10企业、某学校总分top100学生、某行业全国top50城市等。在某些情形下,这种常见榜单可以基本满足筛选目的,但是这种做法一刀切、将名单数量简单设置为10、20或50等,可解释性不强,也难以避免名单冗余或名单不全的问题,造成优势主体筛选的片面、低效,降低了重点行业、头部人才、热门城市等优势主体的筛选效果。
技术实现要素:4.本技术实施例提供了一种优势主体的筛选方法及设备,用以解决现有的筛选方法不能全面、高效的对优势主体进行筛选的技术问题。
5.一方面,本技术实施例提供了一种优势主体的筛选方法,包括:确定待选主体的可度量指标;基于所述可度量指标,对所述待选主体进行顺序排列,并记录所述待选主体对应的排列序号;对顺序排列后的所述待选主体的可度量指标进行缩放,得到缩放指标;计算任意相邻两个所述待选主体对应的缩放指标之间的斜率;确定所述斜率的绝对值,并基于所述斜率的绝对值最大值对应的待选主体,确定优势主体。
6.本技术实施例提供的筛选方法,通过任意相关的可度量指标均可实现,普适性强。通过计算顺序排列后的相邻待选主体之间的斜率(降幅),度量多个待选主体之间的相对优势程度,自动计算优势主体的数量并完成筛选过程,可解释性强,效率高且保证了筛选出的优势主体的全面性。
7.在本技术的一种实现方式中,对顺序排列后的所述待选主体的可度量指标进行缩放,具体包括:通过以下公式对所述可度量指标进行缩放:f(j)=ln((x(j));其中,j表示任一待选主体;x(j)表示所述任一待选主体对应的可度量指标;f(j)表示所述任一待选主体对应的缩放指标。
8.本技术实施例中对选定的可度量指标进行缩放,增加了该筛选方法对不同应用场景的适应性,即在待选主体的可度量指标相差较大的情况下,也能够保证准确、全面的筛选出优势主体。
9.在本技术的一种实现方式中,所述可度量指标包括以下任意一项或者多项:利润额、交易额以及分数。
10.在本技术的一种实现方式中,基于所述斜率的绝对值最大值对应的待选主体,确定优势主体,具体包括:确定所述绝对值最大值对应的待选主体数量;在所述待选主体数量为1的情况下,确定所述绝对值最大值对应的待选主体的排列序号;基于所述排列序号,确定所述优势主体。
11.在本技术的一种实现方式中,基于所述排列序号,确定所述优势主体,具体包括:确定所述待选主体的顺序排列方式;在所述顺序排列方式为由大到小排列时,将小于等于所述排列序号的多个排列序号对应的待选主体确定为优势主体;以及,在所述顺序排列方式为由小到大排列时,将大于等于所述排列序号的多个排列序号对应的待选主体确定为优势主体。
12.本技术实施例提供的筛选方法,在确定出只有一个斜率绝对值最大值时,直接根据该斜率绝对值最大值对应的待选主体,筛选出优势主体,避免了入选的优势主体出现冗余或者有遗漏的问题,从而保证了筛选出的优势主体的全面性。
13.在本技术的一种实现方式中,所述方法还包括:确定所述绝对值最大值对应的待选主体数量大于1;确定所述绝对值最大值对应的多个待选主体分别对应的排列序号;在所述待选主体对应的顺序排列方式为由大到小的情况下,确定所述多个待选主体分别对应的排列序号中的最小排列序号为临界序号;将小于等于所述临界序号的多个排列序号对应的待选主体,确定为优势主体。
14.在本技术的一种实现方式中,所述方法还包括:在所述待选主体对应的顺序排列方式为由小到大的情况下,确定所述多个待选主体分别对应的排列序号中的最大排列序号为临界序号;将大于等于所述临界序号的多个排列序号对应的待选主体,确定为优势主体。
15.本技术实施例提供的筛选方法中,在存在多个待选主体均对应斜率绝对值最大值时,说明在多个待选主体附近存在较大落差。此时,根据待选主体的顺序排列方式,确定出临界序号,找出在待选主体中存在的首个或者末个斜率绝对值最大待选主体,进而筛选出优势主体,以此保证筛选出的优势主体的准确性,避免了其他斜率绝对值最大的待选主体对筛选过程造成不良影响。
16.在本技术的一种实现方式中,在得到缩放指标之后,所述方法还包括:确定所述优势主体的预设数量上限;在所述待选主体的顺序排列方式为由大到小排列时,计算排列序号小于等于所述预设数量上限的多个待选主体之间的斜率。
17.在本技术的一种实现方式中,所述待选主体包括待选企业以及待选行业;其中,所述待选企业为任一所述待选行业内的若干企业;所述待选行业为任一所述待选企业中的若干行业。
18.另一方面,本技术实施例还提供了一种优势主体的筛选设备,包括:处理器;及存储器,其上存储有可执行代码,当所述可执行代码被执行时,使得所述处理器执行如上述的一种优势主体的筛选方法。
附图说明
19.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
20.图1为本技术实施例提供的一种优势主体的筛选方法流程图;
21.图2为本技术实施例提供的各区县阿胶销售额示意图;
22.图3为本技术实施例提供的阿胶销售额top200区县的负斜率值示意图;
23.图4为本技术实施例提供的一种优势主体的筛选设备内部结构示意图。
具体实施方式
24.为使本技术的目的、技术方案和优点更加清楚,下面将结合本技术具体实施例及相应的附图对本技术技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
25.科学筛选优势主体有广泛的应用场景。例如,在区域规划领域,区域发展战略的制定往往绕不开重点开发区、重点行业的选择;在电子商务领域,基于网络零售平台的销售数据,分析各个品类对应的现有或潜在重点销售区县,是平台确定网络资源倾斜对象、确定与不同区县的重点合作产业的依据等。
26.但现有的筛选技术或者方法存在可解释性不强、未能顾及或难以明确“头部优势”、“明显优势”等关键概念的问题;并且存在决策者在筛选前缺乏优势主体准确数量的先验信息的问题。这些问题就容易造成筛选出的优势主体不够全面,且筛选过程的效率较低。
27.为解决上述技术问题,本技术实施例提供了一种优势主体的筛选方法,通过计算待选主体对应的缩放指标之间的斜率绝对值最大值,筛选出优势主体,避免了优势主体筛选过程中出现冗余或者有遗漏的问题,保证了筛选出的优势主体的全面性及准确性。
28.下面通过附图对本技术实施例提出的技术方案进行详细的说明。
29.图1为本技术实施例提供的一种优势主体的筛选方法流程图。如图1所示,该筛选方法主要包括以下过程:
30.步骤101、确定待选主体的可度量指标。
31.本技术实施例提供的优势主体筛选方法,在筛选优势主体之前,首先对待选主体对应的各项指标进行评估及筛选,以确定出可以用来筛选优势主体的可度量指标。
32.在本技术的一个实施例中,可度量指标包括以下任意一项或者多项:利润额、交易额以及分数。本领域技术人员可以明确的是,在实际应用过程中,对于可度量指标,可根据待选主体的实际性质进行确定,而并不局限于本技术实施例给出的上述几个指标。
33.需要说明的是,本技术实施例中的待选主体可以是待选企业,也可以是待选行业。其中,待选企业为某一待选行业中的多个企业;待选行业为某一待选企业中涉及的多个经营行业。
34.步骤102、基于可度量指标,对待选主体进行顺序排列。
35.基于上述步骤101选择出的可度量指标,对待选主体进行顺序排列。其中,顺序排列方式可以为由大到小排列或者为由小到大排列。
36.具体地,对可度量指标进行由大到小的排列,或者是对可度量指标进行由小到大的排列,以此实现对待选主体的排列,并在完成排列之后,记录下各个待选主体对应的排列序号。
37.例如,以国考成绩选拔国家公务员时,各个待选拔的考试人员为待选主体,各个考试人员对应的国考成绩为可度量指标,基于国考成绩对考试人员进行顺序排列,即排名。
38.步骤103、对顺序排列后的待选主体进行缩放,得到缩放指标。
39.本技术实施例在将待选主体进行顺序排列之后,对排列完成的待选主体的可度量指标进行缩放,以得到缩放指标,进而增加该筛选方法对不同应用场景的适应性以及保证筛选结果的准确性。
40.在本技术的一个实施例中,对待选主体的可度量指标进行缩放,可以通过以下公式实现:
41.f(j)=ln(x(j))
42.其中,j表示任一待选主体;x(j)表示所述任一待选主体对应的可度量指标;f(j)表示所述任一待选主体对应的缩放指标。
43.需要说明的是,本技术实施例中的上述公式仅用于提供示例性说明。在实际的优势主体筛选过程中,本领域技术人员也可以根据实际场景及情况,选用其他合适的缩放算法对待选主体的可度量指标进行缩放,本技术实施例对此不作限定。
44.步骤104、计算任意相邻两个待选主体对应的缩放指标之间的斜率。
45.在实际的优势主体筛选应用场景中,通常需要有明确的筛选数量。为提高准确度,本技术实施例在确定完待选主体的缩放指标之后,还会确定本技术实施例中优势主体的预设数量上限,即确定从待选主体中筛选出来作为优势主体的主体数量的上限值。
46.值得一提的是,本技术实施例提供的筛选方法对该上限的要求特别宽松,基于以下的合理认知,甚至可将该值设定为待选主体总数量的50%:优势主体应该都落在前50%的待选主体中,否则,各待选主体之间的可度量指标或者缩放指标过于平均,没有优势可言。根据以往经验,当对优势主体的预设数量上限毫无先验知识时,可以令:预设数量上限=待选主体数量的10%。
47.进一步地,在确定出优势主体的预设数量上限,以及待选主体的缩放指标之后,根据以下两种方式,计算任意相邻的两个待选主体的缩放指标之间的斜率。
48.方式1:考虑待选主体的顺序排列方式。如果待选主体的顺序排列方式为由大到小排列,即缩放指标越高,待选主体越有优势。此时,根据优势主体的预设数量上限,确定一个临界主体。需要说明的是,该临界主体的排列序号与预设数量上限相等。例如,预设数量上限为5,则选取由大到小排列的待选主体中排列序号为5的待选主体为临界主体。
49.进一步地,计算排列序号小于等于该临界主体的多个待选主体之间的斜率绝对值即可。即,计算排列序号为1
‑
5的5个待选主体的相邻缩放指标之间的斜率绝对值。
50.方式2:不考虑待选主体的顺序排列方式,直接计算相邻两个待选主体的缩放指标之间的斜率绝对值。
51.需要说明的是,本领域技术人员在实际筛选过程中,可以任意选用现有算法或者公式进行斜率的计算,本技术实施例对此不作限定。例如,本技术实施例可以通过以下公式计算斜率:
[0052][0053]
其中,f(j)表示待选主体j的缩放指标;f(j+1)表示待选主体j+1的缩放指标;g(j)则表示待选主体j与待选主体j+1之间对应的斜率。
[0054]
当采用f(j)=ln(x(j))这一缩放算法对可度量指标进行缩放时,上述斜率就演变
为:
[0055][0056]
步骤105、计算斜率绝对值,并基于斜率绝对值最大值对应的待选主体,确定优势主体。
[0057]
在完成斜率计算之后,确定斜率绝对值最大值,并基于该斜率绝对值最大值对应的待选主体,确定优势主体。因为有可能存在多个待选主体对应同一个斜率绝对值最大值的情况出现,所以在进行优势主体筛选之前,首先确定斜率绝对值最大值对应的待选主体的数量。
[0058]
进一步地,在斜率绝对值最大值对应的待选主体的数量为1时,即仅存在一个待选主体对应斜率绝对值最大值时,根据待选主体的顺序排列方式以及该待选主体的排列序号,确定优势主体。
[0059]
具体地,在待选主体的顺序排列方式为由大到小排列时,将小于等于该待选主体排列序号的多个排列序号对应的待选主体确定为优势主体。即将排在斜率绝对值最大值对应的待选主体之前的多个待选主体,确定为优势主体。
[0060]
以及,在待选主体的顺序排列方式为由小到大排列时,将大于等于该待选主体排列序号的多个排列序号对应的待选主体确定为优势主体。即将排在斜率绝对值最大值对应的待选主体之后的多个待选主体,确定为优势主体。
[0061]
更进一步地,在斜率绝对值最大值对应的待选主体的数量大于1时,即存在多个待选主体对应斜率绝对值最大值时,根据多个待选主体的排列序号以及待选主体的顺序排列方式,确定优势主体。
[0062]
具体地,在待选主体对应的顺序排列方式为由大到小的情况下,确定多个待选主体分别对应的排列序号中的最小排列序号为临界序号;将小于等于该临界序号的多个排列序号对应的待选主体,确定为优势主体。
[0063]
以及,在待选主体对应的顺序排列方式为由小到大的情况下,确定多个待选主体分别对应的排列序号中的最大排列序号为临界序号;将大于等于该临界序号的多个排列序号对应的待选主体,确定为优势主体。
[0064]
需要说明的是,在定义了入选优势主体的预设数量上限时,上述筛选出的优势主体数量应该小于等于该预设数量上限。
[0065]
至此,完成优势主体的筛选过程。
[0066]
为了更好的说明本技术实施例提供的优势主体筛选方法,本技术实施例中还提供了以下例子说明。
[0067]
本举例以网络零售数据分析中的一个应用场景为例做说明:基于全国各区县2018年7月至2019年7月阿胶的网络零售销售额(一个可度量指标),确定哪些区县(待选主体)的阿胶具有全国销售优势。主要步骤如下:
[0068]
第一步,取优势主体预设数量上限m=200;
[0069]
第二步,各区县按照阿胶销售额降序排名(销售额越高,区县越有优势);方便叙述,记第j名区县的销售额为x(j)。具体的各区县阿胶销售额如图2所示。
[0070]
第三步,令f(j)=ln(x(j)),对销售额指标进行缩放,计算点(j,f(j))与点(j+1,f
(j+1))所在直线的斜率:
[0071][0072]
并求解以下最优化问题;
[0073][0074]
不妨设上述最优化问题的最优解为j0,则阿胶销售额排名相邻的区县之间的最大差距产生于第j0名与第j
0+1
名之间,排名前j0名的区县均较第j
0+1
名及之后的区县有绝对优势。
[0075]
在这个案例中,实际的计算结果为j0=2,即负斜率
‑
g(j)的最大值出现在第二个待选主体与第三个待选主体之间,如图3所示。排名前2名的区县即是阿胶销售的优势区县,分别是山东省聊城市东阿县、山东省聊城市东昌府区。“东阿阿胶”品牌知名度高,东阿县与东昌府区相邻,都是阿胶及阿胶制品主产区,印证了本技术实施例提供的筛选方法的准确性。
[0076]
以上为本技术提供的方法实施例,基于同样的发明构思,本技术实施例还提供了一种优势主体的筛选设备,其内部结构如图4所示。
[0077]
图4为本技术实施例提供的一种优势主体的筛选设备内部结构示意图。如图4所示,设备包括:处理器401;及存储器402,其上存储有可执行代码,当可执行代码被执行时,使得处理器401执行如上述的一种优势主体的筛选方法。
[0078]
在本技术的一个实施例中,处理器401用于确定待选主体的可度量指标;并基于可度量指标,对待选主体进行顺序排列,并记录待选主主体对应的排列序号;以及用于对顺序排列后的待选主体的可度量指标进行缩放,得到缩放指标,并计算任意相邻两个待选主体对应的缩放指标之间的斜率;还用于确定斜率的绝对值,并基于斜率的绝对值最大值对应的待选主体,确定优势主体。
[0079]
本技术实施例提供的优势主体的筛选方法及设备,具有以下技术效果:
[0080]
一方面,与一般的筛选方法可解释性不强、未能顾及或难以明确“头部优势”、“明显优势”等关键概念相比,本技术实施例提供的筛选方法先通过引入数学上斜率的概念,用顺序排列(例如降序排列)的相邻主体之间的斜率绝对值(例如负斜率
‑
g(j))度量优势程度,对“头部优势”、“明显优势”做了一种合理刻画;再将不同场景下筛选优势主体的问题归纳为对以下系统的求解:
[0081][0082]
假设最优解j=j0,则排名相邻的待选主体之间的最大差距出现在第j0名与第j
0+1
名待选主体之间,排名前j0名的待选主体均较第j
0+1
名及之后的待选主体有绝对优势。本技术实施例提供的筛选方法用最大的斜率绝对值(例如负斜率
‑
g(j))首次出现的位置圈定优势主体:该位置以及该位置前面的待选主体为优势主体,可解释性强,操作简便。
[0083]
另一方面,本技术实施例提供的筛选方法不要求决策者提供有关优势主体的精确数量的先验信息,该筛选方法通过计算最大的斜率绝对值首次出现的位置,给出了最终入选的优势主体的数量。这种自动判定优势主体数量的机制还能有效避免入选的优势主体冗
余或有遗漏的问题。
[0084]
此外,对可度量指标的缩放,增加了该筛选方法对不同应用场景的适用性。
[0085]
本技术中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0086]
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0087]
以上所述仅为本技术的实施例而已,并不用于限制本技术。对于本领域技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本技术的权利要求范围之内。