一种区域目标人群的精准识别方法、装置、设备和介质与流程

文档序号:24888708发布日期:2021-04-30 13:13阅读:192来源:国知局
一种区域目标人群的精准识别方法、装置、设备和介质与流程
本发明涉及计算机
技术领域
,特别涉及一种区域目标人群的精准识别方法、装置、设备和介质。
背景技术
:基于运营商位置轨迹大数据,通过少量样本用户的位置轨迹数据,运用相关的用户相似度识别方法,进行精准识别目标人群。目前现有的对于区域内目标人群的识别,一般运用两种方法,分别适用于以下两种情况:第一种,存在有标签的样本数据的情况,识别时需运用构建指标体系,运用机器学习分类算法进行建模识别。一般运用到的机器学习分类算法如决策树算法,决策树是用于分类和预测的主要技术之一,决策树学习是以实例为基础的归纳学习算法,它着眼于从一组无次序、无规则的实例中推理出以决策树表示的分类规则。构造决策树的目的是找出属性和类别间的关系,用它来预测将来未知类别的记录的类别。决策树算法流程如下:步骤1:将所有的数据看成是一个节点,进入步骤2;步骤2:从所有的数据特征中挑选一个数据特征对节点进行分割,进入步骤3;步骤3:生成若干孩子节点,对每一个孩子节点进行判断,如果满足停止分裂的条件,进入步骤4;否则,进入步骤2;步骤4:设置该节点是子节点,其输出的结果为该节点数量占比最大的类别。但此种方法较大程度依赖于大量的样本数据进行模型训练及评估,同时需要多维指标数据作为模型输入数据,由此导致模型结果较大程度受指标数据质量影响。第二种,无标签无样本数据的情况,识别时需构建指标体系,运用机器学习聚类算法进行建模识别。一般运用到的机器学习聚类算法如高斯混合模型(gaussianmixturemodel,简称gmm)算法,高斯混合模型是一种业界广泛使用的聚类算法。它是多个高斯分布函数的线性组合,理论上gmm可以拟合出任意类型的分布,通常用于解决同一集合下的数据包含多种不同的分布的情况。高斯混合模型使用了期望最大(expectationmaximization,简称em)算法进行训练,故此我们在了解gmm之后,也需要了解如何通过em算法训练(求解)gmm。期望最大算法,称为机器学习十大算法之一,是一种从不完全数据或有数据丢失的数据集(存在隐含变量)中求解概率模型参数的最大似然估计方法。高斯混合模型(gmm)的最大期望(em)聚类算法流程如下:步骤1.选择簇的数量(与k-means类似)并随机初始化每个簇的高斯分布参数(均值和方差)。也可以先观察数据给出一个相对精确的均值和方差。步骤2.给定每个簇的高斯分布,计算每个数据点属于每个簇的概率。一个点越靠近高斯分布的中心就越可能属于该簇。步骤3.基于这些概率我们计算高斯分布参数使得数据点的概率最大化,可以使用数据点概率的加权来计算这些新的参数,权重就是数据点属于该簇的概率。步骤4.重复迭代2和3直到在迭代中的变化不大。但此种方法由于需要多维指标数据进行指标体系构建,故模型效果好坏较大程度受指标数据质量的影响。同时,由于无标签数据,聚类算法的数据结果无法进行人工干预及调优,聚类结果可解释性好坏未知。技术实现要素:本发明要解决的技术问题,在于提供一种区域目标人群的精准识别方法、装置、设备和介质,采用单维指标数据作为数据源,其准确度不受其他无关因素影响,且单维指标数据为运营商位置轨迹数据,更稳定可靠;核心算法为余弦相似度算法,复杂度低,适用场景更广泛。第一方面,本发明提供了一种区域目标人群的精准识别方法,包括下述步骤:s1、获取区域范围内的所有基站数据,样本用户全天位置轨迹数据以及待判断用户全天位置轨迹数据;s2、从所述样本用户全天位置轨迹数据中剔除非区域基站的打点数据和非统计时间的打点数据,得到样本用户序列;从待判断用户全天位置轨迹数据中剔除非区域基站的打点数据和非统计时间的打点数据,得到待判断用户序列;s3、将所述样本用户序列与所述待判断用户序列合并后,得到打点基站并集;s4、将打点基站并集分别与所述样本用户序列、所述待判断用户序列做打点频率比较和驻留时间比较后,分别形成样本数据向量和待判断数据向量;s5、将所述样本数据向量和所述待判断数据向量采用平均数修正处理后,再进行余弦相似度计算,得到待判断数据向量相似度;s6、将待判断数据向量相似度的大小与预设的阈值进行比较,若待判断数据向量相似度大于所述阈值,则判断该待判断数据向量相似度对应的用户属于所述区域目标人群。第二方面,本发明提供了一种区域目标人群的精准识别装置,包括:数据获取模块,用于获取区域范围内的所有基站数据,样本用户全天位置轨迹数据以及待判断用户全天位置轨迹数据;过滤模块,用于从所述样本用户全天位置轨迹数据中剔除非区域基站的打点数据和非统计时间的打点数据,得到样本用户序列;同时用于从待判断用户全天位置轨迹数据中剔除非区域基站的打点数据和非统计时间的打点数据,得到待判断用户序列;合并模块,用于将所述样本用户序列与所述待判断用户序列合并后,得到打点基站并集;向量形成模块,用于将打点基站并集分别与所述样本用户序列、所述待判断用户序列做打点频率比较和驻留时间比较后,分别形成样本数据向量和待判断数据向量;修正模块,用于将所述样本数据向量和所述待判断数据向量采用平均数修正处理后;相似度计算模块,用于将修正后的所述样本数据向量和所述待判断数据向量进行余弦相似度计算,得到待判断数据向量相似度;判断模块,用于将待判断数据向量相似度的大小与预设的阈值进行比较,若待判断数据向量相似度大于所述阈值,则判断该待判断数据向量相似度对应的用户属于所述区域目标人群。第三方面,本发明提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的方法。第四方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面所述的方法。本发明实施例中提供的多个技术方案,至少具有如下技术效果或优点:本发明采用的数据集主要基于运营商位置轨迹数据,相对于构建指标数据体系来说,即采用单维指标数据作为数据源,输入数据维度更少,不依赖于其他数据源,亦不需要加入其他数据采集设备,故其准确度不受其他无关因素影响。运营商位置轨迹数据为稳定可靠的数据源渠道,故输入数据质量更有保障。且运用余弦相似度作为核心算法,通过平均数修正处理法进行最终相似度计算,根据阈值设定进行用户是否为目标用户的判断,算法复杂程度更低,对于样本数据的数据量级要求更低,仅需较少的数据作为目标人群识别标准,故适用场景更广泛,使用方式更灵活简便。上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。附图说明下面参照附图结合实施例对本发明作进一步的说明。图1为本发明实施例一中方法中的流程图;图2为本发明实施例中余弦相似度用向量空间的示意图;图3为本发明实施例中修正前两个向量的示意图;图4为本发明实施例中修正后两个向量的示意图;图5为本发明实施例二中装置的结构示意图;图6为本发明实施例三中电子设备的结构示意图;图7为本发明实施例四中介质的结构示意图。具体实施方式本申请实施例通过提供一种区域目标人群的精准识别方法、装置、设备和介质,采用单维指标数据作为数据源,其准确度不受其他无关因素影响,且单维指标数据为运营商位置轨迹数据,更稳定可靠;核心算法为余弦相似度算法,复杂度低,适用场景更广泛。本申请实施例中的技术方案,总体思路如下:本发明采用的数据集主要基于运营商位置轨迹数据,相对于构建指标数据体系来说,即采用单维指标数据作为数据源,输入数据维度更少,不依赖于其他数据源,亦不需要加入其他数据采集设备,故其准确度不受其他无关因素影响。运营商位置轨迹数据为稳定可靠的数据源渠道,故输入数据质量更有保障。且运用余弦相似度作为核心算法,通过平均数修正处理法进行最终相似度计算,根据阈值设定进行用户是否为目标用户的判断,算法复杂程度更低,对于样本数据的数据量级要求更低,仅需较少的数据作为目标人群识别标准,故适用场景更广泛,使用方式更灵活简便。实施例一如图1所示,本实施例提供一种区域目标人群的精准识别方法,包括下述步骤:s1、获取区域范围内的所有基站数据,样本用户全天位置轨迹数据以及待判断用户全天位置轨迹数据;s2、从所述样本用户全天位置轨迹数据中剔除非区域基站的打点数据和非统计时间的打点数据,得到样本用户序列;从待判断用户全天位置轨迹数据中剔除非区域基站的打点数据和非统计时间的打点数据,得到待判断用户序列;s3、将所述样本用户序列与所述待判断用户序列合并后,得到打点基站并集;s4、将打点基站并集分别与所述样本用户序列、所述待判断用户序列做打点频率比较和驻留时间比较后,分别形成样本数据向量和待判断数据向量;s5、将所述样本数据向量和所述待判断数据向量采用平均数修正处理后,再进行余弦相似度计算,得到待判断数据向量相似度;s6、将待判断数据向量相似度的大小与预设的阈值进行比较,若待判断数据向量相似度大于所述阈值,则判断该待判断数据向量相似度对应的用户属于所述区域目标人群。由于阈值越大,相似度越要求越高,反之,阈值越小,相似度越要求越低,因此本发明中,阈值取0.5时为佳。其中,作为本实施例的一种更优或更为具体的实现方式,所述步骤s4具体是:以一个用户为单位,将按打点顺序排列的原始的样本用户序列中的“当前基站的数量”和“驻留时长降倍值”相加再取整,并按照所述打点基站并集的序列顺序依次排列,得到样本用户二次序列;再将样本用户二次序列与打点基站并集进行比较,形成样本数据向量,该样本数据向量的维度与打点基站并集中的基站数量相对应,样本数据向量的各个维度值等于样本用户二次序列的权重值,没有对应权重值的以“0”记;以一个用户为单位,将按打点顺序排列的原始的待判断用户序列中的“当前基站的打点数量”和“驻留时长降倍值”相加再取整,得到权重值,并按照所述打点基站并集的序列顺序依次排列,得到待判断用户二次序列;再将所述待判断用户二次序列与打点基站并集进行比较,形成待判断数据向量,该待判断数据向量的维度与打点基站并集中的基站数量相对应,待判断数据向量的各个维度值等于待判断用户二次序列的权重值,没有对应权重值的以“0”记。以下以一个待判断用户和样本用户为例,二者按打点时间顺序的序列如下:待判断用户序列样本用户序列打点基站并集20989_9561753,620944_219035141,91.020989_956175320989_230644737,2320944_219035140,6.020944_8489523720944_219035141,18.020944_21903514120944_219035142,18.020944_22037300920944_84895237,20.020944_21903514020944_220373009,18240.020944_21903514220989_230644737待判断用户序列中的某个用户先后分别在20989_9561753和20989_230644737两个基站打点,驻留时长分别为6秒和23秒,因此对于基站20989_9561753来说,当前基站的打点数量=1,驻留时长=6,将驻留时长除以300进行降倍处理,得到降倍值0.02”,将“当前基站的打点数量”和“驻留时长降倍值”相加再取整得到权重值具体是:1+0.02取整后等于1。对于基站20989_230644737来说,当前基站的打点数量=1,驻留时长=23,将驻留时长除以300进行降倍处理,得到降倍值0.08”,将“当前基站的打点数量”和“驻留时长降倍值”相加再取整具体是:1+0.08取整后仍等于1。样本用户序列中的某个用户先后分别在20944_219035141、20944_219035140、20944_219035141、20944_219035142、20944_84895237、和20944_220373009六个基站打点,驻留时长分别为91秒、6秒、18秒、18秒、20秒以及18240秒,根据“当前基站的打点数量”和“驻留时长降倍值”相加再取整后,权重值分别为2、1、1、1和61。汇总后如下表所示:待判断用户二次序列样本用户二次序列打点基站并集20989_9561753,120944_219035141,220989_956175320989_230644737,120944_219035140,120944_8489523720944_219035141,120944_21903514120944_219035142,120944_22037300920944_84895237,120944_21903514020944_220373009,6120944_21903514220989_230644737再将所述待判断用户二次序列与打点基站并集进行比较,形成待判断数据向量,该待判断数据向量的维度与打点基站并集中的基站数量相对应,待判断数据向量的各个维度值等于待判断用户二次序列的权重值,没有对应权重值的以“0”记。经比较,打点基站并集中基站20989_9561753和基站20989_230644737分别在待判断用户二次序列中各出现过一次,其余基站没有出现过,因此待判断数据向量与基站20989_9561753和基站20989_230644737相对应的维度值为待判断用户二次序列的权重值,即为1,其余维度值为0,具体过程如下表所示:待判断用户二次序列打点基站并集待判断数据向量20989_9561753,120989_9561753120989_230644737,120944_84895237020944_219035141020944_220373009020944_219035140020944_219035142020989_2306447371待判断用户向量为[1,0,0,0,0,0,1]。同理,将样本用户二次序列与打点基站并集进行比较,形成样本数据向量,该样本数据向量的维度与打点基站并集中的基站数量相对应,样本数据向量的各个维度值等于样本用户二次序列的权重值,没有对应权重值的以“0”记;由于打点基站并集中基站20944_219035141在样本用户二次序列中出现两次,因此样本数据向量中与基站20944_219035141对应的维度值由这两次的权重值相加,即1+1=2,打点基站并集中基站20989_9561753与基站20989_230644737在样本用户二次序列中没有出现过,因此以“0”记。具体过程如下表所示:样本用户二次序列打点基站并集样本数据向量20944_219035141,220989_9561753020944_219035140,120944_84895237120944_219035141,120944_219035141220944_219035142,120944_2203730096120944_84895237,120944_219035140120944_220373009,6120944_219035142120989_2306447370样本数据向量为[0,1,2,61,1,1,0]。如图2所示,余弦相似度用向量空间中两个向量a和b的夹角θ的余弦值作为衡量两个向量a和b个体间差异的大小。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫"余弦相似性"。计算公式如下:以前述示例中的两个向量为例,待判断用户向量为[1,0,0,0,0,0,1]和样本数据向量[0,1,2,61,1,1,0]的余弦相似度计算公式如下:但由于余弦相似度仅考虑向量维度方向上的相似而没考虑到各个维度的量纲的差异性,往往会不符合事实,因此,在计算余弦相似度之前可以进行修正操作。所述步骤s5中,将所述样本数据向量和所述待判断数据向量的每个维度减去|x1-x2|/2的修正操作,其中,x1是指待判断数据向量相应维度的横坐标,x2是指样本数据向量相应维度的横坐标,但如果x1=x2,或者x1,x2均等于0,则不作平均数修正处理。平均数修正处理的目的是解决余弦相似度仅考虑向量维度方向上的相似而没考虑到各个维度的量纲的差异性,所以在计算相似度的前,如果x1=x2,或者x1,x2均等于0,则不作处理,其余维度做了每个维度|x1-x2|/2的修正操作。如图3所示,例如假设两个向量分别为:则此时两向量明显差异很大,相似度>0.5,不符合事实。做完平均数修正处理后的数组为:如图4所示,此时相似度为-0.89,且对比图3和图4,两个向量差距明显。基于同一发明构思,本申请还提供了与实施例一中的方法对应的装置,详见实施例二。实施例二如图5所示,在本实施例中提供了一种区域目标人群的精准识别装置,包括:数据获取模块,用于获取区域范围内的所有基站数据,样本用户全天位置轨迹数据以及待判断用户全天位置轨迹数据;过滤模块,用于从所述样本用户全天位置轨迹数据中剔除非区域基站的打点数据和非统计时间的打点数据,得到样本用户序列;同时用于从待判断用户全天位置轨迹数据中剔除非区域基站的打点数据和非统计时间的打点数据,得到待判断用户序列;合并模块,用于将所述样本用户序列与所述待判断用户序列合并后,得到打点基站并集;向量形成模块,用于将打点基站并集分别与所述样本用户序列、所述待判断用户序列做打点频率比较和驻留时间比较后,分别形成样本数据向量和待判断数据向量;修正模块,用于将所述样本数据向量和所述待判断数据向量采用平均数修正处理后;相似度计算模块,用于将修正后的所述样本数据向量和所述待判断数据向量进行余弦相似度计算,得到待判断数据向量相似度;判断模块,用于将待判断数据向量相似度的大小与预设的阈值进行比较,若待判断数据向量相似度大于所述阈值,则判断该待判断数据向量相似度对应的用户属于所述区域目标人群。其中,作为本实施例的一种更优或更为具体的实现方式,所述向量形成模块具体是:以一个用户为单位,将按打点顺序排列的原始的样本用户序列中的“当前基站的数量”和“驻留时长降倍值”相加再取整,并按照所述打点基站并集的序列顺序依次排列,得到样本用户二次序列;再将样本用户二次序列与打点基站并集进行比较,形成样本数据向量,该样本数据向量的维度与打点基站并集中的基站数量相对应,样本数据向量的各个维度值等于样本用户二次序列的权重值,没有对应权重值的以“0”记;以一个用户为单位,将按打点顺序排列的原始的待判断用户序列中的“当前基站的打点数量”和“驻留时长降倍值”相加再取整,得到权重值,并按照所述打点基站并集的序列顺序依次排列,得到待判断用户二次序列;再将所述待判断用户二次序列与打点基站并集进行比较,形成待判断数据向量,该待判断数据向量的维度与打点基站并集中的基站数量相对应,待判断数据向量的各个维度值等于待判断用户二次序列的权重值,没有对应权重值的以“0”记。所述修正模块具体是将所述样本数据向量和所述待判断数据向量的每个维度减去|x1-x2|/2的修正操作,其中,x1是指待判断数据向量相应维度的横坐标,x2是指样本数据向量相应维度的横坐标,但如果x1=x2,或者x1,x2均等于0,则不作平均数修正处理。所述步骤s6中,所述阈值为0.5。由于本发明实施例二所介绍的装置,为实施本发明实施例一的方法所采用的装置,故而基于本发明实施例一所介绍的方法同样适用于本发明实施例二所介绍的装置,且本领域所属人员能够了解该装置的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。基于同一发明构思,本申请提供了实施例一对应的电子设备实施例,详见实施例三。实施例三本实施例提供了一种电子设备,如图6所示,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时,可以实现实施例一中任一实施方式。由于本实施例所介绍的电子设备为实施本申请实施例一中方法所采用的设备,故而基于本申请实施例一中所介绍的方法,本领域所属技术人员能够了解本实施例的电子设备的具体实施方式以及其各种变化形式,所以在此对于该电子设备如何实现本申请实施例中的方法不再详细介绍。只要本领域所属技术人员实施本申请实施例中的方法所采用的设备,都属于本申请所欲保护的范围。基于同一发明构思,本申请提供了实施例一对应的存储介质,详见实施例四。实施例四本实施例提供一种计算机可读存储介质,如图7所示,其上存储有计算机程序,该计算机程序被处理器执行时,可以实现实施例一中任一实施方式。以江苏省南京市新城科技园为例进行本发明的效果展示,进行该科技园区上班人群的识别。1、首先挑选10个在新城科技园上班的用户作为样本数据准备进行学习;2、其次挑选100个12月23日在新城基站下有停留但是停留时长少于15分钟的100个用户数据作为负样本;3、挑选40个已知在新城工作的用户作为正样本;4、其中算法的识别结果如下表所示:5、基于该正样本(仅为本公司人员)数据,共识别出8点到18点全天在新城六栋上班的移动用户工作人员213人。本申请实施例中提供的技术方案,至少具有如下技术效果或优点:本发明采用的数据集主要基于运营商位置轨迹数据,相对于构建指标数据体系来说,即采用单维指标数据作为数据源,输入数据维度更少,不依赖于其他数据源,亦不需要加入其他数据采集设备,故其准确度不受其他无关因素影响。运营商位置轨迹数据为稳定可靠的数据源渠道,故输入数据质量更有保障。且运用余弦相似度作为核心算法,通过平均数修正处理法进行最终相似度计算,根据阈值设定进行用户是否为目标用户的判断,算法复杂程度更低,对于样本数据的数据量级要求更低,仅需较少的数据作为目标人群识别标准,故适用场景更广泛,使用方式更灵活简便。本领域内的技术人员应明白,本发明的实施例可提供为方法、装置或系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。虽然以上描述了本发明的具体实施方式,但是熟悉本
技术领域
的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1