用户数据处理方法及装置的制作方法

文档序号：6380114阅读：158来源：国知局

专利名称：用户数据处理方法及装置的制作方法
技术领域：
本发明涉及数据处理技术，尤其涉及一种用户数据处理方法及装置。
背景技术：
为了有效掌握用户信息及用户状态变化，运营商需要收集大量用户数据来进行分析，用户数据通常包括基本信息、社会信息、爱好信息、使用信息和接触信息等多个方面，每个方面即为一组维度。因此，对于每一个用户，通常可以形成一个几百，甚至上千个维度的长向量来描述该用户及其行为特征。
随着用户数量的不断增长，用户数据也呈爆炸式增加。由于用户数据的维数较多，且各维数据之间的关联性较为稀疏，必然增加了用户数据的分析难度，亟需一种海量、高维用户数据的处理方法。发明内容
本发明提供一种用户数据处理方法及装置，以提高对用户数据的处理效果。
本发明第一个方面提供一种用户数据处理方法，包括
获取多个用户样本数据，对所述多个用户样本数据分别进行降维处理，对多个降维处理后的用户样本数据进行训练，生成多个状态码本；
将待处理的用户数据进行降维处理，将降维处理后的用户数据进行归一化处理，将归一化处理后的用户数据映射到所述多个状态码本中的一个状态码本，以根据所映射到的状态码本进行用户分析。
本发明另一个方面提供一种用户数据处理装置，包括
状态码本生成模块，用于获取多个用户样本数据，对所述多个用户样本数据分别进行降维处理，对多个降维处理后的用户样本数据进行训练，生成多个状态码本；
处理模块，用于将待处理的用户数据进行降维处理，将降维处理后的用户数据进行归一化处理，将归一化处理后的用户数据映射到所述多个状态码本中的一个状态码本，以根据所映射到的状态码本进行用户分析。
由上述技术方案可知，本发明提供的用户数据处理方法及装置，获取多个用户样本数据，对多个用户样本数据分别进行降维处理，对多个降维处理后的用户样本数据进行训练，生成多个状态码本，将待处理的用户数据进行降维处理，将降维处理后的用户数据进行归一化处理，将归一化处理后的用户数据映射到多个状态码本中的一个状态码本，以根据所映射到的状态码本进行用户分析。通过状态码本的生成，可以通过状态码本实现标准化、统一化、低维度的用户状态表示，将状态码本作为深度用户分析的统一基准，再将待处理的用户数据进行降维和归一化处理，将多维且维度信息稀疏的用户数据处理成为便于分析的数据，再将该处理后的用户数据映射到一个状态码本，通过该映射到状态码本即可实现用户分析，大大提高了用户数据的处理效果。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
图I为本发明实施例提供的一种用户数据处理方法流程图2为本发明实施例提供的另一种用户数据处理方法流程图3为本发明实施例提供的一种用户数据处理装置结构示意图4为本发明实施例提供的另一种用户数据处理装置结构示意图。
具体实施方式
图I为本发明实施例提供的一种用户数据处理方法流程图。如图I所示，本实施例提供的用户数据处理方法具体可以应用于对运营商收集到的用户数据进行处理，可以通过用户数据处理装置来执行，该用户数据处理装置可以通过软和/或硬件的方式来实现。
本实施例提供的用户数据处理方法具体包括
步骤10、获取多个用户样本数据，对多个用户样本数据分别进行降维处理，对多个降维处理后的用户样本数据进行训练，生成多个状态码本；
具体地，用户样本数据具体为采集到的用户历史数据，获取到的用户样本数据可以为以用户和时间进行标识的一维向量数据，该用户样本数据具体包括多个维度，维度信息具体可以包括用户基本信息、客户信息、帐户信息、产品信息、社会信息、爱好偏好、使用信息、接触信息、缴费信息、欠费信息等等。以订购业务为例，用户样本数据所包括的维度信息为订购实例标识，年，月，省分，地区，入网地市，客户标识，客户类型，客户分级标识，证件类型，证件号码，账户标识，业务类型，品牌，主产品标识，订购实例状态，付费方式，城乡类型，发展人，渠道标识，渠道类型，入网方式，接入号码，在网时长，停机时长，是否本期新发展，是否本期新增，终端型号，集团标识，首次通话时间，上期是否出账，是否零通话，是否互转，是否上网，是否短信，订单标识，业务类型，预付费标识，销售号码，终端设备型号，终端设备品牌，担保类型，预约号码，预约日期，营业厅标识，增值业务类型，增值业务发展人，增值业务发展渠道标识，首次使用时间，是否体验，是否重复体验，出账费用，基本月租，套餐月租，其它月租，(分层级费用项，常用约100项)移动业务使用情况(分层级业务使用情况，时长/次数等，常用约100-200项)，固话业务使用情况(约50项)，流量/互联网/短信/增值业务等使用情况，初始信用度，临时信用度，当前信用度，等等。由此可见，用户样本数据涉及到很多维度，但是并不是所有的维度信息都是有用的。
用户样本数据的数量可以根据实际的需要来设置，例如可以为几百到几千个。用户样本数据的数量越多，依此为基础生成的状态码本越能反映用户状况，但是相对处理过程就越复杂，处理时间较长。
具体可以根据用户分析需要对用户样本数据进行降维处理，可以通过特征选择或奇异值分接等方法将冗余的或者不重要的维度信息删除或者合并，在保留最大区分度信息的前提下，降低向量维度，即降低用户样本数据的维度。例如若从业务角度考虑用户分析需求，降维、归一化和码本化的目的是进行通用的数据挖掘和监控，因此对于年、月、证件类型、证件号码、订单标识、预约号码、发展人等人员信息、以及细粒度的数据(如细化费用项) 等信息并不关注，可以删除，或汇总到更高层级，需要时再追溯相关粒度数据。若从技术角度考虑用户分析需求，则更多地是从数据自身层面进行选择、归并，以达到降维的目的。完整的向量可能长达800-1000维，可以按其原始分组(如使用信息)进行组内的特征筛选(降维)。需要将相关维度数字化，如统一转化为0-100之间的数字，然后采用特征选择算法，按预期的维度长度(如设定为50维)获得降维后的结果。具体地，对所有的用户样本数据采用相同的降维处理方法，以保证降维处理后的用户样本数据的对应性。
再对多个降维处理后的用户样本数据进行训练，生成多个状态码本，对用户样本数据的训练具体可以采用聚类算法，如最近邻聚类算法、k-means算法或K-Medioids算法等，也可以采用分类算法，如基于信息熵的分类算法或决策树算法等，也可以既采用聚类算法又采用分类算法对降维后的用户样本数据进行训练。状态码本具体为表示用户状态的标准化、低维度的向量，用以表示用户在某一时间段或时点的状态。可以使用一个有限的状态码本集合来建立用户特定时间段/时点的标准化状态，可以将多个状态码本形成状态码本序列U= (ul，u2，…，皿)，例如，将用户一年中12个月的状态码本形成状态码本序列，则n=12o
以下具体对状态码本的形式进行说明，例如
码本1: (3，20，50，5，8，......)
码本2 :(10，20，50，10，20，......)
......
码本N : (100，80，90，100，100，......)
步骤20、将待处理的用户数据进行降维处理，将降维处理后的用户数据进行归一化处理，将归一化处理后的用户数据映射到多个状态码本中的一个状态码本，以根据所映射到的状态码本进行用户分析。
待处理的用户数据具体需要分析的用户对应的用户数据，该用户数据具体也可以为通过时间进行标识的一维向量数据，也可以为该用户某个时间段的数据。当用户数据为某个时间段的数据，则可以根据分析需要将该时间段分成多个时间片，再根据时间片对用户数据进行划分，以生成多个一维向量数据。将待处理的用户数据进行降维处理，该降维处理所采用的方法具体可以与对用户样本数据进行降维处理时所采用的方法相同。将降维处理后的用户数据进行归一化处理，以使用户数据的维度信息具有可比对性。将归一化处理后的用户数据映射到多个状态码本中的一个状态码本，可以采用预设映射标准进行映射处理，该预设映射标准具体与训练生成状态码本时采用的方法相对应，以使归一化处理后的用户数据可以正确地映射到唯一的状态码本上。在码本训练过程中使用了归一化方案，在识别/使用中，实际数据/测试数据要采用相同的处理过程，才能与码本进行匹配。如，将所有维度统一转换为0-100之间的数字，具体方式可以根据数据特点进行选择，如状态(是 /否)，可以转换为100和0，通话时长可以按分布情况，将其映射到0-100之间，如O分钟映射为O，2000分钟以上映射为100，中间可以分段映射。可以做线性映射，也可以做非线性映射，以便将相关维度转换到特定的数值范围内。
则可以根据所映射到的状态码本进行用户分析，如分群、预警或其他行为预测类分析等。
本实施例提供的用户数据处理方法，获取多个用户样本数据，对多个用户样本数据分别进行降维处理，对多个降维处理后的用户样本数据进行训练，生成多个状态码本，将待处理的用户数据进行降维处理，将降维处理后的用户数据进行归一化处理，将归一化处理后的用户数据映射到多个状态码本中的一个状态码本，以根据所映射到的状态码本进行用户分析。通过状态码本的生成，可以通过状态码本实现标准化、统一化、低维度的用户状态表示，将状态码本作为深度用户分析的统一基准，再将待处理的用户数据进行降维和归一化处理，将多维且维度信息稀疏的用户数据处理成为便于分析的数据，再将该处理后的用户数据映射到一个状态码本，通过该映射到状态码本即可实现用户分析，大大提高了用户数据的处理效果。
图2为本发明实施例提供的另一种用户数据处理方法流程图。如图2所示，在本实施例中，步骤10中的，对多个降维处理后的用户样本数据进行训练，生成多个状态码本，具体可以包括如下步骤
将多个降维处理后的用户样本数据进行分类处理，将多个分类处理后的用户样本数据进行聚类处理，生成多个状态码本。
在本实施例中，步骤20中的，将待处理的用户数据进行降维处理，将降维处理后的用户数据进行归一化处理，具体可以包括如下步骤
若判断获知待处理的用户数据为一定时间段内的用户数据，则将一定时间段划分为至少两个时间片，将待处理的用户数据划分为分别对应至少两个时间片中每个时间片的时间维度向量，将每个时间维度向量进行降维处理，将每个降维处理后的时间维度向量进行量化处理和归一化处理。
当待处理的用户数据为一定时间段的用户数据，则按照该时间段所包含的时间片对该用户数据进行划分，以降低用户数据的复杂性。而且，通过时间片对用户数据进行划分，为对用户状态变化监控提供基础。
将待处理的用户数据划分为分别对应至少两个时间片中每个时间片的时间维度向量，即每个时间片对应一个时间维度向量，将每个时间维度向量进行降维处理，再将每个降维处理后的时间维度向量进行量化处理和归一化处理，当时间维度向量中包含的维度信息为非定量数据时，对该维度信息进行量化处理，有利于提高维度向量的可处理性。
在本实施例中，步骤20中的，将归一化处理后的用户数据映射到多个状态码本中的一个状态码本之后，具体还可以包括如下步骤
步骤30、获取同一用户的用户数据所映射到的至少一个状态码本和用户的至少一个用户状态，根据至少一个状态码本与至少一个用户状态生成状态变更映射关系，根据状态变更映射关系对用户进行状态监控。
同一用户在一段时间内的用户数据可能映射到多个状态码本，而在这段时间内，用户可能具有多个用户状态，则形成状态码本与用户状态的状态变更映射关系，以通过该状态变更映射关系发现异常，实现对用户进行状态监测，对于幅度较大的用户状态波动，可以根据该波动具体分析运营中所存在的问题。状态变更映射关系具体可以采用马尔科夫模型或有限状态机来实现。
在本实施例中，步骤20中的，将归一化处理后的用户数据映射到多个状态码本中的一个状态码本之后，具体还可以包括如下步骤
根据所映射到的状态码本进行用户分析，其中，用户分析所采用的分析方法包括以下至少一种聚类、分类和关联分析。
用户分析具体可以包括用户分群、精细化营销、离网预警、原因探查和行为预测等，可以根据具体的分析需求采用相应的分析方法。
图3为本发明实施例提供的一种用户数据处理装置结构示意图。如图3所示，本实施例提供的用户数据处理装置具体可以实现本发明任意实施例提供的用户数据处理方法的各个步骤，在此不再赘述。本实施例提供的用户数据处理装置具体图包括状态码本生成模块11和处理模块12。状态码本生成模块11用于获取多个用户样本数据，对多个用户样本数据分别进行降维处理，对多个降维处理后的用户样本数据进行训练，生成多个状态码本。处理模块12用于将待处理的用户数据进行降维处理，将降维处理后的用户数据进行归一化处理，将归一化处理后的用户数据映射到多个状态码本中的一个状态码本，以根据所映射到的状态码本进行用户分析。
本实施例提供的用户数据处理装置，状态码本生成模块11获取多个用户样本数据，对多个用户样本数据分别进行降维处理，对多个降维处理后的用户样本数据进行训练，生成多个状态码本。处理模块12将待处理的用户数据进行降维处理，将降维处理后的用户数据进行归一化处理，将归一化处理后的用户数据映射到多个状态码本中的一个状态码本，以根据所映射到的状态码本进行用户分析。通过状态码本的生成，可以通过状态码本实现标准化、统一化、低维度的用户状态表示，将状态码本作为深度用户分析的统一基准，再将待处理的用户数据进行降维和归一化处理，将多维且维度信息稀疏的用户数据处理成为便于分析的数据，再将该处理后的用户数据映射到一个状态码本，通过该映射到状态码本即可实现用户分析，大大提高了用户数据的处理效果。
图4为本发明实施例提供的另一种用户数据处理装置结构示意图。如图4所示，在本实施例中，状态码本生成模块11还可以用于将多个降维处理后的用户样本数据进行分类处理，将多个分类处理后的用户样本数据进行聚类处理，生成多个状态码本。
在本实施例中，处理模块12还用于若判断获知待处理的用户数据为一定时间段内的用户数据，则将一定时间段划分为至少两个时间片，将待处理的用户数据划分为分别对应至少两个时间片中每个时间片的时间维度向量，将每个时间维度向量进行降维处理，将每个降维处理后的时间维度向量进行量化处理和归一化处理。
当待处理的用户数据为一定时间段的用户数据，则按照该时间段所包含的时间片对该用户数据进行划分，以降低用户数据的复杂性。而且，通过时间片对用户数据进行划分，为对用户状态变化监控提供基础。
将待处理的用户数据划分为分别对应至少两个时间片中每个时间片的时间维度向量，即每个时间片对应一个时间维度向量，将每个时间维度向量进行降维处理，再将每个降维处理后的时间维度向量进行量化处理和归一化处理，当时间维度向量中包含的维度信息为非定量数据时，对该维度信息进行量化处理，有利于提高维度向量的可处理性。
在本实施例中，该用户数据处理装置进一步还可以包括用户状态监控模块13，用户状态监控模块13用于获取同一用户的用户数据所映射到的至少一个状态码本和用户的至少一个用户状态，根据至少一个状态码本与至少一个用户状态生成状态变更映射关系，根据状态变更映射关系对用户进行状态监控。
实现对用户进行状态监测，对于幅度较大的用户状态波动，可以根据该波动具体分析运营中所存在的问题。
在本实施例中，该用户数据处理装置进一步还可以包括分析模块14，分析模块14 用于根据所映射到的状态码本进行用户分析，其中，用户分析所采用的分析方法包括以下至少一种聚类、分类和关联分析。
本发明实施例提供的用户数据处理方法及装置，通过状态码本的生成，提供了统一的标准化的用户状态表示，基于该标准化低维度的状态码本的深度分析挖掘，实现用户分析以及对用户状态监控，减少了基于高维度向量分析带来的各种问题，例如高维度带来的数据稀疏问题、过度灵活和随意的降维造成的重复加工、重复、耗时问题、深度分析缺乏统一的数据基准等问题，大大提高了用户数据的处理效果。
本领域普通技术人员可以理解实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括R0M、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
权利要求
1.一种用户数据处理方法，其特征在于，包括获取多个用户样本数据，对所述多个用户样本数据分别进行降维处理，对多个降维处理后的用户样本数据进行训练，生成多个状态码本；将待处理的用户数据进行降维处理，将降维处理后的用户数据进行归一化处理，将归一化处理后的用户数据映射到所述多个状态码本中的一个状态码本，以根据所映射到的状态码本进行用户分析。
2.根据权利要求I所述的用户数据处理方法，其特征在于，对多个降维处理后的用户样本数据进行训练，生成多个状态码本，包括将所述多个降维处理后的用户样本数据进行分类处理，将多个分类处理后的用户样本数据进行聚类处理，生成所述多个状态码本。
3.根据权利要求I所述的用户数据处理方法，其特征在于，将待处理的用户数据进行降维处理，将降维处理后的用户数据进行归一化处理，包括若判断获知所述待处理的用户数据为一定时间段内的用户数据，则将所述一定时间段划分为至少两个时间片，将所述待处理的用户数据划分为分别对应所述至少两个时间片中每个时间片的时间维度向量，将每个时间维度向量进行降维处理，将每个降维处理后的时间维度向量进行量化处理和归一化处理。
4.根据权利要求3所述的用户数据处理方法，其特征在于，将归一化处理后的用户数据映射到所述多个状态码本中的一个状态码本之后，还包括获取同一用户的用户数据所映射到的至少一个状态码本和所述用户的至少一个用户状态，根据所述至少一个状态码本与所述至少一个用户状态生成状态变更映射关系，根据所述状态变更映射关系对所述用户进行状态监控。
5.根据权利要求I所述的用户数据处理方法，其特征在于，将归一化处理后的用户数据映射到所述多个状态码本中的一个状态码本之后，还包括根据所映射到的状态码本进行用户分析，其中，所述用户分析所采用的分析方法包括以下至少一种聚类、分类和关联分析。
6.一种用户数据处理装置，其特征在于，包括状态码本生成模块，用于获取多个用户样本数据，对所述多个用户样本数据分别进行降维处理，对多个降维处理后的用户样本数据进行训练，生成多个状态码本；处理模块，用于将待处理的用户数据进行降维处理，将降维处理后的用户数据进行归一化处理，将归一化处理后的用户数据映射到所述多个状态码本中的一个状态码本，以根据所映射到的状态码本进行用户分析。
7.根据权利要求6所述的用户数据处理装置，其特征在于所述状态码本生成模块还用于将所述多个降维处理后的用户样本数据进行分类处理，将多个分类处理后的用户样本数据进行聚类处理，生成所述多个状态码本。
8.根据权利要求6所述的用户数据处理装置，其特征在于所述处理模块还用于若判断获知所述待处理的用户数据为一定时间段内的用户数据，则将所述一定时间段划分为至少两个时间片，将所述待处理的用户数据划分为分别对应所述至少两个时间片中每个时间片的时间维度向量，将每个时间维度向量进行降维处理，将每个降维处理后的时间维度向量进行量化处理和归一化处理。
9.根据权利要求8所述的用户数据处理装置，其特征在于，还包括用户状态监控模块，用于获取同一用户的用户数据所映射到的至少一个状态码本和所述用户的至少一个用户状态，根据所述至少一个状态码本与所述至少一个用户状态生成状态变更映射关系，根据所述状态变更映射关系对所述用户进行状态监控。
10.根据权利要求6所述的用户数据处理装置，其特征在于，还包括分析模块，用于根据所映射到的状态码本进行用户分析，其中，所述用户分析所采用的分析方法包括以下至少一种聚类、分类和关联分析。
全文摘要
本发明提供一种用户数据处理方法及装置，该用户数据处理方法包括获取多个用户样本数据，对多个用户样本数据分别进行降维处理，对多个降维处理后的用户样本数据进行训练，生成多个状态码本；将待处理的用户数据进行降维处理，将降维处理后的用户数据进行归一化处理，将归一化处理后的用户数据映射到多个状态码本中的一个状态码本，以根据所映射到的状态码本进行用户分析。本发明提供的用户数据处理方法及装置，通过状态码本实现标准化、统一化、低维度的用户状态表示，将状态码本作为深度用户分析的统一基准，大大提高了用户数据的处理效果。
文档编号G06F17/30GK102982077SQ20121042543
公开日2013年3月20日申请日期2012年10月30日优先权日2012年10月30日
发明者李净, 张云勇, 王志山, 童晓渝申请人:中国联合网络通信集团有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李净;张云勇;王志山;童晓渝
技术所有人：中国联合网络通信集团有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。