本发明涉及一种基于特征标识信息的网络应用账号关联方法,属于信息处理技术领域。
背景技术:
随着移动互联网的快速发展以及移动终端的推广普及,移动应用程序(以下简称“移动app”)应用已经渗透到各行各业,给广大互联网用户带来不同的个性化服务,广大互联网用户逐渐从信息消费者过渡成为信息生产者。通过对同一用户使用主流移动app应用进行跨平台跨网络应用分析,将对用户精准画像、用户兴趣推荐和商业广告投放等应用领域具有重要的应用前景等。
当前的网络账号关联技术主要集中在跨社交平台(facebook、twitter、微博以及其它社交网络)中社交用户网络账号关联技术的研究。具体研究主要集中在三个方面:(1)基于社交用户注册信息的跨平台网络账号关联技术:主要通过对注册昵称、个人头像、性别、出生日期、所在地、个人简介url地址、邮件地址等属性信息进行相似性分析。该技术的优点是基于互联网可采集社交用户在不同平台的注册信息,缺点是各社交平台注册信息填写的完整性受限于社交用户的注册情况(网络意见领袖、大v用户、认证用户、自媒体用户和一般用户等),存在属性特征维度无法对齐的情况,进而大大降低网络账号关联的效率和准确率。(2)基于社交用户在社交平台中发布内容的跨平台网络账号关联技术:主要基于社交用户发布内容的时间、位置、以及发布内容的写作习惯等方面进行相似性分析。该技术的优点是充分挖掘分析社交用户在各社交平台中兴趣、行为等特征,提高网络账号关联的准确率,缺点是一方面受限于社交用户发布信息的特征(如,地理位置数据比较稀疏,发布内容的文本较短等),另一方面受限于学术领域无法大规模在工程实际中应用。(3)基于社交用户建立的社交关系(关注关系、粉丝关系等)的跨平台网络账号关联技术:通过对社交用户的社交关系进行网络拓扑结构的抽象描述,并对网络拓扑结构的相似性进行计算和分析,进而进行跨平台网络账号的关联。该技术的优点是充分利用社交平台自身较强的社交关系的粘性特征(现实物理自然人的社交属性在社交平台中也有真实的映射反映),缺点是一方面如何在社交关系图谱中发现有效的社交关系提高网络账号关联的准确性,另一方面则受限于学术领域无法大规模在工程实际中应用。
综上所述,现有的网络账号关联技术发明主要集中基于跨社交平台中的发布内容、社交用户注册信息和社交关系的挖掘分析实现关联,并且网络账号关联的召回率较低,无法关联更多的社交平台。
技术实现要素:
本发明的目的是提出一种基于特征标识信息的网络应用账号关联方法,以适应目前移动终端的快速普及和移动互联网4g/5g的快速发展,提出基于特征标识信息和网络账号信息的关联规则,建立基于特征标识信息的网络账号映射方法,提高网络账号之间的关联率和关联准确率。
本发明提出的基于特征标识信息的网络账号关联方法,通过利用运营商提供的网络通信特征信息实现跨平台跨应用的网络账号关联,包括以下步骤:
(1)从运营商的数据包深度检测设备中获取移动互联网用户产生的主流移动应用程序或主流网站的明文访问日志;
(2)从步骤(1)的明文访问日志中提取移动互联网用户的特征标识信息,包括以下步骤:
(2-1)利用规则匹配方法,提取移动互联网用户的移动终端码号,包括国际移动用户识别码和移动终端码号标识;
(2-2)利用规则匹配方法,提取移动互联网用户的移动终端属性,包括国际移动设备识别码、介质访问控制地址、移动终端类型、移动终端操作系统或移动终端操作系统的版本号中的一种或多种;
(2-3)利用规则匹配方法,提取移动互联网用户的网络账号,包括移动互联网用户的移动应用程序以及网站访问日志中携带的网络账号或用户身份标识号、电子邮箱、注册昵称、个人主页地址或头像地址中的一种或多种;
(2-4)利用规则匹配方法,提取移动互联网用户的网络协议特征,包括从移动互联网用户的请求日志中提取出的主机地址、用户代理或用户身份标识中的一种或多种;
(3)采用非结构化数据库存储步骤(2)的特征标识,并从特征标识中选取移动终端码号作为非结构化数据库唯一标识,得到一套移动终端特征信息库;
(4)根据步骤(3)构建的移动终端特征信息库,建立移动互联网用户的移动终端特征标识信息与网络账号之间的关联,得到一套网络账号关联库,移动互联网用户的移动终端特征标识信息与网络账号之间的关联规则如下:
a、在移动终端特征信息库中,以移动终端码号信息为条件进行关联,得到以移动终端码号产生的以网络账号数据记录为主的网络账号关联信息集合,直接将网络账号归一化到移动互联网用户的移动终端码号;
b、在移动终端特征信息库中,以移动终端属性信息为条件进行关联,得到以移动终端产生的以网络账号数据记录为主的网络账号关联信息集合,直接将网络账号信息归一化到移动互联网用户的移动终端;
c、在移动终端特征信息库中,以网络账号或网络协议特征为条件进行关联,从网络账号或网络协议特征中选取主机地址、用户代理、用户身份标识、移动互联网用户使用的浏览器名称及浏览器内核、移动互联网用户使用的移动终端操作系统及操作系统版本、移动互联网用户特定网络账号或移动互联网用户身份标识号中的一种或多种,得到以上述网络特征标识产生的以网络账号数据记录为主的网络账号关联信息集合,将移动终端产生的通信特征映射到网络账号关联条件中,逐步间接地建立网络账号关联的强关联特征规则;
根据上述a、b、c三种规则产生的移动互联网用户网络账号集合,对同一移动终端码号或移动终端属性信息关联出的网络账号集合进行相同网络账号数据记录的消重,对相似网络账号数据记录进行归并,以及对基于网络特征标识关联出的网络账号集合进行网络账号数据记录的条件概率的关联,建立a、b、c三种规则产生的移动互联网用户网络账号集合网络账号数据记录之间的关联,得到一套基于移动互联网用户特征标识的网络账号关联库;
(5)对步骤(4)得到的网络账号关联库进行扩展和校准,得到移动互联网用户的网络账号库,包括以下步骤:
(5-1)通过互联网采集移动互联网用户的网络账号信息,并将该信息存储到步骤(4)的网络账号关联库中与该移动互联网用户相应的网络账号信息中;
(5-2)根据步骤(2-3)中提取出的移动互联网用户的注册昵称、个人主页地址、电子邮箱等网络账号信息,采用定向搜索或网页模板匹配方法,采集主流社交平台或主流移动应用程序中的相应用户主页的注册信息或发布信息,将该用户主页的注册信息或发布信息补充到步骤(4)的网络账号关联库中与该移动互联网用户相应的网络账号关联的条件信息中;
(5-3)根据上述采集的关联条件信息,对网络账号关联库中的相应的网络账号数据记录进行信息核验,根据信息核验结果,对网络账号关联库中的相应数据记录进行新增、更新或删除,实现基于特征标识信息的网络账号关联。
本发明提出的基于特征标识信息的网络账号关联方法,其优点是:
本发明方法面向移动互联网用户的固网和移动网上网行为,对客户端(访问主流网站和主流移动app等)和服务器端产生的网络通信日志进行综合分析,重点从明文请求日志中提取出客户端特征标识信息和登录网站账号信息,设计基于特征标识信息和网络账号信息的关联规则,建立基于特征标识信息的网络账号关联方法,提高网络账号之间的关联率和准确率。因此,本发明方法不具体针对跨特定社交平台的网络账号关联范畴,只考虑通过利用运营商提供的网络通信特征信息,建立基于特征标识信息的网络应用账号关联方法,用以解决目前主流移动app和主流网站网络账号缺少关联条件和关联准确率不高等难题。
具体实施方式
本发明提出的基于特征标识信息的网络账号关联方法,其特征在于该方法通过利用运营商提供的网络通信特征信息实现跨平台跨应用的网络账号关联,包括以下步骤:
(1)从运营商的数据包深度检测(deeppacketinspection,dpi)设备中获取移动互联网用户产生的主流移动应用程序或主流网站的明文访问日志;
(2)从步骤(1)的明文访问日志中提取移动互联网用户的特征标识信息,包括以下步骤:
(2-1)利用规则匹配方法,提取移动互联网用户的移动终端码号,包括国际移动用户识别码(imsi,internationalmobilesubscriberidentificationnumber)和移动终端码号标识(如手机号);
(2-2)利用规则匹配方法,提取移动互联网用户的移动终端属性,包括国际移动设备识别码(imei,internationalmobileequipmentidentity)、介质访问控制地址(mac,mediaaccesscontrol)、移动终端类型(如苹果、华为、三星等)、移动终端操作系统(如,ios和android等)或移动终端操作系统的版本号中的一种或多种;
(2-3)利用规则匹配方法,提取移动互联网用户的网络账号,包括移动互联网用户的移动应用程序以及网站访问日志中携带的网络账号或用户身份标识号(identity,简称id)、电子邮箱、注册昵称、个人主页地址或头像地址中的一种或多种;
(2-4)利用规则匹配方法,提取移动互联网用户的网络协议特征,包括从移动互联网用户的请求日志中提取出的主机地址(host)、用户代理(user-agent)或用户身份标识(cookie)中的一种或多种;
(3)采用非结构化数据库(nosql(notonlysql)(如hbase、mongodb等)存储步骤(2)的特征标识,便于后期网络账号的关联扩展和查询关联,并从特征标识中选取移动终端码号作为非结构化数据库唯一标识,得到一套移动终端特征信息库;并以此信息库为基础,动态扩展后续新增的移动终端特征标识信息(如使用其他移动应用程序或登录其他主流网站)。
(4)根据步骤(3)构建的移动终端特征信息库,建立移动互联网用户的移动终端特征标识信息与网络账号之间的关联,得到一套网络账号关联库,移动互联网用户的移动终端特征标识信息与网络账号之间的关联规则如下:
a、在移动终端特征信息库中,以移动终端码号信息为条件进行关联,得到以移动终端码号产生的以网络账号数据记录为主的网络账号关联信息集合,直接将网络账号归一化到移动互联网用户的移动终端码号;
b、在移动终端特征信息库中,以移动终端属性信息为条件进行关联,得到以移动终端产生的以网络账号数据记录为主的网络账号关联信息集合,直接将网络账号信息归一化到移动互联网用户的移动终端;
c、在移动终端特征信息库中,以网络账号或网络协议特征为条件进行关联,从网络账号或网络协议特征中选取主机地址、用户代理、用户身份标识、移动互联网用户使用的浏览器名称及浏览器内核、移动互联网用户使用的移动终端操作系统及操作系统版本、移动互联网用户特定网络账号或移动互联网用户身份标识号中的一种或多种,得到以上述网络特征标识产生的以网络账号数据记录为主的网络账号关联信息集合,将移动终端产生的通信特征映射到网络账号关联条件中,逐步间接地建立网络账号关联的强关联特征规则;
根据上述a、b、c三种规则产生的移动互联网用户网络账号集合,对同一移动终端码号或移动终端属性信息关联出的网络账号集合进行相同网络账号数据记录的消重,对相似网络账号数据记录进行归并,以及对基于网络特征标识关联出的网络账号集合进行网络账号数据记录的条件概率的关联(如,基于特定移动互联网用户使用的移动终端类型、移动终端操作系统及操作系统版本来推断出网络账号数据记录之间存在的关联概率),建立a、b、c三种规则产生的移动互联网用户网络账号集合网络账号数据记录之间的关联,得到一套基于移动互联网用户特征标识的网络账号关联库;
(5)对步骤(4)得到的网络账号关联库进行扩展和校准,得到移动互联网用户的网络账号库,包括以下步骤:
(5-1)通过互联网采集移动互联网用户的网络账号(例如,facebook、twitter、微博等主流社交平台用户账号)信息,并将该信息存储到步骤(4)的网络账号关联库中与该移动互联网用户相应的网络账号信息中;
(5-2)根据步骤(2-3)中提取出的移动互联网用户的注册昵称、个人主页地址、电子邮箱等网络账号信息,采用定向搜索或网页模板匹配方法,采集主流社交平台或主流移动应用程序中的相应用户主页的注册信息或发布信息,将该用户主页的注册信息或发布信息补充到步骤(4)的网络账号关联库中与该移动互联网用户相应的网络账号关联的条件信息中(条件信息包括性别、出生日期,个人简介、联系方式、工作单位、教育背景、发布信息的地理位置和发布信息使用的移动终端类型等);
(5-3)根据上述采集的关联条件信息,对网络账号关联库中的相应的网络账号数据记录进行信息核验(如注册昵称重复的判别,网络账号同一性的鉴定,网络用户昵称修改,个人地址更换等情况),根据信息核验结果,对网络账号关联库中的相应数据记录进行新增、更新或删除,以此对网站账号关联库的丰富和完善,进一步提高移动互联网用户网络账号之间关联的准确率,实现基于特征标识信息的网络账号关联。
本发明方法中所涉及的网络账号主要是指在互联网中能唯一标识网络用户在使用不同移动app和登录不同网站时产生的访问身份,例如,邮箱账号、微信用户id、微博用户id,移动终端码号、注册或登录账号等。