本公开涉及计算机,具体地,涉及一种身份数据的挖掘方法、装置、存储介质及电子设备。
背景技术:
1、相关技术中,网上经常充斥着危害国家安全的言论,对这些言论的跟踪以及挖掘背后相关人员等信息对国家安全管控十分重要,而该言论往往都是用户匿名发布的。传统的技术手段主要集中在通过爬虫抓取特定用户的公开页面进行分析,比如分析用户与用户间的关系,用户帖子的分类和用户的画像等。该方法仅能识别到用户的虚拟身份id,无法同用户的真实身份id相联系,导致方法的使用场景受到极大限制。
技术实现思路
1、本公开的目的是提供一种身份数据的挖掘方法、装置、存储介质及电子设备,以解决相关及时中基于视频公开信息,无法获取用户真实身份信息的技术问题。
2、为了实现上述目的,本公开的第一方面提供一种身份数据的挖掘方法,包括:
3、获取待识别视频数据的公开信息,所述公开信息包括视频发布时间和视频特征信息;
4、确定播放所述待识别视频数据所需要的数据消耗量;
5、根据所述数据消耗量和所述视频特征信息,确定所述待识别视频数据的视频原始大小;
6、从网络详细记录中筛选所述视频发布时间以前与所述视频原始大小匹配的目标网络记录;
7、根据所述目标网络记录,确定所述待识别视频数据对应视频发布者的身份数据。
8、可选地,所述根据所述数据消耗量和所述视频特征信息,确定所述待识别视频数据的视频原始大小,包括:
9、根据所述视频特征信息和所述数据消耗量,确定所述待识别视频数据的视频质量系数;
10、将所述视频质量系数与所述数据消耗量相乘,生成所述视频原始大小。
11、可选地,所述根据所述视频特征信息和所述数据消耗量,确定所述待识别视频数据的视频质量系数,包括:
12、根据所述待识别视频数据中所述数据消耗量的数据分布情况,生成多元回归树模型;
13、基于所述视频特征信息对所述多元回归树模型进行修剪,生成目标树模型;
14、将所述数据消耗量输入所述目标树模型,生成所述视频质量系数。
15、可选地,所述从网络详细记录中筛选所述视频发布时间以前与所述视频原始大小匹配的目标网络记录,包括:
16、在确定所述视频发布时间为视频上传时间的情况下,从所述网络详细记录中确定与所述视频上传时间匹配的多个网络上行记录;
17、从所述多个网络上行记录中确定与所述视频原始大小匹配的所述目标网络记录。
18、可选地,所述从网络详细记录中筛选所述视频发布时间以前与所述视频原始大小匹配的目标网络记录,包括:
19、在确定所述视频发布时间不是所述视频上传时间的情况下,从所述网络详细记录中获取所述视频发布时间以前第一预设时间范围内的初代网络详细记录;
20、若所述初代网络详细记录中不存在与所述视频原始大小匹配的网络详细记录,则从所述网络详细记录中获取所述第一预设时间范围以前第二预设时间范围内的次代网络详细记录;
21、从所述次代网络详细记录中确定与所述视频原始大小匹配的所述目标网络记录。
22、可选地,所述根据所述目标网络记录,确定所述待识别视频数据对应的身份数据,包括:
23、获取所述目标网络记录对应的所述身份数据;
24、从所述网络详细记录中确定所述身份数据对应用户发布的多个其他视频数据;
25、若所述多个其他视频数据与多个其他待识别视频数据匹配,则确定所述身份数据与所述待识别视频数据的所述视频发布者相对应。
26、可选地,所述根据所述目标网络记录,确定所述待识别视频数据对应视频发布者的身份数据,包括:
27、从所述网络详细记录中确定与所述目标网络记录匹配的多个初始身份数据;
28、确定所述多个初始身份数据对应的多个匹配频数;
29、从所述多个初始身份数据中确定匹配频数最大的数据为所述身份数据。
30、根据本公开实施例的第二方面提供一种身份数据的挖掘装置,包括:
31、获取模块,用于获取待识别视频数据的公开信息,所述公开信息包括视频发布时间和视频特征信息;
32、第一确定模块,用于确定播放所述待识别视频数据所需要的数据消耗量;
33、第二确定模块,用于根据所述数据消耗量和所述视频特征信息,确定所述待识别视频数据的视频原始大小;
34、筛选模块,用于从网络详细记录中筛选所述视频发布时间以前与所述视频原始大小匹配的目标网络记录;
35、执行模块,用于根据所述目标网络记录,确定所述待识别视频数据对应视频发布者的身份数据。
36、根据本公开实施例的第三方面,提供一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开第一方面中任一项所述身份数据的挖掘方法的步骤。
37、根据本公开实施例的第四方面,提供一种电子设备,包括:
38、存储器,其上存储有计算机程序;
39、处理器,用于执行所述存储器中的所述计算机程序,以实现本公开第一方面中任一项所述身份数据的挖掘方法的步骤。
40、通过上述技术方案,获取待识别视频数据的公开信息,公开信息包括视频发布时间和视频特征信息,确定播放待识别视频数据所需要的数据消耗量,根据数据消耗量和视频特征信息,确定待识别视频数据的视频原始大小,从网络详细记录中筛选视频发布时间以前与视频原始大小匹配的目标网络记录,根据目标网络记录,确定待识别视频数据对应视频发布者的身份数据。从而根据视频数据的公开信息计算视频的原始大小,从网络详细记录中筛选出与视频发布时间和原始大小相匹配的身份数据。基于用户的视频发布行为和网络详细记录,确定出视频发布者的真实身份数据。
41、本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
1.一种身份数据的挖掘方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述数据消耗量和所述视频特征信息,确定所述待识别视频数据的视频原始大小,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据所述视频特征信息和所述数据消耗量,确定所述待识别视频数据的视频质量系数,包括:
4.根据权利要求1所述的方法,其特征在于,所述从网络详细记录中筛选所述视频发布时间以前与所述视频原始大小匹配的目标网络记录,包括:
5.根据权利要求4所述的方法,其特征在于,所述从网络详细记录中筛选所述视频发布时间以前与所述视频原始大小匹配的目标网络记录,包括:
6.根据权利要求1所述的方法,其特征在于,所述根据所述目标网络记录,确定所述待识别视频数据对应的身份数据,包括:
7.根据权利要求1所述的方法,其特征在于,所述根据所述目标网络记录,确定所述待识别视频数据对应视频发布者的身份数据,包括:
8.一种身份数据的挖掘装置,其特征在于,包括:
9.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7中任一项所述身份数据的挖掘方法的步骤。
10.一种电子设备,其特征在于,包括: