1.本发明涉及盗播处理技术领域,特别是涉及一种盗播用户挖掘方法、装置、电子设备及存储介质。
背景技术:2.随着各视频公司的快速发展,业务不断增多,面临业务安全的挑战也越来越大,其中,视频内容被非法盗播是业务安全中存在的主要问题之一。
3.盗播用户对视频内容进行盗播,是通过破解并收集源端服务器上的视频内容的片段,在解码之后整合成完整的视频内容对外输出。对于非盗播用户而言,大部分情况下使用固定的账号对视频内容进行播放和下载,时间比较长。
4.而盗播用户具有如下特点:每次使用不同的账号对视频内容进行播放和下载,在较短的时间内请求并下载服务器上视频内容的片段,每次请求会更换不同的ip(internet protocol,网际互连协议)地址,因此,虽然在现有技术中,可以确定个别盗播用户,但是基于以上这些特点,无法确定盗播用户组成的团伙。
技术实现要素:5.本发明实施例的目的在于提供一种盗播用户挖掘方法、装置、电子设备及存储介质,以实现确定盗播用户组成的团伙。具体技术方案如下:
6.第一方面,本发明实施例提供了一种盗播用户挖掘方法,所述方法包括:
7.获取已确定盗播用户的盗播相关信息,其中,所述盗播相关信息为用户在进行视频播放时所关联的与盗播行为相关的信息;
8.基于所述盗播相关信息和预先构建的盗播知识图谱,确定与所述已确定盗播用户具有关联关系的备选用户,其中,所述盗播知识图谱基于预先获取的各用户的盗播相关信息建立,所述盗播知识图谱用于表征所述各用户之间存在的关联关系;
9.获取所述备选用户的播放行为特征,其中,所述播放行为特征用于表示用户在播放视频过程中所具有与该播放行为相关的特点;
10.根据所述备选用户的播放行为特征和预设盗播筛选条件,确定所述备选用户是否为盗播用户,其中,所述预设盗播筛选条件基于盗播行为的特征确定。
11.可选的,所述盗播知识图谱的构建方式,包括:
12.获取各用户的盗播相关信息;
13.基于所述各用户的盗播相关信息,确定所述各用户之间存在的关联关系,其中,所述关联关系表示不同用户基于目标盗播相关信息产生的关联关系,所述目标盗播相关信息为所述盗播相关信息中的一种;
14.根据所述各用户之间存在的关联关系,构建盗播知识图谱,其中,所述盗播知识图谱中的节点用于表示用户及所述盗播相关信息中的一种,所述盗播知识图谱中的边用于表示该边所连接的节点之间的关联关系。
15.可选的,所述各用户的盗播相关信息存储在关联关系数据表中,所述关联关系数据表为列族数据库中的数据表,所述关联关系数据表的行键为所述目标盗播相关信息,该行键对应的列族至少包括用户标识,其中,所述用户标识用于确定唯一的用户;
16.所述基于所述各用户的盗播相关信息,确定所述各用户之间存在的关联关系的步骤,包括:
17.从所述关联关系数据表中,确定所述目标盗播相关信息对应的行键;
18.读取所确定的行键对应的列族下的列值,将所述行键与所述列值组成的各个对应关系作为所述各用户基于所述目标盗播相关信息存在的关联关系。
19.可选的,所述关联关系数据表中的每条数据具有版本标识,所述版本标识用于表示该条数据对应的关联关系在所述关联关系数据表中记录的次数;
20.所述读取所确定的行键对应的列族下的列值,将所述行键与所述列值组成的各个对应关系作为所述各用户基于所述目标盗播相关信息存在的关联关系的步骤,包括:
21.读取所确定的行键对应的列族下的第一目标列值,将所述行键与所述第一目标列值组成的各个对应关系,作为所述各用户基于所述目标盗播相关信息存在的关联关系,其中,所述第一目标列值为所述关联关系表中,对应的版本标识为第一版本标识的各条数据所对应的列值,所述第一版本标识用于表示对应的数据所包括的关联关系在所述关联关系数据表中第一次被记录。
22.可选的,所述方法还包括:
23.按照预设时间间隔,读取各行键对应的列族下的第二目标列值,得到所述行键与所述第二目标列值组成的对应关系,其中,所述第二目标列值为在所述预设时间间隔内,所述关联关系数据表中增加的各条数据中,对应的版本标识为第一版本标识的各条数据所对应的列值;
24.基于所述对应关系更新所述盗播知识图谱。
25.可选的,所述根据所述各用户之间存在的关联关系,构建盗播知识图谱的步骤,包括:
26.基于所述各用户的播放行为数据,确定所述各用户的播放行为特征;
27.根据所述各用户之间存在的关联关系以及所述各用户的播放行为特征,构建盗播知识图谱,其中,所述盗播知识图谱中的用户节点的属性包括该用户的播放行为特征,所述用户节点为所述盗播知识图谱中用于表示用户的节点。
28.可选的,所述获取所述备选用户的播放行为特征的步骤,包括:
29.从所述盗播知识图谱中所述备选用户对应的节点的属性中,获取所述备选用户的播放行为特征。
30.第二方面,本发明实施例提供了一种盗播用户挖掘装置,所述装置包括:
31.盗播相关信息获取模块,用于获取已确定盗播用户的盗播相关信息,其中,所述盗播相关信息为用户在进行视频播放时所关联的与盗播行为相关的信息;
32.备选用户确定模块,用于基于所述盗播相关信息和预先构建的盗播知识图谱,确定与所述已确定盗播用户具有关联关系的备选用户,其中,所述盗播知识图谱基于预先获取的各用户的盗播相关信息建立,所述盗播知识图谱用于表征所述各用户之间存在的关联关系;
33.播放行为特征获取模块,用于获取所述备选用户的播放行为特征,其中,所述播放行为特征用于表示用户在播放视频过程中所具有与该播放行为相关的特点;
34.盗播用户确定模块,用于根据所述备选用户的播放行为特征和预设盗播筛选条件,确定所述备选用户是否为盗播用户,其中,所述预设盗播筛选条件基于盗播行为的特征确定。
35.可选的,所述盗播知识图谱构建模块,包括:
36.盗播相关信息获取子模块,用于获取各用户的盗播相关信息;
37.关联关系确定子模块,用于基于所述各用户的盗播相关信息,确定所述各用户之间存在的关联关系,其中,所述关联关系表示不同用户基于目标盗播相关信息产生的关联关系,所述目标盗播相关信息为所述盗播相关信息中的一种;
38.盗播知识图谱构建子模块,用于根据所述各用户之间存在的关联关系,构建盗播知识图谱,其中,所述盗播知识图谱中的节点用于表示用户及所述盗播相关信息中的一种,所述盗播知识图谱中的边用于表示该边所连接的节点之间的关联关系。
39.可选的,所述各用户的盗播相关信息存储在关联关系数据表中,所述关联关系数据表为列族数据库中的数据表,所述关联关系数据表的行键为所述目标盗播相关信息,该行键对应的列族至少包括用户标识,其中,所述用户标识用于确定唯一的用户;
40.所述关联关系确定子模块,包括:
41.行键确定单元,用于从所述关联关系数据表中,确定所述目标盗播相关信息对应的行键;
42.关联关系确定单元,用于读取所确定的行键对应的列族下的列值,将所述行键与所述列值组成的各个对应关系作为所述各用户基于所述目标盗播相关信息存在的关联关系。
43.可选的,所述关联关系数据表中的每条数据具有版本标识,所述版本标识用于表示该条数据对应的关联关系在所述关联关系数据表中记录的次数;
44.所述关联关系确定单元,包括:
45.关联关系获取子单元,用于读取所确定的行键对应的列族下的第一目标列值,将所述行键与所述第一目标列值组成的各个对应关系,作为所述各用户基于所述目标盗播相关信息存在的关联关系,其中,所述第一目标列值为所述关联关系表中,对应的版本标识为第一版本标识的各条数据所对应的列值,所述第一版本标识用于表示对应的数据所包括的关联关系在所述关联关系数据表中第一次被记录。
46.可选的,所述装置还包括:
47.对应关系获取模块,用于按照预设时间间隔,读取各行键对应的列族下的第二目标列值,得到所述行键与所述第二目标列值组成的对应关系,其中,所述第二目标列值为在所述预设时间间隔内,所述关联关系数据表中增加的各条数据中,对应的版本标识为第一版本标识的各条数据所对应的列值;
48.盗播知识图谱更新模块,用于基于所述对应关系更新所述盗播知识图谱。
49.可选的,所述盗播知识图谱构建子模块,包括:
50.播放行为特征确定单元,用于基于所述各用户的播放行为数据,确定所述各用户的播放行为特征;
51.盗播知识图谱构建单元,用于根据所述各用户之间存在的关联关系以及所述各用户的播放行为特征,构建盗播知识图谱,其中,所述盗播知识图谱中的用户节点的属性包括该用户的播放行为特征,所述用户节点为所述盗播知识图谱中用于表示用户的节点。
52.可选的,所述播放行为特征获取模块,包括:
53.播放行为特征获取子模块,用于从所述盗播知识图谱中所述备选用户对应的节点的属性中,获取所述备选用户的播放行为特征。
54.第三方面,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
55.存储器,用于存放计算机程序;
56.处理器,用于执行存储器上所存放的程序时,实现上述第一方面任一所述的方法步骤。
57.第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面任一所述的方法步骤。
58.本发明实施例提供的方案中,电子设备可以获取已确定盗播用户的盗播相关信息,其中,盗播相关信息为用户在进行视频播放时所关联的与盗播行为相关的信息,基于盗播相关信息和预先构建的盗播知识图谱,确定与已确定盗播用户具有关联关系的备选用户,其中,盗播知识图谱基于预先获取的各用户的盗播相关信息建立,盗播知识图谱用于表征各用户之间存在的关联关系,获取备选用户的播放行为特征,其中,播放行为特征用于表示用户在播放视频过程中所具有与该播放行为相关的特点,根据备选用户的播放行为特征和预设盗播筛选条件,确定备选用户是否为盗播用户,其中,预设盗播筛选条件基于盗播行为的特征确定。由于预先构建的盗播知识图谱是基于预先获取的各用户的盗播相关信息建立的,所以根据已确定盗播用户的盗播相关信息与该盗播知识图谱,可以确定与已确定盗播用户具有关联关系的备选用户,根据备选用户的播放行为特征和预设盗播筛选条件,可以确定备选用户中的盗播用户,这样,可以排除盗播用户使用不同的账号、设备、ip地址进行盗播的干扰,进而可以确定盗播用户组成的团伙。当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
59.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
60.图1为本发明实施例所提供的一种盗播用户挖掘方法的流程图;
61.图2为基于图1所示实施例的盗播知识图谱构建方式的一种流程图;
62.图3(a)为基于图1所示实施例的构建盗播知识图谱的一种示意图;
63.图3(b)为基于图1所示实施例的构建盗播知识图谱的另一种示意图;
64.图4为图2所示实施例中步骤s202的一种具体流程图;
65.图5为图4所示实施例中步骤s402的一种具体流程图;
66.图6为图2所示实施例中步骤s203的一种具体流程图;
67.图7为本发明实施例所提供的一种盗播用户挖掘装置的结构示意图;
68.图8为本发明实施例所提供的一种电子设备的结构示意图。
具体实施方式
69.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员基于本技术所获得的所有其他实施例,都属于本发明保护的范围。
70.为了确定盗播用户组成的团伙,本发明实施例提供了一种盗播用户挖掘方法、装置、电子设备、计算机可读存储介质以及计算机程序产品。
71.下面对本发明实施例所提供的一种盗播用户挖掘方法进行介绍。本发明实施例所提供的一种盗播用户挖掘方法可以应用于任意需要挖掘盗播用户的电子设备,例如,可以为笔记本或其他盗播处理设备等,在此不做具体限定,为了描述清楚,以下称为电子设备。
72.如图1所示,一种盗播用户挖掘方法,所述方法包括:
73.s101,获取已确定盗播用户的盗播相关信息;
74.其中,所述盗播相关信息为用户在进行视频播放时所关联的与盗播行为相关的信息。
75.s102,基于所述盗播相关信息和预先构建的盗播知识图谱,确定与所述已确定盗播用户具有关联关系的备选用户;
76.其中,所述盗播知识图谱基于预先获取的各用户的盗播相关信息建立,所述盗播知识图谱用于表征所述各用户之间存在的关联关系。
77.s103,获取所述备选用户的播放行为特征;
78.其中,所述播放行为特征用于表示用户在播放视频过程中所具有与该播放行为相关的特点。
79.s104,根据所述备选用户的播放行为特征和预设盗播筛选条件,确定所述备选用户是否为盗播用户。
80.其中,所述预设盗播筛选条件基于盗播行为的特征确定。
81.可见,本发明实施例提供的方案中,电子设备可以获取已确定盗播用户的盗播相关信息,其中,盗播相关信息为用户在进行视频播放时所关联的与盗播行为相关的信息,基于盗播相关信息和预先构建的盗播知识图谱,确定与已确定盗播用户具有关联关系的备选用户,其中,盗播知识图谱基于预先获取的各用户的盗播相关信息建立,盗播知识图谱用于表征各用户之间存在的关联关系,获取备选用户的播放行为特征,其中,播放行为特征用于表示用户在播放视频过程中所具有与该播放行为相关的特点,根据备选用户的播放行为特征和预设盗播筛选条件,确定备选用户是否为盗播用户,其中,预设盗播筛选条件基于盗播行为的特征确定。由于预先构建的盗播知识图谱是基于预先获取的各用户的盗播相关信息建立的,所以根据已确定盗播用户的盗播相关信息与该盗播知识图谱,可以确定与已确定盗播用户具有关联关系的备选用户,根据备选用户的播放行为特征和预设盗播筛选条件,可以确定备选用户中的盗播用户,这样,可以排除盗播用户使用不同的账号、设备、ip地址进行盗播的干扰,进而可以确定盗播用户组成的团伙。
82.在视频被盗播的情况下,目前根据视频的反向水印技术,可以确定盗播视频的具
体账号,进而可以找到盗播用户。但是,盗播用户组成的团伙会使用多个账号,在盗播视频的过程中也会使用不同的设备、ip地址,因此,在确定个别盗播用户后,很难确定盗播用户组成的团伙。本发明实施例中提供了一种盗播用户挖掘方法,可以通过已确定的个别盗播用户,挖掘盗播用户组成的团伙。
83.在上述步骤s101中,电子设备可以获取已确定盗播用户的盗播相关信息。其中,已确定的盗播用户可以由业务方提供,或者,在发现视频被盗播的情况下,可以根据视频处理技术,确定盗播用户,进而作为已确定的盗播用户,在此不做具体限定。在确定盗播用户后,可以从视频网站不同数据源中获取已确定盗播用户的信息,这些信息为用户在进行视频播放时所关联的信息,那么,可以将这些信息中与盗播行为相关的信息作为盗播相关信息。
84.例如,用户a为已确定盗播用户,从各数据源可以得到用户a的信息包括用户id(identity document,身份证件)、用户名称、设备id、手机号、ip地址、账号、注册账号时间、常用ip地址对应城市、手机号归属城市、播放视频id、播放视频时间,其中,用户a的盗播相关信息可以包括用户id、设备id、手机号、ip地址、账号、播放视频id、播放视频时间,在此不做具体限定。那么,在用户a为已确定盗播用户的情况下,电子设备可以获取用户a的盗播相关信息。
85.电子设备获取到已确定盗播用户的盗播相关信息后,在步骤s102中,可以基于该盗播相关信息和预先构建的盗播知识图谱,确定与已确定盗播用户具有关联关系的备选用户。
86.知识图谱是一种结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系,其基本组成单位可以是“实体-关系-实体”、“实体-属性-属性值”三元组,实体之间通过关联关系相互连接,构成网状的知识结构。知识图谱是由节点和边两部分组成的,其中,节点表示实体,边表示实体与实体之间的关联关系。
87.盗播知识图谱是知识图谱的一种,其中,盗播知识图谱基于预先获取的各用户的盗播相关信息建立,盗播知识图谱可以用于表征各用户之间存在的关联关系。也就是说,盗播知识图谱中的各用户之间可以通过存在的关联关系相连接。
88.在一种实施方式中,预先获取的各用户的盗播相关信息包括已确定盗播用户的盗播相关信息。
89.例如,盗播知识图谱基于预先获取的用户a、用户b、用户c、用户d的盗播相关信息建立,其中,用户a为已确定盗播用户,即用户a的盗播相关信息为已确定盗播用户的盗播相关信息。在该盗播知识图谱中,用户a与用户b之间存在的关联关系为使用相同设备关系、用户a和用户d之间存在的关联关系为使用相同手机号关系、用户b与用户c之间存在的关联关系为使用相同ip地址关系,那么,基于用户a的盗播相关信息和该盗播知识图谱,可以确定与用户a具有关联关系的备选用户为用户b和用户d。
90.由于盗播用户在盗播过程中与非盗播用户在播放视频过程中均会具有播放行为特征,但是盗播用户与非盗播用户的部分播放行为特征具有明显区别,例如,正常用户播放视频时ip地址固定,但盗播用户会在盗播过程中多次更换ip地址等。因此,电子设备确定与已确定盗播用户具有关联关系的备选用户后,为了进一步确定备选用户中的盗播用户,在步骤s103中,可以获取备选用户的播放行为特征。
91.其中,播放行为特征用于表示用户在播放视频过程中所具有与该播放行为相关的
特点。作为一种实施方式,播放行为特征可以包括静态特征和动态特征,静态特征表示用户播放视频过程中不会发生变化的特征,例如,用户注册时间、常用ip地址对应城市、手机号归属城市等,动态特征表示用户播放视频过程中会发生变化的特征,例如,当日播放视频总数、当日使用ip地址总数、当日实际观看视频时长除以当日播放视频总时长、当日播放单集视频中ip地址的最大数量等,在此均不做具体限定。
92.例如,电子设备确定用户b、用户c、用户d为备选用户,为了确定用户b、用户c、用户d中的盗播用户,可以分别获取用户b、用户c、用户d的播放行为特征,即分别获取用户b、用户c、用户d的手机号归属城市、当日播放视频总数、当日使用ip地址总数、当日实际观看视频时长除以当日播放视频总时长等,以进一步确定用户b、用户c、用户d中的盗播用户。
93.为了确定备选用户中的盗播用户,接下来,在步骤s104中,电子设备可以根据备选用户的播放行为特征和预设盗播筛选条件,确定备选用户是否为盗播用户。
94.其中,预设盗播筛选条件基于盗播行为的特征确定。盗播行为的特征表示盗播用户在盗播过程中所具有的与盗播行为相关的特点。虽然盗播行为的特征与非盗播用户所具有的播放行为特征具有相同的部分,但是在部分播放行为特征的表现上具有区别。例如,盗播用户和非盗播用户在播放视频的过程中,均会下载视频,但是盗播用户会更换多个ip地址下载视频,并且在较短的时间内请求下载整个视频内容的片段等,因此,播放行为特征可能包括盗播行为的特征,可以根据预设盗播筛选条件,确定播放行为特征中的盗播行为的特征,进而确定备选用户是否为盗播用户。
95.在一种实施方式中,盗播行为的特征中可以包括静态特征和动态特征,那么,预设盗播筛选条件可以基于盗播行为的特征中的静态特征和动态特征确定。例如,预设盗播筛选条件可以为常用ip地址对应城市是否满足预设城市、当日使用ip地址总数是否大于预设阈值等。其中,预设盗播筛选条件可以为一项,也可以为多项,在此不做具体限定。
96.例如,用户b、用户c、用户d为备选用户,其中,预设盗播筛选条件包括当日使用ip地址总数大于等于3、当日播放单集视频中ip地址的最大数量大于2,用户b、用户c、用户d的播放行为特征如下表所示:
[0097][0098]
那么,基于用户b、用户c、用户d的播放行为特征和预设盗播筛选条件,可以确定备选用户中用户d为盗播用户。
[0099]
在本实施例的方案中,由于预先构建的盗播知识图谱是基于预先获取的各用户的盗播相关信息建立的,所以根据已确定盗播用户的盗播相关信息与该盗播知识图谱,可以确定与已确定盗播用户具有关联关系的备选用户,根据备选用户的播放行为特征和预设盗播筛选条件,可以确定备选用户中的盗播用户,这样,可以排除盗播用户使用不同的账号、
设备、ip地址进行盗播的干扰,进而可以确定盗播用户组成的团伙。
[0100]
作为本发明实施例的一种实施方式,图2为本发明实施例所提供的一种盗播知识图谱构建方式的流程图,如图2所示,上述盗播知识图谱的构建方式,可以包括:
[0101]
s201,获取各用户的盗播相关信息;
[0102]
针对在视频网站注册的各用户,电子设备可以获取各用户的盗播相关信息,其中,盗播相关信息可以包括多种信息,例如,设备标识、互联网协议地址、手机号等,在此不做具体限定。
[0103]
例如,各用户在视频网站注册后,盗播相关信息可以存储在数据源中,那么,电子设备可以从数据源中获取各用户的盗播相关信息。
[0104]
在一种实施方式中,盗播相关信息可以以预设结构形式存储在分布式系统的数据表中,电子设备可以从分布式文件系统的数据表中获取各用户的盗播相关信息。
[0105]
例如,分布式文件系统为hdfs(hadoop distributed file system,hadoop分布式文件系统),各用户的盗播相关信息存储在hdfs的数据表中,其中,数据表的主键均为用户id,数据表的结构形式包括用户id-》手机号、用户id-》设备id、用户id-》ip地址,电子设备可以基于各用户id获取各用户的盗播相关信息。
[0106]
s202,基于所述各用户的盗播相关信息,确定所述各用户之间存在的关联关系;
[0107]
其中,所述关联关系表示不同用户基于目标盗播相关信息产生的关联关系,所述目标盗播相关信息为所述盗播相关信息中的一种。
[0108]
由于各用户的盗播相关信息中包括目标盗播相关信息,而具有相同目标盗播相关信息的各用户之间存在关联关系,因此,电子设备可以基于各用户的盗播相关信息,确定各用户之间存在的关联关系。其中,目标盗播相关信息可以包括设备标识、互联网协议地址、手机号中的至少一种。
[0109]
例如,电子设备获取用户a、用户b、用户c的盗播相关信息,其中,用户a的盗播相关信息包括账号a、设备a、手机号a,用户b的盗播相关信息包括账号b、设备a、手机号b,用户c的盗播相关信息包括账号c、设备c、手机号b,那么,基于设备a可以确定用户a和用户b之间存在的关联关系,即用户a和用户b之间存在使用相同设备关系,同理,基于手机号b可以确定用户b和用户c之间存在的关联关系,即用户b和用户c之间存在使用相同手机号关系。
[0110]
s203,根据所述各用户之间存在的关联关系,构建盗播知识图谱。
[0111]
其中,所述盗播知识图谱中的节点用于表示用户及所述盗播相关信息中的一种,所述盗播知识图谱中的边用于表示该边所连接的节点之间的关联关系。
[0112]
盗播知识图谱由节点和边组成,在确定各用户之间存在的关联关系后,电子设备可以根据各用户之间存在的关联关系,确定盗播知识图谱的节点和边,进而构建盗播知识图谱。由于盗播知识图谱的节点表示实体,可以为多种信息类型,因此,可以将用户及盗播相关信息中的任一种作为节点。
[0113]
在一种实施方式中,盗播知识图谱中的节点用于表示用户一种类型,边表示各用户之间的存在的关联关系,例如,使用相同设备关系、使用相同手机号关系、24小时内使用相同ip地址关系等,在此不做具体限定。
[0114]
例如,用户a、用户b、用户c和用户d之间存在关联关系,其中,用户a和用户b之间存在的关联关系为使用相同设备关系、用户a和用户c之间存在的关联关系为使用相同手机号
关系、用户b和用户c之间存在的关联关系为使用相同ip地址关系、用户c和用户d之间存在的关联关系为使用相同设备关系,那么,可以确定用户a、用户b、用户c和用户d为盗播知识图谱的节点,用户a、用户b、用户c和用户d各节点之间存在的关联关系为盗播知识图谱的边,进而构建盗播知识图谱,如图3(a)所示。
[0115]
在另一种实施方式中,盗播知识图谱中的节点可以用于表示用户及目标盗播相关信息,目标盗播相关信息为盗播相关信息中的一种,边表示各用户与目标盗播相关信息之间存在的关联关系。
[0116]
例如,用户a、用户b和用户c之间存在关联关系,其中,用户a、用户b和用户c均使用相同设备a,用户a、用户b和用户c各节点与设备a之间存在的关联关系为使用该设备a关系,那么,可以确定用户a、用户b、用户c、设备a为盗播知识图谱的节点,用户a、用户b、用户c各节点与设备a之间存在关联关系为盗播知识图谱的边,进而构建盗播知识图谱,如图3(b)所示。
[0117]
可见,在本实施例中,电子设备可以获取各用户的盗播相关信息,基于各用户的盗播相关信息,确定各用户之间存在的关联关系,其中,关联关系表示不同用户基于目标盗播相关信息产生的关联关系,目标盗播相关信息为盗播相关信息中的一种,根据各用户之间存在的关联关系,构建盗播知识图谱,其中,盗播知识图谱中的节点用于表示用户及盗播相关信息中的一种,盗播知识图谱中的边用于表示该边所连接的节点之间的关联关系。由于基于各用户的盗播相关信息,可以确定各用户之间存在的关联关系,进而构建盗播知识图谱,因此,根据构建的盗播知识图谱,可以准确确定存在关联关系的各用户,进而可以保证后续准确确定与已确定盗播用户具有关联关系的备选用户。
[0118]
作为本发明实施例的一种实施方式,上述各用户的盗播相关信息存储在关联关系数据表中,所述关联关系数据表为列族数据库中的数据表,所述关联关系数据表的行键为所述目标盗播相关信息,该行键对应的列族至少包括用户标识,其中,所述用户标识用于确定唯一的用户;
[0119]
由于具有相同目标盗播相关信息的用户之间存在关联关系,如果将具有相同目标盗播相关信息的用户两两组合,组合数量会随着用户数量增加而急剧上升,那么,传统的结构型数据库无法处理存在关联关系的数据。
[0120]
例如,在一张数据表中,主键是用户id,其中一个目标盗播相关信息是用户绑定过的手机号,如果需要找到使用过相同手机号的用户,那么,需要用这张数据表关联该数据表,即从(用户-》手机号)的结构形式得到(用户-》手机号《-用户)的结构形式。假设手机号a曾经被1000个用户绑定过,那么,去重后需要行才能记录下绑定过手机号a的用户之间的两两组合,因此,无论是数据存储还是数据更新都会变得极度困难。
[0121]
因此,各用户的盗播相关信息可以存储在列数据库的关联关系数据表中,该关联关系数据表的行键为目标盗播相关信息,该行键对应的列族至少包括用户标识,以用于确定唯一的用户。
[0122]
在一种实施方式中,数据库为hbase,hbase是一个分布式的、面向列的开源数据库,那么,各用户之间存在的关联关系数据可以存储在hbase表中,hbase表的行键为目标盗播相关信息,该行键对应的列族中包括用户标识。
[0123]
例如,在hbase表中,行键rowkey为设备id,列族名为用户uid,列名为userid,每一
个列值为使用过设备id的用户id,那么,在新增任一用户使用设备时,只需要在对应rowkey对应列族下新增一条记录即可,如下表所示。
[0124][0125][0126]
上述基于所述各用户的盗播相关信息,确定所述各用户之间存在的关联关系的步骤,如图4所示,可以包括:
[0127]
s401,从所述关联关系数据表中,确定所述目标盗播相关信息对应的行键;
[0128]
由于关联关系数据表的行键为目标盗播相关信息,因此,电子设备可以从关联关系数据表中,确定目标盗播相关信息对应的行键。
[0129]
例如,关联关系数据表的行键包括有设备id、ip地址、手机号,已知目标盗播相关信息为手机号,那么,电子设备可以从关联关系数据表中,确定手机号对应的行键。
[0130]
s402,读取所确定的行键对应的列族下的列值,将所述行键与所述列值组成的各个对应关系作为所述各用户基于所述目标盗播相关信息存在的关联关系。
[0131]
电子设备确定目标盗播相关信息对应的行键后,可以读取所确定的行键对应的列族下的列值,由于行键对应的列族下的列值为具有目标盗播相关信息的各用户,那么,可以将行键与列值组成的各个对应关系作为各用户基于目标盗播相关信息存在的关联关系。
[0132]
例如,关联关系数据表如下表所示,确定目标盗播相关信息对应的行键为手机号,那么,电子设备可以读取手机号对应的列族下的用户id,进而将手机号与用户id组成的各个对应关系作为各用户基于手机号存在的关联关系,即将手机号a-用户a、手机号b-用户b、手机号c-用户c、手机号a-用户b作为用户a、用户b、用户c基于手机号存在的关联关系。通过关联关系数据表,可以确定任一手机号下用户,即可以得到使用过该手机号的所有用户。
[0133][0134][0135]
可见,在本实施例中,从关联关系数据表中,电子设备可以确定目标盗播相关信息对应的行键,读取所确定的行键对应的列族下的列值,将行键与列值组成的各个对应关系作为各用户基于目标盗播相关信息存在的关联关系。由于在确定目标盗播相关信息对应的行键后,可以得到所确定的行键对应的列族下的列值,进而可以确定各用户基于目标盗播
相关信息存在的关联关系,可以为确定与已确定盗播用户具有关联关系的备选用户提供基础。
[0136]
此外,使用数据库hbase存储和更新关联关系数据,可以节省大量的存储空间,并且节省的空间会随着使用相同物料信息的用户组数上升而急剧增加,其中,物料信息即为目标盗播相关信息,可以为设备、ip地址、手机号等。
[0137]
作为本发明实施例的一种实施方式,在关联关系数据表中增加数据时,会出现增加的数据与已有数据具有相同行键、相同列族、相同值的情况,为了区别增加的数据,上述关联关系数据表中的每条数据具有版本标识,所述版本标识用于表示该条数据对应的关联关系在所述关联关系数据表中记录的次数。
[0138]
例如,在hbase表中,增加的数据与已有数据具有相同行键、相同列族、相同值时,已有数据不会被覆盖,新增加的数据会基于已有的最近一条数据的版本标识增加1。具体的,用户a使用了设备a,如果用户第一次使用设备a,那么,在hbase表中就会基于(行键=设备a,列族=uid,value=用户a)生成一条version=1且时间戳等于写入时间的数据,如果用户a又一次使用了设备a,那么hbase表就会基于(行键=设备a,列族=uid,value=用户a)生成一条version=2且时间戳等于写入时间的数据,如下表所示,进而可以方便地找到任意时间段内新增的存在关联关系的数据。
[0139][0140][0141]
上述读取所确定的行键对应的列族下的列值,将所述行键与所述列值组成的各个对应关系作为所述各用户基于所述目标盗播相关信息存在的关联关系的步骤,可以包括:
[0142]
读取所确定的行键对应的列族下的第一目标列值,将所述行键与所述第一目标列值组成的各个对应关系,作为所述各用户基于所述目标盗播相关信息存在的关联关系,其中,所述第一目标列值为所述关联关系表中,对应的版本标识为第一版本标识的各条数据所对应的列值,所述第一版本标识用于表示对应的数据所包括的关联关系在所述关联关系数据表中第一次被记录。。
[0143]
在关联关系数据表建立后,关联关系数据表中的数据实时更新,在一种实施方式中,可以基于关联关系数据表中的所有关联关系,确定各用户之间存在的关联关系,进而构建盗播知识图谱,
[0144]
由于在关联关系数据表中,存在相同行键、相同列族、相同值的数据,那么,电子设备在读取所确定的行键对应的列族下的列值时,可以读取所确定的行键对应的列族下的第一目标列值,将行键与第一目标列值组成的各个对应关系作为各用户基于目标盗播相关信息存在的关联关系。
[0145]
也就是说,电子设备读取所确定的行键对应的列族下的列值,可以基于版本标识,
读取第一版本标识的各条数据所对应的列值,那么,所确定的行键与该列值组成的各个对应关系为在关联关系数据表中第一次被记录的对应关系,进而可以将该各个对应关系作为各用户基于目标盗播相关信息存在的关联关系。
[0146]
例如,关联关系数据表如下表所示,电子设备读取设备a对应的用户uid下的用户id,其中,用户a对应的关联关系出现两次,那么,可以读取用户id中version=1的用户id,即可以获取到的用户id为用户a(用户a,version=1,时间戳1)、用户d(用户d,version=1,时间戳5),进而,可以将设备a与用户a(用户a,version=1,时间戳1)、设备a与用户d(用户d,version=1,时间戳5)的对应关系作为用户a和用户d基于设备a存在的关联关系。
[0147][0148]
可见,在本实施例中,电子设备可以读取所确定的行键对应的列族下的第一目标列值,将行键与第一目标列值组成的各个对应关系,作为各用户基于目标盗播相关信息存在的关联关系,其中,第一目标列值为关联关系表中,对应的版本标识为第一版本标识的各条数据所对应的列值,第一版本标识用于表示对应的数据所包括的关联关系在关联关系数据表中第一次被记录。由于读取所确定的行键对应的列族下的列值为第一目标列值,将行键与第一目标列值组成的各个对应关系作为各用户基于目标盗播相关信息存在的关联关系,可以去除行键与列值组成的重复的对应关系,进而可以准确确定各用户基于目标盗播相关信息存在的关联关系,可以为确定与已确定盗播用户具有关联关系的备选用户提供基础。
[0149]
作为本发明实施例的一种实施方式,如图5所示,上述方法还可以包括:
[0150]
s501,按照预设时间间隔,读取各行键对应的列族下的第二目标列值,得到所述行键与所述第二目标列值组成的对应关系;
[0151]
其中,所述第二目标列值在所述预设时间间隔内,所述关联关系数据表中增加的各条数据中,对应的版本标识为第一版本标识的各条数据所对应的列值。
[0152]
由于关联关系数据表中的数据实时更新,在一种实施方式中,在构建盗播知识图谱后,可以基于关联关系数据表中在预设时间内增加的关联关系,更新构建盗播知识图谱,
[0153]
电子设备在读取所确定的行键对应的列族下的列值时,可以按照预设时间间隔,读取各行键对应的列族下的第二目标列值,进而得到行键与第二目标列值组成的对应关系。
[0154]
也就是说,电子设备读取各行键对应的列族下的列值时,可以在预设时间间隔内,基于版本标识,读取第一版本标识的各条数据所对应的列值,那么,各行键与各行键对应的列族下的列值组成的对应关系为在预设时间间隔内,在关联关系数据表中第一次被记录的对应关系,进而可以得到该行键与该列值组成的对应关系。其中,预设时间间隔可以为12小
时、24小时等,在此不做具体限定。
[0155]
例如,关联关系数据表如下表所示,其中,时间戳1、时间戳2、时间戳3记载时间均在9月22日内,时间戳4、时间戳5记载时间在9月23日内,预设时间间隔为时间戳大于等于前一天0点且小于等于前一天的24点,在9月24号,电子设备可以读取9月23日各设备id对应的列族下的version=1的用户id,即读取到的用户id为用户d(用户d,version=1,时间戳5),进而,可以得到设备d与用户d(用户d,version=1,时间戳5)的对应关系。
[0156][0157]
s502,基于所述对应关系更新所述盗播知识图谱。
[0158]
电子设备得到行键与第二目标列值组成的对应关系后,可以基于对应关系,更新盗播知识图谱。
[0159]
在一种实施方式中,可以将得到的对应关系导入盗播知识图谱,进而更新盗播知识图谱。具体的,可以将得到的对应关系存储在文件中,将该文件上传到存储盗播知识图谱的图数据库中,在该图数据库中指定更新文件为上传的文件,进而可以更新盗播知识图谱。其中,图数据库可以为华为云、neo4j、graphx、tigergraph等,在此不做具体限定。
[0160]
例如,盗播知识图谱存储在华为云中,电子设备可以将得到的对应关系保存为csv文件,将该csv文件上传到华为云的对象存储系统obs(object storage service,对象存储服务)中,再调用华为云图数据库更新接口,指定更新文件为新上传的csv文件,进而可以更新盗播知识图谱。
[0161]
可见,在本实施例中,按照预设时间间隔,电子设备可以读取各行键对应的列族下的第二目标列值,得到行键与第二目标列值组成的对应关系,其中,第二目标列值在预设时间间隔内,关联关系数据表中增加的各条数据中,对应的版本标识为第一版本标识的各条数据所对应的列值,基于对应关系更新盗播知识图谱。由于可以按照预设时间间隔,得到行键与第二目标列值组成的对应关系,即得到预设时间间隔内增加的各行键与列值的对应关系,基于该对应关系,可以及时更新盗播知识图谱,进而可以保证后续准确确定与已确定盗播用户具有关联关系的备选用户。
[0162]
作为本发明实施例的一种实施方式,如图6所示,上述根据所述各用户之间存在的关联关系,构建盗播知识图谱的步骤,可以包括:
[0163]
s601,基于所述各用户的播放行为数据,确定所述各用户的播放行为特征;
[0164]
各用户在使用视频网站播放视频时会产生多种数据,该多种数据可以存储在不同的数据源,可以包括登录数据、播放行为数据等。
[0165]
由于盗播用户盗播视频与非盗播用户播放视频具有不同的播放行为特征,因此,电子设备可以基于各用户的播放行为数据,确定各用户的播放行为特征。
[0166]
在一种实施方式中,电子设备可以基于存储在数据源中的播放行为数据,根据实际需求进行离线计算,进而确定各用户的播放行为特征。
[0167]
例如,各用户的播放行为数据存储在分布式文件系统中,其中,播放行为数据包括播放的视频id、使用ip地址,那么,电子设备可以通过groupby(视频id)+count(ip地址)对播放行为数据进行计算,得到的播放行为特征为当日单集视频使用过的ip地址最大数量,可以通过count(视频id)对播放行为数据进行计算,得到的播放行为特征为当日播放视频总数。
[0168]
s602,根据所述各用户之间存在的关联关系以及所述各用户的播放行为特征,构建盗播知识图谱。
[0169]
其中,所述盗播知识图谱中的用户节点的属性包括该用户的播放行为特征,所述用户节点为所述盗播知识图谱中用于表示用户的节点。
[0170]
电子设备确定各用户的播放行为特征后,可以将播放行为特征作为盗播知识图谱中用户节点的属性,那么,根据各用户之间存在的关联关系以及各用户的播放行为特征,可以构建盗播知识图谱。
[0171]
例如,电子设备确定用户a、用户b和用户c的播放行为特征包括当日单集视频使用过的ip地址最大数量、当日使用ip地址的总数、单日观看视频的总数,那么,可以将上述播放行为特征作为用户节点的属性。用户a、用户b、用户c之间存在的关联关系包括用户a与用户b之间存在使用相同设备的关联关系、用户a与用户c之间存在使用相同手机号的关联关系,那么,可以根据用户a、用户b、用户c之间存在的关联关系以及用户a、用户b、用户c的播放行为特征,构建盗播知识图谱。
[0172]
可见,在本实施例中,基于各用户的播放行为数据,确定各用户的播放行为特征,根据各用户之间存在的关联关系以及各用户的播放行为特征,构建盗播知识图谱,其中,盗播知识图谱中的用户节点的属性包括该用户的播放行为特征,用户节点为盗播知识图谱中用于表示用户的节点。由于盗播知识图谱中用户节点的属性可以包括该用户的播放行为特征,播放行为特征包括盗播行为的特征,因此,可以为后续基于备选用户的播放行为特征和预设盗播筛选条件,确定备选用户中的盗播用户提供基础,进而可以准确确定盗播用户组成的团伙。
[0173]
此外,如果在盗播知识图谱构建后增加用户的播放行为特征,可以将各用户增加的播放行为特征存储至文件中,将该文件上传至存储该盗播知识图谱的图数据库中,在该图数据库中指定更新文件为新上传的文件,进而可以更新盗播知识图谱,使该盗播知识图谱用户节点的属性中包括新增加的用户的播放行为特征。
[0174]
作为本发明实施例的一种实施方式,上述获取所述备选用户的播放行为特征的步骤,可以包括:
[0175]
从所述盗播知识图谱中所述备选用户对应的节点的属性中,获取所述备选用户的播放行为特征。
[0176]
由于电子设备可以根据各用户之间存在的关联关系以及各用户的播放行为特征,构建盗播知识图谱,盗播知识图谱中用于表示用户节点的属性包括该用户的播放行为特征,因此,电子设备可以从盗播知识图谱中备选用户对应的节点的属性中,获取备选用户的播放行为特征。
[0177]
例如,盗播知识图谱基于用户a、用户b、用户c和用户d之间存在的关联关系以及用户a、用户b、用户c和用户d的播放行为特征构建,电子设备确定备选用户为用户a、用户b、用户c,其中,用户a、用户b、用户c的节点的属性中包括播放行为特征,即当日单集视频使用过的ip地址最大数量、当日使用ip地址的总数、单日观看视频的总数,那么,电子设备可以从盗播知识图谱中用户a、用户b、用户c对应的节点的属性中,获取用户a、用户b、用户c的播放行为特征,进而根据预设盗播筛选条件,确定备选用户中的盗播用户。
[0178]
可见,在本实施例中,从盗播知识图谱中备选用户对应的节点的属性中,获取备选用户的播放行为特征,可以为后续根据播放行为特征和预设盗播筛选条件确定备选用户中的盗播用户提供基础,以准确确定盗播用户组成的团伙。
[0179]
运用盗播知识图谱来挖掘盗播团伙,由于完善的盗播知识图谱可以清晰地找到基于相同设备、相同手机号、相同ip地址的具有关联关系的用户,因此,通过被盗播的视频反向水印找到盗播该视频的账号后,可以通过盗播知识图谱找到其他参与盗播用户的账号,进而可以挖掘出整个盗播团伙。
[0180]
此外,盗播知识图谱中可以包括视频节点,在用户节点和视频节点之间可以建立播放关系、预约关系、评论关系、关注关系等,更有助于发现具有异常行为的盗播用户。
[0181]
相应于上述盗播用户挖掘方法,本发明实施例还提供了一种盗播用户挖掘装置。下面对本发明实施例所提供的一种盗播用户挖掘装置进行介绍。
[0182]
如图7所示,一种盗播用户挖掘装置,所述装置包括:
[0183]
盗播相关信息获取模块710,用于获取已确定盗播用户的盗播相关信息,其中,所述盗播相关信息为用户在进行视频播放时所关联的与盗播行为相关的信息;
[0184]
备选用户确定模块720,用于基于所述盗播相关信息和预先构建的盗播知识图谱,确定与所述已确定盗播用户具有关联关系的备选用户,其中,所述盗播知识图谱基于预先获取的各用户的盗播相关信息建立,所述盗播知识图谱用于表征所述各用户之间存在的关联关系;
[0185]
播放行为特征获取模块730,用于获取所述备选用户的播放行为特征,其中,所述播放行为特征用于表示用户在播放视频过程中所具有与该播放行为相关的特点;
[0186]
盗播用户确定模块740,用于根据所述备选用户的播放行为特征和预设盗播筛选条件,确定所述备选用户是否为盗播用户,其中,所述预设盗播筛选条件基于盗播行为的特征确定。
[0187]
可见,本发明实施例提供的方案中,电子设备可以获取已确定盗播用户的盗播相关信息,其中,盗播相关信息为用户在进行视频播放时所关联的与盗播行为相关的信息,基于盗播相关信息和预先构建的盗播知识图谱,确定与已确定盗播用户具有关联关系的备选用户,其中,盗播知识图谱基于预先获取的各用户的盗播相关信息建立,盗播知识图谱用于表征各用户之间存在的关联关系,获取备选用户的播放行为特征,其中,播放行为特征用于表示用户在播放视频过程中所具有与该播放行为相关的特点,根据备选用户的播放行为特征和预设盗播筛选条件,确定备选用户是否为盗播用户,其中,预设盗播筛选条件基于盗播行为的特征确定。由于预先构建的盗播知识图谱是基于预先获取的各用户的盗播相关信息建立的,所以根据已确定盗播用户的盗播相关信息与该盗播知识图谱,可以确定与已确定盗播用户具有关联关系的备选用户,根据备选用户的播放行为特征和预设盗播筛选条件,
可以确定备选用户中的盗播用户,这样,可以排除盗播用户使用不同的账号、设备、ip地址进行盗播的干扰,进而可以确定盗播用户组成的团伙。
[0188]
作为本发明实施例的一种实施方式,上述盗播知识图谱构建模块,可以包括:
[0189]
盗播相关信息获取子模块,用于获取各用户的盗播相关信息;
[0190]
关联关系确定子模块,用于基于所述各用户的盗播相关信息,确定所述各用户之间存在的关联关系,其中,所述关联关系表示不同用户基于目标盗播相关信息产生的关联关系,所述目标盗播相关信息为所述盗播相关信息中的一种;
[0191]
盗播知识图谱构建子模块,用于根据所述各用户之间存在的关联关系,构建盗播知识图谱,其中,所述盗播知识图谱中的节点用于表示用户及所述目标盗播相关信息中的一种,所述盗播知识图谱中的边用于表示该边所连接的节点之间的关联关系。
[0192]
作为本发明实施例的一种实施方式,上述各用户的盗播相关信息存储在关联关系数据表中,所述关联关系数据表为列族数据库中的数据表,所述关联关系数据表的行键为所述目标盗播相关信息,该行键对应的列族至少包括用户标识,其中,所述用户标识用于确定唯一的用户;
[0193]
所述关联关系确定子模块,可以包括:
[0194]
行键确定单元,用于从所述关联关系数据表中,确定所述目标盗播相关信息对应的行键;
[0195]
关联关系确定单元,用于读取所确定的行键对应的列族下的列值,将所述行键与所述列值组成的各个对应关系作为所述各用户基于所述目标盗播相关信息存在的关联关系。
[0196]
作为本发明实施例的一种实施方式,上述关联关系数据表中的每条数据具有版本标识,所述版本标识用于表示该条数据对应的关联关系在所述关联关系数据表中记录的次数;
[0197]
所述关联关系确定单元,可以包括:
[0198]
关联关系获取子单元,用于读取所确定的行键对应的列族下的第一目标列值,将所述行键与所述第一目标列值组成的各个对应关系,作为所述各用户基于所述目标盗播相关信息存在的关联关系,其中,所述第一目标列值为所述关联关系表中,对应的版本标识为第一版本标识的各条数据所对应的列值,所述第一版本标识用于表示对应的数据所包括的关联关系在所述关联关系数据表中第一次被记录。
[0199]
作为本发明实施例的一种实施方式,上述装置还可以包括:
[0200]
对应关系获取模块,用于按照预设时间间隔,读取各行键对应的列族下的第二目标列值,得到所述行键与所述第二目标列值组成的对应关系,其中,所述第二目标列值为在所述预设时间间隔内,所述关联关系数据表中增加的各条数据中,对应的版本标识为第一版本标识的各条数据所对应的列值;
[0201]
盗播知识图谱更新模块,用于基于所述对应关系更新所述盗播知识图谱。
[0202]
作为本发明实施例的一种实施方式,上述盗播知识图谱构建子模块,可以包括:
[0203]
播放行为特征确定单元,用于基于所述各用户的播放行为数据,确定所述各用户的播放行为特征;
[0204]
盗播知识图谱构建单元,用于根据所述各用户之间存在的关联关系以及所述各用
户的播放行为特征,构建盗播知识图谱,其中,所述盗播知识图谱中的用户节点的属性包括该用户的播放行为特征,所述用户节点为所述盗播知识图谱中用于表示用户的节点。
[0205]
作为本发明实施例的一种实施方式,上述播放行为特征获取模块730,可以包括:
[0206]
播放行为特征获取子模块,用于从所述盗播知识图谱中所述备选用户对应的节点的属性中,获取所述备选用户的播放行为特征。
[0207]
本发明实施例还提供了一种电子设备,如图8所示,包括处理器801、通信接口802、存储器803和通信总线804,其中,处理器801,通信接口802,存储器803通过通信总线804完成相互间的通信,
[0208]
存储器803,用于存放计算机程序;
[0209]
处理器801,用于执行存储器803上所存放的程序时,实现上述任一实施例所述的盗播用户挖掘方法步骤。
[0210]
可见,本发明实施例提供的方案中,电子设备可以获取已确定盗播用户的盗播相关信息,其中,盗播相关信息为用户在进行视频播放时所关联的与盗播行为相关的信息,基于盗播相关信息和预先构建的盗播知识图谱,确定与已确定盗播用户具有关联关系的备选用户,其中,盗播知识图谱基于预先获取的各用户的盗播相关信息建立,盗播知识图谱用于表征各用户之间存在的关联关系,获取备选用户的播放行为特征,其中,播放行为特征用于表示用户在播放视频过程中所具有与该播放行为相关的特点,根据备选用户的播放行为特征和预设盗播筛选条件,确定备选用户是否为盗播用户,其中,预设盗播筛选条件基于盗播行为的特征确定。由于预先构建的盗播知识图谱是基于预先获取的各用户的盗播相关信息建立的,所以根据已确定盗播用户的盗播相关信息与该盗播知识图谱,可以确定与已确定盗播用户具有关联关系的备选用户,根据备选用户的播放行为特征和预设盗播筛选条件,可以确定备选用户中的盗播用户,这样,可以排除盗播用户使用不同的账号、设备、ip地址进行盗播的干扰,进而可以确定盗播用户组成的团伙。
[0211]
上述终端提到的通信总线可以是外设部件互连标准(peripheral component interconnect,简称pci)总线或扩展工业标准结构(extended industry standard architecture,简称eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0212]
通信接口用于上述终端与其他设备之间的通信。
[0213]
存储器可以包括随机存取存储器(random access memory,简称ram),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
[0214]
上述的处理器可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器(digital signal processor,简称dsp)、专用集成电路(application specific integrated circuit,简称asic)、现场可编程门阵列(field-programmable gate array,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0215]
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述实施例中任一所述的盗播用户挖掘方法。
[0216]
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的盗播用户挖掘方法。
[0217]
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solid state disk(ssd))等。
[0218]
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0219]
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、计算机可读存储介质以及计算机程序产品实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0220]
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。