一种识别批量注册行为的方法及装置的制造方法
【技术领域】
[0001] 本申请涉及通信技术领域,尤其涉及一种识别批量注册行为的方法及装置。
【背景技术】
[0002] 随着通信技术和计算机技术的快速发展,Internet应用日益广泛,人们在网站注 册一个账户就可以通过Internet发布数字作品、各种重要信息、进行网络贸易和通讯等。 大多网站注册时要求填写注册人的姓与名以及电子邮箱地址。现实中经常会出现批量注册 行为,这种批量注册往往伴随着对计算机系统进行侵犯的行为。因此,如何识别批量注册行 为从而更好的解决计算机系统安全问题是一个亟待解决的问题。
【发明内容】
[0003] 本申请实施例的目的是提供一种识别批量注册行为的方法及装置,以减少恶意的 批量注册行为的危害。
[0004] 为实现上述目的,本申请实施例提供一种识别批量注册行为的方法,该方法包 括:
[0005] 选取预设数量的待识别注册信息,所述注册信息包含注册用户的姓、名及注册电 子邮箱的地址;
[0006] 获取所述注册信息中电子邮箱地址的用户名字符串,并按照预定规则获取所述注 册信息中对应姓的第一扩展信息和对应名的第二扩展信息;
[0007] 查找注册用户第一扩展信息和第二扩展信息在所述电子邮箱地址的用户名字符 串中第一次出现的位置,得到第一扩展信息位置和第二扩展信息位置;
[0008] 根据所述第一扩展信息在所述电子邮箱地址的用户名字符串中的位置和所述第 二扩展信息在所述电子邮箱地址的用户名字符串中的位置将所述电子邮箱地址的用户名 字符串进行划分,采用向量描述所述划分后的各个部分的特征,并以所述向量对所述电子 邮箱地址的用户名字符串进行分类;
[0009] 统计每个向量占所有向量的比例,当某个向量占所有向量的比例大于等于第一阈 值时,判断该向量中所有注册信息中包含批量注册的注册信息。
[0010] 本申请另一方面还提供一种识别批量注册行为的装置,该装置包括:
[0011] 预设单元,用于根据包含注册用户的姓、名及注册电子邮箱的地址的注册信息,获 取所述注册信息中电子邮箱地址的用户名字符串以及注册用户第一扩展信息和第二扩展 信息;
[0012] 获取信息单元,用于获取所述注册信息中电子邮箱地址的用户名字符串,并按照 预定规则获取所述注册信息中对应姓的第一扩展信息和对应名的第二扩展信息;
[0013] 查找单元,用于查找注册用户第一扩展信息和第二扩展信息在所述电子邮箱地址 的用户名字符串中第一次出现的位置,得到第一扩展信息位置和所第二扩展信息位置;
[0014] 分类单元,用于根据所述第一扩展信息在所述电子邮箱地址的用户名字符串中的 位置和所述第二扩展信息在所述电子邮箱地址的用户名字符串中的位置将所述电子邮箱 地址的用户名字符串进行划分,采用向量描述所述划分后的各个部分的特征,并以所述向 量对所述电子邮箱地址的用户名字符串进行分类;
[0015] 统计单元,用于统计每个向量占所有向量的比例,当某个向量占所有向量的比例 大于等于第一阈值时,就可以判断该向量中所有注册信息中包含批量注册的注册信息。
[0016] 由以上本申请实施例提供的技术方案可见,本申请实施例通过注册用户的姓和名 对电子邮箱地址的用户名字符串进行划分,并采用向量描述划分后的各个部分的特征,并 以向量对电子邮箱地址的用户名字符串进行分类,统计每个向量占所有向量的比例,当某 个向量占所有向量的比例大于等于第一阈值时,就可以判断该向量中所有注册信息中包含 批量注册的注册信息,为进一步精确识别批量注册提供了依据。
【附图说明】
[0017] 为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提 下,还可以根据这些附图获得其他的附图。
[0018] 图1是本申请实施例提供的一种识别批量注册行为的方法流程示意图;
[0019] 图2是本申请实施例提供的一种识别批量注册行为的装置的示意图。
【具体实施方式】
[0020] 为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实 施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施 例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通 技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护 的范围。
[0021] 以下以具体的例子详细说明本申请实施例的具体实现。
[0022] 本申请实施例提供一种识别批量注册行为的方法,如图1所示,该方法包括:
[0023] 步骤S101 :选取预设数量的待识别注册信息,该注册信息包含注册用户的姓、名 及注册电子邮箱的地址。
[0024] 在实际中,在某个网站进行注册时一般会需要填写注册用户的姓、名以及电子邮 箱地址。姓与名可以为中文汉字的姓与名,也可以为英文的姓与名。
[0025] 步骤S102 :获取注册信息中电子邮箱地址的用户名字符串,并按照预定规则获取 注册信息中对应姓的第一扩展信息和对应名的第二扩展信息。
[0026] 预定规则包括根据注册用户的姓与名获取中文汉字对应的拼音全拼,以及拼音首 字母。当姓或名字段包括不止一个汉字时,预定规则包括顺序排列的每个中文汉字的拼音 全拼,以及顺序排列的每个中文汉字拼音首字母。
[0027] 预定规则包括根据注册用户的姓与名英文单词对应的全拼,以及首字母。当姓或 名字段包括不止一个英文单词时,预定规则包括顺序排列的每个英文单词的全拼,以及顺 序排列的每个英文单词首字母。
[0028] 也即,第一扩展信息包括姓的全拼和姓的首字母,第二扩展信息包括名的全拼和 名的首字母。
[0029] 比如姓为:欧阳,姓的全拼为ouyang,姓的首字母为oy。第二扩展信息是指名的全 拼和名的首字母,当名由两个及两个以上的汉字或英文组成时,为全部名的全拼或全部名 的首字母,比如名为:向阳,名的全拼为xiangyang,名的首字母为xy。
[0030] 步骤S103 :查找注册用户的第一扩展信息和第二扩展信息在上述电子邮箱地址 的用户名字符串中第一次出现的位置,得到第一扩展信息位置和第二扩展信息位置。
[0031] 在实际中,查找第一扩展信息时,先查找姓的全拼,当无法查找到姓的全拼时,再 查找姓的首字母;查找第二扩展信息时,先查找名的全拼,当无法查找到名的全拼时,再查 找名的首字母。
[0032] 在实际中,查找注册用户第一扩展信息和第二扩展信息在所述电子邮箱地址的用 户名字符串中第一次出现的位置包括:判断所述注册信息的注册用户第一扩展信息和第二 扩展信息是否存在包含关系,具体是判断姓的全拼和名的全拼是否存在包含关系。
[0033] 当姓的全拼和名的全拼不存在包含关系时,第一扩展信息在所述电子邮箱地址的 用户名字符串中的位置是电子邮箱地址的用户名字符串从左往右第一次查找到第一扩展 信息的位置;第二扩展信息在电子邮箱地址的用户名字符串中的位置是电子邮箱地址的用 户名字符串从左往右第一次查找到第二扩展信息的位置。
[0034] 例如:电子邮箱地址的用户名字符串为"231 ikimsi#p",用户的姓为李,名为 四,此时第一扩展信息包括"li"或"1",第二扩展信息包括"si"或"s"。则字符串 "231ikimsip#"中从左往右依次查找时,第一次查找到的字符串"li"认定为第一扩展信息, 也即字符"3"和字符"k"之间的字符串"li"为第一扩展信息,该字符串"li"所在位置为 第一扩展信息在电子邮箱地址的用户名字符串中的位置;字符串"231ikimsi#p"中从左往 右依次查找时,第一次查找到的字符串"si"为第二扩展信息,也即字符"m"和字符"#"之 间的字符串"si"为第二扩展信息,该字符串"si"所在位置为第二扩展信息在电子邮箱地 址的用户名字符串中的位置。
[0035] 当姓的全拼和名的全拼存在包含关系,且姓的全拼与名的全拼一致时,确定优先 查找信息,优先查找信息为第一扩展信息或第二扩展信息,当第一扩展信息为优先查找信 息时,第二扩展信息为第二查找信息;当第二扩展信息为优先查找信息时,第一扩展信息为 第二查找信息;电子邮箱地址的用户名字符串从左往右第一次查找优先查找信息的位置; 从第一次查找到优先查找信息的位置往后第一次查找到第二查找信息的位置。
[0036] 例如:电子邮箱地址的用户名字符串为"231ikimli#p",用户的姓为李,名为力, 此时姓和第二扩展信息一致,均包括" 1 i "或" 1 "。
[0037] 如果第一扩展信息为优先查找信息,第二扩展信息为第二查找信息,则字符串 " 231 ikiml i#p "中从左往右依次查找时,第一次查找到的字符串" 1 i "认定为第一扩展信息, 也即字符"3"和字符"k"之间的字符串"li"为第一扩展信息,该字符"3"和字符"k"之间 的字符串"li"所在位置为第一扩展信息在电子邮箱地址的用户名字符串中的位置,从第一 扩展信息字符串"li"开始往后依次查找,第一次查找到的字符串"li"认定为第二扩展信 息,也即字符"m"和字符之间的字符串"li"为第二扩展信息,该字符"m"和字符 之间的字符串"li"所在位置为第二扩展信息在电子邮箱地址的用户名字符串中的位置。
[0038] 如果名为优先查找信息,字符串" 231 ikiml i#p "中从左往右依次查找时,第一次查 找到的字符串"li"认定为第二扩展信息,也即字符"3"和字符"k"之间的字符串"li"为 第二扩展信息,该字符"3"和字符"k"之间的字符串"li"所在位置为第二扩展信息在电子 邮箱地址的用户名字符串中的位置,从第二扩展信息字符串"li"开始往后依次查找第一次 查找到的字符串"li"认定为第一扩展信息,也即字符"m"和字符之间的字符串"li" 为第一扩展信息,该字符"m"和字符之间的字符串"li"所在位置为第一扩展信息在电 子邮箱地址的用户名字符串中的位置。
[0039] 当姓的全拼和名的全拼存在包含关系,且姓的全拼的字符串长度大于名的全拼的 字符串长度;第一扩展信息在电子邮箱地址的用户名字符串中的位置是电子邮箱地址的用 户名字符串从左往右第一次查找到第一扩展信息的位置;第二扩展信息在电子邮箱地址的 用户名字符串中的位置是去除第一扩展信息后,电子邮箱地址的用户名字符串从左往右第 一次查找到第二扩展信息的位置。
[0040] 例如:电子邮箱地址的用户名字符串为"231 ikimlin#p",用户的姓为林,名为丽, 此时第一扩展信息包括" lin"或" 1 ",第二扩展信息包括" li "或" 1 ",也即姓的全拼和名的 全拼之间存在包含关系,且姓的全拼的字符串长度大于名的全拼的字符串长度。则先查找 第一扩展信息所在位置,再查找第二扩展信息所在位置,字符串"231ikimlin#p"中从左往 右依次查找时第一次查找到字符串"lin"认定为第一扩展信息,也即字符"m"和字符 之间的字符串"lin"为第一扩展信息,该字符"m"和字符之间的字符串"lin"所在位 置为第一扩展信息在电子邮箱地址的用户名字符串中的位置,再从字符串"2