一种甄别电子邮件发送者身份特征的方法和装置与流程

文档序号:13141958阅读:297来源:国知局
一种甄别电子邮件发送者身份特征的方法和装置与流程

本申请涉及电子邮件系统的技术领域,具体涉及一种甄别电子邮件发送者身份特征的方法和装置。



背景技术:

由于网络技术的发展,传统的通讯方式几乎被网络通讯方式所替代,例如,电子邮件的出现已经逐渐将传统的信件传输替代。网络流行的时代,用户无论在生活上还是在工作中更倾向于将电子邮件作为传输方式进行文件和信息的传输。

按照电子邮件协议,当一封电子邮件在同一电子邮件系统内传输时,针对接收者和发送者采用同一电子邮件系统的情况,接收者和发送者在登陆时均需要通过密码等方式进行身份认证,因此,如果接收者和发送者采用相同系统时,发送者需要通过身份验证才能登陆该系统,此时则可以说明该发送者的身份是真实的,因此不需要接收者再做其他的认证。但是,当一封电子邮件在两个不同的电子邮件系统间传输时,接收者和发送者所采用的电子邮件的系统不同,接收者所采用的系统对发送者所应用的系统的身份认证是不确定的,因此,系统的认证机制将受到限制,而针对该情况,现有的两种常用的身份识别方法分别为spf方法和dkim方法,以下对该两种现有方法进行介绍:

spf(senderpolicyframework),这是由邮件发信地址的域名拥有者通过设置发送域的dns(域名系统)通过spf或txt方式记录来声明本域的合法发信ip,因此本域的所有邮件都应该来自这些声明的ip,否则,可能属于伪造。

dkim(domainkeysidentifiedmail),这是一种基于数字签名的身份验证机制,由发送方事先将签名公钥设置在指定域名的dns(域名系统)记录中,在发信时使用私钥对邮件进行数字签名并将结果插入到邮件信头,接收方将根据该电子邮件信头信息从dns中获取公钥对邮件进行数字签名验证。

spf和dkim方式是两个电子邮件系统间的一种较为有效的邮件发送域域名身份识别机制,但是,在实际应用中两种方式会存在以下问题:

这两种机制都要求邮件发送域的域名拥有者必须进行相应的dns(域名系统)设置,dkim方式还需要在邮件头部增加相应的签名字段,但这两种方式的上述设置都不是电子邮件协议所强制要求的,因此,在实际应用中,很多邮件发送方并没有使用相应的设置,接收方也就无从利用这些机制进行相应身份甄别。即使有些地址域名进行了相应的设置,但很多情况下,一些收件方对不符合spf或dkim设置的邮件并不明确拒绝,因此,仅凭这些机制仍不好确认邮件发送者身份是否是真实可信的。



技术实现要素:

本申请提供一种甄别电子邮件发送者身份特征的方法,以解决现有技术中存在的上述问题。

本申请另外提供一种甄别电子邮件发送者身份特征的装置。

本申请提供一种甄别电子邮件发送者身份特征的方法,包括:

提取接收到的待甄别的电子邮件的预设特征集;

以预先训练好的特征匹配模型中的特征匹配条件为依据,将所述预设特征集中的待甄别特征与所述特征匹配条件中对应的特征进行匹配度测试,判断所述预设特征集中待甄别特征是否满足所述特征匹配条件;

若是,所述待甄别的电子邮件的发送者的身份特征甄别为可信的邮件发送者。

可选的,所述预先训练好的特征匹配模型的训练方式包括:

基于离线数据系统的预设时间段内的数据,采用预设方式获取特征匹配条件和可信ip地址;所述可信ip地址存入可信ip地址集中;

获取与所述可信ip地址对应的关联特征;

将获取的特征匹配条件、可信ip地址集及可信ip地址对应的关联特征存储在所述特征匹配模型。

可选的,所述采用预设方式获取可信ip地址步骤中,所述预设方式包括以下方式中的至少一种:

根据发送域与发信ip地址判断该发信ip地址是否为可信ip地址的方式;

根据发信方系统标识与发信ip地址判断该发信ip地址是否为可信ip地址 方式;

根据发信ip地址的关联特征与可信ip地址对应的关联特征的相似度判断该发信ip地址是否为可信ip地址的方式;

根据发信ip地址发送的邮件对应的回复率判断该发信ip地址是否为可信ip地址的方式;

根据发信ip地址对应的关联特征及邮件打开率判断该发信ip地址是否为可信ip地址的方式。

可选的,所述根据发送域与发信ip地址判断该发信ip地址是否为可信ip地址的方式包括;

从离线数据系统中获取电子邮件的发信ip地址;

将电子邮件的发送域进行解析,获得解析后的ip地址;

判断所述发信ip地址与该解析后的ip地址是否匹配;

若是,将该发信ip地址对应的ip地址作为可信ip地址;

其中,采用预设方式获取的特征匹配条件是,判断发信ip地址与发送域解析后的ip地址信息是否匹配。

可选的,所述判断所述发信ip地址与该解析后的ip地址是否匹配步骤中,判断所述发信ip地址与该解析后的ip地址是否匹配所采用的方式包括:

判断所述发信ip地址与该解析后的ip地址两个地址之间是否具有预设数量的相同位数;

若是,则所述发信ip地址与该解析后的ip地址信息相匹配;

若否,则所述发信ip地址与该解析后的ip地址信息不匹配。

可选的,所述将电子邮件的发送域进行解析的步骤中,所述发送域解析方式包括以下方式中的任意一种:

采用设置ip地址记录的方式将所述发送域进行解析;

采用邮件交换记录的方式将发送域进行解析。

可选的,所述根据发信方系统标识与发信ip地址判断该发信ip地址是否为可信ip地址方式包括:

从离线数据系统中获取电子邮件发送域的发信ip地址和发信方系统标识;

判断所述发信方系统标识与所述发信ip地址是否匹配;

若是,将该发信ip地址对应的ip地址作为可信ip地址;

其中,采用预设方式获取的特征匹配条件是,判断电子邮件的发信方系统标识与发信ip地址是否匹配。

可选的,所述判断所述发信方系统标识与所述发信ip地址是否匹配步骤中,判断所述发信方系统标识与所述发信ip地址是否匹配所采用的方式包括:

判断电子邮件发送域的一级域名与所述发信方系统标识的一级域名是否相同;

若是,判断所述发信方系统标识解析出的ip地址与所述发信ip地址是否匹配;

当解析出的ip地址与所述发信ip地址具有预设数量的相同位数时,所述发信方系统标识与所述发信ip地址相匹配;

当解析出的ip地址与所述发信ip地址不具有预设数量的相同位数时,所述发信方系统标识与所述发信ip地址不匹配。

可选的,所述根据发信ip地址的关联特征与可信ip地址对应的关联特征的相似度判断该发信ip地址是否为可信ip地址的方式包括:

从离线数据系统中获取电子邮件的发信ip地址和发信ip地址的关联特征;所述关联特征包括发信方系统标识和邮件信头特征;

判断所述发信ip地址的关联特征与可信ip地址集中的可信ip地址对应的关联特征是否相匹配;

若是,将该发信ip地址对应的ip地址作为可信ip;

其中,采用预设方式获取的特征匹配条件是,判断发信ip地址的关联特征与可信ip地址集中的可信ip地址对应的关联特征是否相匹配。

可选的,所述判断所述发信ip地址的关联特征与可信ip地址集中的可信ip地址对应的关联特征是否相匹配步骤中,判断发信ip地址的关联特征与可信ip地址集中的可信ip地址对应的关联特征是否相匹配所采用的方式包括:

采用特征向量的相似度度量方法计算所述发信ip地址的关联特征与可信ip地址集中对应的关联特征所对应的特征向量的相似度;

判断所述相似度是否大于或者等于预设相似度阈值;

若是,则所述发信ip地址的关联特征与可信ip地址集中的可信ip地址对 应的关联特征相匹配;

若否,则所述发信ip地址的关联特征与可信ip地址集中的可信ip地址对应的关联特征不匹配。

可选的,所述特征向量的相似度度量方法具体包括:

获取可信ip地址集对应的关联特征和所述发信ip地址的关联特征;

将所述可信ip地址集对应的关联特征中的特征以及每个特征所对应的权重构成特征向量;

获取所述发信ip地址的关联特征中与所述可信ip地址集对应的关联特征中的相同特征;

计算获取所述相同特征的权重;

将所述相同特征的权重与所有特征总权重对比,获取所述发信ip地址的关联特征与所述可信ip地址集对应的关联特征的特征向量的相似度。

可选的,所述根据发信ip地址发送的邮件对应的回复率判断该发信ip地址是否为可信ip地址的方式包括:

从离线数据系统中获取采用发信ip地址发送的电子邮件数量;

获取该发信ip地址在该预设时间段内所接收到的邮件的数量;

根据所述发送电子邮件数量和所述接收到的邮件的数量获取该发信ip地址的回复率;

判断所述回复率是否大于或者等于预设回复率阈值;

若是,则将该发信ip地址作为可信ip地址。

可选的,所述根据发信ip地址对应的关联特征及邮件打开率判断该发信ip地址是否为可信ip地址的方式包括:

从离线数据系统中获取在预设时间段内的使用频率高于预设频率的发信ip地址;

判断该发信ip地址对应的发信方系统标识和邮件信头特征是否稳定;

若是,判断该发信ip地址发出的邮件的打开率是否高于预设打开率阈值;

当该发信ip地址发出的邮件的打开率高于预设打开率阈值时,且该发信ip地址不存在不良记录,将该发信ip地址作为可信ip地址。

可选的,所述提取接收到的待甄别的电子邮件的预设特征集步骤中接收到 的预设特征集中的待甄别特征为待甄别的发信ip地址;

相应的,所述以预先训练好的特征匹配模型中的特征匹配条件为依据,将所述预设特征集中的待甄别特征与所述特征匹配条件中对应的特征进行匹配度测试,判断所述预设特征集中待甄别特征是否满足所述特征匹配条件步骤包括:

所述预先训练好的特征匹配模型中的特征匹配条件为判断某一ip地址是否属于所述可信ip地址集;

根据设定的所述特征匹配条件,判断所述待甄别的发信ip地址是否属于所述可信ip地址集;

若是,则该待甄别的发信ip地址满足所述特征匹配条件。

可选的,当所述判断所述待甄别的发信ip地址是否属于所述可信ip地址集的判断结果为否时,再次执行特征匹配模型中的特征匹配条件的判断,所述特征匹配条件为判断发信ip地址与发送域解析后的ip地址是否匹配;

具体判断方式包括:

将电子邮件的发送域进行解析,获得解析后的ip地址;

依据该特征匹配条件,判断所述待甄别的发信ip地址与解析后的ip地址是否匹配;

若是,则所述待甄别的发信ip地址满足所述特征匹配条件。

可选的,所述判断所述待甄别的发信ip地址与解析后的ip地址是否匹配步骤中是否匹配的判断方式包括:

判断所述待甄别的发信ip地址与解析后的ip地址两个地址之间是否具有预设数量的相同位数。

可选的,所述判断所述待甄别的发信ip地址与解析后的ip地址是否匹配步骤中的判断结果为否时,执行特征匹配模型中的特征匹配条件的判断,所述特征匹配条件为判断电子邮件的发信方系统标识与发信ip地址是否匹配;

具体判断方式包括:

依据该特征匹配条件,判断所述待甄别的发信ip地址与所述发信方系统标识是否匹配;

若是,则所述待甄别的发信ip地址满足所述特征匹配条件。

可选的,所述判断所述待甄别的发信ip地址与所述发信方系统标识是否匹 配步骤中的判断匹配方式包括:

判断邮件发送域的一级域名与所述发信方系统标识的一级域名是否相同;

若是,判断所述发信方系统标识解析出的ip地址与所述待甄别的发信ip地址是否匹配。

可选的,所述判断所述待甄别的发信ip地址与所述发信方系统标识是否匹配步骤中若判断结果为否时,执行特征匹配模型中的特征匹配条件的判断,所述特征匹配条件为判断发信ip地址的关联特征与可信ip地址集中的可信ip地址对应的关联特征是否相匹配;所述关联特征包括发信方系统标识和邮件信头特征;

具体判断方式包括:

依据该特征匹配条件,判断所述待甄别的发信ip地址的关联特征与可信ip地址集中的可信ip地址对应的关联特征是否相匹配;

若是,则所述待甄别的发信ip地址满足所述特征匹配条件。

可选的,所述判断所述待甄别的发信ip地址的关联特征与可信ip地址集中的可信ip地址对应的关联特征是否相匹配步骤中采用的判断匹配方式包括:

判断所述待甄别的发信ip地址的关联特征与所述可信ip地址对应的关联特征的相似度是否大于或等于预设相似度阈值。

可选的,所述待甄别的发信ip地址满足所述特征匹配条件步骤,执行以下步骤:

判断所述待甄别的发信ip地址的关联特征与可信ip地址集中的可信ip地址对应的关联特征是否相匹配;

若是,则所述待甄别的发信ip地址满足所述特征匹配条件。

可选的,所述提取接收到的待甄别的电子邮件的预设特征集步骤中所述待甄别的电子邮件的接收方式包括:采用邮件传送代理系统接收待甄别的电子邮件。

可选的,所述预设特征匹配模型中所包含的特征信息包括:发信ip地址、发送域信息、发信方系统标识和邮件信头特征。

本申请还提供一种甄别电子邮件发送者身份特征的装置,包括:

预设特征集提取单元,用于提取接收到的待甄别的电子邮件的预设特征集;

特征匹配条件判断单元,用于以预先训练好的特征匹配模型中的特征匹配条件为依据,将所述预设特征集中的待甄别特征与所述特征匹配条件中对应的特征进行匹配度测试,判断所述预设特征集中待甄别特征是否满足所述特征匹配条件;

身份特征甄别单元,用于若特征匹配条件判断单元的判断结果为是,所述待甄别的电子邮件的发送者的身份特征甄别为可信的邮件发送者。

可选的,所述特征匹配条件判断单元中还包括:特征匹配模型训练子单元;

所述特征匹配模型训练子单元还包括:

特征匹配条件和可信ip地址获取子单元,用于基于离线数据系统的预设时间段内的数据,采用预设方式获取特征匹配条件和可信ip地址;所述可信ip地址存入可信ip地址集中;

关联特征获取子单元,用于获取与所述可信ip地址对应的关联特征;

存储子单元,用于将获取的特征匹配条件、可信ip地址集及可信ip地址对应的关联特征存储在所述特征匹配模型。

可选的,所述特征匹配条件和可信ip地址获取子单元中的预设方式包括以下单元中的至少一种:

发送域判断子单元,用于根据发送域与发信ip地址判断该发信ip地址是否为可信ip地址的方式;

发信方系统标识判断子单元,用于根据发信方系统标识与发信ip地址判断该发信ip地址是否为可信ip地址方式;

关联特相似度判断子单元,用于根据发信ip地址的关联特征与可信ip地址对应的关联特征的相似度判断该发信ip地址是否为可信ip地址的方式;

回复率判断子单元,用于根据发信ip地址发送的邮件对应的回复率判断该发信ip地址是否为可信ip地址的方式;

打开率判断子单元,用于根据发信ip地址对应的关联特征及邮件打开率判断该发信ip地址是否为可信ip地址的方式。

可选的,所述发送域判断子单元包括:

发信ip地址获取子单元,用于从离线数据系统中获取电子邮件的发信ip地址;

解析子单元,用于将电子邮件的发送域进行解析,获得解析后的ip地址;

判断子单元,用于判断所述发信ip地址与该解析后的ip地址是否匹配;

可信ip地址生成子单元,若判断子单元的判断结果为是,用于将该发信ip地址对应的ip地址作为可信ip地址;

其中,采用预设方式获取的特征匹配条件是,判断发信ip地址与发送域解析后的ip地址信息是否匹配。

可选的,所述判断子单元包括:

位数判断子单元,用于判断所述发信ip地址与该解析后的ip地址两个地址之间是否具有预设数量的相同位数;

若是,则所述发信ip地址与该解析后的ip地址信息相匹配;

若否,则所述发信ip地址与该解析后的ip地址信息不匹配。

可选的,所述发信方系统标识判断子单元包括:

发信ip地址和发信方系统标识获取子单元,用于从离线数据系统中获取电子邮件发送域的发信ip地址和发信方系统标识;

判断子单元,用于判断所述发信方系统标识与所述发信ip地址是否匹配;

若是,将该发信ip地址对应的ip地址作为可信ip地址;

其中,采用预设方式获取的特征匹配条件是,判断电子邮件的发信方系统标识与发信ip地址是否匹配。

可选的,所述判断子单元包括:

一级域名判断子单元,用于判断电子邮件发送域的一级域名与所述发信方系统标识的一级域名是否相同;

匹配判断子单元,若一级域名判断子单元的判断结果为是,用于判断所述发信方系统标识解析出的ip地址与所述发信ip地址是否匹配;

当解析出的ip地址与所述发信ip地址具有预设数量的相同位数时,所述发信方系统标识与所述发信ip地址相匹配;

当解析出的ip地址与所述发信ip地址不具有预设数量的相同位数时,所述发信方系统标识与所述发信ip地址不匹配。

可选的,所述关联特相似度判断子单元包括:

关联特征获取子单元,用于从离线数据系统中获取电子邮件的发信ip地址和发信ip地址的关联特征;所述关联特征包括发信方系统标识和邮件信头特征;

判断子单元,用于判断所述发信ip地址的关联特征与可信ip地址集中的可信ip地址对应的关联特征是否相匹配;

若是,将该发信ip地址对应的ip地址作为可信ip;

其中,采用预设方式获取的特征匹配条件是,判断发信ip地址的关联特征与可信ip地址集中的可信ip地址对应的关联特征是否相匹配。

可选的,所述判断子单元包括:

相似度获取子单元,用于采用特征向量的相似度度量方法计算所述发信ip地址的关联特征与可信ip地址集中对应的关联特征所对应的特征向量的相似度;

阈值判断子单元,用于判断所述相似度是否大于或者等于预设相似度阈值;

若是,则所述发信ip地址的关联特征与可信ip地址集中的可信ip地址对应的关联特征相匹配;

若否,则所述发信ip地址的关联特征与可信ip地址集中的可信ip地址对应的关联特征不匹配。

可选的,所述相似度获取子单元包括:

关联特征获取子单元,用于获取可信ip地址集对应的关联特征和所述发信ip地址的关联特征;

特征向量生成子单元,用于将所述可信ip地址集对应的关联特征中的特征以及每个特征所对应的权重构成特征向量;

相同特征获取子单元,用于获取所述发信ip地址的关联特征中与所述可信ip地址集对应的关联特征中的相同特征;

权重计算子单元,用于计算获取所述相同特征的权重;

相似度获取子单元,用于将所述相同特征的权重与所有特征总权重对比,获取所述发信ip地址的关联特征与所述可信ip地址集对应的关联特征的特征向量的相似度。

可选的,所述回复率判断子单元包括:

发送的电子邮件数量获取子单元,用于从离线数据系统中获取采用发信ip 地址发送的电子邮件数量;

接收到的邮件的数量获取子单元,用于获取该发信ip地址在该预设时间段内所接收到的邮件的数量;

回复率计算子单元,用于根据所述发送电子邮件数量和所述接收到的邮件的数量获取该发信ip地址的回复率;

阈值判断子单元,用于判断所述回复率是否大于或者等于预设回复率阈值;

若是,则将该发信ip地址作为可信ip地址。

可选的,所述打开率判断子单元包括:

发信ip地址获取子单元,用于从离线数据系统中获取在预设时间段内的使用频率高于预设频率的发信ip地址;

稳定性判断子单元,用于判断该发信ip地址对应的发信方系统标识和邮件信头特征是否稳定;

预设打开率阈值判断子单元,若稳定性判断子单元的判断结果为是,用于判断该发信ip地址发出的邮件的打开率是否高于预设打开率阈值;

可信ip地址生成子单元,用于当该发信ip地址发出的邮件的打开率高于预设打开率阈值时,且该发信ip地址不存在不良记录,将该发信ip地址作为可信ip地址。

可选的,所述预设特征集提起单元中接收到的预设特征集中的特征为待甄别特征为待甄别的发信ip地址;

相应的,特征匹配条件判断单元包括:

某一ip地址判断子单元,用于所述预先训练好的特征匹配模型中的特征匹配条件为判断某一ip地址是否属于所述可信ip地址集;

可信ip地址集判断子单元,用于根据设定的所述特征匹配条件,判断所述待甄别的发信ip地址是否属于所述可信ip地址集;

若是,则该待甄别的发信ip地址满足所述特征匹配条件。

可选的,当所述可信ip地址集判断子单元的判断结果为否时,还包括:

解析后的ip地址获取子单元,用于将电子邮件的发送域进行解析,获得解析后的ip地址;

ip地址匹配判断子单元,用于依据该特征匹配条件,判断所述待甄别的发 信ip地址与解析后的ip地址是否匹配;

若是,则所述待甄别的发信ip地址满足所述特征匹配条件。

可选的,当所述ip地址匹配判断子单元的判断结果为否时,还包括:

发信ip地址与所述发信方系统标识匹配判断子单元,用于依据该特征匹配条件,判断所述待甄别的发信ip地址与所述发信方系统标识是否匹配;

若是,则所述待甄别的发信ip地址满足所述特征匹配条件。

可选的,当所述发信ip地址与所述发信方系统标识匹配判断子单元的判断结果为否时,还包括:

关联特征匹配判断子单元,用于依据该特征匹配条件,判断所述待甄别的发信ip地址的关联特征与可信ip地址集中的可信ip地址对应的关联特征是否相匹配;

若是,则所述待甄别的发信ip地址满足所述特征匹配条件。

可选的,所述可信ip地址生成子单元之后还包括:

关联特征匹配判断子单元,用于判断所述待甄别的发信ip地址的关联特征与可信ip地址集中的可信ip地址对应的关联特征是否相匹配;

若是,则所述待甄别的发信ip地址满足所述特征匹配条件。

与现有技术相比,本申请具有以下优点:

本申请提供一种甄别电子邮件发送者身份特征的方法,该方法包括:提取接收到的待甄别的电子邮件的预设特征集;以预先训练好的特征匹配模型中的特征匹配条件为依据,将所述预设特征集中的待甄别特征与所述特征匹配条件中对应的特征进行匹配度测试,判断所述预设特征集中待甄别特征是否满足所述特征匹配条件;若是,所述待甄别的电子邮件的发送者的身份特征为可信的邮件发送者。该方法通过建立预设特征匹配模型,通过该预设特征匹配模型作为判断依据,将提取的待甄别的预设特征集中的特征进行匹配条件的判断,当所述预设特征集中相应的特征满足所述特征匹配条件时,说明待甄别的电子邮件的发送者的身份是真实的可信的。因此,本申请提供的方法无须要求邮件发送方做任何方面的设置,而是完全是通过收集和比对邮件发送行为信息,以此信息来匹配和甄别邮件发送者的身份特征,并且通过该方法可以准确的确认发送者的身份是否是真实可信的。

附图说明

图1是本申请第一实施例提供的甄别电子邮件发送者身份特征的方法的流程图。

图2是本申请第一实施例提供的特征匹配模型训练方法的流程图。

图3是本申请第二实施例提供的甄别电子邮件发送者身份特征的装置的结构示意图

具体实施方式

本申请第一实施例提供一种甄别电子邮件发送者身份特征的方法,该方法用于识别电子邮件的发送者是否具有真实身份,当一封电子邮件在两个不同的电子邮件系统之间传输时,接收方系统需要对该接收的邮件的发信地址的域名身份的真实性进行甄别和验证,以判断该接收的邮件是否的确来自于该域名拥有者授权的电子邮件系统,或者是判断该接收的邮件是否是来自于该域名拥有者授权的邮件发送ip地址发送的,进一步的通过该方法可以识别伪造或者假冒他人域名发送的可疑邮件。

其中,电子邮件系统是一套单独的系统,该系统有着自己的服务器,在电子邮件系统中可以设多个域,每个域中可以设多个用户,例如,如果买了某邮件厂商提供的商业版本的邮件系统或者是开源的邮件系统,可以进行多项设置,并且它的数据是放在自己的服务器上的。

此外,本申请第一实施例提供的该方法主要可以应用于电子邮件的反垃圾的系统中,通过该方法识别电子邮件中的垃圾邮件,并通过其他相关方式进一步有效的拦截或者屏蔽垃圾邮件。

以下通过具体的描述对本申请第一实施例提供的该方法进行说明,图1是本申请第一实施例提供的甄别电子邮件发送者身份特征的方法的流程图,请参照图1,该方法包括以下步骤:

步骤s101,提取接收到的待甄别的电子邮件的预设特征集。

该步骤是针对接收到的电子邮件而言的,因此该步骤是对接收的某一电子邮件的甄别,也就是甄别该接收到的电子邮件的发送方是否是具有真实身份特 征,因此,该接收到电子邮件更确切的可以称为是待甄别的电子邮件。而对于待甄别的电子邮件,所接收到的电子邮件中必定包含一定的特征,而与本申请第一实施例提供的方法相关的特征一般为多个特征,因此也可以将从所述待甄别的电子邮件中获取的相关特征称为预设特征集。

当一封电子邮件在两个不同的邮件系统之间传输时,针对接收者所采用的邮件系统,一般是采用邮件传输代理(mta)来接收该外系统传输过来的电子邮件。

具体的,mta模块属于电子邮件系统中的与用户交互的模块,属于邮件服务器系统的前端模块。每个电子邮件的客户端都被配置为向一个邮件系统进行邮件传输代理mta(mailtransferagent)发送邮件和从一个mta获取发给某个用户地址的电子邮件的消息。因此,在邮件服务器上需要设置有一个电子邮件的账号,并且能够使用标准的internet协议,无论是脱线处理e-mail(使用pop3),还是把e-mail留在服务器上(使用imap)。在邮件客户端和mta之间以及mta和mta之间发送邮件的协议都是简单邮件传输协议smtp(simplemailtransferprotocol)。

通过上述mta系统接收所述待甄别的电子邮件后,需要从该电子邮件中提取所有相关的特征,提取的多个相关特征构成预设特征集。所述预设特征集一般可以是邮件发送域信息、邮件的发信ip地址、发信方系统标识和邮件信头特征。

所述发送域信息是指邮件发送地址的域名部分,所述邮件发送地址一般是指,标准的电子邮件传输使用的smtp协议进行,在smpt协议交互过程中邮件来源的地址,形式可以是user@example.com。因此,针对该邮件发送地址,所述发送域信息可以是user@example.com中的example.com部分。每一个邮件发送时必定携带其发送地址的域名部分。

所述邮件发送ip地址是指邮件发送域发送邮件时所使用的ip地址。一般情况下,域名与ip地址之间可以通过相应的解析方法进行解析变换形式,域名的解析过程可以通过域名系统(dns)完成。

所述发信方系统标识是标识的是发送方邮件系统的domain,可能和邮件发送域完全不同。并且所述发信方系统标识可以通过dns解析的方式与ip地址形成关联。对于比较规范的邮件系统,其ip的dnsptr解析就是helodomain, 而helodomain的dnsa解析就是该发信ip,不过,并非所有邮件系统都按此设置。

所述邮件信头特征可以包括头部域(headerfields)。该邮件信头特征在一定程度上反映发信邮件系统的相关的一些特征。

发信方系统标识该步骤已经完成了将待甄别的电子邮件中获取预设特征集的过程,通过以下步骤可以通过该预设特征集进行发送者身份的甄别判断。

步骤s102,以预先训练好的特征匹配模型中的特征匹配条件为依据,将所述预设特征集中的待甄别特征与所述特征匹配条件中对应的特征进行匹配度测试,判断所述预设特征集中待甄别特征是否满足所述特征匹配条件。

该步骤中主要是通过已经训练好的特征匹配模型对提取的预设特征集进行匹配和甄别的过程。

首先介绍采用何种方法进行特征匹配模型的训练。

所述特征匹配模型中主要包括通过多种方式训练获得的可信ip地址集,以及还可以获取与该可信ip地址集中的可信ip地址相关的关联特征,同时,在所述特征匹配模型中,还包括与所述预设特征集相对应的特征的匹配条件。

所述可信ip地址集是指在该集合中存放的ip地址均是可信的,具有真实性的ip地址,这些可信的ip地址是通过离线数据进行训练和学习之后形成的,其可作为固定的已有的特征集进行使用。

图2是本申请第一实施例提供的特征匹配模型训练方法的流程图,请参照图2,所述特征匹配模型的训练过程如下:

步骤s102-1,基于离线数据系统的预设时间段内的数据,采用预设方式获取特征匹配条件和可信ip地址;所述可信ip地址存入可信ip地址集中。

离线数据系统可以定期挖掘在预设时间段内每个邮件发送域的行为日志,而从该预设时间段内的行为日志中可以获取发信ip地址。

所述预设时间段内的时间可以是一个月,也可以是三个月,还可以是根据具体的实际情况进行自行设定。预设时间段的时间长短不会影响后续步骤的实现。

该步骤主要是通过预设方式获取相应的特征匹配条件,以及获取可信ip地址,并将检测出的可信ip地址作为一个集合存为可信ip地址集。

具体的,所述预设方式可以是多种方式中的一种,也可以是多种方式之间的任意组合,最终通过预设方式可以形成特征匹配条件,以及可信ip地址集。

以下对所述预设方式进行举例说明。

第一种方式可以是,根据发送域与发信ip地址判断该发信ip地址是否为可信ip地址的方式。

该第一种方式具体的实施方式如下:

首先,从离线数据系统中获取电子邮件的发信ip地址。

将电子邮件的发送域进行解析,获得解析后的ip地址;

在获取并记录电子邮件发信ip地址步骤之后,将所述发送域通过解析方式解析获取解析后的ip地址。

邮件发送域可以通过解析的方式解析为ip地址的形式。具体的解析方式可以是多种的,一般情况下,可以进行发送域的mx(mailexchange)解析和发送域的a(address)解析。通过上述解析方式可以分别获取mx记录(邮件交换记录)和a记录(邮件ip地址记录)。

通过上述对发送域的解析,可以获得解析后的ip地址。

此处要对该解析后的ip地址进行说明。针对一些大的域名商,可能会出现发信的ip地址与收信的ip地址不同的情况,也就是说,针对某些发送域,可能不能直接确定其对应的可信发信的ip地址,但是其收信的ip地址一般为真实的ip地址,因此,此时通过对发送域的解析获得的ip地址是该发送域对应的收信的ip地址。

以上步骤已经获取了发送域对应的解析出来的解析后的ip地址,因此,接下来需要判断所述发信ip地址与该解析后的ip地址是否匹配。

该步骤是将获取的发信ip地址与该解析后的ip地址比对的过程,上述判断是否匹配的步骤即为此处的将两个ip地址进行比对的过程,比对两个地址是否相同或者相邻。

若两个ip地址的所有字段均是相同的,则说明该发信ip地址所对应的ip地址是可信的真实。另外,针对两个ip地址是相邻的情况。当两个地址的大部分的字段是相同的,而小部分的字段之间比较接近的情况下,说明两个ip地址属于相同的域,因此,也可以将该种情况的发信ip地址设定为可信的真实的。

具体的,所述判断所述发信ip地址与解析后的ip地址是否匹配步骤中,判断所述发信ip地址与该解析后的ip地址信息是否匹配所采用的方式包括:

判断所述发信ip地址与该解析后的ip地址两个地址之间是否具有预设数量的相同位数。

该判断过程即为上述中描述的ip地址的所有或部分字段是否相同情况的判断过程。

上述涉及的预设数量的相同位数是指ip地址的相同字段数量。若两个ip地址所有字段相同则说明两个地址之间是完全相同的,而当两个ip地址部分字段相同时,则存在相同部分的字段的数量。一般情况下,可以将c类的ip地址字段相同的ip地址均可以看作是相邻的两个的ip地址。例如,一个ip地址为:192.168.0.1,另一个ip地址为:192.168.0.2,虽然最后的字段不同,但两者属于c类的ip地址字段相同的ip地址,因此,可以看作这两个ip地址为相邻的情况。

判断所述发信ip地址与所述正确的ip地址两个地址之间是否具有预设数量的相同位数步骤中,若判断结果为是,则所述发信ip地址与所述正确的ip地址信息相匹配。

相反的,若判断结果为否,则所述发信ip地址与所述正确的ip地址信息不匹配。

上述是对发信ip地址与正确的ip地址信息是否匹配进行的判断,当该判断的判断结果为是时,将该发信ip地址对应的ip地址作为可信ip地址存入所述特征匹配模型中的可信ip地址集。

当上述判断的判断结果为是时,则说明发信ip地址与真实的发送域的收信的ip地址是相同或相邻的,说明发信ip地址与真实的ip地址对应的域是相同的,因此,可以判定,该发信ip地址属于可信的ip地址,在该情况下,可以将该发信ip地址对应的ip地址作为可信ip地址存入所述特征匹配模型中的可信ip地址集。

另外,将上述训练模型过程中的所述判断发信ip地址与发送域解析后的ip地址信息是否匹配这一步骤作为所述特征匹配模型中的匹配条件。

在后续在线判断某一ip地址是否满足特征匹配条件时,需要应用该特征匹配模型,针对待甄别的发信ip地址,只要利用该匹配条件判断所待甄别的发信 ip地址与该特征匹配模型中的正确ip地址信息是否匹配,根据匹配结果判断该待甄别的发信ip地址所发送的电子邮件是否属于真实的。

上述是通过发信ip地址与解析后的正确的ip地址信息进行匹配来确定而可信ip地址,进行形成可信ip地址集。该可信ip地址集将作为一个集合存储在所述训练好的特征匹配模型中。

上述对所述预设方式的其中第一种方式的描述,以下对第二种方式进行描述。第二种预设方式为,根据发信方系统标识与发信ip地址判断该发信ip地址是否为可信ip地址方式。

其具体的方式如下:

首先,从离线数据系统中获取电子邮件发送域的发信ip地址和发信方系统标识。

所述发信方系统标识是指,发送方向接收方邮件服务器发出的标识发送者本身的身份的命令。所述发信方系统标识可以用helo标记,所述发信方系统标识同样可以通过解析的方式可以与ip地址的形式相类似。该发信方系统标识对应的域名需要与所述发信ip地址相匹配,因此该步骤需要先获取其相关的发信于的上述相关特征。

获取了上述相关特征之后,需要根据上述相关特征判断所述发信方系统标识与所述发信ip地址是否匹配。

其具体的匹配判断方式可通过以下方式实现:具体的是,所述判断所述发信方系统标识与所述发信ip地址是否匹配步骤中,判断所述发信方系统标识与所述发信ip地址是否匹配所采用的方式包括:

判断电子邮件发送域的一级域名与所述发信方系统标识的一级域名是否相同。

一级域名是指在顶级域名,如com、com.cn或org左侧加一个“.”和有内容字段组成的域名,例如,example.com可以称为是一级域名。域名申请总是按照一级域名来申请,通常,二级甚至更多级的域名都是属于一级域名拥有者,例如,www.example.com通常也是属于example.com的拥有者拥有的。

首先判断发送域的一级域名与所述发信方系统标识的第一域名是否相同,判断两者的一级域名部分相同,说明发送者身份标识信息与发送域信息是相同的,说明该发送者标识是真实的,然后需要再对发信ip地址与该发信方系统标 识解析出的ip地址进行比对,进一步确定发信ip地址是否真实可信。

因此,当判断所述发送域的一级域名与所述发信方系统标识的一级域名是否相同的判断结果为是时,需要进一步判断所述发信方系统标识解析出的ip地址与所述发信ip地址是否匹配。

首先需要对发信方系统标识通过a解析为ip地址形式,通过解析后的ip地址与所述发信ip地址进行比对和匹配判断。

具体的匹配判断可采用的方式是进行ip地址相同字段的位数的比对,上述已经对该方式的比对进行过介绍,此处将不再详述。

通过将解析后的ip地址与发信ip地址的对比,当解析出的ip地址与所述发信ip地址具有预设数量的相同位数时,所述发信方系统标识与所述发信ip地址相匹配。

相反的,当解析出的ip地址与所述发信ip地址不具有预设数量的相同位数时,所述发信方系统标识与所述发信ip地址不匹配。

以上是对如何进行发信方系统标识与发信ip地址匹配判断具体方式的描述,根据上述具体的判断方式进行判断后,可获得相应的判断结果。

当判断所述发信方系统标识与所述发信ip地址是否匹配步骤中的判断结果为是时,将该发信ip地址对应的ip地址作为可信ip地址存入所述特征匹配模型中的可信ip地址集。该步骤与模型训练方式第一个方式中的最后一步相同,均是确定可信ip地址,并将该可信ip地址存储为所述特征匹配模型中可信ip地址集。

其中,针对该种方式的模型训练方式,所述判断所述发信方系统标识与所述发信ip地址是否匹配作为所述特征匹配模型中的匹配条件。在后续步骤中,应用该特征匹配模型时,需要将待甄别的发信ip地址与所述特征匹配模型中的发信方系统标识进行匹配判断,并根据判断获得该待甄别的发信ip地址是否为可信的真实的。

除了上述介绍的两种预设方式,还有第三种方式,该训练方式可以结合上述两种训练方式中的一种或两种,也可以单独进行设置。

而该第三种方式的与发信ip地址的关联特征及可信ip地址的关联特征有关系,因此,需要涉及到训练特征匹配模型的第二个步骤s102-2。

具体的,步骤s102-2是获取与所述可信ip地址对应的关联特征。

所述关联特征包括发信方系统标识和邮件信头特征。所述可信地址对应的关联特征是指在可信ip地址集中的可信ip地址均对应其关联特征,该可信ip地址集中对应的关联特征是用于与发信ip地址的关联特征进行匹配的。

相应的,该第三种方式是根据发信ip地址的关联特征与可信ip地址对应的关联特征的相似度判断该发信ip地址是否为可信ip地址的方式。具体的包括:

从离线数据系统中获取电子邮件的发信ip地址,以及发信ip地址的关联特征(发信方系统标识和邮件信头特征)。

上述步骤中获取并记录电子邮件发送域在预设时间段内的发信ip地址、发信方系统标识均在第二种的方式中有介绍,不再对这些信息进行介绍,以下重点介绍获取邮件信头特征。

所述邮件信头特征可以包括头部域(headerfields)。该邮件信头特征在一定程度上反映发信邮件系统的相关的一些特征。

此外,通常,正常邮件系统的发信方系统标示和该系统产生的邮件系统特征不会经常变化,因此可以将上述两个特征信息作为甄别电子邮件发送者身份特征的判断依据。

通过上述步骤可以获取发信ip地址的关联特征,根据该关联特征可以判断所述发信ip地址的关联特征与所述可信ip地址对应的发信方系统标识和邮件信头特征是否相匹配。

其具体的匹配判断方式可通过以下方式实现:具体的是,所述判断所述发信ip地址的关联特征与所述可信ip地址对应的发信方系统标识和邮件信头特征是否相匹配步骤中,判断方式包括:

采用特征向量的相似度度量方法计算所述发信ip地址的关联特征与所述可信ip地址集中对应的关联特征(发信方系统标识和邮件信头特征)的特征向量的相似度。

在该步骤中,重点介绍特征向量的相似度度量方法,该方法包括以下步骤:

首先,获取所述可信ip地址集对应的关联特征和发信ip地址所对应的关联特征。

例如,此处的关联特征一般为发信方系统标识的相关特征,如helodomain特征,邮件信头特征等。

其次,将所述可信ip地址集对应的关联特征中的特征以及每个特征所对应 的权重构成特征向量。

假设发送域example.com已知可信ip地址集的发信方系统标识的特征helodomain、所述邮件信头特征header等的关联特征如下:

邮件信头特征header依次如下:同时具有x-aliyun-envid(权重设定为1),x-alimail-antispam(权重可设定为1),x-aliyun-fingerprint(权重可设定为1),x-aliyun-clustdateheader(权重可设定1)

helodomain的后缀形式为:.aliyun.com(权重设定为3)。

其中,需要同时要求helodomain的正向解析或反向解析存在且匹配。

再其次,获取所述发信ip地址的关联特征中与所述可信ip地址集对应的关联特征中的相同特征。

根据所述发信ip地址所对应的特征,检查其是否匹配上述header或者helodomain,如果匹配,则具有相应权重。例如,相同的特征为x-alimail-antispam,x-aliyun-clustdateheader和helodmain,则相同特征所具有的权重分别为1,1和3。

再之后,计算获取所述相同特征的权重。

将上述相同特征的权重相加获得相同特征的权重为5。

最后,将所述相同特征的权重与所有特征总权重对比,获取所述发信ip地址的关联特征与所述可信ip地址集对应的关联特征的特征向量的相似度。

总的特征的权重为1+1+1+1+3=7,所以,此时的相似度为5/7=0.71。

另外,另外:发送域example.com可信ip集的关联特征是采用离线方式挖掘生成的,该域的信头可能有很多,只需要提取出存在该域的大多数邮件都具有的信头即可。

header可以只选择x-类信头,权重根据其代表性来得出,比如,如果某个header出现在所有该发送域邮件中,权重为1,出现在70%邮件中,则权重为0.7,只取权重大于特定阀值(比如0.6)的信头。

helodomain的权种可要求占比0.3,比如,其他信头特征的权重为7,则helodomain至少为3,当然,这也是一种经验值,实际应用中也可以针对某些发送域调整。

上述方式是通过特征向量的相似度方法计算的相似度,另外还可以通过其 他相似度的方式进行计算获得。

通过上述特征向量的相似度方法可以获得相似度,根据获得的该相似度判断所述相似度是否大于或者等于预设相似度阈值。

可以设定预设的相似度阈值为0.7,则上述计算获得的相似度为0.71,该计算获取的相似度大于预设的相似度阈值0.7,因此,可以根据该结果判断所述发信ip地址的关联特征与所述可信ip地址集对应的关联特征的相匹配。

上述预设的相似度阈值只是一个说明性事例,具体的阈值还可以根据具体的实际情况进行设定。同样的,当设置的预设的相似度阈值为0.8时,则上述计算获得的相似度0.7小于该阈值,因此,可以根据该结果判断所述发信ip地址的关联特征与所述可信ip地址集对应的关联特征的不匹配。

上述步骤是通过特征向量相似度的方法判断所述发信ip地址的关联特征与所述可信ip地址集对应的关联特征的是否相匹配,当判断结果为是时,将该发信ip地址对应的ip地址作为可信ip地址存入所述特征匹配模型中的可信ip地址集。该步骤与预设方式第一个方式中的最后一步相同,均是确定可信ip地址,并将该可信ip地址存储为所述特征匹配模型中可信ip地址集。

其中,所述判断发信ip地址的关联特征与可信ip地址集中的可信ip地址对应的关联特征是否相匹配作为所述特征匹配模型中的匹配条件。

除了上述介绍的三种预设方式,还有第四种方式,该训练方式可以结合上述三种方式中任意方式的组合,也可以单独进行设置。

具体的,该第四种方式为,根据发信ip地址发送的邮件对应的回复率判断该发信ip地址是否为可信ip地址的方式。具体的该方式包括:

从离线数据系统中获取采用发信ip地址发送的电子邮件数量。

采用邮件发送域的某一个ip地址发信时,可以记录该发信ip地址发出的邮件的数量,形成发送的电子邮件的数量。

获取该发信ip地址在该预设时间段内所接收到的邮件的数量。

针对该发信ip地址,不同收件人对该邮件的回复的数量进行记录,形成接收到的邮件的数量。

根据所述发送电子邮件数量和所述接收到的邮件的数量获取该发信ip地址的回复率。

将上述接收到的邮件的数量与所述发送的电子邮件的数量作比对,获得该发信ip地址的回复率。

判断所述回复率是否大于或者等于预设回复率阈值。

可以假定设定的回复率阈值为80%。判断计算获得的回复率是否超过阈值80%。

当回复率超过预设的回复率阈值时,则将该发信ip地址作为可信ip地址存入所述特征匹配模型中的可信ip地址集。

上述是第四种预设方式,以下介绍第五种方式,该第五种方式是,根据发信ip地址对应的关联特征及邮件打开率判断该发信ip地址是否为可信ip地址的方式。具体方式如下:

从离线数据系统中获取在预设时间段内的使用频率高于预设频率的发信ip地址。

之后,判断该发信ip地址对应的发信方系统标识和邮件信头特征是否稳定。

若是,判断该发信ip地址发出的邮件的打开率是否高于预设打开率阈值。

此处的预设打开率阈值可以设定为30%-40%的程度。

当该发信ip地址发出的邮件的打开率高于预设打开率阈值时,且该发信ip地址不存在不良记录,将该发信ip地址作为可信ip地址存入所述特征匹配模型中的可信ip地址集。

如果当邮件发送域长期固定使用某些ip地址进行发信时,helodomain的一级域名和邮件信头特征将保持稳定,可设定为非垃圾邮件,并且还需要保持特征的邮件打开率,可以说明无假冒伪劣方面的投诉,因此,可认为该ip地址为可信ip地址。

以上是通过五中预设方式获取可信ip地址集以及特征匹配条件,优选的是,采用上述五种预设方式共同完成所述可信ip地址集以及特征匹配条件获取和收集,即该特征匹配模型中包含的上述可信ip地址集以及特征匹配条件是通过上述五种预设方式实现的。

步骤s102-3,将获取的特征匹配条件、可信ip地址集及可信ip地址对应的关联特征存储在所述特征匹配模型。

最后,在训练特征匹配模型的过程中,将获取的特征匹配条件、可信ip地 址集及可信ip地址对应的关联特征存储在所述特征匹配模型,形成所述特征匹配模型。

上述已经完成对所述特征匹配模型的介绍,以下是通过该特征匹配模型,对待甄别的电子邮件进行具体的甄别的方式和过程。

在上述训练模型的过程中,也介绍到,该特征匹配模型中具有可信ip地址集,以及相应特征的匹配条件。将所述预设特征集中的待甄别特征与所述特征匹配条件中对应的特征进行匹配度测试,以判断所述预设特征集中待甄别特征是否满足所述特征匹配条件。

具体的匹配判断方式可分别根据待甄别的特征的不同进行相应的介绍和说明。

当所述提取接收到的待甄别的电子邮件的预设特征集步骤中接收到的预设特征集中的待甄别特征为待甄别的发信ip地址。

相应的,所述以预先训练好的特征匹配模型中的特征匹配条件为依据,将所述预设特征集中的待甄别特征与所述特征匹配条件中对应的特征进行匹配度测试,判断所述预设特征集中待甄别特征是否满足所述特征匹配条件步骤包括:

所述预先训练好的特征匹配模型中的特征匹配条件设定为判断某一ip地址是否属于所述预设特征匹配模型中的可信ip地址集。

在该种情况下,首先将匹配条件设置为是否与预设特征匹配模型中的可信ip地址集相匹配。

根据设定的所述特征匹配条件,判断所述预设特征集信息中的待甄别的发信ip地址是否属于所述可信ip地址集。

若是,则该待甄别的发信ip地址满足所述特征匹配条件;此时,可设定为甄别过程的结束。当判断结果为否时,则说明该待甄别的发信ip地址不满足所述特征匹配条件,还需要再通过特征匹配条件进行判别。

该种甄别方式是,当邮件发信ip地址属于该可信ip地址集时,可以认为该邮件发送者的身份是可信的,因此,其待甄别的发信ip地址满足所述特征匹配条件,否则,待甄别的发信ip地址不满足所述特征匹配条件。

另外,还可以采用第二种甄别方法,该方法可以是在第一种甄别方式的步骤中判断待甄别的发信ip地址不满足所述特征匹配条件的情况下进行,当然,也可以在待甄别的发信ip地址满足所述特征匹配条件,对发信ip地址再次进行 甄别验证的过程。

第二种甄别方法如下:

所述提取接收到的待甄别的电子邮件的预设特征集步骤中接收到的预设特征集中的特征为发送域信息和待甄别的发信ip地址。

相应的,所述以预先训练好的特征匹配模型中的特征匹配条件为依据,将所述预设特征集中的待甄别特征与所述特征匹配条件中对应的特征进行匹配度测试,判断所述预设特征集中待甄别特征是否满足所述特征匹配条件步骤包括:

将电子邮件的发送域进行解析,获得解析后的ip地址。

所述预先训练好的特征匹配模型中的特征匹配条件为判断所述发信ip地址与解析后的ip地址信息是否匹配。

将所述待甄别的发信ip地址作为特征匹配条件中的发信ip地址,依据该特征匹配条件,判断所述待甄别的发信ip地址与解析后的ip地址是否匹配。

所述判断所述待甄别的发信ip地址与所述解析后的ip地址是否匹配步骤中是否匹配的判断方式包括:

判断所述待甄别的发信ip地址与所述解析后的ip地址两个地址之间是否具有预设数量的相同位数。

若是,则所述待甄别的发信ip地址满足所述特征匹配条件。

若否,则所述待甄别的发信ip地址不满足所述特征匹配条件。

此外,还可以采用第三种甄别方法,该方法可以是在第二种甄别方式的步骤中判断待甄别的发信ip地址不满足所述特征匹配条件的情况下进行,当然,也可以在待甄别的发信ip地址满足所述特征匹配条件,对发信ip地址再次进行甄别验证的过程。

第三种甄别方法如下:

所述提取接收到的待甄别的电子邮件的预设特征集步骤中接收到的预设特征集中的特征为发送域信息、待甄别的发信ip地址和发信方系统标识。

相应的,所述以预先训练好的特征匹配模型中的特征匹配条件为依据,将所述预设特征集中的待甄别特征与所述特征匹配条件中对应的特征进行匹配度测试,判断所述预设特征集中待甄别特征是否满足所述特征匹配条件步骤包括:

所述预先训练好的特征匹配模型中的特征匹配条件为判断所述发信方系统 标识与所述发信ip地址是否匹配。

将所述待甄别的发信ip地址作为特征匹配条件中的发信ip地址,依据该特征匹配条件,判断所述待甄别的发信ip地址与所述发信方系统标识是否匹配。

所述判断所述待甄别的发信ip地址与所述发信方系统标识是否匹配步骤中的判断匹配方式包括:

判断所述发送域的一级域名与所述发信方系统标识的一级域名是否相同。若是,判断所述发信方系统标识解析出的ip地址与所述待甄别的发信ip地址是否匹配。

若是,则所述待甄别的发信ip地址满足所述特征匹配条件;若否,则所述待甄别的发信ip地址不满足所述特征匹配条件。

此外,还可以采用第四种甄别方法,该方法可以是在第三种或第二种甄别方式的步骤中判断待甄别的发信ip地址不满足所述特征匹配条件的情况下进行,当然,也可以在待甄别的发信ip地址满足所述特征匹配条件,对发信ip地址再次进行甄别验证的过程。

第四种甄别方法如下:

所述提取接收到的待甄别的电子邮件的预设特征集步骤中接收到的预设特征集中的特征为待甄别的发信ip地址、发信ip地址的关联特征(发信方系统标识和邮件信头特征)。

相应的,所述以预先训练好的特征匹配模型中的特征匹配条件为依据,将所述预设特征集中的待甄别特征与所述特征匹配条件中对应的特征进行匹配度测试,判断所述预设特征集中待甄别特征是否满足所述特征匹配条件步骤包括:

判断所述待甄别的发信ip地址的关联特征与可信ip地址集中的可信ip地址对应的关联特征是否相匹配。

所述判断所述待甄别的发信ip地址的关联特征与可信ip地址集中的可信ip地址对应的关联特征是否相匹配步骤中采用的判断匹配方式包括:

判断所述待甄别的发信ip地址的关联特征与所述可信ip地址对应的关联特征的相似度是否大于或等于预设相似度阈值。

若是,则所述待甄别的发信ip地址满足所述特征匹配条件;若否,则所述待甄别的发信ip地址不满足所述特征匹配条件。

另外,在上述甄别方法中,完成第一种甄别方法甄别判断之后,判断的邮件发信ip地址不管其是否属于可信ip地址集,依然可以为了保证可信度精准的问题,对该发信ip地址采用第二种至第四种的甄别方法进行进一步的甄别判断。

例如:所述提取接收到的待甄别的电子邮件的预设特征集步骤中接收到的预设特征集中的特征还包括:发送域信息、发信方系统标识和邮件信头特征。

相应的,判断所述预设特征集信息中的待甄别的发信ip地址是否属于所述可信ip地址集步骤的判断结果为否时,执行以下步骤:

将所述发送域信息解析后获得解析后的ip地址。

判断所述待甄别的发信ip地址与所述解析后的ip地址两个地址之间是否具有预设数量的相同位数。

当所述待甄别的发信ip地址与所述解析后的ip地址两个地址之间不具有预设数量的相同位数时,再执行以下步骤:

判断所述待甄别的发信ip地址与所述发信方系统标识和邮件信头特征的相似度是否大于或等于预设相似度阈值。

若是,则该待甄别的发信ip地址满足所述特征匹配条件。

另一种方式是,所述提取接收到的待甄别的电子邮件的预设特征集步骤中接收到的预设特征集中的特征还包括:发送域信息、发信方系统标识和邮件信头特征。

相应的,所述该待甄别的发信ip地址满足所述特征匹配条件步骤之后,包括:

将所述发送域信息解析为解析后的ip地址。

判断所述待甄别的发信ip地址与所述解析后的ip地址两个地址之间是否具有预设数量的相同位数。

当所述待甄别的发信ip地址与所述解析后的ip地址两个地址之间具有预设数量的相同位数时,再执行以下步骤:

判断所述待甄别的发信ip地址与所述发信方系统标识和邮件信头特征的相似度是否大于或等于预设相似度阈值。

若是,则该待甄别的发信ip地址满足所述特征匹配条件。

上述方式在所述发信ip地址属于可信ip地址集时,依然对其进行进一步的 判断,以做出更严格的相似度的甄别,同一个发信ip地址同时验证的特征匹配条件越多时,则该ip地址的可信度将越高。

步骤s103,所述待甄别的电子邮件的发送者的身份特征甄别为可信的邮件发送者。

将提取的预设特征集分别根据预先训练好的特征匹配模型中的匹配条件进行匹配度的测试,判断判断所述预设特征集中待甄别特征是否满足所述特征匹配条件,当所述预设特征集中待甄别特征满足所述特征匹配条件时,则可以判定为所述待甄别的电子邮件的发送者的身份特征甄别为可信的邮件发送者。

总之,本申请第一实施例提供的该方法不需要邮件发送者做出任何方式的设置,而是通过收集和匹配邮件发送行为信息来甄别邮件发送者的身份的真实性和可信性的,因此,该方法不依赖于发送方的相关设置,并且适用于任何发送者发送的电子邮件,通过该方法对发送者身份特征的甄别更加准确,并且不受任何发送者邮件设置的限制。

另外,在实际运用中,本申请第一实施例提供的方法还可以结合现有技术中的spf方法或dkim方法进行应用。

相对本申请第一实施例提供的甄别电子邮件发送者身份特征的方法,本申请第二实施例还提供一种甄别电子邮件发送者身份特征的装置,图3是本申请第二实施例提供的甄别电子邮件发送者身份特征的装置的结构示意图,请参照图3,该装置包括:

预设特征集提取单元201,用于提取接收到的待甄别的电子邮件的预设特征集;

特征匹配条件判断单元202,用于以预先训练好的特征匹配模型中的特征匹配条件为依据,将所述预设特征集中的待甄别特征与所述特征匹配条件中对应的特征进行匹配度测试,判断所述预设特征集中待甄别特征是否满足所述特征匹配条件;

身份特征甄别单元203,用于若特征匹配条件判断单元的判断结果为是,所述待甄别的电子邮件的发送者的身份特征甄别为可信的邮件发送者。

优选的,所述特征匹配条件判断单元中还包括:特征匹配模型训练子单元;

所述特征匹配模型训练子单元还包括:

特征匹配条件和可信ip地址获取子单元,用于基于离线数据系统的预设时 间段内的数据,采用预设方式获取特征匹配条件和可信ip地址;所述可信ip地址存入可信ip地址集中;

关联特征获取子单元,用于获取与所述可信ip地址对应的关联特征;

存储子单元,用于将获取的特征匹配条件、可信ip地址集及可信ip地址对应的关联特征存储在所述特征匹配模型。

优选的,所述特征匹配条件和可信ip地址获取子单元中的预设方式包括以下单元中的至少一种:

发送域判断子单元,用于根据发送域与发信ip地址判断该发信ip地址是否为可信ip地址的方式;

发信方系统标识判断子单元,用于根据发信方系统标识与发信ip地址判断该发信ip地址是否为可信ip地址方式;

关联特相似度判断子单元,用于根据发信ip地址的关联特征与可信ip地址对应的关联特征的相似度判断该发信ip地址是否为可信ip地址的方式;

回复率判断子单元,用于根据发信ip地址发送的邮件对应的回复率判断该发信ip地址是否为可信ip地址的方式;

打开率判断子单元,用于根据发信ip地址对应的关联特征及邮件打开率判断该发信ip地址是否为可信ip地址的方式。

优选的,所述发送域判断子单元包括:

发信ip地址获取子单元,用于从离线数据系统中获取电子邮件的发信ip地址;

解析子单元,用于将电子邮件的发送域进行解析,获得解析后的ip地址;

判断子单元,用于判断所述发信ip地址与该解析后的ip地址是否匹配;

可信ip地址生成子单元,若判断子单元的判断结果为是,用于将该发信ip地址对应的ip地址作为可信ip地址;

其中,采用预设方式获取的特征匹配条件是,判断发信ip地址与发送域解析后的ip地址信息是否匹配。

优选的,所述判断子单元包括:

位数判断子单元,用于判断所述发信ip地址与该解析后的ip地址两个地址之间是否具有预设数量的相同位数;

若是,则所述发信ip地址与该解析后的ip地址信息相匹配;

若否,则所述发信ip地址与该解析后的ip地址信息不匹配。

优选的,所述发信方系统标识判断子单元包括:

发信ip地址和发信方系统标识获取子单元,用于从离线数据系统中获取电子邮件发送域的发信ip地址和发信方系统标识;

判断子单元,用于判断所述发信方系统标识与所述发信ip地址是否匹配;

若是,将该发信ip地址对应的ip地址作为可信ip地址;

其中,采用预设方式获取的特征匹配条件是,判断电子邮件的发信方系统标识与发信ip地址是否匹配。

优选的,所述判断子单元包括:

一级域名判断子单元,用于判断电子邮件发送域的一级域名与所述发信方系统标识的一级域名是否相同;

匹配判断子单元,若一级域名判断子单元的判断结果为是,用于判断所述发信方系统标识解析出的ip地址与所述发信ip地址是否匹配;

当解析出的ip地址与所述发信ip地址具有预设数量的相同位数时,所述发信方系统标识与所述发信ip地址相匹配;

当解析出的ip地址与所述发信ip地址不具有预设数量的相同位数时,所述发信方系统标识与所述发信ip地址不匹配。

优选的,所述关联特相似度判断子单元包括:

关联特征获取子单元,用于从离线数据系统中获取电子邮件的发信ip地址和发信ip地址的关联特征;所述关联特征包括发信方系统标识和邮件信头特征;

判断子单元,用于判断所述发信ip地址的关联特征与可信ip地址集中的可信ip地址对应的关联特征是否相匹配;

若是,将该发信ip地址对应的ip地址作为可信ip;

其中,采用预设方式获取的特征匹配条件是,判断发信ip地址的关联特征与可信ip地址集中的可信ip地址对应的关联特征是否相匹配。

优选的,所述判断子单元包括:

相似度获取子单元,用于采用特征向量的相似度度量方法计算所述发信ip地址的关联特征与可信ip地址集中对应的关联特征所对应的特征向量的相似 度;

阈值判断子单元,用于判断所述相似度是否大于或者等于预设相似度阈值;

若是,则所述发信ip地址的关联特征与可信ip地址集中的可信ip地址对应的关联特征相匹配;

若否,则所述发信ip地址的关联特征与可信ip地址集中的可信ip地址对应的关联特征不匹配。

优选的,所述相似度获取子单元包括:

关联特征获取子单元,用于获取可信ip地址集对应的关联特征和所述发信ip地址的关联特征;

特征向量生成子单元,用于将所述可信ip地址集对应的关联特征中的特征以及每个特征所对应的权重构成特征向量;

相同特征获取子单元,用于获取所述发信ip地址的关联特征中与所述可信ip地址集对应的关联特征中的相同特征;

权重计算子单元,用于计算获取所述相同特征的权重;

相似度获取子单元,用于将所述相同特征的权重与所有特征总权重对比,获取所述发信ip地址的关联特征与所述可信ip地址集对应的关联特征的特征向量的相似度。

优选的,所述回复率判断子单元包括:

发送的电子邮件数量获取子单元,用于从离线数据系统中获取采用发信ip地址发送的电子邮件数量;

接收到的邮件的数量获取子单元,用于获取该发信ip地址在该预设时间段内所接收到的邮件的数量;

回复率计算子单元,用于根据所述发送电子邮件数量和所述接收到的邮件的数量获取该发信ip地址的回复率;

阈值判断子单元,用于判断所述回复率是否大于或者等于预设回复率阈值;

若是,则将该发信ip地址作为可信ip地址。

优选的,所述打开率判断子单元包括:

发信ip地址获取子单元,用于从离线数据系统中获取在预设时间段内的使用频率高于预设频率的发信ip地址;

稳定性判断子单元,用于判断该发信ip地址对应的发信方系统标识和邮件信头特征是否稳定;

预设打开率阈值判断子单元,若稳定性判断子单元的判断结果为是,用于判断该发信ip地址发出的邮件的打开率是否高于预设打开率阈值;

可信ip地址生成子单元,用于当该发信ip地址发出的邮件的打开率高于预设打开率阈值时,且该发信ip地址不存在不良记录,将该发信ip地址作为可信ip地址。

优选的,所述预设特征集提起单元中接收到的预设特征集中的特征为待甄别特征为待甄别的发信ip地址;

相应的,特征匹配条件判断单元包括:

某一ip地址判断子单元,用于所述预先训练好的特征匹配模型中的特征匹配条件为判断某一ip地址是否属于所述可信ip地址集;

可信ip地址集判断子单元,用于根据设定的所述特征匹配条件,判断所述待甄别的发信ip地址是否属于所述可信ip地址集;

若是,则该待甄别的发信ip地址满足所述特征匹配条件。

优选的,当所述可信ip地址集判断子单元的判断结果为否时,还包括:

解析后的ip地址获取子单元,用于将电子邮件的发送域进行解析,获得解析后的ip地址;

ip地址匹配判断子单元,用于依据该特征匹配条件,判断所述待甄别的发信ip地址与解析后的ip地址是否匹配;

若是,则所述待甄别的发信ip地址满足所述特征匹配条件。

优选的,当所述ip地址匹配判断子单元的判断结果为否时,还包括:

发信ip地址与所述发信方系统标识匹配判断子单元,用于依据该特征匹配条件,判断所述待甄别的发信ip地址与所述发信方系统标识是否匹配;

若是,则所述待甄别的发信ip地址满足所述特征匹配条件。

优选的,当所述发信ip地址与所述发信方系统标识匹配判断子单元的判断结果为否时,还包括:

关联特征匹配判断子单元,用于依据该特征匹配条件,判断所述待甄别的发信ip地址的关联特征与可信ip地址集中的可信ip地址对应的关联特征是否 相匹配;

若是,则所述待甄别的发信ip地址满足所述特征匹配条件。

优选的,所述可信ip地址生成子单元之后还包括:

关联特征匹配判断子单元,用于判断所述待甄别的发信ip地址的关联特征与可信ip地址集中的可信ip地址对应的关联特征是否相匹配;

若是,则所述待甄别的发信ip地址满足所述特征匹配条件。

本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。

本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1