专利名称:一种实时垃圾电子邮件过滤方法及系统的制作方法
技术领域:
本发明涉及电子邮件领域,尤其涉及一种实时垃圾电子邮件过滤方法及系统。
背景技术:
电子邮件系统是互联网应用的一个成功典范,它给人们的工作和生活带来 了极大的便利,使不同国家的人们可以方便、快捷的迸行合作。电子邮件系统
通过简单邮件传输协议(Simple Mail Transfer Protocol, SMTP)进行信息传输, 在其内部中传递的信件一般称之为电子邮件(E-mail)。
根据SMTP协议,邮件的传送过程可分为发送、传输和接收三个阶段,如 图1所示。
发送邮件客户端向邮件服务器发送电子邮件为发送阶段发送邮件客户端 可能是合法用户也可能是垃圾邮件发送者,他们将编辑好的邮件发送到发送邮 件服务器。
邮件在发送邮件服务器和接收邮件服务器之间传送为传输阶段发送邮件 服务器根据接收到邮件的目的地址,依照SMTP协议将该邮件发送到接收邮件 服务器,此阶段多个发送邮件服务器产生的邮件大量汇集于骨干网链路。
接收邮件服务器接收目标地址为本网域的邮件为接收阶段。
在上述运用SMTP协议传输电子邮件的整个过程中,通过对发送阶段、传 输阶段或接收阶段进行邮件流量的检测和过滤,有助于限制垃圾邮件的传输。
目前,在发送阶段和接收阶段使用的垃圾邮件过滤技术大致可分为内容过 滤和接入过滤两种,但少有可用于传输阶段的过滤技术。
内容过滤技术通过建立"垃圾邮件特征库"的方法来阻止垃圾邮件,通过 对邮件的信封、信头和信体等内容进行对比检测,从而对垃圾邮件进行过滤。 此外,人们还采用了散列技术、贝叶斯算法等。贝叶斯算法可以学习单词的频 率和模式,这样可以将垃圾邮件和正常邮件关联起来进行判断。这是一种相对
于关键字来说,更复杂和更智能化的内容过滤技术。内容过滤技术的缺点是速 度慢、需要用户不断更新规则库或训练集等,随着垃圾邮件制造者技术水平的 不断提高,这种方法很容易失效。
接入过滤技术对邮件信头部分进行检査,可以提前发现或阻断非法信息, 且不侵犯个人隐私。常见的方法有实时黑名单、邮资策略、基于DNS的验证 技术、路径分析法等。
实时黑名单实际上是一组可供査询的IP地址列表。使用黑名单服务的软 件向黑名单服务器发出査询请求,如果该地址被列入了黑名单,那么服务器会 返回一个有效地址的答案;反之将得到一个否定答案。目前世界上大多数的主
流邮件服务器都支持实时黑名单服务,因此该名单是可信任的。但这种方式最 大弊端是容易发生"误判",比如ISP提供的虚拟主机服务, 一旦某个用户被 认定发送垃圾邮件,就会导致该IP地址所在整个网域被列入黑名单,其它的 用户也会受到牵连。
邮资策略的原理是发送者要为每封信件付出一定的代价,即所谓的邮资, 这个代价与发信规模成正比,对于合法的发送者来说是可以接受的,但对大规 模垃圾邮件发送者来说是难以承担的。反向图灵机测试就是每个发送者必须首 先通过邮件服务器的一个简单的测试,例如准确描述图片中的数字等,从而证 明发送者是人而不是机器。邮资策略处理速度较慢,无法应用于实时处理的环 境。
基于DNS的验证技术的原理是,接收邮件服务器收到一封邮件时通过 DNS解析和DNS反解析査询发送者IP地址或域名信息,如果查询结果与邮 件宣称的内容不符,则认为该信件为垃圾邮件而拒收。基于DNS的验证技术 对于使用虚假域名发送垃圾邮件的情况比较有效,但对于通过被控制的、具有 真实域名的结点发送垃圾邮件的情况就无能为力了。同时,不支持反向DNS 验证的合法网域也将被视为垃圾邮件源,易产生误报。此外,基于DNS的验 证技术处理速度较慢, 一般无法应用于实时处理的环境。
基于路径分析的垃圾邮件过滤其原理是,通过邮件信头中的接收行字段 (Receivedline)中的路径信息来统计邮件服务器的历史行为,从而判断其以 后是否会发送垃圾邮件。该方法以标注过的邮件集(分为垃圾邮件、合法邮件 两类)为输入,提取接收行中所有邮件服务器对应的IP地址,统计这些地址
在垃圾邮件与合法邮件中的出现频率,为其评分建立邮件服务器的信誉度。然 后,对于收到的一封邮件,如果其来自于信誉度较高的邮件服务器,则被标注 为合法邮件,否则将被标注为垃圾邮件。
由于垃圾邮件发送者可以伪造邮件的路径信息,可能使接收行信息的可用 性较差,影响过滤算法的准确率;此外,这种方法需要完整的接收行及经过标 注的样本数据,很难应用于传输阶段的邮件流量过滤。
尽管从实际过滤效果来看,基于发送和接收阶段的解决方案使用户接收的 垃圾邮件数量显著减少,但垃圾邮件占用网络带宽、浪费存储和运算资源的问 题依然没有得到解决,因此解决垃圾邮件问题应该将实现可应用于邮件传输阶 段的实时过滤技术,以便有效提高网络资源利用率,同时减轻用户端的过滤压 力。
发明内容
为了解决上述的技术问题,本发明提供了一种实时垃圾电子邮件过滤方法 及系统,其目的在于,在传输阶段实时过滤垃圾电子邮件。
本发明提供了一种实时垃圾电子邮件过滤方法,用于在网络互联点处过滤 垃圾邮件,包括
步骤l,依据邮件中的路由信息构建路径集合P,路径集合P为
(发送通信者,接收通信者}和/或{发送通信者,信宿};
步骤2,按照IP地址映射或者域名映射将路径集合P中的元素的IP地址 或者域名进行属性空间映射;
步骤3,依据路径集合P中各元素的属性空间映射结果判断当前邮件是否 为垃圾邮件,如果是,执行步骤4,否则不处理该当前邮件;
步骤4,过滤该当前邮件。
所述网络互联点处包括国际出入口 、运营商网络接入点或省间网络出入□。
步骤3中,如果当前邮件的发送通信者和接收通信者的属性空间映射结果 相同,则判断该邮件为垃圾邮件;如果当前邮件的发送通信者和信宿的属性空 间映射结果相同,则判断该邮件为垃圾邮件。
步骤2中,属性空间映射包括地理信息映射、管理信息映射或行政区域信
息映射。
步骤2中,按照IP地址映射将发送通信者和接收通信者的IP地址映射为
地理信息、管理信息或行政区域信息;或者按照域名映射将发送通信者的域名
映射为地理信息、管理信息或行政区域信息,按照IP映射将接收通信者的IP 地址映射为地理信息、管理信息或行政区域信息。
步骤2中,按照域名映射将发送通信者和信宿的域名映射为地理信息、管 理信息或行政区域信息。
发送通信者的IP地址或者域名为HELO命令中携带的发送通信者的域信息。
发送通信者的域名为HELO命令中携带的发送通信者的域信息。 还包括步骤91,如果当前邮件为垃圾邮件,则对该当前邮件进行监控。 路径集合P还包括(终端用户,发送通信者},用于判断当前邮件是否为可 疑垃圾邮件。
步骤3还包括判断当前邮件是否为可疑垃圾邮件如果终端用户和发送通 信者不是同一节点,发送通信者提供的域信息应符合域名命名规则,否则该邮 件为可疑垃圾邮件。
本发明提供了一种实时垃圾电子邮件过滤系统,用于在网络互联点处过滤
垃圾邮件,其包括
邮件路径分析模块,用于分析邮件路由信息,构建路径集合p,路径集合
P为(发送通信者,接收通信者}和/或{发送通信者,信宿};
属性空间映射模块,用于对路径集合P中的元素的IP地址或者域名进行 属性空间映射,并给出属性空间映射结果;
判断识别模块,用于依据路径集合P中各元素的属性空间映射结果判断当 前邮件是否为垃圾邮件;
过滤模块,用于过滤垃圾邮件。
所述网络互联点处包括国际出入口 、运营商网络接入点或省间网络出入□。
如果当前邮件的发送通信者和接收通信者的属性空间映射结果相同,则判 断识别模块判断该邮件为垃圾邮件;如果当前邮件的发送通信者和信宿的属性 空间映射结果相同,则判断识别模块判断该邮件为垃圾邮件。属性空间映射包括地理信息映射、管理信息映射或行政区域信息映射。 属性空间映射模块按照IP地址映射将发送通信者和接收通信者的IP地址 映射为地理信息、管理信息或行政区域信息;或者属性空间映射模块按照域名 映射将发送通信者的域名映射为地理信息、管理信息或行政区域信息,按照IP 映射将接收通信者的IP地址映射为地理信息、管理信息或行政区域信息。
属性空间映射模块按照域名映射将发送通信者和信宿的域名映射为地理 信息、管理信息或行政区域信息。
发送通信者的IP地址或者域名为HELO命令中携带的发送通信者的域信息。
发送通信者的域名为HELO命令中携带的发送通信者的域信息。 还包括监控模块,用于监控垃圾邮件。
路径集合P还包括(终端用户,发送通信者},用于判断当前邮件是否为可 疑垃圾邮件。
判断识别模块还用于依据终端用户、发送通信者以及路由信息中的接收行 判断当前邮件是否为可疑垃圾邮件。
本发明仅对邮件命令和信头中的内容进行解析,处理速度快,可支持大流 量环境下的实时处理操作,且不会侵犯用户的隐私,能够有效用于大流量环境 下过滤垃圾邮件,缓解垃圾邮件占用网络带宽、浪费存储和运算资源等问题, 从而提高网络资源利用率,同时减轻用户端的过滤压力。另外该方法在准确率 和速度方面具有优势,且不需要在线学习,因此还可以为其它过滤技术提供垃 圾邮件的模式或者特征实例,更好的协同解决垃圾邮件问题。
图1为现有技术中电子邮件传输系统结构图; 图2为本发明提供的垃圾邮件过滤系统的结构图; 图3为按照SMTP协议的邮件存储转发流程; 图4为IP地址存储结构示意图。
具体实施例方式
邮件在传输阶段可能经过多个路由器和邮件服务器,在发明中,将过滤系
统部署在流量大规模汇集的网络互联点路由器处(包括国际出入口、运营商网 络接入点或省间网络出入口等处)。这样部署的优点是,此处数据规模大,垃 圾邮件的各种特征较为明显;过滤系统两侧的收发邮件服务器(是邮件路径中 的两个节点)属性特征间存在逻辑关系。 本发明中
首先,根据SMTP协议, 一封邮件的命令和信头等部分以路径结点的形式 记录了信件在传输过程中所经过的邮件服务器信息,这些邮件服务器按顺序排 列形成一条邮件路径,路径中结点在不同的属性空间下均存在较强的逻辑关 系。
其次,经过对传输阶段近百万封邮件进行统计,发现为了隐藏发信者的真
正身份,垃圾邮件发送者会伪造路径信息;而为保证信件成功发送,垃圾邮件
发送者又必须填写部分真实的内容,这样垃圾邮件路径中可能会携带相互矛盾 的属性信息,而合法邮件的路径中一般不会存在相互矛盾的属性信息,利用这 些相互矛盾的信息发现垃圾邮件。
图2是本发明提供的垃圾邮件过滤系统的结构图,垃圾邮件过滤系统20 包括邮件路径分析模块21、属性空间映射模块22、判断识别模块23、过滤模 块24以及监控模块25。属性空间映射模块22可进行域名映射和IP地址映射。 下面对各模块进行详细说明。
A、邮件路径分析模块21,用于分析邮件的传输路径。
SMTP是一种存储转发协议,它允许邮件通过一系列的邮件服务器(简称 为邮件传输代理或MTA)发送到最终的目的地。如图3所示,终端用户和这 些MTA可组成一条邮件路径。通常情况下, 一条邮件路径P中依次存在如下 角色中的几种(1)终端用户,又称为MUA (Mail User Agent,邮件用户代 理)。该用户可能通过客户端发送邮件,也可能以Web方式登陆到邮件服务 器上发送邮件。由于MUA不具备转发功能,如果存在则必为路径中的第一个 结点。(2)信源,即邮件的真实发送网域,记为MTAsource。 (3)中继者, 邮件传输过程中的转发结点,记为MTArday。 (4)通信者,是指检测点两侧 当前通信的两个MTA,分别称为发送通信者和接收通信者,分别记为MTAsend 和MTArecv。
(5)信宿,即邮件的真实接收网域,记为MTAdest。
需要注意的是,在路径P中,可能存在以下几种情况发送通信者MTAsend 与MUA相同、发送通信者MTAsend与信源MTAsource相同、接收通信者 MTArecv与信宿MTAdest相同; 一般地对一封邮件的路径来说,MUA、 MTAsource、 MTAsend、 MTArecv、 MTAdest分别对应路径上的一个结点,而 MTArelay可能对应一个结点集合。
本发明中的垃圾邮件过滤系统安装在图3中的检测点上,用于实现过滤垃 圾邮件。理论上,检测点可能观测到的一条邮件路径的结点集合为T={MUA, MTAsource, MTArelay, MTAsend, MTArecv, MTAdest}。但由于其所在位 置的局限,实际构成的邮件路径不一定包括上述所有角色。
对检测点而言,发送通信者、接收通信者、信宿一定在路径中出现;发送 通信者之前和接收通信者之后是否有中继者是无法判断的;由于垃圾邮件发送 者可能伪造发件地址,因此信源对应的实际路径节点不一定会在在邮件路径中 出现。本发明是通过寻找垃圾邮件过滤系统两侧节点属性矛盾来识别垃圾邮 件,因此不一定需要构造完整的邮件路径,在具体实施中,本发明仅仅用到了 路径中的MUA、 MTAsend、 MTArecv、 MTAdest四个节点。
下面给出提取路由信息并构建邮件路径的方法。
对于一封邮件,首先从邮件命令报文中提取如下路由信息
(1) 发送通信者和接收通信者的IP地址,分别记为IPs与IPd。由于过 滤系统两侧的收发邮件服务器属于不同的区域,因此,IPs和IPd具有不同的 属性特征。
(2) HELO命令中携带的发送通信者的域信息,记为Hdomain,可以用 IP地址或者域名表示。HELO命令的发起者也是MTAsend。
(3) RCPTTO命令中携带的邮件信封地址,记为EAd。值得注意的是, 这条命令的发起者是MTAsend。 EAd表示信宿在Internet属性空间中的网域信 息,对应邮件路径上的尾结点,因此在有向传递路径中出现的位置不早于IPd 所对应的结点位置,且两者在检测点同一侧。
(4) 提取邮件中接收行字段,记为Rdomain。
需要说明的是,本发明并不分析邮件信头中的收方邮件地址,因为一封邮 件信头中的接收地址为一个组地址或与信宿无关(考虑抄送、暗送等情况)等 情况是合理的,因此信头中的收方地址可用性较差,不能采用。
在以上所提取的路由信息中,收、发通信者的IP地址难以伪造,因此是
可信的;信宿EAd是邮件目的接收服务器地址,是可信的;由于垃圾邮件发
送者可能伪造发件地址,因此信源MTAsource以及路由信息Hdomain是不可 信的;同理,垃圾邮件发送者可以在邮件中插入多条接收行字段,因此Rdomain 的可信程度较低。
下面讨论如何根据一封邮件的路由信息集合R={ Rdomain, Hdomain, IPs, IPd, EAd)构建相应的邮件路径P。 P为路径节点集合(MUA, MTAsource, MTArelay, MTAsend, MTArecv, MTAdest》的子集。
(1) 确定路径中是否有MUA。根据SMTP协议,为便于跟踪邮件路由, 在邮件从一个邮件服务器传递到另一个邮件服务器过程中,接收方必须在信头 填写接收行字段,其中包括此封邮件的当前发送者和接收者的域名或IP地址, 接收到邮件的时间等,而对MUA则无此要求。
在本发明中,通过判断接收行字段是否为空来识别MUA是否在路径中出 现。因为垃圾邮件发送者可以利用控制的邮件路径中的节点发送垃圾邮件,但 一般不能完全控制该节点上的每个动作(例如,垃圾邮件发送者可以伪造接收 行信息,但不能删除历史的路由信息。),也不能改变其后节点的行为。因此 有如下结论如果Rdomain为空,则发送通信者MTAsend就是MUA,即路 径中存在MUA;否则不能确定路径中是否有MUA。
(2) 确定邮件路径中通信者。根据SMTP协议,路由信息Hdomain与IPs 对应的节点为发送通信者MTAsend。在本发明中,判断识别模块23使用路由 信息Hdomain完成IP地址映射或域名映射工作,过滤模块24及监控模块25 在工作时会使用到路由信息IPs。路由信息IPd对应的节点为接收通信者 MTArecv 。
(3) 确定路径中信宿。路由信息EAd对应的节点为信宿MTAdest。
(4) 关于确定路径中其它节点。中继者MTArelay和MTAsource不需要确定。
通过上述步骤可以确定有关结点在路径中的角色,在此基础上可以确定邮
件路径中结点属性信息。
B、属性空间映射模块22,用于进行IP地址映射或者域名映射。 本发明中提取的路由信息属于邮件路径中各结点在Internet地址空间中的
属性信息,如果这些属性信息违背结点之间的逻辑关系,例如同一节点的IP
地址与域名信息不一致,则说明邮件可能含有虚假信息。同理,路径中各结点 的其他属性(如地理位置为其在地理空间下的地理属性信息,提供接入服务的 运营商为其在管理域空间下的属性信息,所属省份为其在行政区域空间下的属 性信息等等)信息违背结点之间的逻辑关系,则很可能为垃圾邮件。本发明采
用属性空间映射方法,以路径中包含的结点的路由信息(Internet地址空间下 的属性信息)为基础,经过映射得到节点在其它属性空间下的属性信息,进而 分析路径结点在其它属性空间的逻辑关系背离情况。
在本模块中,以地理属性空间为例进行具体阐述,映射到其他属性空间下 的操作与此类似。进一步地,本发明中的垃圾邮件过滤系统位于国际出入口路 由器处,从Internet地址空间映射到地理属性空间时只需标注出该结点为"中 国大陆"或"非中国大陆"即可。此外,地理属性映射应能满足大流量环境下 的实时操作要求。因为路由信息有域名和IP地址两种表达方式,下面我们分 别对其进行映射。
Bl、映射域名。在本发明中依次应用如下启发式规则进行域名的地理属 性映射
(1) 邮件地址中包含"yahoo." 、 "msn." 、 "hotmail." 、 "AOL."、 "earthlink." 、 "gmail."等知名国外邮件服务商信息,该域名不属于中国大陆。
(2) 邮件地址中包含"163.com" 、 "126.com"等知名国内邮件服务商
信息,该域名属于中国大陆;
(3) 如果邮件地址中的顶级域名长度为2字节且为"cn",则该域名属
于中国大陆;
(4) 如果邮件地址中的顶级域名长度为2字节且不为"cn",则该域名 不属于中国大陆;
(5) 如果邮件地址中的顶级域名长度为3字节且为"edu",则该域名不 属于中国大陆;
(6) 其它情况,认为该域名地理属性未知。
B2、映射IP地址。 一般地,IP地址存储结构应该保存系统两侧区域内所 有IP地址信息,以备查询使用。如果将本发明用于国际出入口,则只需保存 中国大陆的IP地址信息。 根据APNIC及CNNIC在2006年7月公布的IPv4地址分配情况,中国大 陆目前拥有IPv4地址总数为8479万个,约合5A+13B+190C个类地址。我们 将中国大陆拥有的IP地址信息保存在树形存储结构中。如果当前IP地址査询 命中,则由该IP地址确定的结点属于中国大陆;否则,该结点不属于中国大 陆。虽然IP地址分配机构提供的数据粒度较粗,但其国别信息足以满足本文 的地理映射需要。
IP地址树形存储结构图4所示。树根(Root)为第0层,分别对应点分十 进制IP地址的左侧第一个字节,构成树的第l层;就目前中国大陆拥有的IP 地址来说,该层共有26个结点。第l层每个结点有256棵子树,分别对应点 分十进制IP地址的左侧第二个字节,构成树的第2层。第2层每个结点引出 一个记录IP地址前缀信息的链表,表中每个元素以子网/前缀的格式(例如 58.14.0.0/16)保存IP地址的分段信息。在构建IP地址树时,网络前缀长度大 于/16的IP地址段可直接加入相应链表,小于/16的要进行拆分处理,将处理 后的多个/16的地址段加入相应结点的链表中。总体来说,分配给中国大陆的 地址段较集中,统计发现,第2层结点的链表最大长度为8,因而IP地址树 形存储结构具有较快的查询速度。
C、判断识别模块23。经过属性空间映射模块22处理之后,路径中各节 点在某属性空间下的信息已经保存在系统中,本发明将在该属性空间下使用下 面三个条件检测路径结点之间属性逻辑关系背离情况。
对于一封邮件,其路由信息集合为R={Rdomain, Hdomain, IPd, EAd}, 构建相应的邮件路径为路径节点集合《MUA, MTAsource, MTArelay, MTAsend, MTArecv, MTAdest}的一个子集,则有
1) 如果MUA、 MTAsend不是同一节点,且Hdomain不是IP地址,贝U Hdomain应符合Internet上域名命名规则,否则该邮件为可疑垃圾邮件。
2) 发送通信者MTAsend和接收通信者MTArecv的属性信息不能相同, 否则该邮件为垃圾邮件。
3) 如果HELO命令中携带的发送通信者的域信息(Hdomain)为域名, 则发送通信者MTAsend与信宿MTAdest的属性信息不能相同,否则该邮件为 垃圾邮件。
对传输阶段大规模邮件流量进行统计后发现,当Hdomain为IP地址,一
些合法邮件的发送通信者和信宿属性信息相同;而当Hdomain为域名时,仅 垃圾邮件的发送通信者和信宿属性信息相同。因此当Hdomain为IP地址,不 能用条件3)判断该邮件是否为垃圾邮件。
以上三个条件的检测顺序为,首先判断2),如果满足条件,则当前邮件 为垃圾邮件;否则判断是否满足3),如果满足3),则当前邮件为垃圾邮件; 否则判断是否满足l),如果满足l),则当前邮件为可疑垃圾邮件;如果不 满足条件l),则当前邮件为合法邮件,系统不采取任何动作。
D、 过滤模块24,用于过滤垃圾邮件。如果判断识别模块23判断当前邮 件为垃圾邮件,过滤模块24对其进行过滤。
在邮件路径分析模块21中,检测系统已经提取发送通信者、接收通信者 的IP地址IPs和IPd,因此可以分别向发送通信者和接收通信者发送伪造的IP 报文,提前中止该垃圾邮件的传输。对于满足条件2) 、 3)的垃圾邮件,通 过向发送通信者发送含5xx命令的IP报文(根据SMTP协议,551命令表明 接收邮件服务器上无此用户),对接收通信者发送Reset报文,切断此次连接。 对于满足条件l)的垃圾邮件,同时向发送通信者和接收通信者发送Reset报 文,切断此次连接。通常,为保证较高的吞吐率,垃圾邮件发送者对发送失败 的邮件不会进行重传尝试,因此我们的方法可有效减少垃圾邮件流量。
E、 监控模块25,用于对垃圾邮件进行监控。如果有对垃圾邮件监控的需 求,可以不对垃圾邮件进行过滤,而对其进行监控。
如在判断识别模块23中己经识别当前邮件为垃圾邮件或可疑垃圾邮件, 本系统可以通过保存该邮件正文内容,记录发送通信者IP地址(IPs)或域名 变化规律等手段,为研究垃圾邮件多层次特征提供样本实例。
下面以在地理属性空间的应用为例,在其它属性空间的应用与此类似
例如,邮件经过垃圾邮件过滤系统,系统提取路由信息如下 R={Rdomain= (...) , Hdomain= (pc27) , IPs= (222.169.83.80) , IPd= (219.110.2.152) , EAd= (246.ne.jp) }
可确定路径中的节点(MTAsend, MTArecv, MTAdest)及它们的属性信 息。因为Hdomair^ (pc27),判断识别模块23无法完成映射,因此发送通信 者的地理属性不能确定,无法使用条件2)和3)来进行判断。Rdomain不为 空,则说明MUA与发送通信者MTAsend不是同一节点;发送通信者为邮件
服务器,但有Homair^pc27,不是标准的域名格式,因此满足条件l),所以 是可疑垃圾邮件。
又例如,邮件经过垃圾邮件过滤系统,系统提取路由信息如下
R={Rdomain= (......) , Hdomain=(210.8.168.129) , IPs= (222.80.117.114),
IPd= (210.8.168.154) , EAd= (westlakes.enviro.com.au) }
可确定路径中的节点为(MTAsend, MTArecv, MTAdest)及它们的属性 信息,下面进行过滤。根据Hdomair^ (210.8.168.129) , IPd= (210.8.168.154), 可知,发送通信者和接收通信者均在国外,满足条件2)。因为IPs= (222.80.117.114)是可信的,这说明发送通信者真实位置在中国,它伪造了 Hdomain信息,所以是垃圾邮件。
如果邮件经过垃圾邮件过滤系统,系统提取路由信息如下
R={Rdomain={} , Hdomain= (al,mmtr.or.jp) , IPs= (219.147.232.86), IPd= (202.239.124.126) , EAd= (bl.mmtr.or.jp) }
可确定路径中的节点为(MUA, MTAsend, MTArecv, MTAdest)及它 们的属性信息,下面进行过滤。
根据Hdomain二 (al.mmtr.or.jp) , IPd= (202.239.124.126),可知发送通 信者和接收通信者分别位于国外和国内,不满足条件2) ; Hdomain为域名, 根据EAd二 (bl.mmtr.or.jp)以及Hdomain= (al.mmtr.or.jp)可知,发送通信者 和信宿具有相同的地理属性,满足条件3),所以是垃圾邮件。
如果当前邮件不满足上述3个条件中的任何一个,则对该邮件不采取任何 动作。
垃圾邮件过滤需要全局协作,很难在某一个环节解决所有问题。本发明定 位在传输阶段,主要用于过滤那些携带虚假属性信息的垃圾邮件流量。当然, 本发明中的垃圾邮件过滤系统和现有的垃圾邮件过滤技术可以任意结合,从而 使整个反垃圾邮件体系能够从全局的角度更大程度限制垃圾邮件的传输。
本发明提供的另外两个实施例为
(1)过滤提供接入服务的运营商网间垃圾邮件,例如在电信运行商M和 电信运营商N之间的网间出入口上设置检测点,将IP地址或者域名映射为管 理信息(即属于哪个提供网络接入服务的运营商),利用本发明提供的方法和 系统过滤电信运行商M和电信运营商之间N之间的垃圾邮件。
(2)过滤国内省级行政区域网间垃圾邮件,例如湖南和湖北之间的省网 间出入口上设置检测点,将IP地址或者域名映射为所属行政区域信息(即属 于哪个省级行政单位),利用本发明提供的方法和系统过滤省间的垃圾邮件。
本领域的技术人员在不脱离权利要求书确定的本发明的精神和范围的条 件下,还可以对以上内容进行各种各样的修改。因此本发明的范围并不仅限于 以上的说明,而是由权利要求书的范围来确定的。
权利要求
1、一种实时垃圾电子邮件过滤方法,用于在网络互联点处过滤垃圾邮件,其特征在于,包括步骤1,依据邮件中的路由信息构建路径集合P,路径集合P为{发送通信者,接收通信者}和/或{发送通信者,信宿};步骤2,按照IP地址映射或者域名映射将路径集合P中的元素的IP地址或者域名进行属性空间映射;步骤3,依据路径集合P中各元素的属性空间映射结果判断当前邮件是否为垃圾邮件,如果是,执行步骤4,否则不处理该当前邮件;步骤4,过滤该当前邮件。
2、 如权利要求1所述的实时垃圾电子邮件过滤方法,其特征在于,所述 网络互联点处包括国际出入口 、运营商网络接入点或省间网络出入口 。
3、 如权利要求1所述的实时垃圾电子邮件过滤方法,其特征在于,步骤 3中,如果当前邮件的发送通信者和接收通信者的属性空间映射结果相同,则 判断该邮件为垃圾邮件;如果当前邮件的发送通信者和信宿的属性空间映射结 果相同,则判断该邮件为垃圾邮件。
4、 如权利要求1、 2或3所述的实时垃圾电子邮件过滤方法,其特征在于, 步骤2中,属性空间映射包括地理信息映射、管理信息映射或行政区域信息映 射。
5、 如权利要求4所述的实时垃圾电子邮件过滤方法,其特征在于,步骤 2中,按照IP地址映射将发送通信者和接收通信者的IP地址映射为地理信息、 管理信息或行政区域信息;或者按照域名映射将发送通信者的域名映射为地理 信息、管理信息或行政区域信息,按照IP映射将接收通信者的IP地址映射为 地理信息、管理信息或行政区域信息。
6、 如权利要求4所述的实时垃圾电子邮件过滤方法,其特征在于,步骤 2中,按照域名映射将发送通信者和信宿的域名映射为地理信息、管理信息或 行政区域信息。
7、 如权利要求5所述的实时垃圾电子邮件过滤方法,其特征在于,发送 通信者的IP地址或者域名为HELO命令中携带的发送通信者的域信息。
8、 如权利要求6所述的实时垃圾电子邮件过滤方法,其特征在于,发送通信者的域名为HELO命令中携带的发送通信者的域信息。
9、 如权利要求1、 2或3所述的实时垃圾电子邮件过滤方法,其特征在于, 还包括步骤91,如果当前邮件为垃圾邮件,则对该当前邮件进行监控。
10、 如权利要求l、 2或3所述的实时垃圾电子邮件过滤方法,其特征在 于,路径集合P还包括(终端用户,发送通信者},用于判断当前邮件是否为可 疑垃圾邮件。
11、 如权利要求IO所述的实时垃圾电子邮件过滤方法,其特征在于,步 骤3还包括判断当前邮件是否为可疑垃圾邮件如果终端用户和发送通信者不 是同一节点,发送通信者提供的域信息应符合域名命名规则,否则该邮件为可 疑垃圾邮件。
12、 一种实时垃圾电子邮件过滤系统,用于在网络互联点处过滤垃圾邮件, 其特征在于,包括邮件路径分析模块,用于分析邮件路由信息,构建路径集合P,路径集合 P为《发送通信者,接收通信者}和/或{发送通信者,信宿};属性空间映射模块,用于对路径集合P中的元素的IP地址或者域名进行 属性空间映射,并给出属性空间映射结果;判断识别模块,用于依据路径集合P中各元素的属性空间映射结果判断当 前邮件是否为垃圾邮件;过滤模块,用于过滤垃圾邮件。
13、 如权利要求12所述的实时垃圾电子邮件过滤系统,其特征在于,所 述网络互联点处包括国际出入口 、运营商网络接入点或省间网络出入口 。
14、 如权利要求12所述的实时垃圾电子邮件过滤系统,其特征在于,如 果当前邮件的发送通信者和接收通信者的属性空间映射结果相同,则判断识别 模块判断该邮件为垃圾邮件;如果当前邮件的发送通信者和信宿的属性空间映 射结果相同,则判断识别模块判断该邮件为垃圾邮件。
15、 如权利要求12、 13或14所述的实时垃圾电子邮件过滤系统,其特征 在于,属性空间映射包括地理信息映射、管理信息映射或行政区域信息映射。
16、 如权利要求15所述的实时垃圾电子邮件过滤系统,其特征在于,属 性空间映射模块按照IP地址映射将发送通信者和接收通信者的IP地址映射为地理信息、管理信息或行政区域信息;或者属性空间映射模块按照域名映射将 发送通信者的域名映射为地理信息、管理信息或行政区域信息,按照IP映射 将接收通信者的IP地址映射为地理信息、管理信息或行政区域信息。
17、 如权利要求15所述的实时垃圾电子邮件过滤系统,其特征在于,属 性空间映射模块按照域名映射将发送通信者和信宿的域名映射为地理信息、管理信息或行政区域信息。
18、 如权利要求16所述的实时垃圾电子邮件过滤系统,其特征在于,发 送通信者的IP地址或者域名为HELO命令中携带的发送通信者的域信息。
19、 如权利要求17所述的实时垃圾电子邮件过滤系统,其特征在于,发 送通信者的域名为HELO命令中携带的发送通信者的域信息。
20、 如权利要求12、 13或14所述的实时垃圾电子邮件过滤系统,其特征 在于,还包括监控模块,用于监控垃圾邮件。
21、 如权利要求12、 13或14所述的实时垃圾电子邮件过滤系统,其特征 在于,路径集合P还包括(终端用户,发送通信者},用于判断当前邮件是否为 可疑垃圾邮件。
22、 如权利要求21所述的实时垃圾电子邮件过滤系统,其特征在于,判 断识别模块还用于依据终端用户、发送通信者以及路由信息中的接收行判断当 前邮件是否为可疑垃圾邮件。
全文摘要
本发明涉及一种实时垃圾电子邮件过滤方法,用于在网络互联点处过滤垃圾邮件,包括步骤1,依据邮件中的路由信息构建路径集合P,路径集合P为{发送通信者,接收通信者}和/或{发送通信者,信宿};步骤2,按照IP地址映射或者域名映射将路径集合P中的元素的IP地址或者域名进行属性空间映射;步骤3,依据路径集合P中各元素的属性空间映射结果判断当前邮件是否为垃圾邮件,如果是,执行步骤4,否则不处理该当前邮件;步骤4,过滤该当前邮件。本发明仅对邮件命令和信头中的内容进行解析,处理速度快,能够提高网络资源利用率,同时减轻用户端的过滤压力。
文档编号H04L12/58GK101188580SQ20071017883
公开日2008年5月28日 申请日期2007年12月5日 优先权日2007年12月5日
发明者誉 姜, 尼 张, 范 张, 张智江, 方滨兴 申请人:中国联合通信有限公司