海量电子邮件分析处理过程中的电子邮件内容重复判断的方法

文档序号:10515360阅读:369来源:国知局
海量电子邮件分析处理过程中的电子邮件内容重复判断的方法
【专利摘要】本发明公开了一种海量电子邮件分析处理过程中的电子邮件内容重复判断的方法,其特征在于,包括以下几个步骤:步骤一:分解电子邮件内容;步骤二:对电子邮件内容中各个部分进行重复判断;步骤三:对电子邮件内容进行重新组织;本发明可以对海量的电子邮件进行内容重复的判断,有效的降低了海量电子邮件处理过程中因电子邮件处理内容处理带来的资源开销。
【专利说明】
海量电子邮件分析处理过程中的电子邮件内容重复判断的方法
技术领域
[0001]本发明属于大数据分析领域,涉及一种海量电子邮件分析处理过程中的电子邮件内容重复判断的方法。
【背景技术】
[0002]电子邮件是一种用电子手段提供信息交换的通信方式,是互联网应用最广的服务。通过网络的电子邮件系统,用户可以以非常低廉的价格(不管发送到哪里,都只需负担网费)、非常快速的方式(几秒钟之内可以发送到世界上任何指定的目的地),与世界上任何一个角落的网络用户联系。
[0003]随着信息时代的发展,电子邮件的使用人数和范围实现了爆炸性的增长,对电子邮件的内容进行分析和处理变成了一个巨大的难题。难题的重点在于电子邮件的数量巨大且持续增长,造成分析处理电子邮件的过程中需要极大的处理资源和存储资源,而如此大量的电子邮件中,一人发送给多人的电子邮件、多人发送的电子邮件内容一致、多次带附件回复电子邮件等现象造成了很大一部分电子邮件正文、电子邮件附件重复。重复内容被处理多次极大的造成处理资源和存储资源的浪费。
[0004]因此,需要一种对电子邮件重复内容判断方法以减少重复邮件内容处理和存储的次数。

【发明内容】

[0005]本发明的目的是为了解决上述问题,提出一种海量电子邮件分析处理过程中的电子邮件内容重复判断的方法,以达到海量电子邮件分析处理过程中减少重复的电子邮件内容处理和存储次数目的。
[0006]本发明的一种海量电子邮件分析处理过程中的电子邮件内容重复判断的方法,包括以下内容:
[0007]第一个部分,首先给出了电子邮件内容的分解方式。电子邮件内容分解为三个部分:电子邮件头、电子邮件正文、电子邮件附件。
[0008]电子邮件附件:电子邮件中附加的文件内容。
[0009]电子邮件正文:电子邮件中内容的文字说明。
[0010]电子邮件头:电子邮件中除邮件附件、邮件正文外的其他部分的总称。
[0011]本发明的第二部分给出了电子邮件内容中各部分重复的判断方法。电子邮件头不做重复判断。电子邮件的正文做重复判断,重复判断的标准为内容的Hash完全一致,如果两个电子邮件正文内容Hash完全一致则认定两封电子邮件的正文重复。电子邮件附件重复的判断标准为:当附件大小大于等于100K时,附件的文件开头50K内容、附件文件结尾50K及邮件的文件大小,三部分别共同Hash相同则认为重复;如果附件大小不足100K则只需判断附件内容Hash完全一致。
[0012]本发明的第三部分给出重复电子邮件判断后,电子邮件内容的组织方法。电子邮件重复判断后组成部分包括:电子邮件ID、电子邮件头、电子邮件正文、正文ID、电子邮件附件、附件ID。
[0013]电子邮件ID:电子邮件的唯一标示。
[0014]电子邮件头:同第一方面电子邮件分解的电子邮件头。
[0015]电子邮件正文:同第一方面电子邮件分解的电子邮件正文。
[0016]正文ID:电子邮件正文与另外电子邮件正文重复的电子邮件ID。
[0017]电子邮件附件:同第一方面电子邮件分解的电子邮件附件。
[0018]附件ID:电子邮件附件与另外电子邮件附件重复的电子邮件ID。
[0019]本发明的优点在于:
[0020]本发明通过电子邮件内容重复判断减少对重复的电子正文和电子邮件的附件进行处理和存储次数,从而有效的降低了海量电子邮件分析处理过程中对处理和存储资源的占用。
【附图说明】
[0021]图1为电子邮件内容分解示意图
[0022]图2为电子邮件正文重复判断流程图
[0023]图3为电子邮件附件重复判断流程图
[0024]图4为电子邮件内容的组织方式示意图
【具体实施方式】
[0025]下面将结合附图和实施例对本发明作进一步的详细说明。
[0026]图1给出了电子邮件内容分解方式,电子邮件经过解析后分解成为三个部分,电子邮件附件、电子邮件正文、电子邮件头,并需要为电子邮件标记唯一的邮件ID。
[0027]图2给出了电子邮件正文重复的判断流程,具体步骤如下:
[0028]步骤201:判断电子邮件是否存在正文,如果存在执行步骤202,否则退出;
[0029]步骤202:计算正文的Hash值;
[0030]步骤203:判断已有邮件正文的Hash值,如果存在则执行步骤204,否则执行步骤206;
[0031]步骤204:获取与步骤202相同的Hash值对应的邮件ID;
[0032]步骤205:删除电子邮件正文,释放电子邮件正文占用的存储资源;
[0033]步骤206:保存电子邮件正文Hash值和对应的邮件ID;
[0034]图3给出了电子邮件附件重复的判断流程,具体步骤如下:
[0035]步骤301:判断电子邮件是否存在附件,如果:存在执行步骤302,否则退出;
[0036]步骤302:计算附件的Hash值,当附件大小大于等于100K时,附件的文件开头50K内容、附件文件结尾50K及邮件的文件大小,三部分合并后去Hash,如果附件大小不足100K直接计算邮件附件的Hash;
[0037]步骤303:判断已有邮件附件的Hash值,如果存在则执行步骤304,否则执行步骤306;
[0038]步骤304:获取与步骤302相同的Hash值对应的邮件ID;
[0039]步骤305:删除电子邮件附件,释放电子邮件附件占用的存储资源;
[0040 ] 步骤306:保存电子邮件附件Hash值和对应的邮件ID。
[0041]图4给出了重复电子邮件判断后,电子邮件内容的组织方法。当正文ID存在时,电子邮件的正文与电子邮件ID为正文ID的电子邮件正文重复,电子邮件正文不需要处理和存储,否则电子邮件正文不重复需要处理和存储;当附件ID存在时,电子邮件的附件与电子邮件ID为附件ID的电子邮件附件重复,电子邮件附件不需要处理和存储,否则电子邮件附件不重复需要处理和存储。
【主权项】
1.一种海量电子邮件分析处理过程中的电子邮件内容重复判断的方法,其特征在于,包括以下几个步骤: 步骤一:分解电子邮件内容; 将电子邮件内容分解为三个部分:电子邮件头、电子邮件正文和电子邮件附件; 电子邮件附件:电子邮件中附加的文件内容; 电子邮件正文:电子邮件中内容的文字说明; 电子邮件头:电子邮件中除邮件附件、邮件正文外的其他部分的总称; 步骤二:对电子邮件内容中各个部分进行重复判断; 具体为:电子邮件头不进行重复判断; 电子邮件正文进行重复判断:当两封电子邮件正文内容Hash完全一致,判定电子邮件正文重复,否则不重复; 电子邮件附件进行重复判断:如果附件大小大于或者等于10K时,判断电子邮件附件的文件开头50K内容、附件文件结尾50K及邮件的文件大小,三部分别共同Hash是否相同,如果相同,判定电子邮件附件重复,否则不重复;如果附件大小小于100K时,判断附件内容Hash值是否相同,如果相同,判定电子邮件附件重复,否则不重复; 步骤三:对电子邮件内容进行重新组织; 电子邮件重复判断后,针对存在内容重复的电子邮件进行重新组织,组成部分包括:电子邮件ID、电子邮件头、电子邮件正文、正文ID、电子邮件附件、附件ID; 电子邮件ID:电子邮件的唯一标不; 电子邮件头:同第一方面电子邮件分解的电子邮件头; 电子邮件正文:同第一方面电子邮件分解的电子邮件正文; 正文ID:电子邮件正文与另外电子邮件正文重复的电子邮件ID; 电子邮件附件:同第一方面电子邮件分解的电子邮件附件; 附件ID:电子邮件附件与另外电子邮件附件重复的电子邮件ID。2.根据权利要求1所述的一种海量电子邮件分析处理过程中的电子邮件内容重复判断的方法,其特征在于,所述的步骤二中,电子邮件正文重复的判断流程,具体步骤如下: 步骤201:判断电子邮件是否存在正文,如果存在执行步骤202,否则退出; 步骤202:计算正文的Hash值; 步骤203:判断已有邮件正文的Hash值,如果存在则执行步骤204,否则执行步骤206 ; 步骤204:获取与步骤202相同的Hash值对应的邮件ID; 步骤205:删除电子邮件正文,释放电子邮件正文占用的存储资源; 步骤206:保存电子邮件正文Hash值和对应的邮件ID。3.根据权利要求1所述的一种海量电子邮件分析处理过程中的电子邮件内容重复判断的方法,其特征在于,所述的步骤二中,电子邮件附件重复的判断流程,具体步骤如下: 步骤301:判断电子邮件是否存在附件,如果:存在执行步骤302,否则退出; 步骤302:计算附件的Hash值,当附件大小大于等于100K时,附件的文件开头50K内容、附件文件结尾50K及邮件的文件大小,三部分合并后去Hash,如果附件大小不足100K直接计算邮件附件的Hash; 步骤303:判断已有邮件附件的Hash值,如果存在则执行步骤304,否则执行步骤306; 步骤304:获取与步骤302相同的Hash值对应的邮件ID; 步骤305:删除电子邮件附件,释放电子邮件附件占用的存储资源; 步骤306:保存电子邮件附件Hash值和对应的邮件ID。4.根据权利要求1所述的一种海量电子邮件分析处理过程中的电子邮件内容重复判断的方法,其特征在于,所述的步骤三中,重复电子邮件判断后,电子邮件内容的组织方法;当正文ID存在时,电子邮件的正文与电子邮件ID为正文ID的电子邮件正文重复,电子邮件正文不需要处理和存储,否则电子邮件正文不重复需要处理和存储;当附件ID存在时,电子邮件的附件与电子邮件ID为附件ID的电子邮件附件重复,电子邮件附件不需要处理和存储,否则电子邮件附件不重复需要处理和存储。
【文档编号】H04L12/58GK105871705SQ201610397804
【公开日】2016年8月17日
【申请日】2016年6月7日
【发明人】李斌斌, 郑彩娟, 刘利宏, 王振宇
【申请人】北京赛思信安技术股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1