专利名称:利用元数据优化归档电子邮件的效率的制作方法
技术领域:
本发明涉及归档电子邮件消息。
背景技术:
电子消息或电子邮件服务器系统可以被配置成提供由服务器系统的用户发送和接收的电子邮件消息(电子邮件)的日志。电子邮件的日志通常包括在电子邮件传送过程中将利用服务器发送或接收的电子邮件的单独副本放置在专用邮箱或数据库日志中。日志中的电子邮件是分发给收件人的电子邮件的副本,也可能包含,像电子邮件元数据(例如,“To(送往)”、“Cc (抄送)”和“Bcc (密件抄送)”首标字段中的电子邮件地址)中的所有电子邮件收件人的列表以及分解的组那样的,单个收件人不可获得的附加信息。归档电子邮件的例子包括一但不限于一由于合规性的原因而归档来自日志的电子邮件,以及由于节省空间的原因而归档来自单个用户邮箱的电子邮件。消息的归档通常按如下操作顺序进行:-识别由于节省空间的目的而应该归档电子邮件的一个或多个邮箱;-搜索和识别有资格归档(称为爬过)的消息;-提取特定用户邮箱中有资格归档的消息;以及-将提取的消息存储在档案中。为了合规性而归档通常在电子邮件服务器中为邮箱发送或接收到电子邮件之后马上或不久在日志内进行。通常在可以归档日志中的所有消息的短间隔上爬过日志。为了节省用户邮箱中的空间而归档通常根据经过的时段来进行,也可以包括其他限制(例如,只归档具有某种存储大小的消息)。归档用户邮箱的典型例子可以是归档邮箱中4个星期之前接收到的所有消息,如果这样的消息仍然存在于邮箱之中的话(即,邮箱用户还未删除这样的消息)。爬过的操作过程可以给服务器造成较大负担,增加了归档电子邮件的费用。因此,重要的是要避免爬过还没有足够的有资格归档的合格消息的邮箱。典型的电子邮件归档系统使用说明性手段(例如,根据用户邮箱中的内容量或时间)来确定应该在什么时候在邮箱中搜索需要归档的电子邮件。例如,确定哪些电子邮件要归档的爬过操作可能要求每所选时段(例如,每所选分钟数,每所选天数等)搜索特定服务器的所有邮箱,以便在所选时间跨度内归档特定用户邮箱的每个有资格的邮件。当将说明性手段用于电子邮件归档时,系统管理员通常编制用于通过在邮箱中搜索有资格处理的邮件来周期性检验是否有必要处理的时间表。另外,通常对所有邮箱一视同仁,以及处理邮箱的顺序可以是随机的。这可能导致某些用户邮箱在超过与这样的邮箱相关联的邮箱配额之前未处理归档电子邮件。另外,这可以导致存储空间的预留不足,因为一些用户邮箱可能比其他用户邮箱更迅速地充满电子邮件内容。更进一步,系统管理员试图根据不同邮箱如何使用为不同邮箱配制单独归档时间表既太困难又太费时。
发明内容
本发明提供了如要求保护的在电子邮件系统中归档电子邮件的计算机实现的方法、归档电子邮件的计算机程序产品以及归档电子邮件的系统。于是,本发明的实施例包括归档电子邮件的方法、计算机程序产品以及系统。该电子邮件系统包括至少一个用户邮箱,并被配置成接收电子邮件和将电子邮件存储在用户邮箱内以及从所述用户邮箱发送电子邮件。收集与每个用户邮箱接收和发送的电子邮件相对应的特定于用户的元数据。分析已收集特定于用户的元数据,以为每个用户邮箱提供将什么时候归档电子邮件和归档哪些电子邮件的预测指示,并根据每个用户邮箱的预测指示为用户邮箱归档电子邮件。一旦研究了如下详细描述,尤其当结合各种图形中的相同标号用于表示相同部件的附图时,本发明实施例的上述和进一步特征和优点将变得显而易见。
图1是例示包括依照本发明归档电子邮件的部件的电子邮件系统的示范性实施例的框图;以及图2提供了描述按照本发明的实施例和利用图1的电子邮件系统归档电子邮件的示范性方法的流程图。
具体实施例方式依照本发明的示范性实施例的方法、系统以及计算机程序产品通过利用电子邮件系统中的单个用户邮箱的已收集元数据和使用模式确定什么时候爬过和归档邮箱,以及可选地,在系统内也提供什么时候爬过和处理用户邮箱加以归档的排名功能,来优化归档电子邮件消息(电子邮件)的效率。已收集元数据是从电子邮件系统处理的电子邮件中获得的。如本文所使用,与电子邮件消息有关的“已处理”指的是与每个用户邮箱有关的电子邮件服务器的进来和出去的电子邮件以及在电子邮件服务器内部的一个或多个用户邮箱之间传送的电子邮件。进一步如本文所使用,与元数据有关的“已收集”指的是以任何适当方式从每个已处理电子邮件中提取、复制、计算或获取的元数据。在将日志系统用于复制已处理电子邮件(例如,为了合规性的目的)的示范性实施例中,可以从与电子邮件系统中的每个用户邮件相关联的每个已处理电子邮件消息的日志副本中收集元数据。但是,值得注意的是,元数据可以由电子邮件服务器利用任何其他适当过程从已处理电子邮件中收集。在日志数据库中,几乎在将这样的电子邮件存储在日志数据库中之后立刻或不久就归档每个电子邮件。日志数据库中与每个邮箱相关联的电子邮件的已收集元数据可以用于为每个邮箱生成统计信息(例如,统计模型),其中该统计信息被用于预测与每个邮箱有关的某些特征,包括一但不限于一预测可以在特定邮箱中的消息的最大数量,预测特定邮箱内有资格归档的合格的电子邮件内容,以及什么时候爬过并归档特定邮箱内的电子邮件。尤其,使用来自日志数据库的已收集元数据为每个用户邮箱生成的统计信息可以用于预测像与指定限制(例如,用户邮件的大小限制)匹配的、将在用户邮箱中获得的消息的最大数量那样的特征。在电子邮件中存在可以在用在生成统计模型中的过程中收集以确定什么时候为电子邮件归档处理用户邮箱的各种类型元数据。电子邮件中可以收集的多种类型元数据的例子包括一但不限于一寄件人信息、收件人信息(例如,电子邮件的“To”字段以及“Ce”和“Bcc”字段中的收件人)、主题信息(例如,来自电子邮件的主题字段的信息)、有关电子邮件的存储大小的信息、有关存储大小的信息、电子邮件的附件的数量和/或类型、发送、交付和/或观看消息的时间和日期等。可以从电子邮件元数据中获得一种或多种任何适当组合或类型的信息来生成预测特定用户邮箱中的内容的统计模型,以便为用户邮箱内的电子邮件的爬过和归档确定适当时段。用户邮箱的爬过指的是搜索特定用户邮箱以识别邮箱中的明_电子邮件有资格归档。从归档在日志数据库中的电子邮件中收集以便为每个用户邮箱生成统计信息的元数据的类型将取决于特定电子邮件系统中归档电子邮件的资格标准。用于归档电子邮件并包括日志系统的示范性电子邮件系统示意性地描绘在图1的框图中。具体地,电子邮件系统2包括电子邮件服务器4,该电子邮件服务器4包括用户邮箱。电子邮件服务器4可操作地与任何其他服务器和/或联网系统耦合,以便于向和从与电子邮件服务器相关联的用户邮箱发送和接收电子邮件。另外,电子邮件服务器4有助于在电子邮件服务器内的用户邮箱之间传送电子邮件消息。电子邮件服务器4还可操作地与用户邮箱归档系统6耦合。用户邮箱归档系统6可操作地与电子邮件档案存储系统8耦合,该电子邮件档案存储系统8为用户邮箱存储已归档电子邮件。用户邮箱归档系统6进一步包括处理器,该处理器利用以下述的方式获得的统计信息以确定什么时候爬过并归档用户邮箱中的电子邮件。电子邮件服务器4进一步可操作地与日志数据库10耦合。如上所述,将来自用户邮箱的所有已处理电子邮件同与这样的电子邮件相关联的元数据一起复制到日志数据库10中。日志数据库10进一步可操作地与日志归档系统12耦合。日志归档系统12几乎在将这样的电子邮件存储在日志数据库10中之后立刻或不久就归档电子邮件消息(然后从日志数据库10中移除这样的电子邮件以节省存储空间)。日志归档系统12进一步可操作地与日志档案存储系统14和元数据数据库16耦合。将来自日志数据库10的已归档电子邮件消息存储在日志档案存储系统14内,将来自日志归档系统12处理的电子邮件的已收集元数据存储在元数据数据库16中。元数据数据库16进一步可操作地与用户邮箱归档系统6耦合,以便用户邮箱归档系统6的处理器可以访问存储的元数据来生成或更新与每个用户邮箱相关联的统计信息。电子邮件服务器4、用户邮箱归档系统6、电子邮件档案存储系统8、日志数据库
10、日志归档系统12、日志档案存储系统14和元数据数据库16的每一个可以实现成分立单元,或可替代地,与单个单元中的任何一个或多个其他部件组合。例如,用户邮箱归档系统6和日志归档系统12可以与配置成进行归档来自日志数据库和用户邮箱的电子邮件的操作的一个或多个处理器实现成单个归档系统。系统2的电子邮件服务器、归档系统和数据库存储系统可以是通过任何类型的硬件和/或其他处理电路实现的任何适当计算机系统。具体地,服务器和数据库可以通过任何数量的传统或其他计算机系统或设备(例如,计算机终端、个人计算机(例如,IBM兼容的、苹果公司的Macintosh,平板电脑,膝上型电脑等)等)、蜂窝式电话、个人数字助理(例如,Palm Pre> Droid、iPhone等)等来实现,可以包括任何商用操作系统(例如,AIX、Android、Linux、OSX> Sun Solaris、Unix、Windows等)和任何商用或定制软件(例如,浏览器软件、通信软件、字处理软件等)。这些系统可以包括各种类型的显示器和输入设备(例如,键盘、鼠标、语音识别等)以便输入和/或观看信息。另外,电子邮件可以由电子邮件服务器发送或接收并通过数据库以任何适当方式保留。下面参照图2的流程图描述利用图1的系统的示范性方法。参照图2,日志数据库10连续复制与电子邮件服务器4的每个用户邮箱相关联、包括每个电子邮件消息的元数据的每个已处理电子邮件消息(即,电子邮件服务器的进来或出去的消息,或在电子邮件服务器的内部传送给用户邮箱或从用户邮箱传送的电子邮件消息)(步骤110)。存储在日志数据库10中的电子邮件由日志归档系统12连接归档,以便存储在日志档案存储系统14中(步骤120)。日志数据库10中的电子邮件的归档可以在将这样的电子邮件存储在日志数据库10中之后马上或在某个适当时段上进行。为每个用户邮箱收集来自日志归档系统12正在处理的日志数据库邮件的元数据并将其存储在元数据数据库16中(步骤130)。组织已收集和存储的元数据以便成为特定于用户的。换句话说,将存储的元数据识别成从与特定用户邮箱相关联的电子邮件中收集的。值得注意的是,元数据的收集和存储(步骤130)可以在日志档案存储系统14中的日志数据库电子邮件的归档(步骤120)之前、之后或与之并行地进行。存储的元数据可由用户邮箱归档系统6的处理器访问,这种元数据用于为每个用户邮箱生成以及也更新统计信息。处理器周期性地查询元数据数据库16,以便为每个用户邮箱生成或更新统计信息,该统计信息由用户邮箱归档系统6用于确定是否或在什么时候爬过每个用户邮箱。有关是否或在什么时候爬过每个用户邮箱以归档电子邮件的确定可以基于单个的(即,基于与每个邮箱相关联的统计信息),基于组的(即,通过利用生成的统计信息分组具有相似简档的邮箱),或以任何其他适当方式。存储在元数据数据库16中的元数据使用户邮箱中合格的或有资格归档的内容能够得到预测。例如,归档准则可以基于包括一但不限于一以下中的一个或多个资格因素:总邮箱存储大小限制、对具有一定年限的电子邮件(例如,用户邮箱中接收日期比当前日期早任何所选天数的电子邮件)的存储大小限制、对带有一个或多个附件的特定电子邮件的存储大小限制。要收集并存储在元数据数据库16中的元数据的选择和/或由用户邮箱归档系统6的处理器选来生成统计信息的元数据的类型将基于使电子邮件有资格归档的特定电子邮件系统的资格认证标准。通过用户邮箱归档系统处理器根据归档资格标准针对每个邮箱的信息来查询元数据数据库16,并使用查询的元数据生成统计信息。为每个用户邮箱生成的统计信息可以用于建立爬过和归档用户邮箱的排名次序(步骤150)。可以将具有某种统计信息的邮箱设置成具有比其他邮箱高的排名次序,其中该统计信息提供该邮箱具有大量和/或大存储大小的有资格归档的电子邮件的预测。例如,可以将排名次序或评分系统设置成归档与他们的配额较接近的邮箱(例如,其中配额对应于超过某个年限的电子邮件的数量、整个电子邮件内容的大小、邮箱内或有资格归档的电子邮件的数量等中的一种或多种),和/或通过在更远离他们的配额或在分配给邮箱的系统存储空间方面的压力较轻的其他邮箱之前节省存储空间使系统受益。也可以根据预测要对特定邮箱归档的电子邮件的数量和/或存储大小不超过归档所需的预定阈值的统计信息将某些邮箱排除在归档之外(例如,如果要归档的电子邮件数据的大小小于IMB的阈值量,或如果邮箱大小还未达到其配额的某个百分比,则不处理邮箱来归档)。具体地,用户邮箱归档系统处理器可以过滤掉还未达到如通过与这些邮箱相关联的预测统计信息所确定的最小阈值准则的邮箱,以便只让有资格归档的邮箱通过过滤器和得到处理以归档。这样,通过减少某些用户邮箱的不必要爬过和电子邮件服务器访问,有助于电子邮件系统更有效地工作。在为邮箱建立了排名次序(和可选地,过滤掉未满足有资格归档的最小阈值的邮箱)之后,周期性地爬过邮箱,并且从邮箱中实际提取有资格归档的实际电子邮件,加以归档并存储在电子邮件档案存储系统8中(步骤160)。为了为每个邮箱尽可能准确地保持预测统计信息,通过移除与每个邮箱已经归档的电子邮件相对应的元数据来更新元数据数据库,并且还根据元数据数据库这样的变化为每个邮箱更新统计信息(步骤170)。于是,元数据数据库和统计信息不包含有关每个用户邮箱已经归档的电子邮件的信息。每个邮箱的统计信息也可以通过提供其中周期性比较由每个邮箱的电子邮件的预测归档负载(利用统计信息确定)与每个邮箱的电子邮件的实际归档负载(从爬过中确定)构成的反馈回路来更新。存储在元数据数据库16中的元数据和统计信息提供如果爬过邮箱就会找到的电子邮件服务器4的每个邮箱中归档的合格的电子邮件内容的预测。这是因为统计信息和元数据基于复制到日志数据库10中的电子邮件,而不是在给定时间上处在用户邮箱中的实际电子邮件消息。每个邮箱实际上可以具有比取决于许多因素预测的电子邮件更多或少的电子邮件,这些因素包括一但不限于一是从特定邮箱中删除了电子邮件还是在日志数据库中还未计及加入邮箱中的电子邮件(例如,用户可能将内容从本地电子邮件档案存储系统8复制或拖回到用户的邮箱中)。因此,可以根据实际数据自动改变用于为每个用户邮箱提供是否或在什么时候归档电子邮件(和归档哪些电子邮件)的预测指示的统计信息的更新。可能会出现对特定邮箱实际归档比如通过这个邮箱的统计信息所预测的有资格电子邮件的数量少的电子邮件(例如,用户可能在爬过用户邮箱和归档电子邮件的时段之间删除了许多消息)的某些情形。可以根据要归档的预测电子邮件与要归档的电子邮件的实际数量的比较(根据邮箱的爬过)为每个邮箱生成校正因子。例如,校正因子可以是如下的比值:(如通过爬过找到的要归档的电子邮件)/ (要归档的预测电子邮件)。对于用户在用户邮箱的归档处理之间的时段期间从用户邮箱中删除许多电子邮件的情形,这个用户邮箱的校正因子可能小于I (例如,如果在实际爬过和归档处理步骤之前从用户邮箱中删除了有资格归档的电子邮件)。可以将每个用户邮箱的校正因子作为元数据存储在元数据数据库12中,并且可以将其用于更新或修正包括与用户邮箱相关联的评分/排名和过滤的、每个用户邮箱的统计信息。校正因子可以实现成根据单个用户的删除模式自动改善单个邮箱的预测指示。在一个示范性实施例中,系统的一般规则可以提供普通用户邮箱具有在前一轮爬过和归档与后一轮爬过和归档之间删除的电子邮件的10%的假设。对于特定邮箱,预测指示可以根据如通过校正因子和/或任何其他因素确定的、这个特定邮箱的用户模式的历史假设删除了较大数量的电子邮件(例如,20%或更大)。因此,可以通过应用将预测指示与有资格归档的实际电子邮件相比较的反馈回路来实现为每个用户邮箱什么时候归档电子邮件或归档哪些电子邮件的预测指示的自动优化。另外,可以周期性地监视每个用户邮箱,以保证用户邮箱不会迅速接近或超过它的配额。例如,在用户将大量已归档电子邮件从电子邮件档案存储系统拖回到用户邮箱中的情形下,在用户邮箱的实际配额可能接近它的极限的时候,该预测(基于用户邮箱的当前统计信息)可能指示用户邮箱未接近它的配额。可以将电子邮件服务器配置成周期性地检验每个用户邮箱内的电子邮件的存储大小,如果在用户邮箱的实际存储大小与用户邮箱的预测存储大小(如从当前统计信息中所确定的)之间存在超过阈值量的差异,则可以设置用户邮箱以便马上爬过和归档。可替代地,可以调整电子邮件的排名,以便在下一次爬过和归档处理会话中这个用户邮箱的爬过和归档优先于其他用户邮箱。因此,在上述和描述在图2的流程图中的方法中,随着电子邮件服务器的每个用户邮箱处理进来和出去的电子邮件连续地执行步骤110-130 (将进来/出去的电子邮件复制到日志数据库中,在日志数据库中归档这样的电子邮件,以及为这样归档的电子邮件提取元数据)。涉及为每个用户邮箱生成或更新统计信息,为用户邮箱确定排名次序(和可选过滤),以及根据排名次序爬过和归档用户邮箱的步骤140-160可以在电子邮件系统根据特定情形和系统的预期电子邮件归档负载而设置的所选处理间隔上进行。另外,可以将用户邮箱的排名次序设置成可以在相同或相似时间间隔上和/或以相同或相似排名次序爬过具有如通过用户邮箱的统计信息确定的、相似归档需要或归档负载简档的邮箱的组或群集。当分析如存储在元数据数据库中的用户邮箱的元数据时,可以利用像k_均值聚类技术那样的聚类算法。聚类算法可以用于根据为这些邮箱生成/更新的统计信息找出具有相同简档的用户邮箱的组或群集。因此,电子邮件系统可以被配置成使用户邮箱的处理间隔自动化,其中在相同处理会话期间爬过具有相似负载简档的用户邮箱的组以归档电子邮件。使用适当的聚类算法提供用户邮箱的自动聚类简化了归档电子邮件的过程,因为系统管理员只需指定归档政策(即,在用户邮箱内归档电子邮件的一组规则),电子邮件系统将根据为每个用户邮箱生成的统计信息自动设置用户邮箱或用户邮箱组内的电子邮件的爬过和归档。另外,任何用户邮箱或用户邮箱组的归档处理间隔可以利用如上所述和描述在图2的流程图中的过程根据统计信息的更新以自动方式变化。使用已收集元数据为邮箱确定什么时候归档电子邮件和归档什么类型的电子邮件的例子可以提供用户邮箱增长得有多快和有多少电子邮件数据可用于归档的预测指示。在这个例子中,可以为用户邮箱监视与电子邮件的数量和大小相关联的元数据。为了归档而可以对用户邮箱的排名,例如,根据每个用户邮箱指示在所选时段(例如,可以通过分析用户邮箱的校正因子来确定)上哪些用户邮箱删除大多数电子邮件的统计信息,来设置。可以将历史上删除比平均数少的电子邮件的用户邮箱设置成比删除比平均数多的电子邮件的那些用户邮箱高的排名,以便在排名低的用户邮箱之前爬过和归档排名高的用户邮箱。将从已收集元数据中获得的和提供什么时候归档用户邮箱的预测指示的统计信息与与用户邮箱中有资格归档的实际电子邮件有关的信息相比较的反馈回路可以用于改变归档用户邮箱的排名次序。如上所述,虽然上面示范性实施例描述了从日志数据库归档的电子邮件中收集元数据,但本发明不局限于以这种方式从电子邮件中获取元数据。本发明包含以任何适当方式从已处理电子邮件中收集元数据。例如,可以在向或从处在一个或多个电子邮件服务器上的一个或多个用户邮箱传送电子邮件期间的任何点上收集元数据。所属技术领域的技术人员知道,本发明的各个方面可以实现为系统、方法或计算机程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、驻留软件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。此外,在一些实施例中,本发明的各个方面还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。可以采用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是一但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPR0M或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括一但不限于一无线、有线、光缆、RF等等,或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言一诸如Java、Smalltalk、C++等,还包括常规的过程式程序设计语言一诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络一包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。下面将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些计算机程序指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机程序指令存储在计算机可读介质中,这些指令使得计算机、其它可编程数据处理装置、或其他设备以特定方式工作,从而,存储在计算机可读介质中的指令就产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令的制造品(article of manufacture) 也可以将计算机程序指令装载到计算机、其他可编程数据处理装置或其他设备中,使一系列操作步骤在计算机、其他可编程装置或其他设备上执行,以形成计算机实现的进程,以便在计算机或其他可编程装置上执行的指令提供实现在流程图和/或一个或多个框图方框中规定的功能/动作的进程。附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。本文使用的术语只是为了描述特定实施例的目的,而不是打算限制本发明。如本文所使用,单数形式“一个”、“一种”和“该”也有意包括复数形式,除非上下文另有清楚指示。还要进一步理解,用在本说明书中的动词术语“包含/包括”和/或动名词术语“包含的/包括的”表示了所述特征、整数、步骤、操作、元件和/或部件的存在,但不排除一个或多个其它特征、整数、步骤、操作、元件、部件和/或它们的组的存在或添加。所附权利要求书中的所有装置或步骤以及功能元件的相应结构、材料、动作和等效物都有意包括如具体要求的那样与其它所要求元件组合执行功能的任何结构、材料或动作。对本发明的描述是为了例示和描述的目的给出,而不是打算穷举或以所公开的形式限制本发明。许多变型和变体对于所属技术领域的普通技术人员来说是显而易见的,而不偏离本发明的范围和精神。选 择和描述实施例是为了最佳地说明本发明的原理及其实际应用,使所属技术领域的普通技术人员能够针对各种实施例以及如适合所设想的特定使用的各种变型来理解本发明。
权利要求
1.一种在电子邮件系统中归档电子邮件的计算机实现的方法,所述电子邮件系统包含至少一个用户邮箱,并被配置成接收电子邮件和将电子邮件存储在所述用户邮箱内以及从所述用户邮箱发送电子邮件,所述方法包括: 收集与每个用户邮箱接收和发送的电子邮件相对应的特定于用户的元数据; 分析已收集特定于用户的元数据,以为每个用户邮箱提供将什么时候归档电子邮件和归档哪些电子邮件的预测指示;以及 根据每个用户邮箱的预测指示为用户邮箱归档电子邮件。
2.如权利要求1所述的方法,其中,所述电子邮件系统进一步包含日志数据库,所述方法进一步包括: 将每个用户邮箱从至少一个其他用户邮箱接收的任何电子邮件和每个用户邮箱发送给至少一个其他用户邮箱的任何电子邮件复制到所述日志数据库内,其中,每个发送或接收的电子邮件包括也存储在所述日志数据库内的元数据; 其中,从复制到所述日志数据库中的发送和接收电子邮件中收集特定于用户的元数据,其中,预测指示最好包括归档用户邮箱的排名次序,以及最好进一步包含: 响应已收集特定于用户的元数据的变化改变归档用户邮箱的排名次序和预测指示,其中,所述次序最好包括将用户邮箱排序成组,以及根据已收集特定于用户的元数据按排名次序归档所述组。
3.如权利要求1或2所述的方法,其中,将所述已收集特定于用户的元数据存储在存储地点中,所述方法进一步包括: 从所述存储地点中删除与已从用户邮箱中提取并归档的电子邮件相对应的已存储元数据。
4.如权利要求2或3所述的方法,进一步包括: 根据所述预测信息对一组用户邮箱进行一轮档案处理,其中,该轮档案处理包括: 爬过所述组中的每个用户邮箱以确定用户邮箱中的哪些电子邮件有资格归档;以及从用户邮箱中提取有资格的电子邮件并将已提取电子邮件存储在归档地点中,最好进一步包括: 根据来自该轮档案处理的有资格的电子邮件与每个用户邮箱要归档的电子邮件的预测指示的比较为该组中的每个用户邮箱确定校正因子;以及 通过结合该组中的每个用户邮箱的已收集特定于用户的元数据分析校正因子,在后一轮档案处理中修正该组中的每个用户邮箱要归档的电子邮件的预测指示。
5.如权利要求到1-4的任何一项所述的方法,进一步包括: 根据与所选邮箱相关联的特定于用户的元数据,过滤掉所选用户邮箱以免在该轮档案处理中受到处理。
6.一种在电子邮件系统中归档电子邮件的计算机程序产品,所述电子邮件系统包含至少一个用户邮箱,并被配置成接收电子邮件和将电子邮件存储在所述用户邮箱内以及从所述用户邮箱发送电子邮件,所述计算机程序产品包括: 具有具体化计算机可读程序代码的计算机可读存储介质,所述计算机可读程序代码被配置成: 收集与每个用户邮箱接收和发送的电子邮件相对应的特定于用户的元数据;分析已收集特定于用户的元数据,以为每个用户邮箱提供将什么时候归档电子邮件和归档哪些电子邮件的预测指示;以及 根据每个用户邮箱的预测指示为用户邮箱归档电子邮件。
7.如权利要求6所述的计算机程序产品,其中,所述电子邮件系统进一步包括日志数据库,以及所述计算机可读程序代码被进一步配置成将每个用户邮箱从至少一个其他用户邮箱接收的任何电子邮件和每个用户邮箱发送给至少一个其他用户邮箱的任何电子邮件复制到所述日志数据库内,其中,每个发送或接收的电子邮件包括也存储在所述日志数据库内的元数据,以及从复制到所述日志数据库中的发送和接收电子邮件中收集特定于用户的元数据。
8.如权利要求6或7所述的计算机程序产品,其中,预测指示包括要归档用户邮箱的排名次序,其中,所述计算机可读程序代码最好进一步配置成响应已收集特定于用户的元数据的变化改变归档用户邮箱的排名次序和预测指示,其中,所述排名次序包括将用户邮箱排序成组,以及根据已收集特定于用户的元数据按排名次序归档所述组。
9.如权利要求6到8的任何一项所述的计算机程序产品,其中,所述计算机可读程序代码被进一步配置成将所述已收集特定于用户的元数据存储在存储地点中,以及还从所述存储地点中删除与已从用户邮箱中提取和归档的电子邮件相对应的已存储元数据。
10.如权利要求6到9的任何一项所述的计算机程序产品,其中,所述计算机可读程序代码被进一步配置成根据所述预测信息对一组用户邮箱进行一轮档案处理,其中,该轮档案处理包括: 爬过所述组中的每个用户邮箱以确定用户邮箱中的哪些电子邮件有资格归档;以及从用户邮箱中提取有资格的电子邮件并将已提取电子邮件存储在归档地点中,其中,所述计算机可读程序代码最好进一步配置成: 根据来自该轮档案处理的有资格`电子邮件与每个用户邮箱要归档的电子邮件的预测指示的比较为该组中的每个用户邮箱确定校正因子;以及 通过结合该组中的每个用户邮箱的已收集特定于用户的元数据分析校正因子,在后一轮档案处理中修正该组中的每个用户邮箱要归档的电子邮件的预测指示。
11.如权利要求6到10的任何一项所述的计算机程序产品,其中,所述计算机可读程序代码被进一步配置成: 根据与所选邮箱相关联的特定于用户的元数据,过滤掉所选用户邮箱以免在该轮档案处理中受到处理。
12.—种在电子邮件系统中归档电子邮件的系统,所述电子邮件系统包括: 电子邮件服务器,包括至少一个用户邮箱,并接收电子邮件和将电子邮件存储在所述用户邮箱内以及从所述用户邮箱发送电子邮件; 电子邮件档案存储系统;以及 处理器,其利用逻辑配置成: 收集与每个用户邮箱接收和发送的电子邮件相对应的特定于用户的元数据; 分析已收集特定于用户的元数据,以为每个用户邮箱提供将什么时候归档电子邮件和归档哪些电子邮件的预测指示;以及 根据每个用户邮箱的预测指示为电子邮件档案存储系统中的用户邮箱归档电子邮件。
13.如权利要求12所述的系统,进一步包括: 日志数据库,被配置成将每个用户邮箱从至少一个其他用户邮箱接收的任何电子邮件和每个用户邮箱发送给至少一个其他用户邮箱的任何电子邮件复制到所述日志数据库内,其中,每个发送或接收的电子邮件包括也存储在所述日志数据库内的元数据; 其中,从复制到日志数据库中的发送和接收电子邮件中收集特定于用户的元数据。
14.如权利要求12或13所述的系统,其中,所述预测指示包括要归档用户邮箱的排名次序。
15.如权利要求12、13或14所述的系统,其中,所述处理器被进一步配置成响应已收集特定于用户的元数据的变化改变归档用户邮箱的排名次序和预测指示,和/或进一步包括配置成存储已收集特定于用户的元数据的元数据数据库,其中,所述系统被配置成从所述元数据数据库中删除与已从用户邮箱中提取和归档的电子邮件相对应的已存储元数据,和/或其中,所述处理器被进一步配置成根据所述预测信息对一组用户邮箱进行一轮档案处理,其中,该轮档案处理包括: 爬过所述组中的每个用户邮箱以确定用户邮箱中的哪些电子邮件有资格归档; 从用户邮箱中提取有资 格的电子邮件并将已提取电子邮件存储在归档地点中;和/或其中,所述处理器被进一步配置成: 根据来自该轮档案处理的有资格的电子邮件与每个用户邮箱要归档的电子邮件的预测指示的比较为该组中的每个用户邮箱确定校正因子;以及 通过结合该组中的每个用户邮箱的已收集特定于用户的元数据分析校正因子,在后一轮档案处理中修正该组中的每个用户邮箱要归档的电子邮件的预测指示。
全文摘要
本发明涉及利用元数据优化归档电子邮件的效率,具体提供了归档电子邮件的方法、计算机程序产品和系统,其中该电子邮件系统包含至少一个用户邮箱,并被配置成接收电子邮件和将电子邮件存储在用户邮箱内以及从所述用户邮箱发送电子邮件。收集与每个用户邮箱接收和发送的电子邮件相对应的特定于用户的元数据。分析已收集特定于用户的元数据,以便为每个用户邮箱提供将什么时候归档电子邮件和归档哪些电子邮件的预测指示,并根据每个用户邮箱的预测指示为用户邮箱归档电子邮件。
文档编号G06Q10/10GK103201756SQ201180052411
公开日2013年7月10日 申请日期2011年10月21日 优先权日2010年11月1日
发明者D·皮藤讷, D·塞德尔, M·贝斯勒, M·洛尔西, K·普法依尔, J·马莱茨 申请人:国际商业机器公司