对消息进行聚类的方法和设备的制作方法

文档序号:6364574阅读:234来源:国知局
专利名称:对消息进行聚类的方法和设备的制作方法
技术领域
本申请总体上涉及消息处理的领域,尤其涉及对消息进行聚类的方法和设备。
背景技术
近来,出现了各种信息传递方式。例如,在企业内部,常见的信息传递方式例如有IP电话、电子邮件、即时消息、日历表、CRM等;在企业外部,常见的信息传递方式例如有微博、博客等。作为信息来源的这些信息传递方式产生了大量的消息。由于所产生的消息的量非常大,所以如果对大量的消息中的每条消息分别进行处理,则消息处理的效率相当低。而且,大量的消息会淹没重要的消息,使得难以从大量的消息中获取重要的消息。

发明内容
在下文中将给出关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。根据本发明的实施例,提供了一种对消息进行聚类的方法,包括:对消息进行分词,并分别计算通过分词获得的词的词频作为其权重;生成与消息对应的特征向量,其中,特征向量的每个元素分别与词相对应,每个元素的值分别为相对应的词的权重;根据词被用户关注的程度和/或包含词的消息的数目与全部消息的数目之间的相对比例,调整作为特征向量中的元素的值的词的权重,使得程度和/或比例越高,则权重被调整得越高;计算权重被调整后的特征向量之间的相 似度;以及根据相似度将全部消息聚类为分组。根据上述对消息进行聚类的方法,其中,词被用户关注的程度由词在关注标签向量中的权重来表示,其中,根据消息的重要度得分和/或用户处理消息的类型,更新词在关注标签向量中的权重,使得消息的重要度得分越高,则词在关注标签向量中的权重被更新得越高,与该类型相对应的系数被应用于更新词在关注标签向量中的权重。根据上述对消息进行聚类的方法,在对消息进行分词的步骤之前,还包括:收集来自不同来源的消息;以及分别采用与来源对应的转换方式,将来自不同来源的消息转换成统一的格式。根据上述对消息进行聚类的方法,还包括:计算分组中的每个消息的重要度得分和/或紧急度得分;根据分组中的每个消息的重要度得分和/或紧急度得分,获得分组的重要度得分和/或紧急度得分;以及根据分组的重要度得分和/或紧急度得分,对分组进行排序。根据上述对消息进行聚类的方法,还包括:根据分组的重要度得分和/或紧急度得分、以及环境因素,选择用于发送相应的分组中的消息的通知方式;按照预定义的模板,对相应的分组中的消息进行渲染以生成通知内容;以及通过所选择的通知方式将生成的通知内容发送给用户。根据本申请的另一实施例,提供了一种对消息进行聚类的设备,包括:分词单元,其被配置成对消息进行分词,并分别计算通过分词获得的词的词频作为其权重;向量生成单元,其被配置成生成与消息对应的特征向量,其中,特征向量的每个元素分别与词相对应,每个元素的值分别为相对应的词的权重;权重调整单元,其被配置成根据词被用户关注的程度和/或包含词的消息的数目与全部消息的数目之间的相对比例,调整作为特征向量中的元素的值的词的权重,使得程度和/或比例越高,则权重被调整得越高;相似度计算单元,其被配置成计算权重被调整后的特征向量之间的相似度;以及消息聚类单元,其被配置成根据相似度将全部消息聚类为分组。根据上述对消息进行聚类的设备,其中,词被用户关注的程度由词在关注标签向量中的权重来表示,其中,根据消息的重要度得分和/或根据用户处理消息的类型,更新词在关注标签向量中的权重,使得消息的重要度得分越高,则词在关注标签向量中的权重被更新得越高,与类型相对应的系数被应用于更新词在关注标签向量中的权重。根据上述对消息进行聚类的设备,还包括:消息收集单元,其被配置成收集来自不同来源的消息;以及格式转换单元,其被配置成分别采用与来源对应的转换方式,将来自不同来源的消息转换成统一的格式。根据上述对消息进行聚类的设备,还包括:消息得分计算单元,其被配置成计算分组中的每个消息的重要度得分和/或紧急度得分;分组得分计算单元,其被配置成根据分组中的每个消息的重要度得分和/或紧急度得分,获得分组的重要度得分和/或紧急度得分;以及分组排序单元,其被配置成根据分组的重要度得分和/或紧急度得分,对分组进行排序。根据上 述对消息进行聚类的设备,还包括:选择单元,其被配置成根据分组的重要度得分和/或紧急度得分、以及环境因素,选择用于发送相应的分组中的消息的通知方式;渲染单元,其被配置成按照预定义的模板,对相应的分组中的消息进行渲染以生成通知内容;以及发送单元,其被配置成通过所选择的通知方式将生成的通知内容发送给用户。


本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中:图1是示出根据本发明实施例的对消息进行聚类的处理的流程图;图2是示出根据本发明实施例的对消息分组进行排序的处理的流程图;图3是示出根据本发明实施例的将消息通知给用户的处理的流程图;图4是示出根据本发明实施例的对消息进行预处理的处理的流程图;图5是示出根据本发明实施例的对消息进行聚类的设备的框图;图6是示出根据本发明实施例的对消息分组进行排序的装置的框图;图7是示出根据本发明实施例的将消息通知给用户的装置的框图;图8是示出根据本发明实施例的对消息进行预处理的装置的框图9是示出消息的紧急度得分随时间的变化的示意图;以及图10是示出可用于作为实施根据本发明的实施例的信息处理设备的示意性框图。
具体实施例方式在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施方式的过程中可以做出很多特定于实施方式的决定,以便实现开发人员的具体目标,并且这些决定可能会随着实施方式的不同而有所改变。在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构,而省略了与本发明关系不大的其他细节。虽然所产生的消息的量非常大,但是这些消息之间可能存在冗余。例如,通过不同信息传递方式传递的消息可能表示相同内容。例如,通过IP电话、电子邮件、或微博等传递的消息可能表示相同内容。本发明能够对这些通过不同信息传递方式传递的表示相同内容的消息进行聚类,因此能够减少需要处理的消息的数量,从而提高处理的效率。另外,不同的消息的重要度不同。本发明能够根据消息的重要度对消息进行排序,因此能够将重要度更高的消息优先传递给用户,从而可容易地从大量的消息中获得重要度更高的消息。另外,不同的信息传递方式在传递信息的及时性方面不同。例如,相比于电子邮件,短消息的及时性更高。本发明能够根据消息的重要度、紧急度等选择相应的信息传递方式,因此能够提高消息传递的及时性。下面将结合图1来 描述根据本发明实施例的对消息进行聚类的处理。图1是示出根据本发明实施例的对消息进行聚类的处理的流程图。如图1所示,该方法在步骤100开始。在步骤102,对消息进行分词,并分别计算通过分词获得的词的词频作为其权重。可以对获得的消息进行分词处理,并且去除其中没有实在意义的词。现有技术中已经存在用于进行分词处理的各种技术,其具体细节在此不再赘述。在对消息进行分词后,可以获得多个词。假设存在消息M,对消息M进行分词后可以获得多个词t1;t2,…,tk,…,tn,其中,η和k为大于或等于I的自然数,并且I彡k彡η。一般,tk为消息M中具有实在含义的实义词。可以分别统计每个词出现的次数,并且计算每个词出现的次数与全部词的总数之比作为该词的权重,即分别计算每个词的词频作为该词的权重。在统计每个词出现的次数时,可以根据词出现的位置增加词的次数。例如,如果词出现在标题、摘要等中时,则例如该词每出现一次就统计为二次。本领域技术人员应当理解,将词的词频作为词的权重仅是示例性的而非限制性的,还可以采用其它参数作为词的权重,例如,为了方便起见,可以预先为每个词设定缺省的权重。以上述分词后得到的多个词t1; t2,-, tk,…,tn为例,假设通过上述词频计算后获得的词频分别为W1, W2,..., Wk,..., Wn,贝U可以将词频W1, W2,...,Wk,…,¥ 分别作为t1; t2,…,tk,…,、的权重。
在步骤102之后,该方法前进到步骤104。在步骤104,生成与消息对应的特征向量,其中,特征向量的每个元素分别与词相对应,每个元素的值分别为相对应的词的权重。根据本实施例,可以生成与消息M对应的特征向量V = (XtpW1), (t2,w2),..., (tk,wk),..., (tn,wn)),其中,η和k为大于或等于I的自然数,并且I彡k彡η。其中,特征向量V中的每个元素(tk,wk)分别与词tk相对应,每个元素(tk,wk)的值分别为相对应的词tk的权重wk。在步骤104之后,该方法前进到步骤106。在步骤106,根据词被用户关注的程度和/或包含词的消息的数目与全部消息的数目之间的相对比例,调整作为特征向量中的元素的值的词的权重,使得程度和/或比例越高,则权重被调整得越高。根据本实施例,消息中的词的权重不是恒定不变的,而是可以动态地进行调整。在以上示例中,消息M= (t1;t2, -,tk,…,tn)中的任意词tk的权重wk不是恒定不变的,而是可以动态地进行调整。可以根据影响权重的不同因素对权重动态地进行调整。例如,可以根据词被用户关注的程度来动态地调整该词的权重。如果词被用户关注的程度越大,则为该词分配的权重就越大。因此,词被用户关注的程度越高,则该词的权重越高。例如,如果消息M= (t1;t2, -,tk,…,tn)中的词h被用户关注的程度大于词t2被用户关注的程度,则词h的权重^大于词t2的权重w2。另外,如果词h被用户关注的程度发生了改变,则词h的权重W1也相应地发生改变。下文中将对如何计算词被用户关注的程度进行详细说明。另外,可以根据词与不同的消息之间的相互关系来动态地调整该词的权重。例如,可以对词在多个消息中的每个消息中是否出现以及出现的次数进行统计,并且根据统计的结果分析词与不同的消息之间的相互关系。如果某个词在若干个消息中均出现,则这若干个消息可能表示相同内容。假设存在以下三个消息=M1= (t1;t2,…,0),M2= (0,t2,…,O) ,M3= (2t1; 0,t3,…,O)。由此可见,词L在消息M1中出现一次,在消息仏中没有出现,在消息M1中出现两次。由于词h在消息M1与消息M2中均出现,因此消息M1与消息M2可能表示相同的内容。下面,将对如何计算词与不同的消息之间的相互关系进行详细说明。词与不同消息之间的相互关系由包含词的消息的数目与全部消息的数目之间的相对比例来表示,其中,如果包含词的消息的数目越多,则根据词与不同消息之间的相互关系所调整的所述词的权重越大。如上所述,可以对词在多个消息中的每个消息中是否出现以及出现的次数进行统计,并且根据统计的结果分析词与不同的消息之间的相互关系。具体地,例如,可以用词t在消息d中出现的次数tft,d与消息d中全部词语的数目Ld之比KDt,d = tfu/^来表示消息d中的词t与消息d之间的关系。另外,例如可以用包含词的消息的数目dft与用来分组的全部消息的数目N之间的相对比例1g2 (N/dft)/1g2N来表示词与不同消息之间的相互关系。本领域技术人员应当理解,上述两种用来计算词与不同消息之间的相互关系的方法仅是示例性的而非限制性的,还可以采用其它的方法来计算词与不同消息之间的相互关系O另外,如果包含词的消息的数目越多,包含词的消息的数目与全部消息的数目之间的相对比例越高,则根据词与不同消息之间的相互关系所调整的所述词的权重越大。具体地,例如可以根据以下公式(I)来调整消息d中的词t的权重Wt,d:wtjd = KDtjdX (wtjV+l-log2(N/dft)/1g2N)......公式(I)在以上公式(I)中,KDt, d = tft, d/Ld表示消息d中词t的密度,tft, d是词t在消息d中出现的次数,Ld是消息d中全部词语的数 量;N是用来分组的全部消息的数目,dft是包含词t的消息的数目;wt,v是词t在关注标签向量中的原有的权重,如果关注标签向量中没有该词t,则用较小的常量c来代替wt, v。由以上公式(5)可知,消息d中词t出现的次数越多,则该词t所对应的权重wt,d越大。同理,根据以上公式(1),(1-1og2(NMft)/1g2N)=(l-(log2N-log2dft)/log2N) = (l-(l-log2dft/log2N)) = log2dft/log2N,所以包含词 t 的消息的数目越多,即包含词的消息的数目与全部消息的数目之间的相对比例越高,则该词t所对应的权重Wt,d越大。同理,词t在关注标签向量中的原有的权重wt,v越高,则消息d中的词t的权重Wt, d越高。下文中将对关注标签向量进行详细说明。本领域技术人员应当理解,上述根据公式(I)来调整消息d中的词t的权重wt, d的方法仅是示例性的而非限制性的,还可以采用其它的方法来调整消息d中的词t的权重wt,d。另外,上述公式(I)中同时考虑了词被用户关注的程度(即词t在关注标签向量中的原有的权重wt,v)和词与不同消息之间的相互关系(即消息d中词t的密度KDt,d以及包含词的消息的数目与全部消息的数目之间的相对比例(1-1og2 (N/dft)/1g2N))来调整词的权项,但是这不是必须的。例如,可以仅考虑上述两者之一来调整词的权重。本领域技术人员应当理解,上述两个影响权重的因素仅是示例性的而非限制性的,还可以根据影响权重的其它因素对权重动态地进行调整。在步骤106之后,该方法前进到步骤108。在步骤108,计算权重被调整后的向量之间的相似度。 例如,可以根据权重被调整后的向量之间的余弦距离来判断权重被调整后的向量之间是否相同或相似。下面对计算权重被调整后的向量之间的余弦距离的过程进行说明。假设根据上述步骤104生成了与消息M1相对应的权重被调整后的向量Va,并且生成了与消息M2相对应的权重被调整后的向量Vb,其中,权重被调整后的向量V1可表示为(wal, wa2,..., Wan);权重被调整后的向量Vb可表示为(wbl, wb2,..., wbn)。其中,Wan表示消息M1中的词tln的权重,Wbn表示消息M2中的词t2n的权重。可以用以下的公式(2)来计算对应于消息M1的权重被调整后的向量Va与对应于消息M2的权重被调整后的向量Vb之间的余弦相似度:相似度(Va,Vb) = ( Σ wakXwbk)/sqrt[( Σ WakXwak) X ( Σ WbkXwbk)]......公式(2)其中,I彡k彡n,n为大于或等于I的整数。本领域技术人员应当理解,上述利用向量之间的余弦距离来计算向量之间的相似度仅是示例性的而非限制性的,还可以采用向量之间的其它距离来计算向量之间的相似度,例如可以采用向量之间的欧式距离等来计算向量之间的相似度。在步骤108之后,该方法前进到步骤110。在步骤110,根据相似度将全部消息聚类为分组。根据上述公式(2)所计算出的与消息相对应的权重被调整后的向量之间的余弦相似度的值的大小表示消息之间的相似程度,并且余弦相似度的值越大,则消息之间越相似。因此,可以根据所计算出的相似度,来判断消息是否相似,并且将相似的消息聚类成分组。最后,该方法在步骤112处结束。根据本实施例,由于可以对消息中的词的权重动态地进行调整,因此能够提高计算消息之间的相似度的准确度,从而提高对消息进行聚类的准确度和效率。下面,将对如何计算词被用户关注的程度进行详细说明。词被用户关注的程度由词在关注标签向量中的权重来表示,其中,根据消息的重要度得分和/或根据处理消息的类型,更新词在关注标签向量中的权重,使得消息的重要度得分越高,则词在关注标签向量中的权重被更新得越高,与该类型相对应的系数被应用于更新词在关注标签向量中的权重。关注标签向量由被用户关注的词及其权重的对组成,其中,被用户关注的词的权重表示该词被用户关注的程度。假设词tfl是被用户关注的词,词tfl的权重为Wfl,则权重Wfl表示词tfl被用户关注的程度,从而得到词tfl及其权重Wfl的对(tfl,wfl)。同理,假设词tfk是被用户关注的词,词tfk的权重为Wfk,则权重Wfk表示词tfk被用户关注的程度,从而得到词tfk及其权重Wfk的对(tfk,Wfk);假设词tfn是被用户关注的词,词tfn的权重为Wfn,则权重Wfn表示词tfn被用户关注的程度,从而得到词tfn及其权重Wfn的对(tfn,Wfn)。因此,可以得到由被用户关注的词及其权重的对组成的关注标签向量Vf = ((tfl, Wfl),…,(tfk,Wfk),..., (tfn, Wfn)),其中,η和k为大于或等于I的自然数,并且I彡k彡η。可以预先为关注标签向量Vf = ((tfl,wfl),..., (tfk, wfk),..., (tfn, wfn))中的每个词tfk所对应的权重Wfk设定缺省值。另外,用户也可以设定关注标签向量Vf = ((tfl,wfl),…,(tfk, wfk),…,(tfn, wfn))中的每个词tfk所对应的权重wfk。例如,可以通过调整消息的重要度来设定词在关注标签向量中的权重。下面,将对通过调整消息的重要度来设定词在关注标签向量中的权重的过程进行详细说明。首先,对于给定的消息M= (t1;t2,…,tk,…,tn),假设其向量为V = ((tpW),(t2,w2),..., (tk,wk),..., (tn,wn)),其中,η和k为大于或等于I的自然数,并且I彡k彡η。接着,对于向量V= ((t1 W1), (t2, w2),..., (tk, wk),..., (tn, wn))中的每个词tk(假设其对应于关注标签向量Vf中的词tfk),通过调整消息M的重要度来设定词tk在关注标签向量中的权重wfk。例如,可以根据以下公式(3)来设定关注标签向量中的权重wfk:wfk = Wfk+s X β......公式(3)在公式(3)中,β为常量因子。s是一个变量。s的取值与如何调整消息M = (t1;t2,…,tk,…,tn)的重要度有关。例如,如果增加消息M= (t1; t2,…,tk,…,tn)的重要度,则s的值取I ;如果减少消息M = (t1; t2,…,tk,…,tn)的重要度,则s的值取-1。最后,当所有消息都被处理完后,可以对关注标签向量进行归一化处理。本领域技术人员应当理解,上述根据公式(3)设定关注标签向量中的权重Wfk的方法仅是示例性的而非限制性的,还可以采用其它的方法来设定关注标签向量中的权重wfk。另外,可以根据不同的因素来更新词在关注标签向量中的权重。例如,可以根据消息的重要度得分来更新词在关注标签向量中的权重,或者可以根据用户对消息进行操作的类型来更新关注标签向量,或者可以同时考虑上述两个因素来更新词在关注标签向量中的权重。本领域技术人员应当理解,上述因素仅是示例性的而非限制性的,还可以根据其它的因素来更新词在关注标签向量中的权重。下面,将对如何计算消息的重要度得分进行详细说明。可以采用多种方式来计算消息的重要度得分。例如,可以采用下面的公式(4)来计算消息的重要度得分:重要度得分=FXSX(T+R+A)......公式(4)在上面的公式(4)中:F是消息来源因子,可以针对不同的消息来源,例如IP电话、电子邮件、微博等,为F设定不同的缺省值。S是消息发送者因子,其值取决于当前用户是否是该消息的发送者。R是消息接收者因子,其值取决于当前用户是否在接收者列表中。T是消息内容因子,其值等于消息的词中出现在关注标签向量中的词的权重之和。A是额外因子,依据消息来源的不同,额外因子A可以为常量,也可以为与消息中某些参数有关的变量。例如,如果消息的来源为电子邮件,则额外因子A为与邮件有关的特性。如果消息的来源为日程表,则额外因子A可为基于事件本身的重要度。如果消息的来源是博客,则额外因子A可依据该消息所在的文章是否这顶来确定。本领域技术人员应当理解,上述根据公式(4)计算消息的重要度得分的方法仅是示例性的而非限制性的,还可以采用其它的方法来计算消息的重要度得分。下面,将对根据消息的重要度得分和/或根据用户对消息进行操作的类型更新词在关注标签向量中的权重的过程进行详细说明。首先,对于给定的消息M = (t1; t2,…,tk,…,tn),假设其之前的重要度得分为IS,其向量为 V= ((t1; W1), (t2, W2),..., (tk, Wk),..., (tn, Wn)),其中,η 和 k 为大于或等于I的自然数,并且I彡k彡η。接着,对于向量V= ((t1 W1) , (t2, w2) ,..., (tk, wk) ,..., (tn, wn))中的每个词tk(假设其对应于关注标签向量Vf中的词tfk),更新其在关注标签向量中的权重wfk。例如,可以根据以下公式(5)来更新关注标签向量中的权重wfk:wfk = Wfk+λ XsXIS......公式(5)在公式(5)中,λ为常量因子。IS是消息的重要度得分。由以上公式(5)可知,消息的重要度得分越高,则词在关注标签向量中的权重被更新得越高。s是一个系数。系数S的取值与用户对消息进行操作的类型相对应。`例如,如果该消息是用户本身创建的,则系数S被设定为大于I的常数C。如果该消息被用户转发或回复,则系数S被设定为其它的大于I的常数d。如果用户仅查看了该消息的详情,则系数s被设定为I。如此设定的原因是考虑到被创建、转发或回复等的消息的重要度大于仅被查看的消息的重要度。本领域技术人员应当理解,上述设定变量s的值的方法仅是示例性的而非限制性的,还可以采用其它方法来设定变量s的值。另夕卜,如果向量V = (XtpW1) , (t2, W2),…,(tk,wk),…,(tn, Wn))中的词 tk 不在原来的关注标签向量Vf= ((tfl,wfl),…,(tfk,wfk),…,(tfn,wfn))中,则假设词tk原来的权重为一个小的常量。最后,当所有消息都被处理完后,对关注标签向量进行归一化处理。本领域技术人员应当理解,上述根据公式(5)更新关注标签向量中的权重Wfk的方法仅是示例性的而非限制性的,还可以采用其它的方法来更新关注标签向量中的权重wfk。下面,将结合图2详细说明对消息分组进行排序的处理。图2是示出根据本发明实施例的对消息分组进行排序的处理的流程图。如图2所示,该方法在步骤200开始。在步骤202,计算分组中的每个消息的重要度得分和/或紧急度得分。可以采用多种方式来计算消息的重要度得分。例如,可以采用上文中的公式(4)来计算消息的重要度得分。上文中已经对公式(4)进行了详细说明,此处不再赘述。本领域技术人员应当理解,上述根据公式(4)计算消息的重要度得分的方法仅是示例性的而非限制性的,还可以采用其它的方法来计算消息的重要度得分。可以采用多种方法来计算消息的紧急度得分。例如,可以根据下面的公式(6)来计算消息的紧急度得分。紧急度得分=FlXSlXexp(-min(|t_ET|)/M)......(公式 6)其中,Fl是信息来源的紧急度因子,可以针对不同的消息来源,例如IP电话、电子邮件、微博等,为Fl设定不同的缺省值。SI是发送者的紧急度因子,其值取决于当前用户是否是该消息的发送者。t是当前时间。ET是事件的时间。M是常量。由于ET可能表示一段时间,因此min( It-ET I)例如可以通过以下方法来计算:
minET-t (t<minET)min(|t-ET|) = O(minET < t < maxET)
t-maxET (t>maxET)其中,minET表示事件开始`时间,而maxET表示事件结束时间。如果ET在消息中被清晰的描述,例如消息的来源是日程表,则ET表示日程表中的事件时间。如果ET在消息中的表述比较模糊,例如消息的来源是电子邮件,则可以将收到消息的时间作为事件开始时间,并且根据消息来源将开始时间之后的某个固定时间(例如一天后)作为事件结束时间。图9是示出消息的紧急度得分随时间的变化的示意图。如图9所示,横轴表示时间t,纵轴表示消息的紧急度得分。在图9中,时间minET表示表示事件开始时间,而maxET表示事件结束时间。如图9所示,在时间t小于事件开始时间minET时,如曲线902所示,随着时间t逐渐邻近事件开始时间minET,事件的紧急度得分也逐渐升高。当时间t到达事件开始时间minET时,时间的紧急度得分也到达最大值。如图9中的直线904所示,当时间t在事件开始时间minET与事件结束时间maxET之间(包括端点)时,事件的紧急度得分一直保持为最大值。如图9中的曲线906所示,在时间t大于事件结束时间maxET时,随着时间t逐渐离开事件结束时间maxET,事件的紧急度得分逐渐降低。可以随着时间的变化,根据以上所述的方法,定期对紧急度得分重新进行计算。另夕卜,也可以采用预先计算好阈值,在某个时间点触发事件的方式来处理。本领域技术人员应当理解,上述计算消息的紧急度得分的方法仅是示例性的而非限制性的,还可以采用其它的方法来计算消息的紧急度得分。另外,本领域技术人员还应当理解,可以计算消息的重要度得分和紧急度得分两者,也可以只计算消息的重要度得分和紧急度得分之一,而且消息的重要度得分的计算与消息的紧急度得分的计算之间没有前后顺序的限制。在步骤202之后,该方法前进到步骤204。在步骤204,根据分组中的每个消息的重要度得分和/或紧急度得分,获得分组的重要度得分和/或紧急度得分。在完成消息的重要度得分和紧急度得分的计算之后,可以计算消息分组的重要度得分和紧急度得分。例如,可以将消息分组中所有消息的重要度得分之和作为该消息分组的重要度得分,以及可以将消息分组中紧急度得分最大的消息的相应数值作为该消息分组的紧急度得分。本领域技术人员应当理解,上述计算消息分组的重要度得分和紧急度得分的方法仅是示例性的而非限制性的,还可以采用其它的方法来计算消息分组的重要度得分和紧急度得分。在步骤204之后,该方法前进到步骤206。在步骤206,以及根据分组的重要度得分和/或紧急度得分,对分组进行排序。在计算出消息分组的重要度得分和/或紧急度得分之后,可以根据重要度得分和/或紧急度得分的升序或降序进行排序,最后,该方法在步骤208处结束。根据本实施例,能够将重要度更高和/或紧急度更高的消息优先传递给用户,从而可容易地从大量的消息中获得重要度更高和/或紧急度更高的消息。下面将参考图3详细描述将消息通知给用户的处理。图3是示出根据本发明实施例的将消息通知给用户的处理的流程图。如图3所示, 该方法在步骤300开始。

在步骤302,根据分组的重要度得分和/或紧急度得分、以及环境因素,选择用于发送相应的分组中的消息的通知方式。在计算出消息分组的重要度得分和/或紧急度得分之后,可以将计算的重要度得分和/或紧急度得分与预定阈值进行比较,并且考虑诸如当前时间段是办公时间还是休息时间的环境因素,来选择用于发送相应的分组中的消息的通知方式。下面,将以表I为例详细说明如何选择用于发送相应的分组中的消息的通知方式。表I
权利要求
1.一种对消息进行聚类的方法,包括: 对所述消息进行分词,并分别计算通过分词获得的词的词频作为其权重; 生成与所述消息对应的特征向量,其中,所述特征向量的每个元素分别与所述词相对应,每个元素的值分别为相对应的词的权重; 根据所述词被用户关注的程度和/或包含所述词的消息的数目与全部消息的数目之间的相对比例,调整作为所述特征向量中的元素的值的所述词的权重,使得所述程度和/或比例越高,则所述权重被调整得越高; 计算权重被调整后的特征向量之间的相似度;以及 根据所述相似度将全部消息聚类为分组。
2.根据权利要求1所述的方法,其中: 所述词被用户关注的程度由所述词在关注标签向量中的权重来表示,其中,根据消息的重要度得分和/或用户处理消息的类型,更新所述词在所述关注标签向量中的权重,使得消息的重要度得分越高,则所述词在所述关注标签向量中的权重被更新得越高,与所述类型相对应的系数被应用于更新所述词在所述关注标签向量中的权重。
3.根据权利要求1所述的方法,在对所述消息进行分词的步骤之前,还包括: 收集来自不同来源的消息;以及 分别采用与所述来源对应的转换方式,将所述来自不同来源的消息转换成统一的格式。
4.根据权利要求1所述的方法,还包括: 计算所述分组中的每个消息的重要度得分和/或紧急度得分; 根据所述分组中的每个消息的重要度得分和/或紧急度得分,获得所述分组的重要度得分和/或紧急度得分;以及 根据所述分组的重要度得分和/或紧急度得分,对所述分组进行排序。
5.根据权利要求4所述的方法,还包括: 根据所述分组的重要度得分和/或所述紧急度得分、以及环境因素,选择用于发送相应的分组中的消息的通知方式; 按照预定义的模板,对所述相应的分组中的消息进行渲染以生成通知内容;以及 通过所选择的通知方式将生成的通知内容发送给用户。
6.一种对消息进行聚类的设备,包括: 分词单元,其被配置成对所述消息进行分词,并分别计算通过分词获得的词的词频作为其权重; 向量生成单元,其被配置成生成与所述消息对应的特征向量,其中,所述特征向量的每个元素分别与所述词相对应,每个元素的值分别为相对应的词的权重; 权重调整单元,其被配置成根据所述词被用户关注的程度和/或包含所述词的消息的数目与全部消息的数目之间的相对比例,调整作为所述特征向量中的元素的值的所述词的权重,使得所述程度和/或比例越高,则所述权重被调整得越高; 相似度计算单元,其被配置成计算权重被调整后的特征向量之间的相似度;以及 消息聚类单元,其被配置成根据所述相似度将全部消息聚类为分组。
7.根据权利要求6所述的设备,其中:所述词被用户关注的程度由所述词在关注标签向量中的权重来表示,其中,根据消息的重要度得分和/或用户处理消息的类型,更新所述词在所述关注标签向量中的权重,使得消息的重要度得分越高,则所述词在所述关注标签向量中的权重被更新得越高,与所述类型相对应的系数被应用于更新所述词在所述关注标签向量中的权重。
8.根据权利要求6所述的设备,还包括: 消息收集单元,其被配置成收集来自不同来源的消息;以及 格式转换单元,其被配置成分别采用与所述来源对应的转换方式,将所述来自不同来源的消息转换成统一的格式。
9.根据权利要求6所述的设备,还包括: 消息得分计算单元,其被配置成计算所述分组中的每个消息的重要度得分和/或紧急度得分; 分组得分计算单元,其被配置成根据所述分组中的每个消息的重要度得分和/或紧急度得分,获得所述分组的重要度得分和/或紧急度得分;以及 分组排序单元,其被配置成根据所述分组的重要度得分和/或紧急度得分,对所述分组进行排序。
10.根据权利要求9所述的设备,还包括: 选择单元,其被配置成根据所述分组的重要度得分和/或紧急度得分、以及环境因素,选择用于发送相应的分组中的消息的通知方式; 渲染单元,其被配置成按照预定义的模板,对所述相应的分组中的消息进行渲染以生成通知内容;以及 发送单元,其被配置成通过所选择的通知方式将生成的通知内容发送给用户。
全文摘要
提供一种对消息进行聚类的方法和设备。对消息进行聚类的方法包括对消息进行分词,并分别计算通过分词获得的词的词频作为其权重;生成与消息对应的特征向量,其中,特征向量的每个元素分别与词相对应,每个元素的值分别为相对应的词的权重;根据词被用户关注的程度和/或包含词的消息的数目与全部消息的数目之间的相对比例,调整作为特征向量中的元素的值的词的权重,使得程度和/或比例越高,则权重被调整得越高;计算权重被调整后的特征向量之间的相似度;以及根据相似度将全部消息聚类为分组。
文档编号G06F17/30GK103246676SQ201210030679
公开日2013年8月14日 申请日期2012年2月10日 优先权日2012年2月10日
发明者李邵明, 张军, 钟朝亮, 邹纲, 松尾昭彦 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1