对消费者生成媒体信息进行处理的方法和装置的制作方法

文档序号:6607949阅读:248来源:国知局
专利名称:对消费者生成媒体信息进行处理的方法和装置的制作方法
技术领域
本发明总体上涉及信息处理的技术领域,更具体而言,涉及一种对消费者生成媒体信息进行处理的方法和装置。
背景技术
消费者生成媒体(Consumer-generated Media, CGM)指任何人(不必然是专业的媒体工作者)都可以在网上创建的内容,其可通过数字技术被其他消费者使用。CGM可包括网络日志或“博客(Blog)”、移动电话博客或“mo-blog”、论坛(BBS)、电子讨论消息、新闻组、留言板(messageboard)、BBS模拟服务(BBS emulating services)、产品预览和讨论网站、支持消费者意见的在线零售站点、社会网络、媒体库、以及数字图书馆等。可见,CGM信息一般是指在CGM网站上或者网页上包括的各种内容,例如,博文、消费者留言、消费者的发帖(post)等。CGM信息通常是文本,但是也包括音频文件和流式视频文件(MP3、网络广播等)、动画(flash等),以及任何其他形式的多媒体。博文、消费者留言、消费者的发帖等是典型的CGM信息的例子,当然,CGM网站或者网页本身也可被视为一种CGM信息。因而, 从广义上讲,CGM信息包括所有与CGM相关的内容和信息。此外,在本说明书的上下文中, “消费者”泛指网络这种信息创建和传播工具的消费和使用者,而不仅仅是指通常意义上的某种具体商品的消费者。随着计算机及网络技术的迅猛发展,个人空间的需求、网站创建的简单化、通过网络进行交互的快速和便捷等多种因素推动了 CGM在类型和数量两个方面的极大发展,随之而来的是海量的CGM信息。面对种类和数量日益增多的CGM,已提出了根据实际需要有效地收集CGM信息的各种方法和系统。例如,Scout Labs公司(见http://www. scoutlabs. com/)和Radian6技术公司(见http //www. radian6. com/)均提供了各自的CGM收集管理产品和服务。现有技术的CGM收集管理方法和系统通常由用户提出需求,由系统管理员制定相应策略并进行CGM收集。然而,这种方式往往不能准确反映用户的需求,并且不能根据用户对CGM信息的偏好来提供个性化的CGM收集管理服务。

发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。本发明的目的是针对现有技术的上述问题,提供一种个性化的对消费者生成媒体信息进行处理的方法和装置。根据本发明的一个方面,提供了一种对消费者生成媒体信息进行处理的方法。所述方法包括从信息供应源收集并抽取消费者生成媒体信息;基于预定主题对抽取出的所述消费者生成媒体信息进行过滤,以获得与所述预定主题相关的消费者生成媒体信息;基于用户定制的规则来对过滤得到的消费者生成媒体信息进行整合,以便获得定制的消费者生成媒体信息;以及可视化地呈现所述定制的消费者生成媒体信息。其中,基于用户模型来进行所述收集和过滤中的至少一个,所述用户模型包括关于用户对消费者生成媒体信息的偏好的信息。并且,其中,所述方法还包括根据所述用户对所呈现的消费者生成媒体信息的反馈来更新所述用户模型。其中,可以基于前次更新的用户模型来进行本次收集和过滤中的至少一个。根据本发明的另一方面,提供了一种对消费者生成媒体信息进行处理的装置。所述装置包括收集和抽取单元,被配置成从信息供应源收集并抽取消费者生成媒体信息; 过滤单元,被配置成基于预定主题对通过所述收集和抽取单元得到的消费者生成媒体信息进行过滤,以获得与所述预定主题相关的消费者生成媒体信息;整合单元,被配置成基于用户定制的规则来对通过所述过滤单元得到的消费者生成媒体信息进行整合,以便获得定制的消费者生成媒体信息;以及呈现单元,被配置成可视化地呈现通过所述整合单元得到的消费者生成媒体信息。其中,所述收集和抽取单元和所述过滤单元中的至少一个还被配置成基于用户模型来进行收集和过滤中的相应至少一个,所述用户模型包括关于用户对消费者生成媒体信息的偏好的信息。并且,其中,所述装置还包括用户模型更新单元,所述用户模型更新单元被配置成根据所述用户对所呈现的消费者生成媒体信息的反馈来更新所述用户模型。另外,根据本发明的其它方面,还提供了相应的计算机可读存储介质和计算机程
序广品。在根据本发明的上述方面的方法和装置中,基于用户模型来进行收集和过滤中的至少一个,并根据用户对CGM信息的反馈来更新用户模型,从而准确地反映用户对CGM信息的偏好,为用户提供个性化的CGM信息处理。


本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中图1示出根据本发明的第一实施例的对CGM信息进行处理的方法的示意性流程图。图2示出根据本发明实施例的更新用户模型的步骤的示意性流程图。图3示出根据本发明实施例的CGM信息收集过程的示例图。图4示出根据本发明实施例的CGM信息过滤过程的示例图。图5示出根据本发明的第二实施例的对CGM信息进行处理的方法的示意性流程图。图6示出根据本发明的第三实施例的对CGM信息进行处理的方法的示意性流程图。图7示出根据本发明的一个实施例的对CGM信息进行处理的装置的示意性框图。
图8示出根据本发明的另一个实施例的对CGM信息进行处理的装置的示意性框图。图9示出可用于实施根据本发明实施例的方法和装置的计算机的示意性框图。
具体实施例方式下面参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描述的元素和特征可与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意,为了清楚起见,附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。图1示出根据本发明的第一实施例的对消费者生成媒体(CGM)信息进行处理的方法的示意性流程图。如图所示,在步骤SllO中,从信息供应源收集并抽取CGM信息。接着, 在步骤S120中,基于预定主题对抽取出的CGM信息进行过滤,以获得与预定主题相关的CGM 信息。所示预定主题可以由例如用户或系统管理员预先确定。然后,在步骤S130中,基于用户定制的规则来对过滤得到的CGM信息进行整合,以便获得定制的CGM信息。然后,在步骤S140中,可视化地呈现所定制的CGM信息。在本实施例中,可以基于用户模型来进行收集和过滤中的至少一个。所述用户模型包括关于用户对CGM信息的偏好的信息。本领域技术人员可以理解,用户模型有多种表示形式,如加权关键词矢量、加权语义网、分类模型、规则等。可以用各种现有技术的方法来生成用户模型。另一方面,用户模型可以根据用户的初始需求而预先生成,或者也可以根据用户对所呈现的CGM信息的反馈动作而生成。例如,抽取出与用户的反馈动作相关联的CGM 信息的特征例如来源、标题、正文等,并利用这些特征来产生用户模型。在首次生成用户模型后,在以后的处理中就可根据用户对所呈现的可视化CGM信息的反馈动作而更新用户模型。本领域技术人员可以根据用户模型的表示形式不同而选择适合的用户模型更新方法, 这里不再赘述。另外,为了不断跟踪用户对CGM信息的最新偏好,可以根据所述用户对所呈现的 CGM信息的反馈来更新用户模型,如步骤S150所示。可以理解,本次更新的用户模型将对下一次收集或过滤起作用。换句话说,可以基于前次更新的用户模型来进行本次收集和过滤中的至少一个。这样,根据本发明实施例的CGM信息处理方法可以是一种在线的处理方法,能够随时根据用户的反馈来更新用户模型,以使处理后的CGM信息不断贴近用户的实际需求。图2示出上述方法中的更新用户模型的步骤S150的一个示例。如图所示,在步骤 S210中,记录用户对所呈现的CGM信息的反馈动作。接着,在步骤S220中,抽取与所述反馈动作相关联的CGM信息的特征。然后,在步骤S230中,基于所记录的反馈动作和所抽取的特征来更新所述用户模型。例如,用户将某条CGM删除(例如认为该信息与用户关心主题不相关),则该CGM信息的特征例如来源、标题、正文等将被抽出,并用于更新用户模型。根据本发明的一个实施例,在收集或过滤中,可以对符合用户模型中的所抽取的特征的CGM信息进行与所记录的反馈动作相对应的处理。下面将结合图3和4,通过举例的方式对根据本发明的第一实施例的对CGM信息进行处理的方法中的收集和过滤过程进行详细描述。
图3示出根据本发明实施例的CGM信息收集过程的具体示例。如图3所示,可以从各种信息供应源310收集CGM信息。这些信息供应源310包括但不限于RSS/AT0M 源(Feed)311、论坛312、搜索引擎313和用户定义的URLs(统一资源定位符)/Site(网站)314。下面逐一描述从这些信息供应源收集和抽取CGM信息的处理。RSS为Really Simple Syndication(简易供稿)的缩写,原意是把网站内容如标题、链接、部分内文甚至全文转换为可扩展标记语言(XML extensible Markup Language) 的格式,以向其它网站供稿。ATOM是RSS的继承者,其在处理!^eed中提供的所有内容方面被设计得更加容易。博客、新闻等通常来自RSS/AT0M源311,如上所述的,这些信息的组织性较强,例如一般采用XML格式,因此在收集和抽取处理320中可通过例如i^eed Fetcher 等工具来对其进行收集处理。Feed Fetcher是Google的Reader和Google个性主页订阅器的Robot (机器人),或者说Crawler (爬行器)。从i^ed Fetcher获得的内容中抽取得到XML格式的数据,并存储到数据库330中。当然,本领域技术人员容易理解,这里使用的 Feed Fetcher只是一个例子,还可以使用任何其他合适的信息获取工具来实现从RSS/AT0M 源(Feed) 311收集XML格式的数据。论坛312通常包括一系列URL。因此,可以通过例如Gecko (参见http // en. wikipedia. org/wiki/Gecko_% 281ayout_engine % 29)以及其他工具(参见 http:// en. wikipedia. org/wiki/List_of_layout_engines)等来通过 URL 收集得到相应网页的内容。所获得的来自论坛312的CGM信息(例如论坛页面)绝大多数基于各种模板组织,具有规则的组织形式。因此,通过预先对构成CGM信息的网页收集分析可以预定义一些模板。在 322的抽取处理中首先进行模板检测。如果从网页信息中检测到预定义的模板,则在323的抽取处理中利用预定义的包装器中所包含的这些预定义的模板的来对收集得到的CGM信息进行匹配,以便根据模板的结构而抽取预定格式的数据,例如XML格式的数据。如果未检测到预定义的模板,则在3M中生成新的模板,并在325中根据检测到的模板生成新的包装器,然后通过利用新生成的包装器完成匹配,以便从收集得到的CGM信息中抽取相应信息。 另外,在324中新生成的模板将反馈到模板检测322中,以在后续的模板检测322中作为预定义模板使用。现有技术中已有多种模板检测和包装器生成等方法,这里不再赘述。作为一种信息供应源的搜索引擎313通常包括搜索引擎列表以及关键词,其中关键词可以是用户自定义的或者系统的缺省设置。为收集特定的CGM信息,可以为搜索引擎 313设置预定的主题。每一个主题包括描述以及一个或者多个用户自定义的或系统缺省设置的关键字和关键短语。对于关键词在搜索引擎中得到的查询结果,可通过上述Gecko等工具获取查询结果页面的网页内容。由于从搜索引擎313得到的内容的数据量有限而形式多样,所以首先可以根据实际需要判断是否存在不需要收集的信息。例如,如果需要收集对于某种商品的文字评论,则基本上可将搜索引擎313返回的图片、音乐等内容判断为与此无关因而不进行收集处理。对于收集得到的网页内容(即CGM信息),例如可在3 通过利用预先定义的包装器来进行信息抽取处理,与323的处理类似。将经过收集和抽取处理得到的XML格式的数据也存储到数据库330中。对于用户定义的URLs/网站314,例如可在327利用“网络蜘蛛(Spider) ” (也可直接称为蜘蛛)等工具来进行动态网页下载,通过指定的URL来获取站点中网页的内容。 例如,Google的蜘蛛程序Spider对网页数据的抓取是通过读取网页文本内容,并顺着页面中的链接层层深入,从而获得对全站内容的抓取。在327从用户定义的URLs/网站314获取CGM信息,例如获取动态网页的内容之后,在3 使用各种适当的工具,如预定义的包装器等,进行信息抽取。同样地,将经过收集和抽取处理得到的XML格式的数据存储到数据库 330中,以供后续处理之用。根据本发明的实施例,可以基于用户模型来进行上述收集。例如,可以记录所述用户将所呈现的CGM信息中的一部分或全部标记为与预定主题不相关的动作,作为用户对所呈现的CGM信息的反馈动作,以更新用户模型。在进行CGM信息收集时,例如在将收集到的CGM信息保存到数据库330中之前,可以通过更新过的用户模型判断CGM信息与预定主题的相关性,对相关性小于预定义阈值的 CGM信息予以舍弃。换句话说,可以将收集到的CGM信息中符合用户模型中的所抽取的特征的CGM信息确定为与预定主题不相关。再例如,可以在327中,根据用户模型来改变网络蜘蛛的抓取策略。例如,可以将用户确定为与用户模型中的反馈动作所涉及的预定主题不相关的网页集所链向的网页认定为网络蜘蛛不再抓取的网页。可以在抓取网页时,当通过用户模型确定网页中的锚文本 (anchor text)与用户反馈动作相关联的预定主题不相关、或者锚文本所在的源网页与所述预定主题不相关时,将该锚文本所指向的网页视为与所示预定主题不相关,不对该锚文本所指向的网页进行抓取。关于根据预定主题的改变来改变网络蜘蛛的抓取策略的技术, 还可以参考相关的文献刘金红、陆余良的“主题网络爬虫研究综述”,计算机应用研究,第 24卷第10期,2007年10月。又例如,某些RSS源用于记录更新信息的XML文件中不包含对应源网页的全文,但往往包含URL和标题。通过用户模型判断标题与预定主题的相关性,可以对相关性小于预定义阈值的信息条目予以舍弃。另外,多数论坛包含一个或多个列表页,每个列表页包含若干帖子的标题和URL 等信息,以起到快速浏览和导航的作用。例如通过用户模型判断帖子标题与预定主题的相关性,可以对相关性小于预定义阈值的帖子不予下载,也不存入数据库。同样,也可以记录所述用户将所呈现的CGM信息中的一部分或全部标记为与预定主题相关的动作,作为用户对所呈现的CGM信息的反馈动作,以更新用户模型。在将收集到的CGM信息保存到数据库330中之前,可以将CGM信息中符合用户模型中的所抽取的特征的CGM信息确定为与所述预定主题相关,继而保存到数据库330中。或者,可以在判断网页与预定主题的相关性之后,将用户调整为高相关度的网页集链向的网页认定为网络蜘蛛要优先抓取的网页。或者,可以将含有网页集中关键词的锚文本所指向的网页认定为网络蜘蛛要优先抓取的网页。需要注意,虽然在图3所示出的信息收集和抽取处理的具体实例中通过信息抽取处理获得的是XML格式的数据,但是,本领域技术人员应当理解,在此XML格式的数据实际上只是CGM信息的结构化表现形式的一种具体例子,也可以使用能够标识出所收集的CGM信息的各个部分的组成结构及其内容的其他任何数据格式,例如JSON(JavaScript ObjectNotation)数据格式是另外一个选择。此外,数据库330除了存储通过信息抽取处理获得的XML格式的数据以外,也可以存储通过收集处理得到的各种CGM信息。此外,用于存储XML格式的数据以及存储所收集的CGM信息的数据库也可以是不同的数据库。图4示出根据本发明实施例的CGM信息过滤过程的示例图。如图4所示,以数据库330中存储的数据作为输入在410-440中进行CGM信息过滤。首先,在410中判断网页的类型。具有不同网页类型的不同的网页不仅在信息如何发布以及如何显示方面不同,而且在内容方面也有所不同。在本说明书的上下文中,“网页类型”包括但不限于BBS、博客、 新闻、SNS (Social Network Site,社交网站)、新闻组、产品预览和讨论网站、支持消费者意见的在线零售站点,等等。可以进行网页类型判断处理,以便对不同类型的网页应用不同的过滤策略。在网页类型判断处理中,如果在410判断网页类型为BBS/博客/其他,则在420继续执行Spam(兜售信息)过滤处理。“兜售信息”是指未经索要而主动提供的信息,基本属于一种垃圾信息,所以需要过滤掉。可以通过现有技术的方法来进行兜售信息的过滤。随后,在430对经过Spam过滤的信息进行相关性判断处理。相关性判断是指确定网页与某个主题之间的相关性。作为相关性判断的前提,需要设定一个或者多个主题,其中每一个主题包括描述以及一个或者多个关键字和关键短语。主题可以由用户或系统管理员预先设定。这里的主题可以是图3中所示的主题。可通过各种合适的方法来实现相关性判断处理。例如,可以根据网页与预定主题的相关性程度是否超过预定阈值来判断该网页与预定主题是否相关。或者,也可以直接根据网页中是否包含预定主题中的一个或多个关键字来判断该网页与预定主题是否相关。如果在410判断网页类型为新闻,则在440中对网页进行相关性判断。440的相关性判断方法可以与430的相关性判断方法相同。经判断为与预定主题相关的网页将存储到数据库450中。根据本发明的实施例,可以基于用户模型来进行上述过滤。例如,可以记录用户将所呈现的CGM信息中的一部分或全部标记为垃圾信息如兜售信息的动作,作为用户对所呈现的CGM信息的反馈动作,以更新用户模型。在此情况下, 在420中,将抽取出的CGM信息中符合所述用户模型中的所抽取的特征的CGM信息确定为垃圾信息并过滤掉。再例如,可以记录用户将所呈现的CGM信息中的一部分或全部标记为与预定主题不相关的动作,作为用户对所呈现的CGM信息的反馈动作,以更新用户模型。在此情况下, 在430和440中,将所收集的CGM信息中符合所述用户模型中的所抽取的特征的CGM信息确定为与所述预定主题不相关并过滤掉。在收集和过滤之后,可以基于用户定制的规则对得到的CGM信息进行整合,以获得定制的CGM信息。整合处理的一个例子是将内容相似的网页聚合在一起,即聚类处理。可以使用任何已知的聚类方法来进行聚类处理。通过整合处理,将具有某种共性或者一致性的CGM信息进行关联。这种共性是由用户定制的整合规则所决定的。例如,以网页作为待整合的CGM 信息的示例,如果将创建时间作为整合规则,则创建时间相同或者相近的网页可认为具有共性或者一致性。类似地,如果将作者作为整合规则,则作者相同的网页可认为具有共性或者一致性。或者,如果将主题内容作为整合规则,则主题相同或相近的网页可认为具有共性或者一致性,等等。
根据本发明实施例的方法可以提供在线进行的CGM信息处理。CGM信息经过前面的收集和抽取、过滤等处理以连续不间断的形式提供。因此优选地,这种聚类处理方式以增量的方式进行,即,只判断重新进入的网页是否归属于前面已存在的网页所属的类,而不是每进入一个新网页就将全部网页重新再进行一次聚类处理。整合处理的另一个例子是基于用户定制的规则对CGM信息进行分类。例如,可以基于CGM信息的内容或属性(例如创建时间、作者、来源等)来进行分类处理。通过分类, 将CGM信息确定为预先规定的不同类别。经过整合处理之后所获得的定制的CGM信息例如可以通过视觉化的方式呈现给用户。视觉化可通过各种合适的显示手段来实现。例如,可通过显示屏等显示装置实现这种呈现。用户对所呈现的CGM信息的反馈,可以通过用户接口例如鼠标、键盘、触摸屏等来实现。系统将记录并保存用户的各种反馈动作以及与反馈动作相关联的CGM信息的特征, 以更新用户模型。图5示出根据本发明的第二实施例的对CGM信息进行处理的方法的示意性流程图。与图1所示的根据本发明的第一实施例的方法相比,在根据本发明的第二实施例的方法中,新增了一种对CGM信息的处理步骤S560,即基于用户模型的情感分析(sentimental analysis)。其他步骤如 S510、S520、S530、S540 等,与图 1 所示的步骤 S110、S120、S130、 S140等基本类似,这里不再赘述。通过情感分析,对CGM信息赋予相应的评价值,该评价值可以表示情感的倾向性及其程度。例如,可以用评价值的正/负来代表CGM信息中的意见的正面/负面性,并且正 /负评价值的分值越高,表示正面/负面的情感倾向程度越大。情感分析可以依据不同的情感评价规则而进行。例如,对于网页上的发帖,可以根据发帖中主体内容的正面和负面性来进行情感分析,可以根据发帖人的重要性级别来进行情感分析,或者可以根据发帖的时间来进行情感分析。情感评价规则可以由用户预先定义。可以利用现有技术的方法进行情感分析处理,这里不再赘述。在图5中所示的例子中,在整合之前进行情感分析。尽管未示出,但是应当理解, 也可以在整合之后对定制的CGM信息进行情感分析。根据本实施例,上述情感分析过程的过程基于用户模型来进行。例如,可以记录用户对所呈现的CGM信息中的一部分或全部的评价值进行修改的动作,以更新用户模型。在此情况下,可以在所述情感分析过程中,对经过滤得到的或经整合得到的CGM信息中符合用户模型中的所抽取的特征的CGM信息的评价值赋予在所述反馈动作中修改后的评价值。将用户的情感分析纳入用户模型,提高了 CGM信息处理的个性化程度,更加贴合用户的实际需求。图6示出根据本发明的第三实施例的对CGM信息进行处理的方法的示意性流程图。与图5所示的根据本发明的第二实施例的方法相比,在根据本发明的第二实施例的方法中,新增了对CGM信息的处理步骤S670和S680,即基于用户模型来确定关键事件,以及将关键事件上报给用户。其他步骤如S610、S620、S630、S640、S660等,与图5所示的步骤 S510、S520、S530、S540、S560等基本类似,这里不再赘述。所谓“关键事件”是指用户比较关注的事件,这种事件可以与具有负面情感倾向性的信息有关,也可以与具有正面情感倾向性的信息有关,可根据实际需要进行设定。可以在 S670中将情感分析所得到的评价值与预定的阈值进行比较。如果评价值超过阈值,则确定被赋予该评价值的网页构成关键事件,并在步骤S680中向用户报告关键事件。在此,预定阈值也可以是一个预定的阈值范围,并规定在评价值落入该预定阈值范围的情况下确定出现关键事件。根据本实施例,可以基于用户模型来进行关键事件的确定。例如,可以记录用户将所呈现的CGM信息中的关键事件标记为非关键事件的动作,以更新用户模型。在此情况下,可以在所述关键事件的确定步骤S670中,将经过情感分析的CGM信息中符合所述用户模型中的所抽取的特征的CGM信息确定为非关键事件。例如,如果用户将所呈现的创建时间在1980年以前的关键事件标记为非关键事件,则在后续的关键事件确定过程中,将符合该特征的CGM信息,即创建时间在1980年以前的CGM信息, 确定为非关键事件。再例如,可以记录用户将所呈现的CGM信息中的非关键事件标记为关键事件的动作,以更新用户模型。在此情况下,可以在所述关键事件的确定步骤S670中,将经过情感分析的CGM信息中符合所述用户模型中的所抽取的特征的CGM信息确定为关键事件。另外,还可以接收用户对用于确定关键事件的所述阈值范围的修改,并根据修改后的阈值范围来确定关键事件。根据本发明的另一实施例,所述CGM信息处理方法还可以包括接收用户对关键事件的报告规则的定义。例如,用户可以通过用户接口等来配置关于关键事件的报告规则。所述报告规则可以是各种数据形式,例如,可以是配置文件、规则树等等。在步骤S680中,可以根据用户定义的报告规则来将所确定的关键事件报告给用户。这样,可以避免大量未经筛选的关键事件涌向用户,而只将用户需要的关键事件报告给用户。基于用户模型进行关键事件的确定并上报关键事件,使得用户能够及时了解到可能需要处理的CGM信息,从而提供更好的用户体验。图7示出根据本发明的一个实施例的对CGM信息进行处理的装置的示意性框图。 如图7所示,对CGM信息进行处理的装置700包括收集和抽取单元710、过滤单元720、整合单元730、呈现单元740和用户模型更新单元750。其中,收集和抽取单元710被配置成从信息供应源收集并抽取CGM信息。过滤单元720被配置成基于预定主题对通过所述收集和抽取单元710得到的CGM信息进行过滤,以获得与所述预定主题相关的CGM信息。整合单元 730被配置成基于用户定制的规则来对通过所述过滤单元720得到的CGM信息进行整合,以便获得定制的CGM信息。呈现单元740被配置成可视化地呈现通过所述整合单元730得到的CGM信息。用户模型更新单元750被配置成根据用户对所呈现的CGM信息的反馈来更新用户模型。其中,收集和抽取单元710与过滤单元720中的至少一个还被配置成基于所述用户模型来进行收集和过滤中的相应至少一个。所述用户模型包括关于用户对CGM信息的偏好的信息。根据本发明的另一实施例,用户模型更新单元750可以进一步被配置成记录用户对通过呈现单元740呈现的CGM信息的反馈动作;抽取与所述反馈动作相关联的CGM信息的特征;以及基于所记录的反馈动作和所抽取的特征来更新所述用户模型。根据本发明的另一实施例,收集和抽取单元710可以进一步被配置成对符合所述用户模型中的所抽取的特征的CGM信息进行与所记录的反馈动作相对应的处理。根据本发明的另一实施例,过滤单元720可以进一步被配置成对符合所述用户模型中的所抽取的特征的CGM信息进行与所记录的反馈动作相对应的处理。图8示出根据本发明的另一个实施例的对CGM信息进行处理的装置的示意性框图。在该实施例中,除了具有与图7中的装置700的单元710-750类似的单元810-850之外,装置800还可以包括情感分析单元860。所述情感分析单元860被配置成基于用户模型对通过过滤单元820得到的或通过整合单元830得到的CGM信息进行情感分析,以便对接受情感分析的CGM信息赋予相应的评价值。根据本发明的另一实施例,情感分析单元860还可以被配置成基于用户模型,将评价值落入预定阈值范围的CGM信息确定为关键事件,并将所述关键事件报告给用户。根据本发明的另一实施例,用户模型更新单元850还可以被配置成接收用户对关键事件的报告规则的定义。情感分析单元860还可以被配置成根据所述用户定义的报告规则来将所确定的关键事件报告给用户。关于上述装置和单元的操作细节,可以参考以上相应方法的各个实施例,这里不再详细描述。另外,上述装置中各个组成模块、单元可以通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。在通过软件或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。在根据本发明的实施例的方法和装置中,基于用户模型来进行收集和过滤中的至少一个,并根据用户对CGM信息的反馈来更新用户模型,从而准确地反映用户对CGM信息的偏好,为用户提供个性化的CGM信息处理。图9示出了可用于实施根据本发明实施例的方法和装置的计算机的示意性框图。 在图9中,中央处理单元(CPU)901根据只读存储器(ROM)902中存储的程序或从存储部分 908加载到随机存取存储器(RAM) 903的程序执行各种处理。在RAM 903中,还根据需要存储当CPU901执行各种处理等等时所需的数据。CPU 90UROM 902和RAM 903经由总线904 彼此连接。输入/输出接口 905也连接到总线904。下述部件连接到输入/输出接口 905 输入部分906(包括键盘、鼠标等等)、输出部分907(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分908(包括硬盘等)、通信部分909(包括网络接口卡比如LAN卡、调制解调器等)。通信部分909经由网络比如因特网执行通信处理。根据需要,驱动器910也可连接到输入/输出接口 905。可拆卸介质911比如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器910上,使得从中读出的计算机程序根据需要被安装到存储部分908中。在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质911安装构成软件的程序。本领域的技术人员应当理解,这种存储介质不局限于图9所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质911。可拆卸介质911的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(⑶-ROM)和数字通用盘 (DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是
1ROM 902、存储部分908中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明实施例的方法。相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等寸。在上面对本发明具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。此外,本发明的方法不限于按照说明书中描述的时间顺序来执行,也可以按照其他的时间顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露,但是,应该理解,上述的所有实施例和示例均是示例性的,而非限制性的。本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。Mid附记1. 一种对消费者生成媒体信息进行处理的方法,包括从信息供应源收集并抽取消费者生成媒体信息;基于预定主题对抽取出的所述消费者生成媒体信息进行过滤,以获得与所述预定主题相关的消费者生成媒体信息;基于用户定制的规则来对过滤得到的消费者生成媒体信息进行整合,以便获得定制的消费者生成媒体信息;以及可视化地呈现所述定制的消费者生成媒体信息,其中,基于用户模型来进行所述收集和过滤中的至少一个,所述用户模型包括关于用户对消费者生成媒体信息的偏好的信息;并且其中,所述方法还包括根据所述用户对所呈现的消费者生成媒体信息的反馈来更新所述用户模型。附记2.根据附记1的方法,其中,基于前次更新的用户模型来进行本次收集和过滤中的至少一个。附记3.根据附记1或2的方法,其中,所述更新所述用户模型包括记录所述用户对所呈现的消费者生成媒体信息的反馈动作;抽取与所述反馈动作相关联的消费者生成媒体信息的特征;以及基于所记录的反馈动作和所抽取的特征来更新所述用户模型。附记4.根据附记3的方法,其中,在所述收集和过滤中的所述至少一个中,对符合所述用户模型中的所抽取的特征的消费者生成媒体信息进行与所记录的反馈动作相对应的处理。附记5.根据附记3的方法,其中,所述记录反馈动作包括记录所述用户将所呈现的消费者生成媒体信息中的一部分或全部标记为与所述预定主题不相关的动作;以及所述收集包括将来自所述信息供应源的消费者生成媒体信息中符合所述用户模型中的所抽取的特征的消费者生成媒体信息确定为与所述预定主题不相关。附记6.根据附记3的方法,其中,所述记录反馈动作包括记录所述用户将所呈现的消费者生成媒体信息中的一部分或全部标记为垃圾信息的动作;以及所述过滤包括将抽取出的消费者生成媒体信息中符合所述用户模型中的所抽取的特征的消费者生成媒体信息确定为垃圾信息并过滤掉。附记7.根据附记3的方法,其中,所述记录反馈动作包括记录所述用户将所呈现的消费者生成媒体信息中的一部分或全部标记为与所述预定主题不相关的动作;以及所述过滤包括将所收集的消费者生成媒体信息中符合所述用户模型中的所抽取的特征的消费者生成媒体信息确定为与所述预定主题不相关并过滤掉。附记8.根据附记3的方法,还包括在所述整合之前基于所述用户模型对经所述过滤得到的与预定主题相关的消费者生成媒体信息进行情感分析,或者在所述整合之后基于所述用户模型对所述定制的消费者生成媒体信息进行情感分析,以便对接受情感分析的消费者生成媒体信息赋予相应的评价值。附记9.根据附记8的方法,其中,所述记录反馈动作包括记录所述用户对所呈现的消费者生成媒体信息中的一部分或全部的评价值进行修改的动作;以及所述情感分析包括对经所述过滤得到的或经所述整合得到的消费者生成媒体信息中符合所述用户模型中的所抽取的特征的消费者生成媒体信息的评价值赋予在所述反馈动作中修改后的评价值。附记10.根据附记8的方法,其中,所述情感分析还包括基于所述用户模型,将评价值落入预定阈值范围的所述消费者生成媒体信息确定为关键事件,并将所述关键事件报告给所述用户。附记11.根据附记10的方法,其中,所述记录反馈动作包括记录所述用户将所呈现的消费者生成媒体信息中的关键事件标记为非关键事件的动作;以及所述情感分析还包括将所述消费者生成媒体信息中符合所述用户模型中的所抽取的特征的消费者生成媒体信息确定为非关键事件。附记12.根据附记10的方法,其中,所述记录反馈动作包括记录所述用户将所呈现的消费者生成媒体信息中的非关键事件标记为关键事件的动作;以及所述情感分析还包括将所述消费者生成媒体信息中符合所述用户模型中的所抽取的特征的消费者生成媒体信息确定为关键事件。附记13.根据附记10的方法,其中,所述方法还包括接收所述用户对关键事件的报告规则的定义;以及所述报告关键事件包括根据所述用户定义的报告规则来将所确定的关键事件报告给所述用户。附记14.根据附记10的方法,还包括接收所述用户对所述阈值范围的修改,并根据修改后的所述阈值范围来确定所述关键事件。附记15. —种对消费者生成媒体信息进行处理的装置,包括收集和抽取单元,被配置成从信息供应源收集并抽取消费者生成媒体信息;过滤单元,被配置成基于预定主题对通过所述收集和抽取单元得到的消费者生成媒体信息进行过滤,以获得与所述预定主题相关的消费者生成媒体信息;整合单元,被配置成基于用户定制的规则来对通过所述过滤单元得到的消费者生成媒体信息进行整合,以便获得定制的消费者生成媒体信息;以及呈现单元,被配置成可视化地呈现通过所述整合单元得到的消费者生成媒体信息 其中,所述收集和抽取单元和所述过滤单元中的至少一个还被配置成基于用户模型来进行收集和过滤中的相应至少一个,所述用户模型包括关于用户对消费者生成媒体信息的偏好的信息;并且其中,所述装置还包括用户模型更新单元,所述用户模型更新单元被配置成根据所述用户对所呈现的消费者生成媒体信息的反馈来更新所述用户模型。附记16.根据附记15的装置,其中,所述用户模型更新单元进一步被配置成记录所述用户对通过所述呈现单元呈现的消费者生成媒体信息的反馈动作;抽取与所述反馈动作相关联的消费者生成媒体信息的特征;以及基于所记录的反馈动作和所抽取的特征来更新所述用户模型。附记17.根据附记16的装置,其中,所述收集和抽取单元和所述过滤单元中的所述至少一个进一步被配置成对符合所述用户模型中的所抽取的特征的消费者生成媒体信息进行与所记录的反馈动作相对应的处理。附记18.根据附记16的装置,还包括情感分析单元,所述情感分析单元被配置成基于所述用户模型对通过所述过滤单元得到的或通过所述整合单元得到的消费者生成媒体信息进行情感分析,以便对接受情感分析的消费者生成媒体信息赋予相应的评价值。附记19.根据附记16的装置,其中,所述情感分析单元还被配置成基于所述用户模型,将评价值落入预定阈值范围的所述消费者生成媒体信息确定为关键事件,并将所述关键事件报告给所述用户。附记20.根据附记19的装置,其中,所述用户模型更新单元还被配置成接收所述用户对关键事件的报告规则的定义; 以及所述情感分析单元还被配置成根据所述用户定义的报告规则来将所确定的关键事件报告给所述用户。
权利要求
1.一种对消费者生成媒体信息进行处理的方法,包括 从信息供应源收集并抽取消费者生成媒体信息;基于预定主题对抽取出的所述消费者生成媒体信息进行过滤,以获得与所述预定主题相关的消费者生成媒体信息;基于用户定制的规则来对过滤得到的消费者生成媒体信息进行整合,以便获得定制的消费者生成媒体信息;以及可视化地呈现所述定制的消费者生成媒体信息,其中,基于用户模型来进行所述收集和过滤中的至少一个,所述用户模型包括关于用户对消费者生成媒体信息的偏好的信息;并且其中,所述方法还包括根据所述用户对所呈现的消费者生成媒体信息的反馈来更新所述用户模型。
2.根据权利要求1的方法,其中,基于前次更新的用户模型来进行本次收集和过滤中的至少一个。
3.根据权利要求1或2的方法,其中,所述更新所述用户模型包括 记录所述用户对所呈现的消费者生成媒体信息的反馈动作;抽取与所述反馈动作相关联的消费者生成媒体信息的特征;以及基于所记录的反馈动作和所抽取的特征来更新所述用户模型。
4.根据权利要求3的方法,其中,在所述收集和过滤中的所述至少一个中,对符合所述用户模型中的所抽取的特征的消费者生成媒体信息进行与所记录的反馈动作相对应的处理。
5.根据权利要求3的方法,还包括在所述整合之前基于所述用户模型对经所述过滤得到的与预定主题相关的消费者生成媒体信息进行情感分析,或者在所述整合之后基于所述用户模型对所述定制的消费者生成媒体信息进行情感分析,以便对接受情感分析的消费者生成媒体信息赋予相应的评价值。
6.根据权利要求5的方法,其中,所述记录反馈动作包括记录所述用户对所呈现的消费者生成媒体信息中的一部分或全部的评价值进行修改的动作;以及所述情感分析包括对经所述过滤得到的或经所述整合得到的消费者生成媒体信息中符合所述用户模型中的所抽取的特征的消费者生成媒体信息的评价值赋予在所述反馈动作中修改后的评价值。
7.根据权利要求5的方法,其中,所述情感分析还包括基于所述用户模型,将评价值落入预定阈值范围的所述消费者生成媒体信息确定为关键事件,并将所述关键事件报告给所述用户。
8.根据权利要求7的方法,其中,所述记录反馈动作包括记录所述用户将所呈现的消费者生成媒体信息中的关键事件标记为非关键事件的动作;以及所述情感分析还包括将所述消费者生成媒体信息中符合所述用户模型中的所抽取的特征的消费者生成媒体信息确定为非关键事件。
9.根据权利要求7的方法,其中,所述方法还包括接收所述用户对关键事件的报告规则的定义;以及所述报告关键事件包括根据所述用户定义的报告规则来将所确定的关键事件报告给所述用户。
10.一种对消费者生成媒体信息进行处理的装置,包括收集和抽取单元,被配置成从信息供应源收集并抽取消费者生成媒体信息; 过滤单元,被配置成基于预定主题对通过所述收集和抽取单元得到的消费者生成媒体信息进行过滤,以获得与所述预定主题相关的消费者生成媒体信息;整合单元,被配置成基于用户定制的规则来对通过所述过滤单元得到的消费者生成媒体信息进行整合,以便获得定制的消费者生成媒体信息;以及呈现单元,被配置成可视化地呈现通过所述整合单元得到的消费者生成媒体信息, 其中,所述收集和抽取单元和所述过滤单元中的至少一个还被配置成基于用户模型来进行收集和过滤中的相应至少一个,所述用户模型包括关于用户对消费者生成媒体信息的偏好的信息;并且其中,所述装置还包括用户模型更新单元,所述用户模型更新单元被配置成根据所述用户对所呈现的消费者生成媒体信息的反馈来更新所述用户模型。
全文摘要
本发明公开一种对消费者生成媒体信息进行处理的方法和装置。所述方法包括从信息供应源收集并抽取消费者生成媒体信息;基于预定主题对抽取出的所述消费者生成媒体信息进行过滤,以获得与所述预定主题相关的消费者生成媒体信息;基于用户定制的规则来对过滤得到的消费者生成媒体信息进行整合,以便获得定制的消费者生成媒体信息;以及可视化地呈现所述定制的消费者生成媒体信息,其中,基于用户模型来进行所述收集和过滤中的至少一个,所述用户模型包括关于用户对消费者生成媒体信息的偏好的信息;并且其中,所述方法还包括根据所述用户对所呈现的消费者生成媒体信息的反馈来更新所述用户模型。
文档编号G06Q30/02GK102376057SQ201010257490
公开日2012年3月14日 申请日期2010年8月16日 优先权日2010年8月16日
发明者于浩, 何楠, 王主龙, 王新文, 葛付江, 贾文杰, 贾晓建 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1