用于检测社交媒体中的趋势的方法、计算机程序和计算的制造方法
【专利摘要】为了更精确地并在较早的阶段检测社交媒体中的突发信息(以不同于正常的规模散布的信息)。提出一种方法,其中在社交媒体中,从由多个用户传送的多个消息选择特定消息组。这里,在消息中包括其中由一个用户传送的消息由另一用户引用和重新传送的消息。本方法具有下列步骤:对于其中由一个用户传送的消息由另一用户引用和重新传送的消息,执行进一步重新传送的可能性的初级评估;识别已经传送了其中初级评估结果高于预定第一阈值的消息的一个用户;基于其中由一个用户传送的消息已被引用和重新传送的消息组,识别与已重新传送的消息组相似的消息组;执行将进一步重新传送相似消息组的可能性的次级评估;以及选择其中次级评估结果高于预定第二阈值的消息组。
【专利说明】用于检测社交媒体中的趋势的方法、计算机程序和计算机
【技术领域】
[0001]本发明涉及一种信息处理技术,并且更具体地,其涉及一种用于更快速和更精确地检测社交媒体中的突发信息(以不同于正常的规模散布的信息)的技术。
【背景技术】
[0002]存在一种现象,其中当自然灾害或重要社会问题出现时,社交媒体上的信息以极快的速度和庞大的规模散布,并且该现象有时被称为“突发(burst)”现象。在这种突发信息中包括了与事实不同的信息(例如错误信息、谣言)并且取决于情况该信息可能成为企业活动的威胁。因此,寻求可以快速和精确地检测“突发”现象的技术。
[0003]响应于该需要,提供了各种先前的技术。作为示例,在专利文献I中,对于称为“提供能够从网络上公开的信息取得谣言信息,同时提取与这种谣言信息相关的信息,并且同时将其呈现给用户的技术”的问题,提供了一种技术,其“包括数据收集装置,用于接收由网络上的服务器设备公开的数据,以及用于在收集数据存储器装置中将所述数据存储为各种收集数据;谣言信息判断装置,用于提取包括在收集数据中的字符串,并且用于基于字符串获得收集数据是否是谣言信息的判断结果;相关信息数据提取装置,用于从网络上的服务器设备或从预先累积的相关信息数据库提取被判断为谣言信息的谣言信息数据和至少是谣言信息数据的作者、或谣言信息数据的内容、或存储数据的服务器设备的名称或网络地址或者谣言信息数据的文件信息的相关信息数据;以及输出装置,用于同时输出谣言信息数据和相关信息数据。”此外,在非专利文献I中,提供了一种用于通过评估关键字的增加程度而检测信息是否是突发信息的技术。
[0004]引用列表
[0005]【背景技术】
[0006]专利文献
[0007]专利文献1:日本公开待审N0.2008-165598
[0008]非专利文献
[0009]非专利文献1:
[0010]J.Kleinberg:Bursty and Hierarchical Structure in Streams, Proceedingof the8th ACM SIGKDD International Conference on Knowledge Discovery and DataMining, (2002).
【发明内容】
[0011]技术问题
[0012]然而,存在改进快速和精确地检测“突发”现象的空间。
[0013]本发明考虑了这种现象,并且其目的是提供能够通过考虑发送信息的人和信息的内容的特征而快速和精确地检测“突发”现象的技术。
[0014]问题的解决方案[0015]具体地,通过发明人的研究,在获得下列知识之后创造出本发明:1.散布可能性根据发送用户的影响程度而不同(由高影响力的用户发送的信息更可能被重新发送)。
2.散布可能性根据用户重新发送的频率而不同(对于经常重新发送的用户和很少重新发送的用户重新发送的重要性不同)。3.重新散布可能性根据信息的独特性而不同(当重新发送的信息的内容不同于正常时,信息散布可能性高)。
[0016]具体地,本发明提供一种用于通过使用计算机从由多个用户通过社交网络发送的多个消息选择识别的消息组的方法。在消息内,包括由与原始消息用户不同的用户发送的消息,并且这些消息引用由原始消息用户发送的消息。所述方法包括下列步骤:对于由与原始消息用户不同的用户发送的引用由原始消息用户发送的消息的消息,执行进一步重新发送的可能性的初级评估;识别已经发送了初级评估结果高于预定第一阈值的消息的单个用户;基于引用由单个用户发送的消息的重新发送消息组,识别与重新发送消息组相似的消息组;执行将进一步重新发送相似消息组的可能性的次级评估;以及选择次级评估结果高于预定第二阈值的消息组。
[0017]这里,在执行初级评估和次级评估的步骤,可以作为其他用户的影响力的递增函数而计算进一步重新发送的可能性。更具体地,可以作为关注其他用户的用户数量的递增函数而计算其他用户的影响力程度。此外,在执行初级评估和次级评估的步骤,可以作为其他用户过去重新发送引用第一用户的消息的消息的程度的递减函数而计算进一步重新发送的可能性。更具体地,可以作为在过去固定时段内其他用户重新发送引用第一用户的消息的消息的次数而计算已重新发送的程度。此外,在执行初级评估和次级评估的步骤,可以作为由其他用户重新发送的消息内容和由其他用户过去进一步重新发送的消息的相似度的递减函数而计算进一步重新发送的可能性。更具体地,可以通过将由其他用户重新发送的消息和由其他用户过去进一步重新发送的消息进行文本串匹配而计算相似度。
[0018]此外,消息可以是在规定条件下从在社交媒体上发布的消息采样的消息。此外,消息可以是从在包括规定关键字的条件下在社交媒体上在规定时间段内发布的消息采样的消息。此外,社交媒体可以是微博。
[0019]此外,可以构架为使得向社交媒体发布的计算机通过网络连接到选择识别的消息组的计算机,并且进一步包括选择计算机接收响应于来自选择计算机的规定条件请求而从发布计算机发送的消息的步骤。还可以进一步包括在选择计算机的存储器装置中存储接收的消息的步骤。
[0020]显然,在其中本发明被理解为计算机程序和计算机系统的情况下,其提供与其中本发明被理解为上面描述的方法的情况基本上相同的技术特征。
[0021]本发明的有利效果
[0022]通过使用本发明,通过考虑发送信息的人和信息的内容的特征,能够快速和精确地检测“突发”现象。
【专利附图】
【附图说明】
[0023]图1是解释微博(microblog)系统的概略图。
[0024]图2是解释微博的关注者和被关注的关系的概略图。
[0025]图3是用作用户终端的智能电话和相关屏幕显示的说明图。[0026]图4是存储在微博服务器的硬盘设备中的数据的数据结构的说明图。
[0027]图5是发送的消息的类型的说明图。
[0028]图6是解释计算机的硬件结构的框图。
[0029]图7是解释由计算机执行的处理的流程图。
[0030]图8是重新发送的可能性的计算的公式的说明图。
[0031]图9是时间段T过去的时间段Tp⑴的说明图。
【具体实施方式】
[0032]实施例
[0033]下列部分基于附图详细描述执行本发明的最佳模式,但下列实施例并未限制根据权利要求的范围的本发明,并且在实施例内描述的特征的整个组合对本发明的解决方式并非必要。可以通过许多不同模式执行本发明,并且没有理由其应被解释为限于对于实施例记录的内容。此外,应注意在实施例内描述的特征的整个组合对本发明的解决方式并非必要。贯穿实施例的整个描述相同标号应用于相同元件(当未另外指定时)。
[0034]图1是解释微博系统的概略图。该系统包括微博服务器2和用户终端,并且它们相互连接用于通过因特网4通信。用户终端可以是提供通信功能的任何模式的计算机。例如,附图中示出智能电话31、平板32和个人计算机(笔记本型)33,但是此外,虽然未示出,可以利用例如个人数字助理(PDA,移动信息设备)、车载计算机或笔记本计算机。
[0035]图2是解释微博的关注者和被关注的关系的概略图。微博的用户可以提前登记分享相同爱好或兴趣的其他用户,并且用户可以自动接收由那些其他用户发送的消息。该登记过程被称为“关注(to follow) ”,并且相关关系可以是下列两种类型:其中涉及的用户都彼此关注,以及其中仅用户之一单方面关注其他用户。例如,图2中的箭头示出用户AAA和用户BBB彼此相互关注,而用户BBB单方面关注CCC,并且用户CCC单方面关注用户AAA。
[0036]图3是用作用户终端的智能电话31和相关屏幕显示的说明图。微博应用的屏幕显示在智能电话31的触摸屏上,并且应用屏幕从顶部顺序分成主页组件311、时间轴(timeline)组件312和操作组件313。在主页组件311内显示菜单按钮和时间轴组件312是用户AAA的时间轴的指示符。在时间轴组件312内从顶部顺序显示来自用户AAA的消息组件312a和312b以及来自用户BBB的消息组件312c。这些消息组件312a_312c沿时间序列显示。具体地,在最高位置处的消息组件312a对应于最新消息。
[0037]图4是存储在微博服务器2的硬盘设备20和21中的数据的数据结构的说明图。在存储在硬盘设备20中的消息表(图4(a))内,提供示出发送每一个消息的日期和时间的发送时间(createcLat)、识别每一个消息的消息ID(id)、识别发送消息的用户的用户ID(user_id)和作为消息的内容的文本(text)。此外,可以设置文本的字符计数限制(例如140个字符或更少)。同时,在存储在硬盘设备21中的用户关系表(图4(b))内,提供示出登记关注关系的日期和时间的登记时间(registered_at)、识别作为关注来源(origin)的用户的关注来源用户ID(f0ll0wing_uSer_id)和识别作为关注目标的用户的关注目标用户 ID (followed_user_id)。
[0038]图5是发送的消息类型的说明图。图5(a)描述正常消息。这里,用户AAA向她自己的时间轴发送消息,并且这些消息不仅显示在用户AAA的时间轴中,而且显示在关注用户AAA的那些用户的(在图2的示例中,用户BBB和用户CCC)时间轴中。图5(b)描述回复消息。回复消息是对特定消息的响应,并且其被显示在响应者的时间轴中以及关注响应者的那些用户的时间轴中。这里,用户BBB发送回复消息“嗯,你好。”作为对用户AAA的消息的响应,并且该回复消息显示在用户BBB的时间轴中以及关注用户BBB的用户(在图2的示例中,用户AAA)的时间轴中。
[0039]图5(c)和5(d)都描述复制消息的类型,并且它们示出作为复制消息重新发送显示在用户CCC的时间轴中的用户AAA来源消息“我第一次上微博”的形式。在两种情况下,复制消息显示在关注用户CCC的用户(在图2的示例中,用户BBB)的时间轴中,但是在图5(c)中示出的模式中,其以原始发布者用户AAA的名字显示在关注用户CCC的用户的时间轴中,并且在图5(d)中示出的第二模式中,其以转发发布者用户CCC的名字显示。图5(e)描述引用消息,这示出作为引用原始消息并且还包括用户CCC的新评论“欢迎! ”的消息重新发送在用户CCC的时间线中显示的用户AAA起源消息“我第一次上微薄”的形式。所引用的消息显示在关注用户CCC的用户的时间轴中。
[0040]图6是解释计算机的硬件结构的框图。计算机I的硬件结构包括(低速或高速)总线10、连接到总线10的CPU(中央处理单元)11、RAM(随机存取存储器、存储器设备)12、ROM (只读存储器、存储器设备)13、HDD (硬盘驱动器、存储器设备)14、通信接口 15和输入-输出接口 16。进一步提供连接到输入-输出接口 16的鼠标17、平板显示器(显示设备)18和键盘19。计算机I被描述为采用通用个人计算机架构,但在更高数据处理性能和可用性的情况下可以倍增例如CPUll和HDD14的组件。还可以利用各种其他类型的计算机系统代替桌面型计算机。
[0041]计算机I的软件结构包括提供基本功能的操作系统(OS)、利用OS的功能的应用软件和用于输入-输出设备的驱动器软件。这些软件中的每一个与各种数据一起被加载到RAMl2中,并且由例如CPUll执行。计算机I作为一个单元执行图7中示出的处理。
[0042]图7是解释由计算机执行的处理的流程图。首先,从计算机I向微博服务器2发送条件(Si)。这可以是指定在期间发送消息的时间段的条件、指定在消息内包括特定关键字的条件、指定仅重新发送消息的条件或结合这些参数的条件。然后,计算机I从微博服务器2接收符合上述条件的一组消息的数据(S2)。此时,与符合条件的消息组的数据(图4(a)) 一起同时接收关于与这些消息相关的用户的数据(图4(b))是可以接受的。
[0043]然后,对于每一个消息,处理计算其要被重新发送的可能性(S3)。图8是重新发送的可能性的计算的公式的说明图。这里,发送时间t1、发送用户u1、信息参考来源用户Si和内容ci的四个集合用于将消息mi定义为mi = (ti, ui, si, ci) (1 = 1,2吣)。将被重新发送的消息表示先前描述的复制消息(图5(c)和5(d))和引用消息(图5(e))。图5(c)中示出的第一模式复制消息和引用消息都体现在微博服务器2侧上准备的公共函数,从而通过设置消息ID以反映它,例如在消息ID(参见图4(a))内包括信息参考来源用户Si的用户ID,能够指示第一模式复制消息或引用消息。作为比较,图5(d)中示出的第二模式复制消息不体现在微博服务器2侧上准备的公共函数,从而使用例如“RT@”的将要显示在第二模式复制消息的内容中的唯一串以指示它,这使得能够识别其是第二模式复制消息以及信息参考来源用户Si。
[0044]图9是用于评估在时间段T期间的散布可能性的、时间段T过去的时间段Tp(T)的说明图。这里,做出在时间段T期间微博上的关注关系的有向图G(T) = (V(T),E(T))。V⑴是时间段T期间的用户集合,并且E(T)是{e(u,s) I在时间段T内用户u关注用户s}。
[0045]然后,对于消息mi定义散布可能性burst [m] (mi)。这里,由用户si发送的信息被假设为作为消息mi由用户ui在时间段T期间重新发送,并且通过下面的等式定义散布可能性 burst [m] (mi)。
[0046]等式I
【权利要求】
1.一种用于通过使用计算机从由多个用户通过社交网络发送的多个消息选择识别的消息组的方法,其中,在消息内,包括由与原始消息用户不同的用户发送的消息,并且这些消息引用由原始消息用户发送的消息,并且所述方法包括下列步骤: 对于由与原始消息用户不同的用户发送的引用由原始消息用户发送的消息的消息,执行进一步重新发送的可能性的初级评估; 识别已经发送了初级评估结果高于预定第一阈值的消息的单个用户; 基于引用由单个用户发送的消息的重新发送消息组,识别与重新发送消息组相似的消息组; 执行将进一步重新发送相似消息组的可能性的次级评估;以及 选择次级评估结果高于预定第二阈值的消息组。
2.如权利要求1所述的方法,其中,在执行初级评估和次级评估的步骤,作为其他用户的影响力的递增函数而计算进一步重新发送的可能性。
3.如权利要求2所述的方法,其中,作为关注其他用户的用户数量的递增函数而计算其他用户的影响力。
4.如权利要求1所述的方法,其中,在执行初级评估和次级评估的步骤,作为其他用户过去重新发送引用第一用户的消息的消息的程度的递减函数而计算进一步重新发送的可能性。
5.如权利要求4所述的方法,其中,作为在过去固定时段内其他用户重新发送引用第一用户的消息的消息的次数而计算已重新发送的程度。
6.如权利要求1所述的方法,其中,在执行初级评估和次级评估的步骤,作为由其他用户重新发送的消息内容和由其他用户过去进一步重新发送的消息的相似度的递减函数而计算进一步重新发送的可能性。
7.如权利要求6所述的方法,其中,通过将由其他用户重新发送的消息和由其他用户过去进一步重新发送的消息进行文本串匹配而计算相似度。
8.如权利要求6所述的方法,其中,通过对于由其他用户重新发送的消息和对于由其他用户过去进一步重新发送的消息进行语句聚类而计算相似度。
9.如权利要求1所述的方法,其中,所述消息是在规定条件下从在社交媒体上发布的消息米样的消息。
10.如权利要求1所述的方法,其中,所述消息是从在包括规定关键字的条件下在社交媒体上在规定时间段内发布的消息采样的消息。
11.如权利要求10所述的方法,其中,向社交媒体发布的计算机通过网络连接到选择识别的消息组的计算机, 并且进一步包括选择计算机接收响应于来自选择计算机的规定条件请求而从发布计算机发送的消息的步骤。
12.如权利要求11所述的方法,进一步包括在选择计算机的存储器装置中存储接收的消息的步骤。
13.如权利要求1所述的方法,其中,社交媒体是微博。
14.一种用于由计算机执行的计算机程序,其使得计算机执行根据权利要求1-13的任何方法的全部步骤。
15.一种用于从由多个用户通过社交网络发送的多个消息选择识别的消息组的计算机, 其中,在消息内,包括由与原始消息用户不同的用户发送的消息,并且这些消息引用由原始消息用户发送的消息,以及 在计算机的存储器装置内存储多个消息,计算机的计算控制装置对于由与原始消息用户不 同的用户发送的引用由原始消息用户发送的消息的消息,执行进一步重新发送的可能性的初级评估; 识别发送了初级评估结果高于预定第一阈值的消息的单个用户; 基于引用由单个用户发送的消息的重新发送消息组,识别与重新发送消息组相似的消息组; 执行将进一步重新发送相似消息组的可能性的次级评估;以及 选择次级评估结果高于预定第二阈值的消息组。
16.如权利要求15所述的计算机,其中,存储在存储器装置内的多个消息是从发布到社交媒体的消息采样的消息。
【文档编号】G06F17/30GK104011718SQ201280062968
【公开日】2014年8月27日 申请日期:2012年11月16日 优先权日:2011年12月19日
【发明者】伊川洋平, 榎美纪, R.H.P.鲁迪, 那须川哲哉 申请人:国际商业机器公司