在线社交人物管理的制作方法_3

文档序号:9493725阅读:来源:国知局
及行为执行分析,以标识谈话以及社区内的社交角色。当行为表明与标识的用户的行为的 相似度或相异性时,可以警告用户。在现有的社区,在用户与一个人具有直接联系之后,建 模一个人的目标更加容易。未来的系统甚至在在多个用户之间没有直接联系的情况下使简 档以及行为可用。进一步,用户可以具有多个在线人物和/或简档来表征用户生命的不同 的方面(专业、私人、宗教、家庭等等)。在一个实施例中,用户可以为每一个人物,指定不同 的目标组。在一个实施例中,用户可以为多个人物选择单组目标,但是,必须例如为每一个 人定义用户ID,以将它们链接为相关。在现有的系统中,链接其他用户的在线人物可能是困 难的,但是,预期未来的系统在关联相同用户的不同人物方面会更好。在这种关联是可能的 系统中,使一个人自己仿效带有多个人物的另一用户也可能是可能的。在利用现有的在线 社区实现的一个实施例中,通常将使用单人物。
[0078] 社交人物可视化模块150:图7示出了对于在线人物的示例可视化。此模块从社 交推理模块110接收分类和推理,诸如专家的列表、有关X主题的新手,仲裁人,特罗尔的 列表,每一用户的谈话的所感兴趣的主题以及首选的主题。模块使用这些初始分类来向用 户呈现系统认为他们在在线社区中创建的社交人物的可视化。考虑的初始社交人物是:用 户是专家、仲裁人、特罗尔或新手。界面可以向用户用户,他们相对于社区成员的其余成员 在多大程度上是专家、仲裁人、特罗尔、新手。每一社交人物都与对社区中的这样的社交人 物的形成有贡献的帖子和评论组一起呈现。社交人物可包括相对于社区或谈话的特征(角 色),例如,"达人"、"酷女孩"、"牢骚"等等,以及对此特征有贡献的那些帖子和评论。当可 能时,用户可以能够选择与人物相关联的帖子或评论,并从谈话或社区删除它。如果不可能 删除或编辑帖子,用户可以能够通过创建类似于发现与所希望的人物相关联的那些帖子更 多的帖子,减轻与不希望有的人物相关联的帖子的有害影响。
[0079] 此模块允许用户分析不同的数据片断(帖子或评论)对特定社交人物有什么样的 贡献。用户可以删除/编辑数据片断,并分析对于特定社交人物,数据如何影响他们的总体 排序。用户还可以相对于时间,排序他们的帖子和评论,并分析每一数据片断在他们的当前 描绘的社交人物中扮演的角色。
[0080] 另外,此模块允许用户与数据进行交互,并通过示例告诉系统,不同的社交角色和 特定内容如何可以链接到某些社交人物。用户可以利用界面声明是"X"主题中的特罗尔, 并主题"F"感兴趣的声明与为"达人"的社交人物相关联。系统使用这些初始种子类别来 在最大程度上分类用户的社交数据。
[0081] 界面基于用户定义的社交人物来提供新可视化。用户可以分析系统的分类,对他 们在社区内创建的社交人物进行内省。如有必要,用户可以再次消除/编辑他们的数据(帖 子和评论,),并查看它如何影响他们在社区中创建的社交人物。可以理解,可以以各种方式 (例如,直方图、曲线图、表、树、相关的链接,等等)实现社交人物的可视化,如此处所描述 的各实施例不限于表示的一种形式。
[0082] 实验和示例实施例
[0083] 引言
[0084] PeterSteiner-次在卡通字幕中写道"在因特网上,没有人知道您是狗"。不久, 该短语像病毒一样流行。从那时起,用户用许多形式的自我表现进行试验,从简单用户名选 择到在线相亲网站中的他们的口味的详细描述。社交学理论认为这些自我公开过程是社交 交互的重要组成部分,因为人们在所有社交过程中,会修饰他们的外观和控制其他人对他 们的印象的方式。在数字和物质世界,控制人的所希望的印象会是困难的,因为它不仅受一 个人作出的关于自己的陈述的影响,诸如声明是非常有组织纪律性的,或声明对政治有兴 趣,而且还受一个人的行为的影响,例如,办公桌上凌乱不堪表明一个人的凌乱的倾向,或 写有关政治的文章表明一个人的对政治的兴趣。在数字世界,用户对他们的形象具有更多 的控制主要是因为他们一般具有更多时间来思考他们将如何对某些事件作出反应,如此, 提升他们的所希望的形象,即,他们被其他人感觉得如何。然而,在数字世界中的控制也可 能被这样事实复杂化:"因特网决不会忘记"。用户创建的并与其他在线用户共享的所有内 容都是永久性的,可搜索并可复制的。数据的长期的持久性使一个人的所希望的形象的创 建复杂化。例如,用户在2006年声称具有的兴趣可能不再匹配她的当前兴趣,但是,数据仍 可能被她的熟人看见,包括她的未来的雇主。
[0085] 基于以前的认为从人们的声明以及行为推断人们的兴趣和特征的研究,作者构建 了一个框架,如此处所描述的,用于分析用户的在他们的在线简档中的陈述,以及他们的在 在线社区内的行为(具体地,他们对什么发了帖子和评论)之间的动态特性。引入了术语 "陈述的兴趣",来指用户在他们的在线简档中定义的兴趣,引入了术语"表现出的兴趣"来 指用户在在线社区发帖子和写评论的内容的类型,例如,在一个人的简档中的有关"动物保 护协会"的标记将表示声明的对于"动物权利"的兴趣,而就有关"动物收容所"将表明一个 人的对于该主题的兴趣。
[0086] 作者主要研究等最活跃的温和的公共Livejournal?社区之一 :0ntd(他们不)_ 政治。0ntd_政治适合于研究在用户的声称的兴趣和用户实际在线讨论之间存在的不同的 关系,因为此社区中的讨论涵盖非常流行的主题,可以从争议的育儿方法、性别和种族不平 等问题,到美国选举。此社区的用户还在他们的简档中声称广泛的兴趣,包括中东女权主 义、美国卡通人物及其他不同的主题。
[0087] 在向此数据应用该框架时,我们表明,当对于给定话题声称并表现出兴趣时,用户 遵循确定的模式,例如,用户用来声称对于特定话题的兴趣的不同的标记的量看起来像有 清楚的准则。结果暗示,〇ntd_政治中的超过半数的帖子是事件驱动的。然而,看起来基于 个人兴趣发表有关一个话题的帖子的用户很少有定期发有关该话题的帖子。
[0088] 相关的工作
[0089] 在在线社区,用户通过就某一内容发帖子和评论来表达他们的兴趣。一组文章聚 焦于通过对他们的数字踪迹的分析,表征此内容,以及在线社区的社交互动。较早的工作从 发现社区讨论的主题的研究开始。尽管如此,此在前的工作,没有研究在用户和内容之间存 在的关系。Yang,等人在在线媒体中的时间变化模式(Patternsoftemporalvariation inonlinemedia)(ProceedingsofthefourthACMinternationalconferenceonWeb searchanddatamining,WSDM'll,ACM(NewYork,NY,USA, 2011),177-186) -文中对内容 流行度的研究,分析了生成内容的源,诸如新闻来源或博客,如何影响内容的流行度(创建 的帖子和评论的量)。然而,他们的分析是有局限性的,因为它没有研究内容的实际作者如 何影响内容的流行度。不清楚,博主讨论的所有内容是否变得同样流行,或某一类型的博主 比其他博主受到更多关注。是不是声称是一个主题方面的专家的博主受到最多的关注?是 不是以前积极地发有关一个主题的帖子的博主受到更多访问量?这些问题有待研究。对于 希望学习如何成为有影响的博主的用户,知道说什么以及做什么是非常有用的。杨等人也 没有研究内容的话题是否对内容的在线流行度有影响。
[0090] 最近,Guy等人在从社交媒体挖掘专家意见和兴趣(Miningexpertiseand interestsfromsocialmedia)(Proceedingsofthe22ndinternationalconference onWorldWideWeb,WWW'13) -文中的研究能够标识将用户与一个主题相关联的两个语 义:兴趣和专业知识,并跨不同的社交媒体应用程序比较了这两个语义。然而,他们的研究 没有专注于用户的通过内容表达兴趣的不同的形式,特别没有比较用户的行为与他们的简 档声明。Rodrigues等人在追踪:追踪你自己!监视再现社交媒体上的信息(utrack:track yourself!monitoringinformationononlinesocialmedia)(Proceedingsofthe 22ndinternationalconferenceonWorldWideWebcompanion,ΨΜ'13) 一文中描述了 一种允许最终用户跨不同的社交媒体站点跟踪他们的全部在线活动的系统。然而,该系统 没有允许用户内省他们定义他们自己的方式以及他们的实际在线行为之间的差异和相似 度。也没有让用户研究他们在社区承担的不同的社交角色。
[0091] 最近,数据建模已经被扩展,能够基于用户生成的内容的类型,来表征用户。尽 管如此,这些研究也是有局限性的,他们的工作没有研究用户与用于声称和表现他们 的不同的兴趣的内容啮合的不同的形式。Agarwal等人在标识社区中有影响的博主 (Identifyingtheinfluentialbloggersinacommunity)(Proceedingsofthe 2008InternationalConferenceonWebSearchandDataMining,WSDM'08,ACM(New York,NY,USA, 2008),207-218) -文中的工作,研究了如何检测有影响的博主。然而, Agarwal等人没有探索这些博主表达他们的在线兴趣的不同的方式。这样的研究对于试图 引导用户他们应该如何呈现他们的简档以及博客帖子以成为有影响的用户的系统可能是 有眼光的。其他工作已经发现,用户决定与在线社区讨论的事件涉及在重要的私人事件以 及用户认为将引起他们的在线受众兴趣的事件之间的复杂的动态。本发明通过分析在用户 以前声称感兴趣的东西的类型,以及他们在社区就其发帖子和评论的东西的类型之间存在 的相似之处和不同之处,扩展这些概念。
[0092] 当前社交建议系统(SocialRecommenderSystems)更多地聚焦于查找一个 人可能与其共享在线内容的其他用户,参见,例如,Amershi,S.,等人所著重组:在社交 网络按需创建组的交互式机器学习(ReGroup:InteractiveMachineLearningforOn DemandGroupCreationinSocialNetworks),ProceedingsoftheSIGCHIConference onHumanFactorsinComputingSystems(CHI' 12),ACM,NewYork,NY,USA, 2012 ; Bernstein,M·,等人所著增强网络上共享的直接内容(Enhancingdirectedcontent sharingontheweb),ProceedingsoftheSIGCHIConferenceonHumanFactorsin ComputingSystems.ACM,NewYork,NY,USA, 2010,或聚焦于标识可以引起用户兴趣的在线 内容,参见例如,Google?Alerts。此以前的工作不能基于社区的需求或用户的总体目标, 向用户建议他们能够给社区作出的贡献的类型。例如,Facebook基于友谊关系允许用户的 朋友查看帖子,但是,没有就用户应该在谈话中承担的社交角色的类型,或用户应该作出的 贡献的类型,给出建议,以满足个人目标或帮助社区生长并具有健康的平衡。
[0093] (ioogle?Alerts、Alltop(用于头条新闻)、Monitter(实时推特监视)、 TweetDeck、BackType,以及PostRankAnalytics,例如,可以监视数百万博客,推特谈话以 及新闻站点,并帮助用户在线遵循它们的所感兴趣的主题的谈话。然而,这些现有的系统不 会分析它们的单个贴子以及行为,以便帮助它们标识将通过专业知识或社交角色突出他们 的独特性的机会。
[0094] 在线讨论板是非常有意义的,大多数人都去那里获取政治信息。知道对这样的站 点有贡献的用户的类型十分重要,因为他们对政治过程可能有影响。
[0095] 模型
[0096] 前面的讨论可以基于一个框架,以提供对用户的声明和在线行为的建模,允许两 个实体被比较和量化。在一个实施例中,该框架用于大型并且活跃的在线社区,其成员具有 用于通过他们的简档中的标记(兴趣标记)来声称他们的个人兴趣的空间,以及通过他们 的行为(作出的帖子和评论),他们可以表现他们的兴趣的空间。
[0097] 给定一个在线社区,框架的目标是三重的:(1)发现存在于社区的讨论(创建的帖 子和评论)中的不同的基于话题的兴趣;(2)将帖子、评论,以及兴趣标记分类为这些已发 现的基于话题的兴趣;以及,(3)基于成员围绕一个特定话题创建的帖子和评论,以及他们 的简档中所使用的话题性的兴趣标记,建模成员的表现的兴趣和成员的声称的兴趣。然后, 使用此模型来比较用户的声称的兴趣与他们的表现的兴趣,并标识在线社区中的兴趣表达 的模式。图11表示示例框架的流水线。
[0098] 上下文话题标识
[0099] 图11示出了在给定社区的贴子、评论以及兴趣标记的情况下,建模此处所公开的 框架如何标识社区的声称的以及表现的兴趣的模式的流水线。
[0100] 首先,在在线社区1110内标识上下文话题,其中,社区通过用户的帖子表达了兴 趣。为此目的,可以使用主题建模算法"潜在狄利克雷分配(LDA)"来获取对存在于社区的 零散的帖子的集合中的所感兴趣的主题的初始的粗略估计。可以使用贝叶斯信息准则来确 定所希望的主题的数量,作为向LDA的输入。被馈送到LDA的每一文档都对应于来自社区 的帖子。每一文档都保留的标题,以及用户添加到帖子中的标记。注意,此主题模型是从社 区帖子在上下文中构建的。对于此示例,假设用户在与共享上下文的不同的上下文下声称 他们的兴趣,因此,这些可能没有直接对准。例如,可能有完全与社区的帖子不相关的许多 兴趣标记,但是,将它们包括到主题模型中可能会强制不存在的关系。另外,与声称的所感 兴趣的主题一起建模帖子的主题,即,将所有信息一起建模,会导致错误的结果,因为帖子 会遮蔽声称的兴趣,使得准确地比较声称的和表现的兴趣难以进行。
[0101] 在1110中,分类涵盖存在于社区的帖子中的兴趣的一组话题。LDA会存在的一个 问题是因为它根据纯粹的数据驱动的目标函数,将观测到的数据分解为潜在的主题,因此, 有可能具有涵盖完全相同概念但是带有稍微不同的措词的两个不同的主题。为克服此问 题,可以使用本体,具体地,WordNet?,一个词汇数据库,来进一步分组相似的主题,并更 好地分类社区的兴趣。对主题的分组被称为话题。
[0102] 在一个实施例中,对于每一个主题Tx,创建词袋Xi,其中,每一词化^Xi都是Tx* 的带有最高概率的Κ个词中的一个。为说明,在下面的示例中,Κ= 10。给定分别属于主题 !;和Ty的两个词袋X和Υ,在公式(1)计算它们之间的相似度权重s(X,Υ),如下所示:
[0103]
[0104] 其中,,是第i个词GX,而%是词Gγ,最类似于Sim(.,.)对应于 WordNeWi^^对于那两个词的相似度权重。相似度权重标识两个主题之间的最佳词相似 度。使用此相似度权重s(X,Y)来合并正
当前第3页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1