一种社区化的社会化媒体话题分析与发布方法
【专利摘要】本发明涉及一种社区化的社会化媒体话题分析与发布方法,包括以下步骡:1)利用地理位置信息采集特定社区中的社会化媒体用户发布的内容;2)每隔T1时间对T2时间内采集到的社会化媒体信息进行分析处理后,得到当前热门话题;3)将热门话题进行处理发布;4)在社区展示话题和用户发布的相关内容。与现有技术相比,本发明具有突出将社会化媒体话题从社区的层面进行分割,从而引导社区居民关注和关心社区生活,营造更美好的社区环境等优点。
【专利说明】一种社区化的社会化媒体话题分析与发布方法
【技术领域】
[0001]本发明涉及一种互联网领域的社会化媒体话题分析与发布方法,尤其是涉及一种社区化的社会化媒体话题分析与发布方法。
【背景技术】
[0002]近年来,社会化媒体已经渐渐成为人们从互联网上获取信息的一个主要途径。截止2013年6月底,新浪微博已有接近6亿的注册用户,日微博发布量2亿。而且其中75%的活跃用户是通过移动终端登录的。
[0003]Antony Mayfield总结了社会化媒体的六个特征:参与、公开、交流、对话、社区化和连通性。同时,按照Kaplan等人的定义,社会化媒体是“一组建立在Web2.0技术和意识形态基础上的、基于互联网的应用,允许用户生成内容(User Generated Content, UGC)的创造和交换。”当然从表现形式上来看,社会化媒体可以包括博客、维基百科、播客、论坛、社交网络和微博等,并且各自的运作方式不尽相同。
[0004]因而,本发明涉及到的【背景技术】包括:
[0005](I)Web 2.0 应用技术:
[0006]Web 2.0是一种新的互联网方式,通过网络应用(WebApplications)促进网络上人与人间的信息交换和协同合作,其模式更加以用户为中心。典型的Web 2.0站点有:网络社区、网络应用程序、社交网站、博客、Wiki等等。
[0007]双向的消息协议是Web 2.0架构的关键元素之一。两个主要的类型是REST和SOAP方法。REST (Representational State Transfer)表示了一种Web服务客户端传送所有的事务的状态。SOAP (Simple O bject Access Protocol)和类似的轻量方法都依赖服务器来保存状态信息。两种情况下,服务是通过一个应用程序接口(API)调用的。这个APl常常是根据网站的特殊需求定义的,但是标准的Web服务APl (例如,于Blog发表文章)的API依然被广泛使用。另外还有一种消息协议类型是被称之为Ajax的混合形式,用来增强基于浏览器的Web应用的用户体验。这可以用于一些特别的形式(如Google Maps、UrMap)或是一些开放的形式,可以直接利用Web服务APl、数据联合,甚至是绘画。
[0008]与Web2.0相关的技术还包括:博客(Blog)、RSS、wiki百科全书(Wiki)、网络书签、社交网站(SNS)、P2P、即时信息(頂)、基于地理信息服务(LBS)等。
[0009](2)自然语言处理技术
[0010]自然语言处理(Natural Language Processing,简称NLP)是人工智能和语言学领域的分支学科。在这此领域中探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。
[0011]自然语言处理技术涵盖范围较广,本发明仅涉及中文自动分词以及自然语言生成部分。
[0012](3) 二维码生成与识别技术
[0013]二维条码是指在一维条码的基础上扩展出另一维具有可读性的条码,使用黑白矩形图案表示二进制数据,被设备扫描后可获取其中所包含的信息。一维条码的宽度记载着数据,而其长度没有记载数据。二维条码的长度、宽度均记载着数据。二维条码有一维条码没有的“定位点”和“容错机制”。容错机制在即使没有辨识到全部的条码、或是说条码有污损时,也可以正确地还原条码上的资讯。
【发明内容】
[0014]本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种社区化的社会化媒体话题分析与发布方法。
[0015]本发明的目的可以通过以下技术方案来实现:
[0016]一种社区化的社会化媒体话题分析与发布方法,其特征在于,包括以下步骤:
[0017]I)利用地理位置信息采集特定社区中的社会化媒体用户发布的内容;
[0018]2)每隔Tl时间对T2时间内采集到的社会化媒体信息进行分析处理后,得到当前热门话题;
[0019]3)将热门话题进行处理发布;
[0020]4)在社区展示话题和用户发布的相关内容。
[0021]所述的社会化媒体为基于互联网的内容公开的信息传播平台,包括但不限于新浪微博和腾讯微博。
[0022]所述的特定社区为具备相对固定的社会化媒体用户群的居民活动区域,包括但不限于商业区、居住小区或公寓、以及大学。
[0023]所述的社会化媒体用户发布的内容具体为:社会化媒体用户在该媒体中发表的公开信息。比如腾讯微博在用户注册协议中对此进行的明确:“3.2您充分了解并同意,腾讯微博是一个信息分享、传播及获取的平台。您通过腾讯微博发布的信息为公开的信息,其他第三方均可以通过腾讯微博的平台获取您发布的信息,您对任何信息的发布即认可该信息为公开的信息,并单独对此行为承担法律责任;任何您不愿被其他第三人获知的信息都不应在该平台上进行发布;”
[0024]所述的利用地理位置信息采集特定社区中的社会化媒体用户发布的内容具体为:
[0025]11)利用社会化媒体提供的开放平台,根据用户发布内容时额外提供的定位信息,对用户的发布内容进行采集,并将定位在特定社区内发布的社会化媒体内容保存到数据库中;本操作可以使用程序脚本在服务器上自动定时执行。例如使用Php脚本,每隔10分钟通过新浪微博地理位置信息API获取到上海交通大学内发布的含有地理位置信息的微博,并保存在服务器数据库中。
[0026]12)利用社会化媒体提供的搜索平台,根据用户发布内容包含的关键字进行检索,对包含特定社区名称的用户发布内容进行采集,并保存在数据库中。
[0027]所述的步骤11)和12)均采用程序脚本在服务器上自动定时执行。
[0028]所述的Tl和T2具体为:
[0029]Tl时间为系统话题的刷新率,每隔Tl时间进行一次话题的分析处理;
[0030]T2时间为话题分析样本的时间区间,比如T2设置为24小时,通过分析得出过去24小时中社区居民在社会化媒体中讨论的热门话题。[0031 ] 对社会化媒体信息进行分析具体为:
[0032]21)从数据库中取出采集到的T2时间内的社会化媒体信息,逐条对信息文本进行分词,并对有意义的词条进行词频统计;
[0033]22)将出现率高的词条按照所在的信息文本条目进行聚合,并提取出在不同条目的文本中均出现的短语或词条组合;
[0034]23)利用信息文本将短语或词条组合进行补全,得到热门话题。
[0035]所述的将热门话题进行处理发布具体为:
[0036]31)将热门话题以及相关的信息文本进行敏感词过滤处理,然后进行发布,发布模块将旧的话题移动到话题历史记录中;
[0037]32)对热门话题进行编辑,并检查相关的信息文本,以确保发布的内容合理可靠然后进行发布,发布模块将旧的话题移动到话题历史记录中。
[0038]所述的在社区展示话题和用户发布的相关内容具体为:
[0039]在社区部署的多媒体显示屏上以动态网页或者应用的形式对热门活题和相关内容进行展示,并且在每条信息旁边放置二维码标签作为该信息的网页链接,方便社区用户对该话题进行交互。
[0040]与现有技术相比,本发明具有突出将社会化媒体话题从社区的层面进行分割,从而引导社区居民关注和关心社区生活,营造更美好的社区环境。
【专利附图】
【附图说明】
[0041]图1是本发明中信息采集的流程图;
[0042]图2是本发明中分析展示的流程图。
【具体实施方式】
[0043]下面结合附图和具体实施例对本发明进行详细说明。
[0044]实施例
[0045]一种社区化的社会化媒体话题分析与发布方法,该方法包括以下步骤:
[0046]I)如图1所示,利用地理位置信息采集特定社区中的社会化媒体用户发布的内容;
[0047]利用社会化媒体提供的开放平台,根据用户发布内容时额外提供的经纬度信息,对用户的发布内容进行采集。将定位在特定社区内发布的社会化媒体内容保存到数据库中。本操作可以使用程序脚本在服务器上自动定时执行。例如使用Php脚本,每隔10分钟通过新浪微博地理位置信息API获取到上海交通大学内发布的含有地理位置信息的微博,并保存在服务器数据库中。
[0048]2)如图2所示,每隔Tl时间对采集到的T2时间内的社会化媒体信息进行分析处理得到当前热门话题;
[0049]所述的时间窗口 Tl和T2具体为:T1时间为系统话题的刷新率,每隔Tl时间进行一次话题的分析处理。T2时间为话题的热议时间,比如T2设置为24小时,系统在每次运行分析模块时就将分析得出过去24小时中社区居民在社会化媒体中讨论的热门话题。
[0050]而话题分析所用的方法具体为:[0051]101)从数据库中取出采集到的T2时间内的社会化媒体信息,逐条对信息文本进行分词,并对有意义的词条进行词频统计;
[0052]102)将出现率高的词条按照所在的信息文本条目进行聚合,也就是说提取出在不同条目的文本中均出现的短语或词条组合;
[0053]103)利用信息文本将短语或词条组合进行补全,得到有意义的热门话题;
[0054]3)如图2所示,将热门话题进行处理发布;
[0055]本系统的话题处理发布过程包括:
[0056]201)将热门话题以及相关的信息文本进行敏感词过滤处理,然后进行发布,发布模块将旧的话题移动到话题历史记录中。
[0057]202)对热门话题进行编辑,并检查相关的信息文本,以确保发布的内容合理可靠然后进行发布,发布模块将旧的话题移动到话题历史记录中。
[0058]4)在社区展示话题和用户发布的相关内容;
[0059]本系统在社区展示热门话题和相关内容的方法为:
[0060]在社区部署的多媒体显示屏上以动态网页或者应用的形式对热门话题和相关内容进行展示,并且在每条信息旁边放置二维码标签作为该信息的网页链接,方便社区用户对该话题进行交互。
【权利要求】
1.一种社区化的社会化媒体话题分析与发布方法,其特征在于,包括以下步骤: 1)利用地理位置信息采集特定社区中的社会化媒体用户发布的内容; 2)每隔Tl时间对T2时间内采集到的社会化媒体信息进行分析处理后,得到当前热门话题; 3)将热门话题进行处理发布; 4)在社区展示话题和用户发布的相关内容。
2.根据权利要求1所述的一种社区化的社会化媒体话题分析与发布方法,其特征在于,所述的社会化媒体为基于互联网的内容公开的信息传播平台,包括但不限于新浪微博和腾讯微博。
3.根据权利要求1所述的一种社区化的社会化媒体话题分析与发布方法,其特征在于,所述的特定社区为具备相对固定的社会化媒体用户群的居民活动区域,包括但不限于商业区、居住小区或公寓、以及大学。
4.根据权利要求1所述的一种社区化的社会化媒体话题分析与发布方法,其特征在于,所述的社会化媒体用户发布的内容具体为:社会化媒体用户在该媒体中发表的公开信肩、O
5.根据权利要求1所述的一种社区化的社会化媒体话题分析与发布方法,其特征在于,所述的利用地理位置信息采集特定社区中的社会化媒体用户发布的内容具体为: 11)利用社会化媒体提供的开放平台,根据用户发布内容时额外提供的定位信息,对用户的发布内容进行采集,并将定位在特定社区内发布的社会化媒体内容保存到数据库中; 12)利用社会化媒体提供的搜索平台,根据用户发布内容包含的关键字进行检索,对包含特定社区名称的用户发布内容进行采集,并保存在数据库中。
6.根据权利要求5所述的一种社区化的社会化媒体话题分析与发布方法,其特征在于,所述的步骤11)和12)均采用程序脚本在服务器上自动定时执行。
7.根据权利要求1所述的一种社区化的社会化媒体话题分析与发布方法,其特征在于,所述的Tl和T2具体为: Tl时间为系统话题的刷新率,每隔Tl时间进行一次话题的分析处理; T2时间为话题分析样本的时间区间,通过分析得出过去T2时间中社区居民在社会化媒体中讨论的热门话题。
8.根据权利要求1所述的一种社区化的社会化媒体话题分析与发布方法,其特征在于,对社会化媒体信息进行分析具体为: 21)从数据库中取出采集到的T2时间内的社会化媒体信息,逐条对信息文本进行分词,并对有意义的词条进行词频统计; 22)将出现率高的词条按照所在的信息文本条目进行聚合,并提取出在不同条目的文本中均出现的短语或词条组合; 23)利用信息文本将短语或词条组合进行补全,得到热门话题。
9.根据权利要求1所述的一种社区化的社会化媒体话题分析与发布方法,其特征在于,所述的将热门话题进行处理发布具体为: 31)将热门话题以及 相关的信息文本进行敏感词过滤处理,然后进行发布,发布模块将旧的话题移动到话题历史记录中;32)对热门话题进行编辑,并检查相关的信息文本,以确保发布的内容合理可靠然后进行发布,发布模块将旧的话题移动到话题历史记录中。
10.根据权利要求1所述的一种社区化的社会化媒体话题分析与发布方法,其特征在于,所述的在社区展示话题和用户发布的相关内容具体为: 在社区部署的多媒体显示屏上以动态网页或者应用的形式对热门话题和相关内容进行展示,并且在每条信息旁边放置二维码标签作为该信息的网页链接,方便社区用户对该话题进行交互。
【文档编号】G06F17/30GK103902716SQ201410137121
【公开日】2014年7月2日 申请日期:2014年4月8日 优先权日:2014年4月8日
【发明者】陆佳亮, 王际栋 申请人:上海交通大学