用于确定影响力指数的方法及其装置与流程

文档序号:15851278发布日期:2018-11-07 09:59阅读:191来源:国知局
用于确定影响力指数的方法及其装置与流程

本公开涉及互联网领域,尤其涉及一种用于确定影响力指数的方法及其装置。

背景技术

随着互联网的发展,人们可以通过多种渠道获取信息,例如,人们可以通过新闻平台、社交网络平台、即时通信平台甚至购物平台等多个平台获取信息。由此,会产生大量的“热点”新闻,例如,“两会”、“高考”。

通常,各大平台会按照各自的指标确定“热点”的影响力指数。随后按照影响力指数对“热点”进行排序并推荐给用户。以微博为例,其会按照包含热搜(即“热点”)的微博的转发量作为影响力指数,并根据影响力指数对热搜进行排名。

由此可以看出,在现有的影响力指数无法适用于来源不同的数据,并且无法准确地评价“热点”。



技术实现要素:

为克服相关技术中存在的问题,本公开提供一种用于确定影响力指数的方法及其装置。

根据本公开的一方面,提供了一种用于确定影响力指数的方法,所述方法包括:从多个平台获取数据;通过将所述数据进行聚类来确定数据的主题;针对每个主题,从所述数据中筛选出包含所述主题的信息;通过根据影响力模型对每个主题筛选出的信息进行计算,计算每个主题的影响力指数。

在一种可能的实现方式中,所述数据的类型包括文本、音频、图像和视频。

在一种可能的实现方式中,当所述数据的类型包括音频、图像或视频时,所述方法在通过将所述数据进行聚类来确定数据的主题之前,通过语音识别方法或图像识别方法,将音频、图像或视频转换为文本。

在一种可能的实现方式中,所述影响力模型是通过多个指标以及与所述多个指标对应的多个权重来确定的。

在一种可能的实现方式中,所述多个指标包括与数量相关的指标和与内容相关的指标。

在一种可能的实现方式中,与数量相关的指标包括传播力、单平台影响力、多平台影响力中的一个或多个。

在一种可能的实现方式中,以内容评价的指标可包括情感指数和内容评价中的一个或全部。

在一种可能的实现方式中,所述多个指标还包括公信力和传播影响力中的一个或多个。

根据本公开实施例的第二方面,提供一种用于确定影响力指数的装置,所述装置包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:从多个平台获取数据;通过将所述数据进行聚类来确定数据的主题;针对每个主题,从所述信息中筛选出包含所述主题的信息;通过根据影响力模型对每个主题筛选出的信息进行计算,从而计算每个主题的影响力指数。

根据本公开实施例的第三方面,提供一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其中,所述计算机程序指令被处理器执行时实现上述方法。

根据本公开实施例的第四方面,提供一种用于确定影响力指数的装置,所述装置包括:获取模块,用于从多个平台获取数据;确定模块,用于通过将所述数据进行聚类来确定数据的主题;筛选模块:用于针对每个主题,从所述数据中筛选出包含所述主题的信息;计算模块:用于通过根据影响力模型对每个主题筛选出的信息进行计算,计算每个主题的影响力指数。

在一种可能的实现方式中,所述数据的类型包括文本、音频、图像和视频。

在一种可能的实现方式中,所述装置还包括:转换模块,当所述数据的类型包括音频、图像或视频时,在通过将所述数据进行聚类来确定数据的主题之前,所述转换模块用于通过语音识别方法或图像识别方法,将音频、图像或视频转换为文本。

在一种可能的实现方式中,所述影响力模型是通过多个指标以及与所述多个指标对应的多个权重来确定的。

在一种可能的实现方式中,所述多个指标包括与数量相关的指标和与内容相关的指标。

在一种可能的实现方式中,与数量相关的指标包括传播力、单平台影响力、多平台影响力中的一个或多个。

在一种可能的实现方式中,其特征在于,以内容评价的指标可包括情感指数和内容评价中的一个或全部。

在一种可能的实现方式中,所述多个指标还包括公信力和传播影响力中的一个或多个。

本公开的实施例提供的技术方案可以包括以下有益效果:可对不同来源的数据进行标准化处理,并对确定的主题进行量化评价,从而可使用户可直观地看出当前“热点”。

根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。

图1示出根据本公开一实施例的用于确定影响力指数的方法的流程图。

图2示出根据本公开一实施例的用于确定影响力指数的装置的框图。

图3示出根据本公开一实施例的用于确定影响力指数的装置的框图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。

图1示出根据本公开一实施例的用于确定影响力指数的流程图。如图1所示,在步骤s110,从多个平台获取数据。具体来说,可利用网络爬虫技术从各大平台(例如,门户网站、资讯网站、论坛、贴吧等平台)获取大量数据,所述数据包括各种类型的数据,例如,所述数据可以是不同类型的数据,包括例如音频、视频、图像、文本。在可选实施例中,所述方法可根据接收到的包括关键词的用户输入,提取出包含所述关键词的所有数据。在另一可选实施例中,用户可指定平台,也就是说,仅获取来自特定平台的数据。

随后,在步骤s120,通过将所述数据进行聚类来确定数据的主题。具体来说,可通过tf-idf算法提取所有数据中的关键词,当某一关键词出现的次数达到预定阈值后,则确定该关键词为数据的主题。因此,某一新闻数据中有可能会出现多个主题。可选地,当所述数据是音频数据时,可利用语音识别技术,将音频数据转换为文本数据,随后再对数据进行聚类。而当所述数据是视频数据或图像数据时,可利用图像识别技术,将视频数据或图像数据转换为文本数据,随后再对数据进行聚类。可以看出,通过对所述数据进行聚类可以确定多个主题,下面将对每个主题分别计算影响力指数。

在可选实施例中,在进行步骤s120之前,可对在步骤s110中获取的数据进行清洗处理。所述清洗处理包括使用安全过滤工具过滤掉数据中的黄赌毒暴数据,例如,可基于与黄赌毒暴相关的词库,并将数据中包含所述词库中的词语的信息进行过滤。此外,所述清洗处理还包括过滤重复数据,例如,可基于simhash算法过滤掉重复数据,由于该算法是本领域技术人员惯用的算法,在此将不再描述,或者根据用户需求过滤掉来源于站点权重过低的数据。可选地,可按照经验或用户需求,仅选择特定时间段内的数据,例如,从多个平台获取三天以内的数据。

在步骤s120确定数据的主题之后,在步骤130,针对每个主题,从所述数据中筛选出包含所述主题的信息,也就是说,在获取的数据中仅保留包含当前主题的信息。例如,从多个平台获取到1000篇新闻,并确定了主题“小猪佩奇”,则从这1000篇新闻中筛选出包含主题“小猪佩奇”的新闻。

最后,在步骤140,通过根据影响力模型对每个主题筛选出的信息进行计算,计算每个主题的影响力指数。所述影响力模型是用于计算影响力的模型,在本申请中,所述影响力模型在对多个指标加权求平均后获得。优选地,所述指标可包括以数量评价的指标和以内容评价的指标,其中,以数量评价的指标可包括传播力、单平台影响力、多平台影响力;以内容评价的指标可包括情感指数和内容评价。在可选实施例中,所述指标还可包括公信力和传播影响力。可以看出,在本申请中,所述影响力模型中的指标可包括传播力、公信力、单平台影响力、多平台影响力、情感指数、传播影响力和内容评价。

下面将对影响力模型涉及的多个指标分别进行解释。传播力是指包含所述主题的信息占总数据中的比例,以下公式1为传播力的计算公式:

l0=qn/∑qq∈(n*)公式1

其中,l0表示所述主题的传播力,qn表示包含所述主题的信息的数量,q表示所有信息的数量。

公信力可从信息创造者、信息呈现者和媒介平台三个方面进行评价。在本申请中,公信力通过媒介平台进行评价。具体来说,可对不同的平台设置不同的权重,随后利用平台及其对应的权重对每个信息的公信力进行评价,以下公式2为公信力的计算公式:

l1=wx*br/10公式2

其中,l1表示所述信息的公信力,wx表示包含所述主题的某一信息所在的平台的权重,br为平台的百度权重值,在实际使用中,可根据需求采用可信度高的对各个平台进行排名的权重值。

单平台影响力通过包含所述主题的信息在每个平台上的参数计算得出的。举例来说,可确定在某一平台上所述主题涉及的各个参数,例如,评论量、转发量和点赞量,随后,通过各个参数来表示所述主题在该平台上的影响力,并对不同的参数设置不同的权值,由此获得单平台影响力,以下公式3为单平台影响力的计算公式:

l2=w1x1+w2x2+w3xx公式3

其中,l2为某一平台的单平台影响力,wi为不同参数xi(评论量、转发量、点赞量)定义的权重。

多平台影响力通过所述主题在不同平台之间的转发量来确定。应注意,不同平台的性质可能相同也可能不同,例如,不同平台的性质可以都是社交网络平台也可以是社交网络平台和即时通讯平台等。举例来说,包含“网红”的新闻在网易新闻平台上被转发到微信平台上5次,被转发到微博平台上10次,从网易新闻平台转发至今日头条平台15次。在实际使用中,可利用跨平台的转发量来确定多平台影响力。以下公式4为多平台影响力的计算公式:

l3=w1x1+w2x2+w3xx公式4

其中,l3为某一信息的多平台影响力,wi为不同平台的权重值,所述权重值根据由权威机构发布的信息计算得到或根据用户需求设置,xi则表示在不同平台之间的转发量。

情感指数又称作情感分析(sa),它是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。在本申请中,可用l4表示情感指数,可采用基于词典的方法或基于机器学习的方法对每个信息计算情感指数,由于以上两种方法均为现有技术,在此将不再进行描述。

传播影响力是用于表示每个新闻在时间上的影响力,具体来说,可通过当前时间减去发布时间获得传播时间,作为输入计算传播影响力,公式如下:

l5=(dn-ds)*-0.1049+1.0755公式5

其中,l5为某一信息的传播影响力,dn-ds为距今时间天数。

内容评价是指根据信息中包含的内容的可读性来评价所述信息。在实际应用中可利用词向量(word2vec)来对所述信息中的每个句子进行打分,其中,词向量用于将自然语言中的词语转化为计算机可以理解的稠密向量(densevector),此外,词向量可根据词与词之间的关系,生成与每个词对应的向量,从而可以表示出词语之间的相关性。而在本申请中,可在对信息进行分词之后,由每个分词来表示单个句子。由此,可根据每个分词对应的向量来计算出句子与句子之间的相关性,由此,可计算得出所述信息的内容评价值。在该申请中,可用l6来表示内容评价值。

在分别计算出以上指标之后,可利用公式7来计算主题的影响力指数。

其中,l为影响力指数,li是以上各个指标,wi是各个指标对应的权重,其中,wi是技术人员根据实际需求设置的权重。应注意,公式7示出影响力指数包括7个指标的情况,在实际使用中,影响力指数的公式会根据指标数量的不同而进行适应性地修改。

由此可以看出,本公开实施例提供的用于确定影响力指数的方法通过分析全网数据来获取主题并可通过影响力模型进行分析,从而能够在准确获取热点信息的情况下,对热点信息的热度进行量化评价。更进一步地,所述方法可从不同平台获取各种类型的数据并对这些数据进行处理,从而能够更全面地确定热点。更进一步地,所述影响力模型涉及多个指标,从而能够更全面地评价每个信息,并且对不同的指标设置不同的权重,从而能够更准确低评价每个信息。

图2示出根据本公开一实施例的用于确定影响力指数的装置的框图。如图2所述,所述装置200包括获取模块210、确定模块220、筛选模块230和计算模块240。

获取模块210从多个平台获取数据;确定模块220通过将所述数据进行聚类来确定数据的主题;筛选模块230针对每个主题,从所述数据中筛选出包含所述主题的信息;计算模块240通过根据影响力模型对每个主题筛选出的信息进行计算,计算每个主题的影响力指数。

可选地,所述数据的类型可包括文本、音频、图像和视频。

可选地,所述装置200还包括转换模块(未示出)。当所述数据的类型包括音频、图像或视频时,在通过将所述数据进行聚类来确定数据的主题之前,所述转换模块用于通过语音识别方法或图像识别方法,将音频、图像或视频转换为文本。

可选地,所述影响力模型是通过多个指标以及与所述多个指标对应的多个权重来确定的。

可选地,所述多个指标包括与数量相关的指标和与内容相关的指标。

可选地,与数量相关的指标包括传播力、单平台影响力、多平台影响力中的一个或多个。

可选地,以内容评价的指标可包括情感指数和内容评价中的一个或全部。

可选地,所述多个指标还包括公信力和传播影响力中的一个或多个。

由此可以看出,本公开实施例提供的用于确定影响力指数的装置通过分析全网数据来获取主题并可通过影响力模型进行分析,从而能够在准确获取热点信息的情况下,对热点信息的热度进行量化评价。更进一步地,所述装置可从不同平台获取各种类型的数据并对这些数据进行处理,从而能够更全面地确定热点。更进一步地,所述影响力模型涉及多个指标,从而能够更全面地评价每个信息,并且对不同的指标设置不同的权重,从而能够更准确低评价每个信息。

图3是根据一示例性实施例示出的一种用于确定影响力指数的装置1900的框图。例如,所述装置1900可以被提供为一服务器。参照图3,所述装置1900包括处理组件1922,其进一步包括一个或多个处理器,以及由存储器1932所代表的存储器资源,用于存储可由处理组件1922的执行的指令,例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1922被配置为执行指令,以执行上述方法。

所述装置1900还可以包括一个电源组件1926被配置为执行所述装置1900的电源管理,一个有线或无线网络接口1950被配置为将所述装置1900连接到网络,和一个输入输出(i/o)接口1958。所述装置1900可以操作基于存储在存储器1932的操作系统,例如windowsservertm,macosxtm,unixtm,linuxtm,freebsdtm或类似。

在示例性实施例中,还提供了一种非易失性计算机可读存储介质,例如包括计算机程序指令的存储器1932,上述计算机程序指令可由所述装置1900的处理组件1922执行以完成上述方法。

本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是——但不限于——电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式压缩盘只读存储器(cd-rom)、数字多功能盘(dvd)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言-诸如smalltalk、c++等,以及常规的过程式编程语言-诸如“c”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络-包括局域网(lan)或广域网(wan)-连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1