一种信息溯源方法、装置、设备及存储介质与流程

文档序号:23305765发布日期:2020-12-15 11:36阅读:152来源:国知局
一种信息溯源方法、装置、设备及存储介质与流程

本申请涉及互联网技术领域,尤其涉及一种信息溯源方法、装置、设备及存储介质。



背景技术:

自媒体是普通大众经由数字科技与全球知识体系相连之后,一种提供与分享他们本身的事实和新闻的途径;每天有大量的信息在自媒体平台上发布,其中有一部分为原创信息,也有部分是转载了平台上已有的信息稍加修改并发布,为了保护自媒体平台上原创作者的创作积极性,需要对平台上的相似发布信息进行原创溯源。

现有技术中一般是根据各类文本指纹方法识别具有类似指纹的信息类簇,例如计算标题和正文的哈希值,将哈希值的汉明距离小于某个阈值的信息归为同一类簇,然后计算同一个类簇下不同信息的发布时间戳,并根据发布时间戳将最早发布的信息确定为该类信息的原创信息。对于不同类型的信息,不同的转载平台对原始信息的改动尺度不同,如新闻类信息各平台发布报道的是同一事件,会有较高的相似性;而一般的散文如果被隐性转载后适度修改,则在指纹上的差异会相应更大。通过基于指纹汉明距离衡量信息相似度并进行溯源的方法存在难以确定适当汉明距离阈值的问题,因此亟需提出一种有效的信息溯源方法。



技术实现要素:

本申请所要解决的技术问题在于,提供一种信息溯源方法、装置、设备及存储介质,能够避免因信息指纹的汉明距离阈值选择不当导致的溯源结果不准确的情况,可应用于各类型的信息溯源且易于实现,从而提高了信息溯源的准确性和效率,进一步提升了用户体验。

为了解决上述技术问题,一方面,本申请提供了一种信息溯源方法,所述方法包括:

确定与目标话题关联的多项转载发布信息;

分别确定各项转载发布信息对应的转载信息发布平台,提取各项转载发布信息的标题字段信息和转载来源字段信息;

基于各转载信息发布平台,以及每个转载信息发布平台发布的转载发布信息中的转载来源字段信息,生成发布信息转载有向图;

基于所述发布信息转载有向图,确定发布与所述目标话题关联的源发布信息的候选信息发布平台集合;

基于各转载信息发布平台发布的转载发布信息中的标题字段信息,得到与所述候选信息发布平台集合中的候选信息发布平台对应的标题最长公共子串;

将所述标题最长公共子串与相应候选信息发布平台已发布的发布信息的标题字段信息进行匹配,基于匹配结果确定与所述目标话题关联的源发布信息,从所述候选信息发布平台集合中确定源信息发布平台。

另一方面,本申请提供了一种信息溯源装置,所述装置包括:

转载发布信息确定模块,用于确定与目标话题关联的多项转载发布信息;

字段信息提取模块,用于分别确定各项转载发布信息对应的转载信息发布平台,提取各项转载发布信息的标题字段信息和转载来源字段信息;

有向图生成模块,用于基于各转载信息发布平台,以及每个转载信息发布平台发布的转载发布信息中的转载来源字段信息,生成发布信息转载有向图;

候选信息发布平台集合确定模块,用于基于所述发布信息转载有向图,确定发布与所述目标话题关联的源发布信息的候选信息发布平台集合;

最长公共子串生成模块,用于基于各转载信息发布平台发布的转载发布信息中的标题字段信息,得到与所述候选信息发布平台集合中的候选信息发布平台对应的标题最长公共子串;

源发布信息确定模块,用于将所述标题最长公共子串与相应候选信息发布平台已发布的发布信息的标题字段信息进行匹配,基于匹配结果确定与所述目标话题关联的源发布信息,从所述候选信息发布平台集合中确定源信息发布平台。

另一方面,本申请提供了一种设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述的信息溯源方法。

另一方面,本申请提供了一种计算机存储介质,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行如上述的信息溯源方法。

实施本申请实施例,具有如下有益效果:

本申请通过确定与目标话题关联的多项转载发布信息对应的转载信息发布平台,提取各项转载发布信息的标题字段信息和转载来源字段信息;基于各转载信息发布平台以及发布的相应转载发布信息中的转载来源字段信息,生成发布信息转载有向图;通过生成的信息转载有向图,能够直观、形象地标识出各信息发布平台之间的发布信息转载关系,从而便于为后续基于信息转载有向图的分析操作提供基础;基于发布信息转载有向图,确定发布与目标话题关联的源发布信息的候选信息发布平台集合;基于各转载发布信息中的标题字段信息,得到与候选信息发布平台对应的标题最长公共子串;将标题最长公共子串与候选信息发布平台已发布的发布信息的标题字段进行匹配,从而确定出与目标话题关联的源发布信息,以及发布院发布信息的源信息发布平台。本申请能够避免因信息指纹的汉明距离阈值选择不当导致的溯源结果不准确的情况,从而提高了信息溯源的准确性和效率,并且可应用于各类型的信息溯源且易于实现,提高了信息溯源方法的适应性,从而进一步提升了用户体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。

图1是本申请实施例提供的实施环境示意图;

图2是本申请实施例提供的一种信息溯源方法流程图;

图3是本申请实施例提供的一种发布信息转载有向图生成方法流程图;

图4是本申请实施例提供的一种候选信息发布平台集合的确定方法流程图;

图5是本申请实施例提供的一种标题最长公共子串确定方法流程图;

图6是本申请实施例提供的一种标题最长公共子串的计算方法流程图;

图7是本申请实施例提供的一种源发布信息以及源信息发布平台确定方法流程图;

图8是本申请实施例提供的另一种源发布信息以及源信息发布平台确定方法流程图;

图9是本申请实施例提供的自媒体平台发布信息示意图;

图10是本申请实施例提供的自媒体平台转载有向图;

图11是本申请实施例提供的一种信息溯源装置示意图;

图12是本申请实施例提供的一种设备结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例提供的方案涉及人工智能技术(artificialintelligence,ai),人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

请参阅图1,其示出了本申请实施例提供的实施环境示意图,该实施环境可包括:至少一个第一终端110和第二终端120,所述第一终端110和所述第二终端120可通过网络进行数据通信。

具体地,第一终端110向第二终端120发送信息溯源请求,信息溯源请求中包括目标话题;第二终端120接收信息溯源请求,并根据其中包括的目标话题确定与目标话题关联的多项转载发布信息;基于各项转载发布信息的标题字段信息、转载来源字段信息,以及与各项转载发布信息对应的转载信息发布平台,确定出发布与目标话题关联的源发布信息以及发布源发布信息的源信息发布平台,从而实现了对于目标话题相关的信息的溯源。

第一终端110可以基于浏览器/服务器模式(browser/server,b/s)或客户端/服务器模式(client/server,c/s)与第二终端120进行通信。第一终端110可以包括:智能手机、平板电脑、笔记本电脑、数字助理、智能可穿戴设备、车载终端、服务器等类型的实体设备,也可以包括运行于实体设备中的软体,例如应用程序等。本申请实施例中的第一终端110上运行的操作系统可以包括但不限于安卓系统、ios系统、linux、windows等。

第二终端120与第一终端110可以通过有线或者无线建立通信连接,所述第二终端120可以包括一个独立运行的服务器,或者分布式服务器,或者由多个服务器组成的服务器集群,其中服务器可以是云端服务器。

本申请实施例中所提到的信息发布平台一般是指自媒体平台,为了解决现有技术中在对自媒体平台发布的信息进行信息溯源过程中存在的溯源结果不准确、效率低等问题,本申请实施例提供了一种信息溯源方法,该方法的执行主体可以为上述的第二终端,具体地,请参阅图2,一种信息溯源方法可包括:

s210.确定与目标话题关联的多项转载发布信息。

本申请实施例中的目标话题可以是预先确定的,也可以是用户在对发布信息的浏览、阅读过程中所确定的,具体实施过程中,目标话题可以为文字类型,也可以为图片类型;在确定了目标话题之后,用户可通过第一终端向第二终端发送信息溯源请求,该信息溯源请求中包括相关的目标话题。

每项转载发布信息一般可包括标题部分、正文部分以及转载说明部分,其中正文部分可包括文字、图片、语音、视频等相关类型信息中的至少一项或多项。第二终端在接收到信息溯源请求时,首先根据信息溯源请求中的目标话题,确定与该目标话题关联的多项转载发布信息。具体确定与目标话题关联的多项转载发布信息为:基于目标话题在各自媒体平台发布的全量发布信息中进行搜索匹配,将匹配一致的发布信息确定为与目标话题相关联的转载发布信息。其中,当目标话题为文字类型时,将目标话题与各发布信息的标题部分以及正文部分的文字内容进行匹配,当匹配一致时,确定当前发布信息为与目标话题关联的转载发布信息;当目标话题为图片类型时,将目标话题与各发布信息正文部分的图片内容进行匹配,当匹配一致时,确定当前发布信息为与目标话题关联的转载发布信息。从而既可以根据文字类型的目标话题确定关联的转载发布信息,也可以根据图片类型的目标话题确定关联的转载发布信息,提升了目标话题匹配的普适性及应用范围,使得根据目标话题确定关联转载发布信息的结果更加精准全面。

进一步地,根据目标话题进行搜索匹配后得到的关联转载发布信息的数据量比较大,在尽可能不影响信息溯源结果的基础上,为了节约计算资源,提高效率,可以在搜索匹配后得到的关联转载发布信息中选取出其中一部分作为信息溯源的依据,从而达到在节约资源的基础上实现信息溯源的技术效果。具体的转载发布信息的选取方法可以为随机选取一部分,或者是根据某种预设条件选取一部分,这里的预设条件可以为转载发布信息的发布时间、转载发布信息的阅读量等,例如将转载发布信息的发布时间早于预设时间的发布信息的确定为用于信息溯源的发布信息,或者将转载发布信息的阅读量大于预设值的发布信息的确定为用于信息溯源的发布信息。

s220.分别确定各项转载发布信息对应的转载信息发布平台,提取各项转载发布信息的标题字段信息和转载来源字段信息。

对于确定用于信息溯源的各项转载发布信息均会有相应的转载信息发布平台,即发布转载发布信息的平台;另外对于各项转载发布信息,分别提取其标题字段信息以及转载来源字段信息。

s230.基于各转载信息发布平台,以及每个转载信息发布平台发布的转载发布信息中的转载来源字段信息,生成发布信息转载有向图。

有向图是指全部由有向边构成的图,以有向图中的节点a为例,在所有与a关联的边中,以a为起点的有向边的条数称为出度,以a为终点的有向边的条数称为入度。

具体生成发布信息转载有向图的方法可参阅图3,包括:

s310.创建与各转载信息发布平台对应的节点。

这里的转载信息发布平台是根据上述各项转载发布信息确定的,从而可创建与各转载信息发布平台对应的节点。

s320.对于每个节点所对应的转载信息发布平台,基于所述转载信息发布平台的转载来源字段信息,确定所述转载信息发布平台指向的转载来源平台。

s330.判断是否存在与所述转载来源平台对应的节点。

对于步骤s310中的各转载信息发布平台,对于其中的某一个转载信息发布平台,有可能其指向的转载来源平台已包含在已确定好的各转载信息发布平台中,相应地在步骤s310中已创建与该转载来源平台对应的节点;也有可能其指向的转载来源平台并没有包含在已确定好的各转载信息发布平台中,从而需要新创建与转载来源平台对应的节点;具体过程可参见步骤s340和步骤s350。

s340.当存在与所述转载来源平台对应的节点时,创建由所述转载信息发布平台对应的节点到所述转载来源平台对应的节点的有向边。

这里由转载信息发布平台对应的节点到转载来源平台对应的节点的有向边是指:以转载信息发布平台对应的节点为起点,转载来源平台对应的节点为终点的有向边。

s350.当不存在与所述转载来源平台对应的节点时,创建与所述转载来源平台对应的节点,创建由所述转载信息发布平台对应的节点到所述转载来源平台对应的节点的有向边。

s360.基于所述转载信息发布平台对应的节点、所述转载来源平台对应的节点和各条有向边,得到所述发布信息转载有向图。

最终得到的发布信息转载有向图中可包括转载信息发布平台对应的节点、转载来源平台对应的节点和各条有向边,其中转载信息发布平台对应的节点与转载来源平台对应的节点可能存在重叠部分,即某个节点既是与转载来源平台对应的节点,又是与转载来源平台对应的节点,但在有向图中只体现为一个节点,可通过有向边的形式体现该节点与其他节点的转载关系。

s240.基于所述发布信息转载有向图,确定发布与所述目标话题关联的源发布信息的候选信息发布平台集合。

请参阅图4,其示出了一种候选信息发布平台集合的确定方法,该方法可包括:

s410.计算所述转载有向图中各个节点的入度数。

得到发布信息转载有向图后,可确定有向图中每个节点的入度数,每个节点的入度数的计算方法可为:分别统计以各节点为终点的有向边的条数,从而可得到各节点的入度数。该入度数可用于表示该节点对应的信息发布平台中相应发布信息被转载的次数。

s420.对所述各个节点的入度数进行排序,得到入度数最大的节点。

s430.确定与所述入度数最大的节点对应的信息发布平台。

s440.基于与所述入度数最大的节点对应的信息发布平台生成所述候选信息发布平台集合。

需要说明的是,这里确定的入度数最大的节点可能为一个或者多个,从而相应确定的候选信息发布平台可能为一个或多个,候选信息发布平台集合中的元素个数也可能为一个或者多个。

根据发布信息转载有向图中各节点的入度数来确定候选信息发布平台集合的方法较为直观,并且容易实现,从而可便利地实现候选信息发布平台集合的确定。

s250.基于各转载信息发布平台发布的转载发布信息中的标题字段信息,得到与所述候选信息发布平台集合中的候选信息发布平台对应的标题最长公共子串。

这里每项标题最长公共子串均对应一个候选信息发布平台,每项标题最长公共子串均是基于具有相同转载来源字段信息的转载发布信息的标题字段信息确定的,这个相同转载来源字段信息中所指向的转载来源平台即为该项标题最长公共子串对应的候选信息发布平台。具体请参阅图5,其示出了一种标题最长公共子串确定方法,该方法可包括:

s510.将具有相同转载来源字段信息的转载发布信息所对应的转载信息发布平台划分为一组,得到至少一个发布平台分组。

具体可通过提取的各项转载发布信息的转载来源字段信息来确定具有相同转载来源字段信息的转载发布信息,再将发布相应转载发布信息的转载信息发布平台划分为一组。

s520.基于每个发布平台分组对应的转载来源字段信息确定与所述发布平台分组对应的候选信息发布平台。

每个发布平台分组中的各转载信息发布平台均指向同一转载来源平台,该转载来源平台即为候选信息发布平台。

s530.基于所述发布平台分组中各转载信息发布平台对应的标题字段信息得到与所述候选信息发布平台对应的标题最长公共子串。

对于每个发布平台分组,基于该分组中各转载信息发布平台所发布的转载发布信息的标题字段信息,可生成相应的标题最长公共子串。

对于具体计算标题最长公共子串的方法可参阅图6,以单个发布平台分组为例进行说明,该方法可包括:

s610.基于所述发布平台分组中各转载信息发布平台对应的标题字段信息生成标题字段信息集合。

对于每个发布平台分组,确定其中各转载信息发布平台对应的标题字段信息,并生成与该发布平台分组对应的标题字段信息集合。

s620.从所述标题字段信息集合中无放回地任意取出两项标题字段信息,计算这两项标题字段信息字符串的当前最长公共子串。

在得到标题字段信息集合之后,从中无放回地任意选取两项标题字段信息,并计算这两项标题字段信息字符串的当前最长公共子串,这里的当前最长公共子串可作为初始最长公共子串。

s630.从当前的标题字段信息集合中无放回地任意取出一项标题字段信息,基于当前最长公共子串和当前取出的标题字段信息,更新当前最长公共子串。

在第一次执行无放回地从当前标题字段信息集合中选取一项标题字段信息时,所基于的当前最长公共子串即为上述的初始最长公共子串;在每次执行完无放回地从当前标题字段信息集合中选取一项标题字段信息所得到的当前最长公共子串可用于在下一次循环中计算最长公共子串。

s640.判断当前的标题字段信息集合为空;若当前的标题字段信息集合不为空,执行步骤s630;若当前的标题字段信息集合为空,执行步骤s650。

s650.确定当前最长公共子串为与所述候选信息发布平台对应的标题最长公共子串。

通过上述最长公共子串的计算方法得到了与每个候选信息发布平台对应的标题最长公共子串,基于标题最长公共子串可得出相应候选信息发布平台中与之相匹配的已发布信息。

s260.将所述标题最长公共子串与相应候选信息发布平台已发布的发布信息的标题字段信息进行匹配,基于匹配结果确定与所述目标话题关联的源发布信息,从所述候选信息发布平台集合中确定源信息发布平台。

对于具体源发布信息的确定可基于标题最长公共子串以及与之对应的候选信息发布平台已发布的发布信息来实现;根据上述内容可知,基于发布信息转载有向图确定的候选信息发布平台可能有一个或者多个,这里分别对这两种情况下进行源发布信息以及源信息发布平台的确定过程进行说明。

请参阅图7,其示出了一种源发布信息以及源信息发布平台确定方法,其适用于候选信息发布平台为一个的情形,具体可包括:

s710.当所述候选信息发布平台集合中的候选信息发布平台为一个时,确定所述候选信息发布平台集合中的候选信息发布平台为所述源信息发布平台。

当候选信息发布平台集合中只有一个候选信息发布平台,那么可直接将其确定为源信息发布平台。

s720.将所述标题最长公共子串与所述源信息发布平台已发布的发布信息的标题字段信息进行匹配。

s730.将匹配成功的发布信息确定为与所述目标话题关联的源发布信息。

源发布信息必然是由源信息发布平台所发布的,在确定了源信息发布平台之后,可将与源信息发布平台对应的标题最长公共子串与源信息发布平台所有已发布信息的标题字段信息进行匹配,若在源信息发布平台的已发布信息的标题字段信息中匹配到标题最长公共子串,则确定匹配成功,并将与标题最长公共子串相匹配的标题字段信息所对应的已发布信息确定为源发布信息。

请参阅图8,其示出了另一种源发布信息以及源信息发布平台确定方法,其适用于候选信息发布平台为多个的情形,具体可包括:

s810.当所述候选信息发布平台集合中的候选信息发布平台为多个时,将与每个候选信息发布平台对应的标题最长公共子串分别与相应候选信息发布平台已发布的发布信息的标题字段信息进行匹配。

s820.将匹配成功的发布信息确定为所述候选信息发布平台中与所述目标话题关联的候选发布信息。

当候选信息发布平台为多个时,可以首先确定源发布信息;具体可以是对于每个候选信息发布平台,将该候选信息发布平台对应的标题最长公共子串分别与该候选信息发布平台所有已发布信息的标题字段信息进行匹配,当匹配成功时,可得到每个候选信息发布平台发布的与目标话题关联的发布信息,这些与目标话题关联的发布信息为候选发布信息。

s830.获取各候选信息发布平台中与所述目标话题关联的候选发布信息的发布时间戳。

s840.确定最早时间戳对应的候选发布信息为所述源发布信息,确定发布所述源发布信息的信息发布平台为所述源信息发布平台。

在确定了多项候选发布信息之后,需要从中确定出源发布信息,具体地,本申请实施例中可通过比较发布时间戳的方式来确定源发布信息,即获取各候选发布信息的发布时间戳,将最早时间戳对应的候选发布信息确定为源发布信息,从而发布源发布信息的信息发布平台即为源信息发布平台。

进一步地,上述实施例中是将标题最长公共子串与候选信息发布平台已发布的发布信息的标题字段信息进行匹配,在实施过程中,可能会出现直接根据标题字段信息进行匹配出现匹配失败的情况,从而为了避免匹配失败的情况出现,可在基于标题字段信息匹配失败时,将候选信息发布平台对应的标题最长公共子串与候选信息发布平台已发布信息的正文内容部分进行匹配,以提高匹配准确率。

通过信息溯源之后得到了与目标话题相关联的源发布信息,可为该源发布信息打上“原创”标记,从而在基于目标话题进行发布信息搜索时,对带有“原创”标记的发布信息予以加权,在推荐分发时排序靠前。

本申请通过确定与目标话题关联的多项转载发布信息对应的转载信息发布平台,提取各项转载发布信息的标题字段信息和转载来源字段信息;基于各转载信息发布平台以及发布的相应转载发布信息中的转载来源字段信息,生成发布信息转载有向图;通过生成的信息转载有向图,能够直观、形象地标识出各信息发布平台之间的发布信息转载关系,从而便于为后续基于信息转载有向图的分析操作提供基础;基于发布信息转载有向图,确定发布与目标话题关联的源发布信息的候选信息发布平台集合;基于各转载发布信息中的标题字段信息,得到与候选信息发布平台对应的标题最长公共子串;将标题最长公共子串与候选信息发布平台已发布的发布信息的标题字段进行匹配,从而确定出与目标话题关联的源发布信息,以及发布院发布信息的源信息发布平台。本申请能够避免因信息指纹的汉明距离阈值选择不当导致的溯源结果不准确的情况,从而提高了信息溯源的准确性和效率,并且可应用于各类型的信息溯源且易于实现,提高了信息溯源方法的适应性,从而进一步提升了用户体验。

下面以一示例来说明本申请的具体实施过程,请参阅图9,其示出了自媒体平台发布信息示意图,从图9(a)中可以看出,自媒体平台a转载了一篇文章,标题为:喝茶能刮油减肥?真相是,来源为:自媒体平台d;自媒体平台b转载了一篇文章,标题为:很多人说喝茶能刮油减肥,抱歉,这又是谣言,来源为:自媒体平台d;自媒体平台c转载了一篇文章,标题为:喝茶能刮油减肥?真相是,来源为:自媒体平台d;即自媒体平台a、自媒体平台b以及自媒体平台c均转载了自媒体平台d的相关文章。从图9(b)中可以看出,自媒体平台e转载了一篇文章,标题为:喝茶能刮油减肥?真相是,来源为:自媒体平台c;自媒体平台f转载了一篇文章,标题为:喝茶能刮油减肥?真相是,来源为:自媒体平台c;自媒体平台g转载了一篇文章,标题为:喝茶能刮油减肥?真相是,来源为:自媒体平台c;即自媒体平台e、自媒体平台f以及自媒体平台g均转载了自媒体平台c的相关文章。

通过网页结构化工具对各自媒体平台发布的文章中的来源字段信息进行提取,从而生成了如图10所示的自媒体平台转载有向图,从图10中可以看出,节点c和节点d的入度均最大,为3,从而可确定自媒体平台c和自媒体平台d为候选源自媒体平台,将自媒体平台c发布的标题为“喝茶能刮油减肥?真相是”的文章确定为候选原创文章。自媒体平台a、自媒体平台b以及自媒体平台c均转载了自媒体平台d的相关文章,但具体不知道引用的是哪一篇文章,故首先计算自媒体平台a、自媒体平台b以及自媒体平台c发布信息的标题字段信息计算最大公共子串,具体可基于一般化的基于动态规划的最大公共子序列算法求解,将自媒体平台a、自媒体平台b以及自媒体平台c发布信息的标题字段信息a,b,c分别按字存入定长为max的数组a[],b[],c[],求解多个字符串的最长公共子串可以转换为计算两两字符串之间最长公共子串,然后再跟第3个,第4个字符串执行同样的操作,以期找到最终的最大公共子串。故本申请实施例中就以求解两两最长公共子串阐述此算法核心,即定义res[i][j]为标题a的第i个字为起始和截止到标题b的第j个字符结束的最长公共字串,则有代码:

if((i==0)or(j==0))

{

res[i][j]=0;

}

if(a[i]=b[j])

{

res[i][j]=res[i-1][j-1]+1;

}

else

{

res[i][j]=max(res[i-1][j],res[i][j-1]);

}

通过执行上述代码,得到标题字段信息a,b,c的最大公共子串为“喝茶能刮油减肥”,使用该最大公共子串和自媒体平台d发布的所有文章的文章标题按字做匹配,则可找到自媒体平台d中一篇标题为“最近,有一个谣言叫做喝茶能刮油减肥”的文章,将其确定为候选原创文章。若提取的该文章发布的时间戳为2018/11/12,对比自媒体平台c所发布的标题为“喝茶能刮油减肥?真相是”的候选原创文章,提取该文章发布的时间戳为2018/11/13,从而可以判断自媒体平台d所发布的标题为“最近,有一个谣言叫做喝茶能刮油减肥”的文章为最终溯源得到的文章。

从而,本申请能够基于自媒体平台中显式标明的转载来源字段信息,构建相同发布文章的转载连接有向图,然后计算该有向图中不同自媒体平台的入度确定候选源自媒体平台,最后基于指向候选源自媒体平台的其他自媒体平台的文章标题最大公共子串,匹配查找候选源自媒体平台中对应的文章,并将该文章确定为溯源的原创文章。

相应地,请参阅图11,本申请实施例还提供了一种信息溯源装置,可包括:

转载发布信息确定模块1110,用于确定与目标话题关联的多项转载发布信息;

字段信息提取模块1120,用于分别确定各项转载发布信息对应的转载信息发布平台,提取各项转载发布信息的标题字段信息和转载来源字段信息;

有向图生成模块1130,用于基于各转载信息发布平台,以及每个转载信息发布平台发布的转载发布信息中的转载来源字段信息,生成发布信息转载有向图;

候选信息发布平台集合确定模块1140,用于基于所述发布信息转载有向图,确定发布与所述目标话题关联的源发布信息的候选信息发布平台集合;

最长公共子串生成模块1150,用于基于各转载信息发布平台发布的转载发布信息中的标题字段信息,得到与所述候选信息发布平台集合中的候选信息发布平台对应的标题最长公共子串;

源发布信息确定模块1160,用于将所述标题最长公共子串与相应候选信息发布平台已发布的发布信息的标题字段信息进行匹配,基于匹配结果确定与所述目标话题关联的源发布信息,从所述候选信息发布平台集合中确定源信息发布平台。

进一步地,有向图生成模块1130包括:

第一创建模块,用于创建与各转载信息发布平台对应的节点;

转载来源平台确定模块,用于对于每个节点所对应的转载信息发布平台,基于所述转载信息发布平台的转载来源字段信息,确定所述转载信息发布平台指向的转载来源平台;

第二创建模块,用于当存在与所述转载来源平台对应的节点时,创建由所述转载信息发布平台对应的节点到所述转载来源平台对应的节点的有向边;

第三创建模块,用于当不存在与所述转载来源平台对应的节点时,创建与所述转载来源平台对应的节点,创建由所述转载信息发布平台对应的节点到所述转载来源平台对应的节点的有向边;

第一生成模块,用于基于所述转载信息发布平台对应的节点、所述转载来源平台对应的节点和各条有向边,得到所述发布信息转载有向图。

进一步地,候选信息发布平台集合确定模块1140包括:

入度数计算模块,用于计算所述转载有向图中各个节点的入度数;

排序模块,用于对所述各个节点的入度数进行排序,得到入度数最大的节点;

第一确定模块,用于确定与所述入度数最大的节点对应的信息发布平台;

第二生成模块,用于基于与所述入度数最大的节点对应的信息发布平台生成所述候选信息发布平台集合。

进一步地,最长公共子串生成模块1150包括:

分组模块,用于将具有相同转载来源字段信息的转载发布信息所对应的转载信息发布平台划分为一组,得到至少一个发布平台分组;

第二确定模块,用于基于每个发布平台分组对应的转载来源字段信息确定与所述发布平台分组对应的候选信息发布平台;

第三生成模块,用于基于所述发布平台分组中各转载信息发布平台对应的标题字段信息得到与所述候选信息发布平台对应的标题最长公共子串。

进一步地,第三生成模块包括:

标题字段信息集合生成模块,用于基于所述发布平台分组中各转载信息发布平台对应的标题字段信息生成标题字段信息集合;

第一选取模块,用于从所述标题字段信息集合中无放回地任意取出两项标题字段信息,计算这两项标题字段信息字符串的当前最长公共子串;

第二选取模块,用于从当前的标题字段信息集合中无放回地任意取出一项标题字段信息,基于当前最长公共子串和当前取出的标题字段信息,更新当前最长公共子串;

重复执行模块,用于重复执行:从当前的标题字段信息集合中无放回地任意取出一项标题字段信息,基于当前最长公共子串和当前取出的标题字段信息,更新当前最长公共子串;直至当前的标题字段信息集合为空;

第三确定模块,用于确定当前最长公共子串为与所述候选信息发布平台对应的标题最长公共子串。

进一步地,源发布信息确定模块1160包括:

第四确定模块,用于当所述候选信息发布平台集合中的候选信息发布平台为一个时,确定所述候选信息发布平台集合中的候选信息发布平台为所述源信息发布平台;

第一匹配模块,用于将所述标题最长公共子串与所述源信息发布平台已发布的发布信息的标题字段信息进行匹配;

第五确定模块,用于将匹配成功的发布信息确定为与所述目标话题关联的源发布信息。

优选地,源发布信息确定模块1160还可以包括:

第二匹配模块,用于当所述候选信息发布平台集合中的候选信息发布平台为多个时,将与每个候选信息发布平台对应的标题最长公共子串分别与相应候选信息发布平台已发布的发布信息的标题字段信息进行匹配;

第六确定模块,用于将匹配成功的发布信息确定为所述候选信息发布平台中与所述目标话题关联的候选发布信息;

时间戳获取模块,用于获取各候选信息发布平台中与所述目标话题关联的候选发布信息的发布时间戳;

第七确定模块,用于确定最早时间戳对应的候选发布信息为所述源发布信息,确定发布所述源发布信息的信息发布平台为所述源信息发布平台。

上述实施例中提供的装置可执行本申请任意实施例所提供方法,具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本申请任意实施例所提供的方法。

本实施例还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行如本实施例上述任一方法。

本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如本实施例上述任一方法。

本实施例还提供了一种设备,其结构图请参见图12,该设备1200可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessingunits,cpu)1222(例如,一个或一个以上处理器)和存储器1232,一个或一个以上存储应用程序1242或数据1244的存储媒体1230(例如一个或一个以上海量存储设备)。其中,存储器1232和存储媒体1230可以是短暂存储或持久存储。存储在存储媒体1230的程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对设备中的一系列指令操作。更进一步地,中央处理器1222可以设置为与存储媒体1230通信,在设备1200上执行存储媒体1230中的一系列指令操作。设备1200还可以包括一个或一个以上电源1226,一个或一个以上有线或无线网络接口1250,一个或一个以上输入输出接口1258,和/或,一个或一个以上操作系统1241,例如windowsservertm,macosxtm,unixtm,linuxtm,freebsdtm等等。本实施例上述的任一方法均可基于图12所示的设备进行实施。

本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤和顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或中断产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

本实施例中所示出的结构,仅仅是与本申请方案相关的部分结构,并不构成对本申请方案所应用于其上的设备的限定,具体的设备可以包括比示出的更多或更少的部件,或者组合某些部件,或者具有不同的部件的布置。应当理解到,本实施例中所揭露的方法、装置等,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分仅仅为一种逻辑功能的划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元模块的间接耦合或通信连接。

基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员还可以进一步意识到,结合本说明书所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但这种实现不应认为超出本申请的范围。

以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1