文档相似度计算方法及相似文档全网检索跟踪方法

文档序号:10724866阅读:310来源:国知局
文档相似度计算方法及相似文档全网检索跟踪方法
【专利摘要】本发明涉及一种文档相似度计算方法及相似文档全网检索跟踪方法。本发明的目的是提供一种文档相似度计算方法及相似文档全网检索跟踪方法。本发明的技术方案是:一种文档相似度计算方法,其特征在于:S01、文档分解:对原创文档和目标文档分别进行切词处理,得到各自的分词集合;S02、预处理与特征加权:利用TF?IDF技术对每个分词计算权重,提取核心关键词;利用Word2vec挖掘文档中不同分词之间的关联程度,对每篇文档进行语义分析;S03、向量空间模型与余弦相似度算法:利用向量空间中两个向量夹角的余弦值作为衡量两篇文档的相似程度,余弦值在0~1之间,余弦值越大说明两篇文档越相似。本发明适用于新闻资讯转载跟踪与传播力统计。
【专利说明】
文档相似度计算方法及相似文档全网检索跟踪方法
技术领域
[0001]本发明涉及一种文档相似度计算方法及相似文档全网检索跟踪方法。适用于新闻资讯转载跟踪与传播力统计。
【背景技术】
[0002]传统媒体作为新闻资讯的主要生产者,贡献了80%以上的原创新闻,但是限于其传播平台的限制,原创文档被大量的门户及一些新媒体转载,新媒体在转载这些文档过程中,实现了流量和影响力的倍增效果,同时也实现了较好的经济效益,而作为原创文档的作者,却没有从中得到利益。然而通过法律途径解决版权问题的过程中,要去发现被转载的文档等同于大海捞针,需要消耗大量的人力,而且对取证也有难度。
[0003]同时,媒体也希望通过所有转载他的媒体,分析其传播力,目前媒体并没有很好的办法去统计其所有传播路径,只能靠人工去统计,这个统计量是十分巨大的。
[0004]目前,中国是世界上使用社交媒体比例最高的国家,平均每人每天有5.8小时的时间上网。在以前,大众得知信息来源于电视、报纸、杂志和广播,而今天大众更多的是通过微博、微信、QQ、论坛等社交软件获得信息。截止今年第一季度末,新浪微博月活跃用户达到2.6亿,微信每月活跃用户已达到5.49亿。微博、微信成为碎片时间的最佳运用工具。
[0005]今天来看,在移动互联网时代,有内容、形式、社交,而且是强关系社交,大众媒体的影响力慢慢在下降,而新媒体的影响力在不断地加深,这是移动互联网的时代。
[0006]当每一个个体都具有传播能力时,传统的媒体结构就开始瓦解,消费者得知讯息的管道也不再大幅度地依赖大众媒体,“自媒体”年代诞生。所以这是一个普通人可以创造奇迹的时代,也是消费者获得主权的时代,所以也是大家尤其是媒体人机会最多的时代。
[0007]在自媒体快速发展的今天,针对自媒体个人的版权保护,更加显得重要,由于自媒体势单力薄,其对于自己的文档的版权保护,没有好的办法。

【发明内容】

[0008]本发明要解决的技术问题是:针对上述存在的问题,提供一种文档相似度计算方法及相似文档全网检索跟踪方法,以更加准确的判断两篇文档的相似程度,实现准确的全网跟踪文档的转载情况,为版权保护打好基础。
[0009]本发明所采用的技术方案是:一种文档相似度计算方法,其特征在于:
[0010]S01、文档分解:对原创文档和目标文档分别进行切词处理,得到各自的分词集合;
[0011]S02、预处理与特征加权:
[0012]利用TF-1DF技术对每个分词计算权重,提取核心关键词;
[0013]利用Word2VeC挖掘文档中不同分词之间的关联程度,对每篇文档进行语义分析;
[0014]S03、向量空间模型与余弦相似度算法:
[0015]把原创文档和目标文档简化为两个以关键词权重为分量的N维向量;
[0016]文档余弦相似度算法是基于向量模型,利用向量空间中两个向量夹角的余弦值作为衡量两篇文档的相似程度,余弦值在O?I之间,余弦值越大说明两篇文档越相似。
[0017]步骤SOI包括
[0018]数据准备,通过ETL数据清洗系统清洗文档的干扰信息,并对文档进行结构化处理,分解成最小单位结构;
[0019]基础建设,以ElasticSearch搜索引擎为基础构件建设全文索引,并采用中文分词库中的细颗粒度分词创建索引。
[0020]步骤S02中利用TF-1DF技术按照逆文档词库中的的词语删除文档中对文本内容识别意义不大但出现频率很高的分词。
[0021 ] 一种相似文档全网检索跟踪方法,其特征在于:
[0022]a、设定检索范围;
[0023]b、检索条件设定,抽取原创文档中TF-1DF中权重值最高的N个核心关键词,用一定的匹配率、基于ES全文检索引擎进行全库检索;
[0024]C、按照关键词与文档相关度权重值做降排序,将检索到的文档按照关键词与文档相关度权重数值做降序排序;
[0025]d、利用最高权重值文档对检索得到的每篇文档进行逐一对比,应用文档相似度计算方法计算两篇文档的相似度;
[0026]e、相似度对比结果是否高于N%,若高于N%,则判定两篇文档相同,否则判定两篇为不同的文档。
[0027]步骤a包括设定被检索文档发布的时间范围、发布的载体,以及被检索文档的字数、类型。
[0028]本发明的有益效果是:本发明采用TF-1DF+word2VeC技术使得对文档相似度处理上得到更精准的效果,从而使得版权跟踪与传播力的分析统计更加精准与贴近实际情况。本发明把原创文档和目标文档简化为两个以关键词权重为分量的N维向量,利用向量空间中两个向量夹角的余弦值作为衡量两篇文档的相似程度,从未更加精准的判断两篇文档的相似程度。本发明有条件的设定检索范围,通过ETL数据清洗系统清洗干扰信息,提高检索效率。
【附图说明】
[0029]图1为实施例中文档相似度计算方法的系统架构图。
[0030]图2为实施例中预处理与特征加权流程图。
[0031]图3为实施例中向量空间模型与余弦相似度算法关系图。
[0032]图4为实施例中相似文档全网检索跟踪方法的流程图。
【具体实施方式】
[0033]图1为本实施例中文档相似度计算方法的系统架构图。本实施例中文档相似度计算方法包括:
[0034](I)数据准备-ETL
[0035]实时采集全网媒体数据,通过“ETL数据清洗系统”清洗干扰信息,数据得到纯净化的同时对新闻稿件进行结构化处理,分解成最小单位的结构,得到分词集合,称之为数据原子化过程。
[0036](2)基础建设-ElasticSearch全文索引+中文分词
[0037]采用ElasticSearch搜索引擎作为整套系统的基础构件,后期的算法都是在ES的基础之上。ElasticSearch是一个基于Lucene的分布式多用户全文搜索引擎,分布式存储的可扩展性可以有效的解决每天海量数据汇聚的存储问题,同时ElasticSearch又是一个接近实时的搜索平台,在实际应用中计算得到从索引一篇稿件开始大概耗时I秒左右时间就能被搜索到,这样在后期传播路径分析中会能得到高效的应用,同时也可以利用分布式运算的特性,结合增加硬件设备提高运算速度,提高检索性能。
[0038]在建设全文索引的过程中,采用中文分词库中的细颗粒度分词创建索引,以保证文档关键词的分解完整度。
[0039](3)预处理与特征加权-TF_IDF+word2vec
[0040]图2为本实施例中预处理与特征加权流程图。TF-1DF是一种用于信息检索不数据挖掘的加权技术。用以评估一字词对于一个文档集戒一个逆文档集中的其中一份文档的重要程度,字词的权重值随着它在文档中出现的次数成正比增加,但同时会随着它在逆文档中出现的频率成反比下降。基于TF-1DF技术,按照逆文档词库中的的词语将文档中对文本内容识别意义不大但出现频率很高的词、符号、标点及乱码等删除。
[0041]通过分解每篇文档的关键词,并统计每个词的词频,利用TF-1DF技术针对每个分词计算权重,提取核心关键词。
[0042]TF-1DF是一种分析词不文档之间关联程度的计算方法,主要应用在提高从海量数据中命中需要进行统计分析相似文档的范围,为后续转载分析跟踪做准备。
[0043]考虑到余弦相似度算法不具备处理同类同义词汇的能力,本实施例在预处理环节预先引用Word2vec算法针对每篇文档进行语义分析,以去除后期统计分析中的语义干扰。Word2vec算法是一种将词表征作为向量数值的高效算法,其利用深度孥习的思想,通过训练,把对文档关键词的处理简化为向量空间中的向量运算,并且通过挖掘文档中不同关键词之间的关联程度,提高语义上的准确度。
[0044](4)向量空间模型与余弦相似度算法
[0045]图3为本实施例中向量空间模型与余弦相似度算法关系图。将原创文档和目标文档简化为两个以关键词权重为分量的N维向量,然后利用向量模型进行余弦相似度计算。文档余弦相似度算法是基于向量的,利用向量空间中两个向量夹角的余弦值作为衡量两篇文档的相似程度,注重两个向量在方向上的差异,余弦值在O?I之间,数值越大说明两篇文档越相似。
[0046]如图4所示,本实施例提供一种相似文档全网检索跟踪方法,该方法的具体实施步骤如下:
[0047]a、设定检索范围;
[0048]a01、设置时间范围:如当前时间的3天(72小时)内发布的文档;
[0049]a02、设置文档范围:选择检索的载体,如报纸,网站,微信等;
[0050]a03、文档选择条件:设定被检索文档的字数、类型要求,如文章字数> = 200;排除文章类型:论坛、特殊。
[0051 ] b、检索条件设定:抽取原创文档中TF-1DF中权重值最高的N个核心关键词,用一定的匹配率、基于ES全文检索引擎进行全库检索;
[0052]C、按照关键词与文档相关度权重值做降排序:检索到的文档按照关键词与文档相关度权重数值做降序排序;
[0053]d、利用最高权重值文档对检索得到的每篇文档进行逐一对比:应用本实施例的文档相似度计算方法计算最高权重值文档与另一文档的相似度;
[0054]e、相似度对比结果是否高于N%,若高于N%,则判定两篇文档相同;否则判定两篇为不同的文档。
【主权项】
1.一种文档相似度计算方法,其特征在于: 501、文档分解:对原创文档和目标文档分别进行切词处理,得到各自的分词集合; 502、预处理与特征加权: 利用TF-1DF技术对每个分词计算权重,提取核心关键词; 利用Word2vec挖掘文档中不同分词之间的关联程度,对每篇文档进行语义分析; 503、向量空间模型与余弦相似度算法: 把原创文档和目标文档简化为两个以关键词权重为分量的N维向量; 文档余弦相似度算法是基于向量模型,利用向量空间中两个向量夹角的余弦值作为衡量两篇文章的相似程度,余弦值在O?I之间,余弦值越大说明两篇文档越相似。2.根据权利要求1所述的文档相似度计算方法,其特征在于:步骤SOl包括 数据准备,通过ETL数据清洗系统清洗文档的干扰信息,并对文档进行结构化处理,分解成最小单位结构; 基础建设,以ElasticSearch搜索引擎为基础构件建设全文索引,并采用中文分词库中的细颗粒度分词创建索引。3.根据权利要求1所述的文档相似度计算方法,其特征在于:步骤S02中利用TF-1DF技术按照逆文档词库中的的词语删除文档中对文本内容识别意义不大但出现频率很高的分Τ.κ| ο4.一种相似文档全网检索跟踪方法,其特征在于: a、设定检索范围; b、检索条件设定,抽取原创文档中TF-1DF中权重值最高的N个核心关键词,用一定的匹配率、基于ES全文检索引擎进行全库检索; C、照关键词与文档相关度权重值做降排序,将检索到的文档按照关键词与文档相关度权重数值做降序排序; d、利用最高权重值文档对检索得到的每篇文档进行逐一对比,应用权利要求1?3任意一项所述的文档相似度计算方法计算两篇文档的相似度; e、相似度对比结果是否高于N%,若高于N%,则判定两篇文档相同,否则判定两篇为不同的文档。5.根据权利要求4所述的相似文档全网检索跟踪方法,其特征在于:步骤SOl包括设定被检索文档发布的时间范围、发布的载体,以及被检索文档的字数、类型。
【文档编号】G06F17/27GK106095737SQ201610398902
【公开日】2016年11月9日
【申请日】2016年6月7日
【发明人】姚洲鹏
【申请人】杭州凡闻科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1