一种公开文本情报的内容冲突检测方法及系统与流程

文档序号:13136778阅读:419来源:国知局
一种公开文本情报的内容冲突检测方法及系统与流程

本发明涉及公开文本情报应用领域,特别涉及一种公开文本情报的内容冲突检测方法及系统。



背景技术:

公开情报,又称为开源情报,是指从公众媒体(如报纸/刊物、互联网、自媒体平台等)上收集和挖掘的情报,情报内容以非结构化数据为主,包括数字、文本、图片、视频等。

公开文本情报,是指从公众媒体(如报纸/刊物、互联网、自媒体平台等)上收集和挖掘的文本格式的情报数据。

内容冲突,是指在相同的问题情境中针对同一主题特征的描述存在不一致或者互相矛盾的情形。

公开文本情报具有获取成本低、数据来源渠道广泛、数据实时性好等相对优势,在军事情报保障、企业竞争战略研判等领域具有广泛的应用价值和效益。同时,随着自媒体技术的进步、互联网的普及等,公开文本情报呈现出大数据特点,即数据量以惊人地速度增长、数据产生具有多源特征、数据传播过程多渠道并行且交杂繁复等,海量的公开文本情报中不可避免地存在着冲突内容,使得公开文本情报的分析和利用变得困难;而潜在竞争对手有意识的信息误导更是加重了该问题的严重性。因此,公开文本情报高效、准确地应用的第一步就是冲突内容的检测和发现。

冲突内容是制约公开文本情报数据质量的关键性因素,潜在的冲突内容如果得不到及时、有效的检测发现和消除,将导致公开文本情报大数据分析结果的不可靠,降低其应用价值。当前,针对文本数据的内容冲突检测主要面向小规模及中等规模数据,且主要应用于检测和发现元数据或者结构化数据冲突。

例如,中国电子科技集团公司第二十研究所张可人提出网络管控系统中指令内容冲突检测方法,该方法包括以下步骤:

1.统计网络管控系统在内容上互斥的指令;

2.建立多个互斥指令集,每一互斥指令集中的各指令均为互斥;

3.设定指令间隔时间阈值t;

4.对同一设备在间隔时间为t的时间段内收到的指令进行记录,如果存在2条及以上指令在同一互斥指令集中,则指令内容冲突发生;否则,无指令内容冲突。

再如,赵晓非、黄志球提出基于描述逻辑的cwm(公共仓库元模型,简称cwm)元数据冲突检测方法,该方法包括以下步骤:

1.建立一种支持概念之上的同一性约束的描述逻辑dlid;

2.应用描述逻辑dlid将cwm元数据形式化,建立dlid知识库;

3.定义描述逻辑查询语言需求集合;

4.依据描述逻辑查询语言需求,建立如下格式的查询语言:

5.应用nrql查询dlid知识库,发现内容冲突。

现有方法在文本数据的内容冲突检测方面主要面向小规模及中等规模数据,其特征主要体现在:(1)其关键步骤中首先进行文本数据的结构化描述和存储;(2)以结构化的知识库为基础,建立冲突检测的推理机制,如互斥指令集、冲突查询语言等,进而进行内容的冲突检测。对于呈现出大数据特点的公开文本情报,现有方法存在着如下的缺陷:(1)公开文本情报呈现出大数据特点的背景下,公开文本情报数据的结构化描述和存储的工作量异常巨大,将变得非常困难;(2)以结构化的知识库为基础建立的冲突检测推理机制,是固化的,缺少灵活性,在公开文本情报大数据实时性非常强的情况下,建立的内容冲突检测推理机制将非常容易出现不适应新的问题情境;(3)检测得到的冲突内容是微观层面的,即若干条(通常为2,且数目较小)文本中存在内容冲突,很难呈现大数据集整体层面中存在的内容冲突,可见现有的内容冲突检测方法无法实现具有大数据特点的公开文本情报的内容冲突的检测。



技术实现要素:

本发明的目的是,为了实现具有大数据特点的公开文本情报的内容冲突的检测,提供一种公开文本情报的内容冲突检测方法及系统。

为实现上述目的,本发明提供了如下方案:

一种公开文本情报的内容冲突检测方法,包括如下步骤:

获取公开文本情报,建立公开文本情报数据集,所述公开文本情报数据集中包括多条文本;

提取所述公开文本情报数据集中的每一条文本的关键词,构建关键词共现矩阵;

对所述关键词共现矩阵进行二值化处理,得到二值化关键词共现矩阵;

根据所述二值化关键词共现矩阵建立关键词共现网络;

提取所述关键词共现网络中的成分,获得成分数据集;

对所述成分数据集中的每一成分进行判断,判断对应成分中是否存在内容冲突;并在判断结果为对应成分中存在内容冲突时,根据存在内容冲突的成分确定所述公开文本情报数据集存在冲突的文本。

可选的,所述提取所述公开文本情报数据集中的每一条文本的关键词,构建关键词共现矩阵,具体包括:

对所述公开文本情报数据集中的每一条文本的进行分词,获得该条文本的词条集合;

计算该条文本的词条集合中的每个词条的交叉信息熵的期望;

根据每个词条的交叉信息熵的期望的大小,对该条文本的词条集合中的词条进行降序的排序;

提取排序后的词条集合中的前k个词条作为该文本的关键词;

根据文本情报数据集中的每条文本的关键词,建立关键词集合;

统计关键词集合中任意两个关键词在同一条文本中共同出现的次数;

根据每两个关键词在同一条文本中共同出现的次数,建立关键词共现矩阵。

可选的,对所述关键词共现矩阵进行二值化处理,得到二值化关键词共现矩阵,具体包括:

将所述关键词共现矩阵中的大于或等于设定阈值的元素替换为1;

将所述关键词共现矩阵中的小于所述设定阈值的元素替换为0。

可选的,提取所述关键词共现网络中的成分,获得成分数据集,具体包括:

按照同一成分中关键词之间存在共现性,不同成分中的关键词间不存在共现性的原则,提取所述关键词共现网络中的成分;

将提取的关键词共现网络中的所有成分组合成成分数据集。

可选的,对所述成分数据集中的每一成分进行判断,判断对应成分中是否存在内容冲突;并在判断结果为对应成分中存在内容冲突时,根据存在内容冲突的成分确定所述公开文本情报数据集存在冲突的文本,具体包括:

对所述成分数据集中的每一成分进行判断,判断对应成分中是否存在内容语义上的冲突;

在判断结果为对应成分中存在内容冲突时,则根据该成分中存在内容语义冲突的关键词检索所述公开文本情报数据集中对应的文本,确定所述公开文本情报数据集存在冲突的文本。

一种公开文本情报的内容冲突检测系统,包括:

公开文本情报数据集建立模块,用于获取公开文本情报,建立公开文本情报数据集;

关键词共现矩阵构建模块,用于提取所述公开文本情报数据集中的每一条文本的关键词,构建关键词共现矩阵;

二值化处理模块,用于对所述关键词共现矩阵进行二值化处理,得到二值化关键词共现矩阵;

关键词共现网络建立模块,用于根据所述二值化关键词共现矩阵建立关键词共现网络;

成分提取模块,用于提取所述关键词共现网络中的成分,获得成分数据集;

冲突判断模块,用于对所述成分数据集中的每一成分进行判断,判断对应成分中是否存在内容冲突;并在判断结果为对应成分中存在内容冲突时,根据存在内容冲突的成分确定所述公开文本情报数据集存在冲突的文本。

可选的,所述关键词共现矩阵构建模块具体包括:

词条划分子模块,用于对所述公开文本情报数据集中的每一条文本的进行分词,获得该条文本的词条集合;

期望计算子模块,用于计算该条文本的词条集合中的每个词条的交叉信息熵的期望;

排序子模块,用于根据每个词条的交叉信息熵的期望的大小,对该条文本的词条集合中的词条进行降序的排序;

关键词提取子模块,用于提取排序后的词条集合中的前k个词条作为该文本的关键词;

关键词集合建立子模块,用于根据文本情报数据集中的每条文本的关键词,建立关键词集合;

共现次数统计子模块,用于统计关键词集合中任意两个关键词在同一条文本中共同出现的次数;

关键词共现矩阵建立子模块,用于根据任意两个关键词在同一条文本中共同出现的次数,建立关键词共现矩阵。

可选的,所述二值化处理模块具体包括:

置1子模块,用于将所述关键词共现矩阵中的大于或等于设定阈值的元素替换为1;

置0子模块,用于将所述关键词共现矩阵中的小于设定阈值的元素替换为0。

可选的,所述成分提取模块具体包括:

成分提取子模块,用于按照同一成分中关键词之间存在共现性,不同成分中的关键词间不存在共现性的原则,提取所述关键词共现网络中的成分;

成分数据集建立子模块,用于将提取的关键词共现网络中的所有成分组合成成分数据集。

可选的,所述冲突判断模块具体包括:

冲突判断子模块,用于对所述成分数据集中的每一成分进行判断,判断对应成分中是否存在内容语义上的冲突;

冲突内容确定子模块,用于在判断结果为对应成分中存在内容冲突时,则根据该成分中存在内容语义冲突的关键词检索所述公开文本情报数据集中对应的文本,确定所述公开文本情报数据集存在冲突的文本。

根据本发明提供的具体实施例,本发明公开了以下技术效果:

本发明公开了一种公开文本情报的内容冲突检测方法及系统,首先,获取公开文本情报,建立公开文本情报数据集;然后,提取所述公开文本情报数据集中的每一条文本的关键词,构建关键词共现矩阵;并对所述关键词共现矩阵进行二值化处理,得到二值化关键词共现矩阵;然后,根据所述二值化关键词共现矩阵建立关键词共现网络;提取所述关键词共现网络中的成分,获得成分数据集;最后,对所述成分数据集中的每一成分进行判断,判断是否存在内容冲突,并确定存在冲突的内容。本发明的方法,运用关联分析直接对公开文本情报中的内容进行检测和判断,无需结构化的知识库,也无需对公开文本数据进行结构化描述和存储,减小了计算量,克服了因知识库更新无法与实时性非常强的大数据的公开文本情报同步,造成内容冲突检测准确性差的技术缺陷,实现了具有大数据特点的公开文本情报的内容冲突的检测。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明提供的一种公开文本情报的内容冲突检测方法的流程图。

图2为本发明提供的一种公开文本情报的内容冲突检测系统的结构框图。

具体实施方式

本发明的目的是提供一种公开文本情报的内容冲突检测方法及系统,以实现具有大数据特点的公开文本情报的内容冲突的检测。

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对发明作进一步详细的说明。

如图1所示,本发明提供了一种公开文本情报的内容冲突检测方法,包括如下步骤:

步骤101,获取公开文本情报,建立公开文本情报数据集,所述公开文本情报数据集中包括多条文本;具体的,所述公开文本情报数据集t为,t={t1,t2,…,tm,…,tm},其中,tm为所述公开文本情报数据集t中的第m条文本,m表示所述公开文本情报数据集t中文本的总条数。

步骤102,提取所述公开文本情报数据集中的每一条文本的关键词,构建关键词共现矩阵;

步骤103,对所述关键词共现矩阵进行二值化处理,得到二值化关键词共现矩阵;

步骤104,根据所述二值化关键词共现矩阵建立关键词共现网络;具体的,所述建立关键词共现网络的过程是将二值化关键词共现矩阵中的值为1的元素对应的关键词进行连线,得到关键词共现网络;

步骤105,提取所述关键词共现网络中的成分,获得成分数据集;

步骤106,对所述成分数据集中的每一成分进行判断,判断对应成分中是否存在内容冲突;并在判断结果为对应成分中存在内容冲突时,根据存在内容冲突的成分确定所述公开文本情报数据集存在冲突的文本。

可选的,步骤102所述提取所述公开文本情报数据集中的每一条文本的关键词,构建关键词共现矩阵,具体包括:

对所述公开文本情报数据集中的每一条文本的进行分词,获得该条文本的词条集合;具体的,对第m条文本tm,进行分词,得到该条文本的词条集合为表示第m条文本tm的第lm个词条,lm=1,2,…,lm,lm表示第m条文本tm中词条的总数,例如,对文本“南京市长江大桥”进行分词,可以得到,{南京,市长,江大桥,南京市,长江,大桥,长江大桥}。

计算该条文本的词条集合中的每个词条的交叉信息熵的期望;

具体的,计算词条交叉信息熵的期望为:

其中,表示在出现词条时文本tm属于类别ci的概率;p(ci)表示文本tm类别的概率分布;反映了文本tm类别的概率分布与在出现了词条的情况下文本类别的概率分布之间的距离,其值越大,词条对文本tm类别分布的影响也就越大。

计算文本tm中每个词条的交叉信息熵的期望,得到词条特征集

根据每个词条的交叉信息熵的期望的大小,对该条文本的词条集合中的词条进行降序的排序;

提取排序后的词条集合中的前k个词条作为该文本的关键词;具体的,对于第m条文本tm,如果lm≤200,则否则,k=10;

根据文本情报数据集中的每条文本的关键词,建立关键词集合;具体的,第m条文本tm关键词集为w1,为第m条文本tm中排序后的第一个词条,km为对第m条文本提取关键词时k的取值,每条文本的关键词集组成关键词集合为d=d1∪d2∪…∪dm={d1,d2,…,ds},其中,s为公开文本情报数据集的关键词集合d中关键词数目。

统计关键词集合中任意两个关键词在同一条文本中共同出现的次数;

根据每两个关键词在同一条文本中共同出现的次数,建立关键词共现矩阵;

具体的,对于集合d中一组词(du,dv),其中u=1,2,…,s;v=1,2,…,s;u≠v;统计它们在同一条文本中出现的次数,记为au,v,则得到基于关键词集合d的关键词共现矩阵:a=(au,v)s×s。

可选的,步骤103,对所述关键词共现矩阵进行二值化处理,得到二值化关键词共现矩阵,具体包括:

将所述关键词共现矩阵中的大于或等于设定阈值的元素替换为1;

将所述关键词共现矩阵中的小于所述设定阈值的元素替换为0。

具体的,以关键词集合d中关键词数目s为依据,设置阈值ε(ε>0,且为整数),如果au,v≥ε,则a'u,v=1,否则a'u,v=0。得到二值化的关键词共现矩阵a'=(a'u,v)s×s。

可选的,步骤105,提取所述关键词共现网络中的成分,获得成分数据集,具体包括:

按照同一成分中关键词之间存在共现性,不同成分中的关键词间不存在共现性的原则,提取所述关键词共现网络中的成分;具体的,将关键词共现网络中有连线的关键词放在同一成分中,将关键词共现网络中没有连线的关键词放在不同的成分中,其中第i个成分为ci={di,1,di,2,…};

将提取的关键词共现网络中的所有成分组合成成分数据集,具体的所述成分数据集为{c1,c2,…,ci,…}。

可选的,步骤106,对所述成分数据集中的每一成分进行判断,判断对应成分中是否存在内容冲突;并在判断结果为对应成分中存在内容冲突时,根据存在内容冲突的成分确定所述公开文本情报数据集存在冲突的文本,具体包括:

对所述成分数据集中的每一成分进行判断,判断对应成分中是否存在内容语义上的冲突;

在判断结果为对应成分中存在内容冲突时,则根据该成分中存在内容语义冲突的关键词检索所述公开文本情报数据集中对应的文本,确定所述公开文本情报数据集存在冲突的文本。

具体的,对每一成分ci={di,1,di,2,…}依次进行人工判读,如出现关键词di,x与di,y(x≠y)间存在内容语义冲突,则根据关键词di,x与di,y(x≠y)检索公开文本情报数据集t={t1,t2,…,tm,…,tm}中的对应文本,确定存在冲突的内容;否则,认为成分ci集合中关键词对应的文本不存在内容冲突。

如图2所示,本发明还提供了一种公开文本情报的内容冲突检测系统,包括:

公开文本情报数据集建立模块201,用于获取公开文本情报,建立公开文本情报数据集;

关键词共现矩阵构建模块202,用于提取所述公开文本情报数据集中的每一条文本的关键词,构建关键词共现矩阵;

二值化处理模块203,用于对所述关键词共现矩阵进行二值化处理,得到二值化关键词共现矩阵;

关键词共现网络建立模块204,用于根据所述二值化关键词共现矩阵建立关键词共现网络;

成分提取模块205,用于提取所述关键词共现网络中的成分,获得成分数据集;

冲突判断模块206,用于对所述成分数据集中的每一成分进行判断,判断对应成分中是否存在内容冲突;并在判断结果为对应成分中存在内容冲突时,根据存在内容冲突的成分确定所述公开文本情报数据集存在冲突的文本。

可选的,所述关键词共现矩阵构建模块202具体包括:

词条划分子模块,用于对所述公开文本情报数据集中的每一条文本的进行分词,获得该条文本的词条集合;

期望计算子模块,用于计算该条文本的词条集合中的每个词条的交叉信息熵的期望;

排序子模块,用于根据每个词条的交叉信息熵的期望的大小,对该条文本的词条集合中的词条进行降序的排序;

关键词提取子模块,用于提取排序后的词条集合中的前k个词条作为该文本的关键词;

关键词集合建立子模块,用于根据文本情报数据集中的每条文本的关键词,建立关键词集合;

共现次数统计子模块,用于统计关键词集合中任意两个关键词在同一条文本中共同出现的次数;

关键词共现矩阵建立子模块,用于根据任意两个关键词在同一条文本中共同出现的次数,建立关键词共现矩阵。

可选的,所述二值化处理模块203具体包括:

置1子模块,用于将所述关键词共现矩阵中的大于或等于设定阈值的元素替换为1;

置0子模块,用于将所述关键词共现矩阵中的小于设定阈值的元素替换为0。

可选的,所述成分提取模块205具体包括:

成分提取子模块,用于按照同一成分中关键词之间存在共现性,不同成分中的关键词间不存在共现性的原则,提取所述关键词共现网络中的成分;

成分数据集建立子模块,用于将提取的关键词共现网络中的所有成分组合成成分数据集。

可选的,所述冲突判断模块206具体包括:

冲突判断子模块,用于对所述成分数据集中的每一成分进行判断,判断对应成分中是否存在内容语义上的冲突;

冲突内容确定子模块,用于在判断结果为对应成分中存在内容冲突时,则根据该成分中存在内容语义冲突的关键词检索所述公开文本情报数据集中对应的文本,确定所述公开文本情报数据集存在冲突的文本。

根据本发明提供的具体实施例,本发明公开了以下技术效果:

本发明公开了一种公开文本情报的内容冲突检测方法及系统,首先,获取公开文本情报,建立公开文本情报数据集;然后,提取所述公开文本情报数据集中的每一条文本的关键词,构建关键词共现矩阵;并对所述关键词共现矩阵进行二值化处理,得到二值化关键词共现矩阵;然后,根据所述二值化关键词共现矩阵建立关键词共现网络;提取所述关键词共现网络中的成分,获得成分数据集;最后,对所述成分数据集中的每一成分进行判断,判断是否存在内容冲突,并确定存在冲突的内容。本发明的方法,运用关联分析直接对公开文本情报中的内容进行检测和判断,无需结构化的知识库,也无需对公开文本数据进行结构化描述和存储,减小了计算量,克服了因知识库更新无法与实时性非常强的大数据的公开文本情报同步,造成内容冲突检测准确性差的技术缺陷,实现了具有大数据特点的公开文本情报的内容冲突的检测。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

本文中应用了具体个例对发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1