一种用于搜索引擎的文本信息规律分析方法与系统与流程

文档序号:16331602发布日期:2018-12-19 06:14阅读:268来源:国知局
一种用于搜索引擎的文本信息规律分析方法与系统与流程

本申请涉及互联网应用技术领域,尤其涉及一种用于搜索引擎的文本信息规律分析方法与系统。

背景技术

搜索引擎是人们在互联网的海量数据中获取自身所需知识和信息的必要工具。搜索引擎最早由对文本信息的搜索需求而产生出来,并且目前文本信息搜索也仍然是搜索引擎的主要功能之一。

在文本信息的搜索过程中,搜索引擎将互联网中的原始文档由索引器抽取出索引项,索引项一般是原始文档中出现的若干词语,将索引项及其对应的原始文档链接存储于索引表。进而,通过检索器,根据用户的查询关键词在索引库中查询匹配的索引项,进而快速检出原始文档。检索器还进行原始文档与查询关键词的相关度评价,对将要输出的结果进行排序,对用户显示搜索结果,其中包含指向原始文档的链接。在上述搜索的过程中,由原始文档提取出索引项是一个相对较为复杂的过程。因为自然语言书写的原始文档中,承载其核心语义的词语淹没在大量其它的词语表达之中,承载核心语义的词语未必是在词频(即词语在文档中的出现次数或者比例)占优的词语,自然语言的语法中也缺乏可以明确定义的规则或者标记来辅助识别出核心语义词语,承载核心语义的词语在原始文档中也并不总是分布在固定的位置,也就是说,自然语言中核心语义与其原始文档文本信息之间的规律是隐藏的和多变态的。现有技术中的搜索引擎主要利用词频统计规律,以及结合基于文章结构的权重分配规则来实现对自然语言文档中索引项的提取,因而经常出现错误的提取结果,也就是提取出来的索引项没有反映原始文档的核心语义,以及承载核心语义的词语被漏过,特别是对于没有附加语义提示标签的短文档中更易于发生上述错误。

人类在自然阅读活动中,是依靠生活和语文学习中积累的理解能力来从一段文档中发现作为其核心语义载体的词语,但是用计算机来重现人类阅读理解能力目前还存在很大的障碍。

人工智能(artificialintelligence,ai)是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大。其中,在文本学习领域,人工智能技术已经应用于自然语言的语义识别、机器翻译等许多方面。从人工智能模拟人类智力活动的潜力来看,搜索引擎的开发者们普遍希望将该项技术用于文本信息规律的分析,从而有助于从自然语言的原始文档—特别是无标签等辅助信息的段文档—提取承载起核心语义的索引项。



技术实现要素:

有鉴于此,本申请的目的在于提出一种用于搜索引擎的文本信息规律分析方法与系统,来解决现有技术中由于承载文档核心语义的词语存在规律不明显、不确定所造成的搜索引擎索引项提取存在困难和错误的技术问题。

基于上述目的,在本申请的一个方面,提出了一种用于搜索引擎的文本信息规律分析方法,包括:

获取自然语言原始文档的文本;

对所述自然语言原始文档的文本进行特征提取,生成文本特征向量;

利用预先训练的向量匹配模型根据所述文本特征向量将所述文本与样本库中的样本进行匹配,获取目标样本,其中,所述样本包括样本索引集以及与样本索引集对应的样本原始文档;

利用预先训练的语义分布规律模式确定模型根据所述目标样本的样本原始文档与对应的目标样本索引集之间的文本特征一致性,确定文本的语义分布规律模式;

根据所述文本的语义分布规律模式,将所述自然语言原始文档的文本转换成索引集。

在一些实施例中,所述对自然语言原始文档的文本进行特征提取,生成文本特征向量,包括:

提取所述文本中的词组,对所述词组进行属性分类,统计各类别词组的词频,根据词组类别和各类别词组的词频生成文本特征向量。

在一些实施例中,所述提取所述文本中的词组,对所述词组进行属性分类,统计各类别词组的词频,包括:

对所述文本进行分词,将所述文本切分为多个词组,对每个词组进行归类,确定每个词组的属性类别,并对每个属性类别的词组进行词频统计。

在一些实施例中,对每个词组进行归类,确定每个词组的属性类别,具体包括:

构建词组属性分类表,所述词组属性分类表包括词组属性类别以及对应该类别的词组语义,对每个词组进行语义识别,确定所述词组的词组属性类别。

在一些实施例中,在对所述文本进行分词,将所述文本切分为多个词组,对每个词组进行语义识别之后,还包括:

对语义识别后的多个词组进行去停用词过滤去噪,滤除所述多个词组中包含的噪音词组。

在一些实施例中,所述利用预先训练的向量匹配模型根据所述文本特征向量将所述文本与样本库中的样本进行匹配,包括:

预先训练神经网络模型,生成向量匹配模型,并利用所述向量匹配模型,计算当前自然语言原始文档文本的所述文本特征向量与所述样本库中的样本原始文档的文本特征向量的标准差,并当该标准差小于预设阈值时,匹配成功,并将匹配成功的样本原始文档作为目标样本原始文档。

在一些实施例中,所述利用预先训练的语义分布规律模式确定模型根据所述目标样本的样本原始文档与对应的目标样本索引集之间的文本特征一致性,确定文本的语义分布规律模式,包括:

计算所述目标样本原始文档与对应的目标样本索引集的文本特征向量,根据目标样本原始文档与对应的目标样本索引集的文本特征向量中的同类词组的词组频率的一致性,确定文本的语义分布规律模式。

基于上述目的,在本申请的另一方面,提出了一种用于搜索引擎的文本信息规律分析系统,包括:

文本获取模块,用于获取自然语言原始文档的文本;

文本特征向量生成模块,对所述自然语言原始文档的文本进行特征提取,生成文本特征向量;

向量匹配模块,用于根据所述文本特征向量将所述自然语言原始文档的文本与样本库中的样本进行匹配,获取目标样本;

语义分布规律模式确定模块,用于根据所述目标样本原始文档与对应的目标样本索引集之间的文本特征一致性,确定文本的语义分布规律模式;

索引集生成模块,用于根据所述文本的语义分布规律模式,将所述自然语言原始文档的文本转换成索引集。

在一些实施例中,所述文本特征向量生成模块,具体用于:

提取所述文本中的词组,对所述词组进行属性分类,统计各属性类别词组的词频,根据词组属性类别和各类别词组的词频生成文本特征向量。

在一些实施例中,所述语义分布规律模式确定模块,具体用于:

计算所述目标样本原始文档与对应的目标样本索引集的文本特征向量,根据目标样本原始文档与对应的目标样本索引集的文本特征向量中的同类词组的词组频率的一致性,确定语义分布规律模式。

本申请实施例提供的一种用于搜索引擎的文本信息规律分析方法与系统,其对所述自然语言原始文档的文本进行特征提取,生成文本特征向量;利用预先训练的向量匹配模型根据所述文本特征向量将所述文本与样本库中的样本进行匹配,获取目标样本,根据所述目标样本的样本原始文档与对应的目标样本索引集之间的文本特征一致性,确定文本的语义分布规律模式;根据所述文本的语义分布规律模式,将所述自然语言原始文档的文本转换成索引集。本申请实施例的通过人工智能学习的方法,来针对自然语言的原始文档发掘其承载核心语义的词语分布规律,实现准确度高的搜索引擎索引项提取。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:

图1是本申请实施例一的用于搜索引擎的文本信息规律分析方法的流程图;

图2是本申请实施例二的用于搜索引擎的文本信息规律分析方法的流程图;

图3是本申请实施例三的用于搜索引擎的文本信息规律分析系统的结构示意图;

图4是本申请实施例四的利用本申请实施例的用于搜索引擎的文本信息规律分析系统的生成索引集的流程示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

作为本申请的一个实施例,如图1所示,是本申请实施例一的用于搜索引擎的文本信息规律分析方法的流程图。从图中可以看出,本实施例提供的用于搜索引擎的文本信息规律分析方法,包括以下步骤:

s101:获取自然语言原始文档的文本。

在本实施例中,自然语言原始文档的文本可以是人工输入的,也可以是系统自动获取。本实施例及以下实施例中的自然语言原始文档,是指一段文本文字,例如“光色是光学里一种以k(kevin)为计算单位表示光颜色的数值,生活中一般接触到的光色为2700k~6500k,工业照明和特殊领域(如汽车照明)会使用超过7000k光色的光源照明”,或者“高速公路标明了车道的行驶速度,最高车速不得超过每小时120公里,最低车速不得低于每小时60公里,高速公路上行驶的小型载客汽车最高车速不得超过每小时120公里,其他机动车不得超过每小时100公里,摩托车不得超过每小时80公里”。搜索引擎可以从网页、电子图书、论文等原始数据中搜索并汇集海量级的自然语言原始文档的文本

s102:对所述自然语言原始文档的文本进行特征提取,生成文本特征向量。

在本实施例中,当获取到自然语言原始文档的文本后,可以对所述文本进行特征提取,以生成文本特征向量。具体地,可以将所述文本分为多个词组,进而可以通过去停用词处理去除其中无实际意义的词组,可以参照常见停用词表实施去停用词处理;去停用词是对分词所得的多个词组进行过滤去噪,滤除所述多个词组中包含的噪音词组;由于所述文本可能包含有关联词和副词,在对所述文本进行语义识别的过程中,这类词组没有实际的含义,因此,可以对语义识别后的多个词组进行过滤去噪,将关联词和副词等没有实际意思的词组滤除,可以大大减轻机器的工作量。

然后,对保留下来的所述词组进行归类,将词组归为预定类型的类别,然后以每个类别为单位统计词频,也就是原始文档中每个类别的词组数量;根据词组的类别以及相应类别中的词组数量生成文本特征向量。仍以“高速公路标明了车道的行驶速度,最高车速不得超过每小时120公里,最低车速不得低于每小时60公里,高速公路上行驶的小型载客汽车最高车速不得超过每小时120公里,其他机动车不得超过每小时100公里,摩托车不得超过每小时80公里”为例进行说明,在本实例中,词组的类别可以包括:概念词组和数量词组,具体地,概念词组中的词组包括“小型载客汽车”、“其他机动车”和“摩托车”,数量词组的词组包括“每小时120公里”、“每小时100公里”、“每小时80公里”和“每小时60公里”。

对于上面提到的词组的归类,可以建立词组类别索引表,词组类别索引表中记录每个类别对应的常见词组,通过调用对应的词组类别索引表,将从自然语言原始文档文本中提取并去停用词之后保留的词组对应该索引表归入词组类别。

进而,利用统计的词组类别和每个类别的词频(词组数量),将本自然语言原始文档的文本生成对应的文本特征向量,表示为{(s1,n1),(s2,n2)…(sn,nn)},其中s1、s2…sn为词组类别,例如上文中的概念词组、数量词组等;n1、n2…nn为每个词组类别的词频,也就是归入该类别下的词组的数量;例如,上面提到的素材文本,其提取的文本特征向量应为{(概念词组,3),(数量词组,4)},其中数字3、4表示词频。

s103:利用预先训练的向量匹配模型根据所述文本特征向量将所述文本与样本库中的样本进行匹配,获取目标样本,其中,所述样本包括样本索引集以及与样本索引集对应的样本原始文档。

在本实施例中,在生成自然语言原始文档的文本的文本特征向量以后,可以利用向量匹配模型将该文本特征向量与样本库中的样本进行匹配。样本库中的样本包括大量的样本索引集以及与样本索引集对应的样本原始文档。具体地,所述向量匹配模型是一个经过对样本库中的大量的样本进行学习而生成的神经网络模型,使得所述向量匹配模型在输入是自然语言原始文档的文本的前提下,输出是与输入的自然语言原始文档文本相似度较高的样本原始文档,这里的相似度是指文本的文本特征向量之间的相似度,包括词组的类别间的相似度以及同类词组间词组数量的相似度。

向量匹配模型作为预先训练神经网络模型,当输入当前自然语言原始文档的文本特征向量之后,会计算并输出当前自然语言原始文档的文本特征向量与所述样本库中的每个样本原始文档的文本特征向量的标准差,并当该标准差小于预设阈值时,匹配成功,并将匹配成功的样本原始文档作为目标样本原始文档。具体来说,如果自然语言的原始文档的文本特征向量为{(s1,n1),(s2,n2)…(sn,nn)},而样本原始文档文本的文本特征向量{(s1,n1’),(s2,n2’)…(sn,nn’)},则两个文本特征向量的标准差表示为如果ε小于阈值则认为匹配成功,该目标样本原始文档与当前自然语言原始文档相对应。

s104:利用预先训练的语义分布规律模式确定模型,根据所述目标样本原始文档与对应的目标样本索引集之间的文本特征一致性,确定文本的语义分布规律模式。

在本实施例中,在利用向量匹配模型确定所述自然语言原始文档文本对应的目标样本原始文档后,可以根据样本原始文档和与其对应的目标样本索引集之间的文本特征一致性,来确定索引集当中的索引词所涉及的词组类别,进而可以根据目标样本索引集的词组类别确定自然语言的原始文档的索引集所涉及的词组类别。

具体地,本实施例中的语义分布规律模式确定模型是一个经过对样本库中的大量的样本进行学习而生成的神经网络模型,通过对样本库中大量的样本索引集及样本索引集对应的样本原始文档进行学习,使得所述语义分布规律模式确定模型能够确定输入的样本索引集及对应的样本原始文档的文本的文本特征向量的一致性,并根据该一致性确定索引集中的索引词所涉及的词组类别。具体来说,所述语义分布规律模式确定模型计算所述样本原始文档与对应的样本索引集的文本特征向量,根据目标样本原始文档与对应的目标样本索引集的文本特征向量中的同类词组的词组频率,确定在二者中都具有较高词频的词组类型为索引集所涉及的词组类别。。

以下面的例子为例,样本原始文档为文本“光色是光学里一种以k(kevin)为计算单位表示光颜色的数值,生活中一般接触到的光色为2700k~6500k,工业照明和特殊领域(如汽车照明)会使用超过7000k光色的光源照明”,该样本原始文档的词组类别包括概念词组和数量词组,其中提取的“光色”、“光学”、“照明”、“光源”属于概念词组,“2700k”,“6500k”、“7000k”属于数量词组,文本特征向量是{(概念词组,4),(数量词组,3)},对应的样本索引集包含的索引词为“光色”、“光源”、“光学”,样本索引集的文本特征向量可以是{(概念词组,3),(数量词组,0)},则两个文本特征向量的一致性在于概念词组维度上的词频都较高,,因此,确定索引集所涉及的词组类别为概念词组。索引集

s105:根据所述文本的语义分布规律模式,将所述自然语言的原始文档的文本转换成索引集。

步骤103中获取当前的自然语言原始文档文本与样本库中样本的样本原始文档的文本特征向量相似度,确定与当前的自然语言原始文档文本最匹配的样本原始文档,进而根据该样本原始文档与样本索引集之间的一致性,确定索引集涉及的词组类别,则可以以同样的文本语义分布规律模式选取当前自然语言原始文档中同一类别的词组,作为当前原始文档的索引集,将自然语言原始文档的文本转换为索引集。

本申请实施例的用于搜索引擎的文本信息规律分析方法,对所述自然语言原始文档的文本进行特征提取,进而根据所述文本特征向量与样本库中的样本进行匹配,获取目标样本,利用预先训练的语义分布规律模式确定模型,根据所述目标样本的样本原始文档与对应的目标样本索引集之间的文本特征一致性,确定文本的语义分布规律模式,再根据语义分布规律模式将自然语言原始文档的文本转换成索引集,从而通过对样本的机器学习解决了对自然语言的原始文本—特别是无标引的短文本—的索引集抽取问题,能够针对自然语言的原始文档发掘其承载核心语义的词语分布规律,实现准确度高的搜索引擎索引项提取。

如图2所示,是本申请实施例二的用于搜索引擎的文本信息规律分析方法的流程图。作为本申请的一个具体实施例,上述用于搜索引擎的文本信息规律分析方法,包括以下步骤:

s201:获取自然语言原始文档的文本。

在本实施例中,自然语言原始文档的文本可以是搜索引擎从网页、电子图书、论文等原始数据中搜索并汇集海量级的自然语言原始文档的文本。具体请参见实施例一,这里不再赘述。

s202:对所述文本进行分词,将所述文本切分为多个词组,对每个词组进行语义识别,确定每个词组的属性类别,并对同一属性类别的词组进行归类。

在对上述文本进行分词后,可以将上述文本切分为多个词组,并根据各个词组的词义对每个词组进行语义识别,确定每个词组的属性类别,并对同一属性类别的词组进行归类。具体地,可以构建词组属性分类表,所述词组属性分类表包括词组属性类别以及对应该类别的词组语义,对每个词组进行语义识别,确定所述词组的词组属性类别。

s203:统计所述词组属性类别当中的词组频率,根据词组属性类别和各属性类别词组的词频生成文本特征向量。

s204:利用预先训练的向量匹配模型根据所述文本特征向量将所述文本与样本库中的样本进行匹配,获取目标样本,其中,所述样本包括样本索引集以及与样本索引集对应的样本原始文档。

s205:利用预先训练的语义分布规律模式确定模型,根据所述目标样本原始文档与对应的目标样本索引集之间的文本特征一致性,确定文本的语义分布规律模式。

s206:根据所述文本的语义分布规律模式,将所述自然语言的原始文档的文本转换成索引集。

本实施例能够取得与上述实施例相类似的技术效果,这里不再赘述。

如图3所示,是本申请实施例三的用于搜索引擎的文本信息规律分析系统的结构示意图。本实施例提供的用于搜索引擎的文本信息规律分析系统,包括:

文本获取模块301,用于获取自然语言原始文档的文本。

文本特征向量生成模块302,对所述文本进行特征提取,生成文本特征向量;

向量匹配模块303,用于根据所述文本特征向量将所述文本与样本库中的样本进行匹配,获取目标样本,其中,所述样本包括样本索引集以及与样本索引集对应的样本原始文档;

语义分布规律模式确定模块304,用于根据所述目标样本原始文档与对应的目标样本索引集之间的文本特征一致性,确定文本的语义分布规律模式;

索引集生成模块305,用于根据所述文本的语义分布规律模式,将所述自然语言原始文档的文本转换成索引集。

进一步地,所述文本特征向量生成模块302,具体用于:

提取所述文本中的词组,对所述词组进行属性分类,统计各属性类别词组的词频,根据词组属性类别和各类别词组的词频生成文本特征向量。

所述语义分布规律模式确定模块304,具体用于:

计算所述目标样本原始文档与对应的目标样本索引集的文本特征向量,根据目标样本原始文档与对应的目标样本索引集的文本特征向量中的同类词组的词组频率的一致性,确定语义分布规律模式。

本实施例的用于搜索引擎的文本信息规律分析系统能够取得与上述方法实施例相类似的技术效果,这里不再赘述。

如图4所示,是本申请实施例四的利用本申请实施例的用于搜索引擎的文本信息规律分析系统的实现索引集生成的流程示意图。从图4中可以看出,当利用本申请实施例的用于搜索引擎的文本信息规律分析系统生成搜索引擎的索引集时,可以输入自然语言原始文档文本。在所述用于搜索引擎的文本信息规律分析系统获取到所述自然语言原始文档文本后,通过文本特征向量生成模块生成所述自然语言原始文档文本的文本特征向量,并将所述文本特征向量发送至向量匹配模块,在本实施例中,所述向量匹配模块是一个预先训练神经网络模型,当输入当前自然语言原始文档的文本特征向量之后,会计算并输出当前自然语言原始文档的文本特征向量与所述样本库中的每个样本原始文档的文本特征向量的标准差,并当该标准差小于预设阈值时,匹配成功,并将匹配成功的样本原始文档作为目标样本原始文档。具体地,可以预先利用样本库中存有的大量的样本原始文档对神经网络模型进行学习训练,以生成所述向量匹配模块,使得所述向量匹配模块根据输入的自然语言原始文档文本的文本特征向量与样本库中的样本原始文档的文本特征向量进行匹配。由于所述文本特征向量包括文本中的词组的种类以及同类词组的数量,因此,在所述向量匹配模块将自然语言原始文档的文本与样本原始文档进行匹配的过程中,可以基于自然语言原始文档的文本与样本原始文档包含的词组以及对应词组的数量进行匹配,在得到与自然语言原始文档的文本对应的样本原始文档后,由语义分布规律模式确定模块根据样本原始文档及所述样本原始文档对应的样本索引集的文本特征一致性,确定文本语义分布规律模式。具体地,所述文本语义分布规律模式确定模块根据输入的样本原始文档和对应的样本索引集的文本特征向量,确定二者的文本特征向量中的同类词组的词组频率的一致性,确定语义分布规律模式。索引集生成模块,用于根据所述文本的语义分布规律模式,将所述自然语言原始文档的文本中提取同类别的词组,转换成索引集。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1