现实信息索引的建立方法和基于云平台的全文检索系统的制作方法
【专利摘要】本发明公开了一种现实信息索引的建立方法和基于云平台的全文检索系统。该方法包括:对现实信息的数据库中的文本进行分词,以得到词库;词库中获取一个词语以得到第一词语;从除去第一词语的词库中获取N?1个词语,并与第一词语共同构成一个词语组,采用以下公式计算词语组中每两个词语的总体相关性距离K,以得到个K,采用以下公式计算词语组的总体距离系数P:K=λ1K不同文本+λ2K同文本*[λ3K不同段落+λ4K同段落*(λ5K不同句子+λ6K同句子)],其中,获取M次N?1个词语进行计算得到M个P;找出计算得到的P为最小时所获取的N?1个词语与第一词语构成第一相关词语组;确定第一相关词语组中各词语之间的关系;根据第一相关词语组中各词语之间的关系构建现实信息的索引。通过本发明,能够更有效率的找寻有效数据。
【专利说明】
现实信息索引的建立方法和基于云平台的全文检索系统
技术领域
[0001] 本发明涉及数据处理技术领域,具体而言,特别涉及一种现实信息索引的建立方 法和基于云平台的全文检索系统。
【背景技术】
[0002] 随着互联网发展,我们进入了数据爆炸的大数据时代。愈来愈多的数据影响着人 们生活的方方面面,人们需要分类存储、调用、分析各类数据。但在调用分析中,存在着遍历 数据效率低的问题。
[0003] 针对现有技术中数据检索效率低的问题,目前尚未提出有效的解决方法。
【发明内容】
[0004] 本发明的主要目的在于提供一种现实信息索引的建立方法和基于云平台的全文 检索系统,以解决现有技术中数据检索效率低的问题。
[0005] 依据本发明的一个方面,提供了一种现实信息索引的建立方法。该方法包括:步骤 SI:对现实信息的数据库中的文本进行分词,以得到词库;步骤S2:词库中获取一个词语以 得到第一词语;步骤S3:从除去第一词语的词库中获取N-I个词语,并与第一词语共同构成 一个词语组,采用以下公式计算词语组中每两个词语的总体相关性距离K,以得到个K,采 用以下公式计算词语组的总体距离系数P:
[0006;
[0007;
[0008] 其中,为两个词语在不同文本中的距离,κ融*为两个词语在同一个文本中的 距离,???为两个词语在同一文本中不同段落中的距离,κ_为两个词语在同一段落中的 距离,为两个词语在同一段落中不同句子中的距离,Kiifejp为两个词语在同一句子中的 距离,&至\ 6为常量,Ky为个K中的第y个Κ;其中,在该方法中,执行M次步骤S3,每次执行步 骤S3时,获取不同的N-I个词语,以得到M个P,M为预设值;步骤S4:找出计算得到的P为最小 时所获取的N-I个词语作为第一词语组,第一词语组与第一词语共同构成第一相关词语组; 步骤S5:确定第一相关词语组中各词语之间的关系;以及步骤S6:根据第一相关词语组中各 词语之间的关系构建现实信息的索引。
[0009] 进一步地,在步骤Sl中,对数据库中的一个文本进行分词具体包括:将文本与第一 词典匹配到的词作为断点词;通过断点词将文本分割为多个文本段;以及将断点词、多个文 本段中的每一个文本段与第二词典匹配到的词作为对文本进行分词的分词结果,其中,第 一词典的词量小于第二词典的词量。
[0010] 进一步地,在步骤Sl中,对数据库中的一个文本进行分词具体包括:通过标点符号 将文本分割为多个句子;对多个句子中的每个句子采用正向最大匹配法进行切分,以得到 第一分词结果;对多个句子中的每个句子采用逆向最大匹配法进行切分,以得到第二分词 结果;若第一分词结果与第二分词结果相同,则第一分词结果或第二分词结果为对文本进 行分词的分词结果;若第一分词结果与第二分词结果不同,将不同的部分拆分为最小词;以 及将最小词、第一分词结果与第二分词结果相同的部分作为对文本进行分词的分词结果。
[0011] 进一步地,在步骤S5中,采用以下步骤确定第一相关词语组中各词语之间的关系: 采用以下公式计算第一词语在第一相关词语组中的位置决定参数,以得到第一位置参数:
[0012]
[0013] 其中,V1S常量,Ki为第一词语组中第i个词语与第一词语的总体相关性距离K; 将第一位置决定参数输入由N个词语组成的相关词语组所对应的第一模型,以得到第一相 关词语组中各词语之间的关系,其中,词语之间关系包括所属关系、并列关系和无关关系, 第一模型的输入为相关词语组中一个词语在相关词语组中的位置决定参数,第一模型的输 出为相关词语组中各词语之间的关系。
[0014] 进一步地,在步骤S6中,第一模型采用以下步骤得到:获取机器学习样本集,其中, 样本集中包括多个样本,一个样本包括两个特征参数,其中,一个特征参数为由N个词语组 成的相关词语组中各词语之间的关系,另一个特征参数为相关词语组中一个词语在相关词 语组中的位置决定参数;通过人工智能学习算法对样本集进行学习,以得到第一模型。
[0015] 进一步地,在步骤S5中,采用以下步骤确定第一相关词语组中各词语之间的关系: 确定第一词语组中各词语之间的关系,以得到第一关系组;确定第一词语与第一词语组中 各词语的关系,以得到第二关系组;以及通过第一关系组和第二关系组确定第一相关词语 组中各词语之间的关系。
[0016] 进一步地,在步骤S3中,第二词语与第三词语为N个词语中两个词语,数据库中具 有Zi个文本组,每个文本组中包括第一文本和第二文本共两个文本,第二词语仅在第一文 本出现,第三词语仅在第二文本出现,计算的具体步骤如下:对数据库中的所有文本 按照相似性由高到低进行排序,以使数据库中的每一个文本均对应一个序号;采用以下公 式计算
[0017]
[0018] 其中,Xl = 1,2,3......Z1,bxl为第二词语在Z1个文本组中第xl个文本组的第一文 本的出现次数,mxl为第三词语在第xl个文本组的第二文本的出现次数,Ixl为第xl个文本组 的第二文本对应的序号与第xl个文本组的第一文本对应的序号的差。
[0019] 进一步地,在步骤S3中,第二词语与第三词语为N个词语中任意两个词语,数据库 具有同时出现第二词语和第三词语的办个文本,采用以下公式计算K同鉢:
[0020
[0021] 其中,x2 = 1,2,3......Z2,Cx为第二词语在Z2个文本中第x2个文本的出现次数,n x2 为第三词语在第x2个文本的出现次数。
[0022] 进一步地,在步骤S3中,第二词语与第三词语为N个词语中任意两个词语,第三文 本为数据库中同时出现第二词语和第三词语的一个文本,第三文本中具有Z3个段落组,每 个段落组中包括第一段落和第二段落共两个段落,第二词语仅在第一段落出现,第三词语 仅在第二段落出现,计算1???:的具体步骤如下:
[0023] 对第三文本中的所有段落按照相似性由高到低进行排序,以使第三文本中的每一 个段落均对应一个序号;采用以下公式计算Km:
[0024]
[0025] 其中,x3 = 1,2,3......Z3,bx/为第二词语在Z3个段落组中第χ3个段落组的第一 段落的出现次数,Hix/为第三词语在第χ3个段落组的第二段落的出现次数,Ix/为第χ3个段 落组的第一段落对应的序号与第x3个段落组的第二段落对应的序号的差。
[0026] 进一步地,在步骤S3中,第二词语与第三词语为N个词语中任意两个词语,第四文 本为数据库中具有同时出现第二词语和第三词语的段落的一个文本,第四文本具有同时出 现第二词语和第三词语的Z4个段落,采用以下公式计算κ_:
[0027]
[0028] 其中,χ4=1,2,3......为第二词语在Z4个段落中第χ4个段落的出现次数, r/ χ4第三词语在第Χ4个段落的出现次数。
[0029] 进一步地,在步骤S3中,第二词语与第三词语为N个词语中任意两个词语,第五文 本为数据库中具有同时出现第二词语和第三词语的段落的一个文本,第三段落为第五文本 中同时出现第二词语和第三词语的一个段落,第三段落中具有z 5f句子组,每个句子组中 包括第一句子和第二句子共两个句子,第二词语仅在第一句子出现,第三词语仅在第二句 子出现,计算的具体步骤如下:对第三段落中的所有句子按照先后顺序进行排序,以 使第三段落中的每一个句子均对应一个序号;采用以下公式计算K*:
[0030]
[0031] 其中,x5 = 1,2,3......Z3,bx5〃为第二词语在25个句子组中第χ5个句子组的第一 段落的出现次数,mx5〃为第三词语在第χ5个句子组的第二段落的出现次数,1〃χ5为第χ5个句 子组的第一段落对应的序号与第x5个句子组的第二段落对应的序号的差。
[0032] 进一步地,在步骤S3中,第二词语与第三词语为N个词语中任意两个词语,第六文 本为数据库中具有同时出现第二词语和第三词语的句子的一个文本,第六文本具有同时出 现第二福语知笛二福语的木采用以下公式计算K同研:
[0033]
[0034] 其中,x6 = 1,2,3......Z6,c〃x6为第二词语在Z6个句子中第x6个句子的出现次数, n〃 x6第三词语在第x6个句子的出现次数。
[0035]另一方面,提供了一种基于云平台的全文检索系统,该系统包括:现实信息索引的 建立装置,用于采用本发明提供的任一种现实信息索引的建立方法构建现实信息的索引; 分布式数据库,用于存储现实信息的数据和索引;现实信息检索装置,用于响应检索词,以 根据索引在分布式数据库中检索出结果并展示。
[0036] 通过本发明,在建立现实信息索引时,首先对现实信息的数据库中的文本进行分 词得到词库,然后再词库中获取一个词语以得到第一词语;再从除去第一词语的词库中获 取N-I个词语,并与第一词语共同构成一个词语组,计算词语组中每两个词语的总体相关性 距离K,以得到个K;再根据个K计算词语组的总体距离系数P,其中,获取M次N-I个词语 进行计算得到M个P;对于M个P,先找出最小P,再获取计算该最小P时所对应的N-I个词语作 为第一词语组,第一词语组与第一词语共同构成第一相关词语组;最后确定第一相关词语 组中各词语之间的关系,以根据确定的关系构建现实信息的索引,解决了现有技术中数据 检索效率低的问题,从而能够更有效率的找寻有效数据。
[0037] 上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段, 而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够 更明显易懂,以下特举本发明的【具体实施方式】。
【附图说明】
[0038] 通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通 技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明 的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0039] 图1是根据本发明第一实施例的现实信息索引的建立方法的流程图;
[0040] 图2是根据本发明第一实施例的树状检索结构的示意图;
[0041] 图3是根据本发明第二实施例的基于云平台的全文检索系统的框图。
【具体实施方式】
[0042]下面结合附图和【具体实施方式】对本发明做进一步说明。需要指出的是,在不冲突 的情况下,本申请中的实施例及实施例中的特征可以相互组合。
[0043] 第一方面,本发明实施例一提供了一种现实信息索引的建立方法,该方法主要描 述建立现实信息的数据库的索引的过程,参见图1,该方法可以包括以下步骤Sl至步骤S6。
[0044] 步骤Sl:对现实信息的数据库中的文本进行分词,以得到词库。
[0045]词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然 分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词 语分析是中文信息处理的基础与关键。
[0046] -般中文的处理是基于自动切分的单字切分,或者二元切分。除此之外,还有最大 切分(包括向前、向后、以及前后相结合)、最少切分、全切分等等。
[0047] 可基于字符串匹配进行分词:机械分词算法。将待分的字符串与一个充分大的机 器词典中的词条进行匹配。分为正向匹配和逆向匹配;最大长度匹配和最小长度匹配;单纯 分词和分词与标注过程相结合的一体化方法。
[0048] 在该实施例中,一种优选地情况,在分词时,采用以下的步骤:将文本与第一词典 匹配到的词作为断点词;通过断点词将文本分割为多个文本段;以及将断点词、多个文本段 中的每一个文本段与第二词典匹配到的词作为对文本进行分词的分词结果,其中,第一词 典的词量小于第二词典的词量,第一词典中的词均为具有明显特征词,第二词典是一个比 较广泛的、充分大的机器词典。
[0049] 采用该优选的方法,将机械分词作为初分手段,利用语言信息提高切分准确率。优 先识别具有明显特征的词,以这些词为断点,将原字符串分为较小字符串再机械匹配,以减 少匹配错误率。
[0050] 在该实施例中,另一种优选地情况,在分词时,采用以下的步骤:通过标点符号将 文本分割为多个句子;对多个句子中的每个句子采用正向最大匹配法进行切分,以得到第 一分词结果;对多个句子中的每个句子采用逆向最大匹配法进行切分,以得到第二分词结 果;若第一分词结果与第二分词结果相同,则第一分词结果或第二分词结果为对文本进行 分词的分词结果;若第一分词结果与第二分词结果不同,将不同的部分拆分为最小词;以及 将最小词、第一分词结果与第二分词结果相同的部分作为对文本进行分词的分词结果。
[0051] 采用该优选的方法,采用双向匹配法,将正向最大匹配法与逆向最大匹配法组合, 先根据标点对文档进行粗切分,把文本分解成若干个句子,然后再对这些句子用正向最大 匹配法和逆向最大匹配法进行扫描切分。如果两种分词方法得到的匹配结果相同,则认为 分词正确,否则,按最小集处理。提高分词的准确率。
[0052] 步骤S2:词库中获取一个词语以得到第一词语。
[0053]步骤S3:从除去第一词语的词库中获取N-I个词语,并与第一词语共同构成一个词 语组,计算词语组中每两个词语的总体相关性距离K,计算词语组的总体距离系数P。
[0054]其中,对于一个包含多个词语的词语组,计算词语组的总体距离系数P时,采用以 下的公
[0055]
[0056] 其中,需要说明的是,在计算该词语组的总体距离系数P时,需要首先计算该词语 组中任意两个词语的总体相关性距离K,则可计算得到G个K,公式(1)中的K y为是指炫个1( 中的第y个K。
[0057]在上述公式中,需要计算两个词语的总体相关性距离K,任意两个词语的总体相关 性距离K,采用以下的公式(2)计算:
[0058] 粼;+λ4Κ|!職|?Κλ5Ι〇(荷好+A6Knfeff)],公式(2)
[0059] 其中,为两个词语在不同文本中的距离,为两个词语在同一个文本中的 距离,K^Iig为两个词语在同一文本中不同段落中的距离,Κ_为两个词语在同一段落中的 距离,KM为两个词语在同一段落中不同句子中的距离,K嗣?为两个词语在同一句子中的 距离,心至\ 6为常量。
[0060] 设第二词语与第三词语为N个词语中两个词语,对于上述公式(2)中的各个参数的 计算方法,分别说明如下。
[0061 ]第一,若数据库中具有Z1A文本组,每个文本组中包括第一文本和第二文本共两 个文本,第二词语仅在第一文本出现,第三词语仅在第二文本出现,则计算KTOi的具体步 骤如下:
[0062 ]对数据库中的所有文本按照相似性由高到低进行排序,以使数据库中的每一个 文本均对应一个序号;
[0063] 采用以下公式计算&(祠鉢:
[0064]
[0065] 其中,xl = I
,2,3......Z1,bxl为第二词语在Z 1个文本组中第xl个文本组的第一文 本的出现次数,mxl为第三词语在第xl个文本组的第二文本的出现次数,Ixl为第xl个文本组 的第二文本对应的序号与第xl个文本组的第一文本对应的序号的差。
[0066] 第二,若数据库具有同时出现第二词语和第三词语的Z2个文本,则采用以下公式 计算民酞*·.
[0067]
[0068] 其中,x2 = 1,2,3......Z2,Cx为第二词语在Z2个文本中第x2个文本的出现次数,n x2 为第三词语在第x2个文本的出现次数。
[0069]第三,若第三文本为数据库中同时出现第二词语和第三词语的一个文本,第三文 本中具有Z3个段落组,每个段落组中包括第一段落和第二段落共两个段落,第二词语仅在 第一段落出现,第三词语仅在第二段落出现,则计算Km的具体步骤如下:
[0070] 对第三文本中的所有段落按照相似性由高到低进行排序,以使第三文本中的每一 个段落均对应一个序号;
[0071] 采用以下公式计算
[0072]
[0073]其中,x3 = l,2,3......Z3,bx3'为第二词语在Z3个段落组中第x3个段落组的第一 段落的出现次数,Hix/为第三词语在第X3个段落组的第二段落的出现次数,Ix/为第X3个段 落组的第一段落对应的序号与第x3个段落组的第二段落对应的序号的差。
[0074] 第四,若第四文本为数据库中具有同时出现第二词语和第三词语的段落的一个文 本,第四文本具有同时出现第二词语和第三词语的Z 4个段落,则采用以下公式计算K_:
[0075]
[0076] 其中,χ4=1,2,3......为第二词语在Z4个段落中第χ4个段落的出现次数, r/ χ4第三词语在第Χ4个段落的出现次数。
[0077]第五,若第五文本为数据库中具有同时出现第二词语和第三词语的段落的一个文 本,第三段落为第五文本中同时出现第二词语和第三词语的一个段落,第三段落中具有Z5 个句子组,每个句子组中包括第一句子和第二句子共两个句子,第二词语仅在第一句子出 现,第三词语仅在第二句子出现,则计算K*的具体步骤如下:
[0078]对第三段落中的所有句子按照先后顺序进行排序,以使第三段落中的每一个句子 均对应一个序号;
[0079]采用以下公式计算&(爾好:
[0080]
[0081 ] 其中,x5 = 1,2
,3......Z3,bx5〃为第二词语在2 5个句子组中第χ5个句子组的第一 段落的出现次数,mx5〃为第三词语在第x5个句子组的第二段落的出现次数,l〃x5为第x5个句 子组的第一段落对应的序号与第x5个句子组的第二段落对应的序号的差。
[0082] 第六,若第六文本为数据库中具有同时出现第二词语和第三词语的句子的一个文 本,第六f本具有同时出现第二词语和第三词语的Z 6个句子,则采用以下公式计算K同研:
[0083]
[0084] 其中,x6 = 1,2,3......Z6,c〃x6为第二词语在Z6个句子中第x6个句子的出现次数, n〃 x6第三词语在第x6个句子的出现次数。
[0085] 第七,关于常量人1至\6,可以为离散函数值,取经验值;也可以为具有关联性函数 值,例如根据函数库中的数据进行匹配,通过神经网络学习方式获取最终确认函数值。
[0086] 在该实施例中,执行M次步骤S3,每次执行步骤S3时,获取不同的N-I个词语,以得 到M个P,其中,M为预设值,可按照实际分析目标的不同选择不同的M值。
[0087]步骤S4:找出计算得到的P为最小时所获取的N-I个词语作为第一词语组,第一词 语组与第一词语共同构成第一相关词语组。
[0088] 每次执行步骤S3,均会得到一个P值,一种处理方式为,每次得到P值后,和上一次 的P值进行比较,保留较小的P和计算该较小P时所获取的N-I个词语,在执行M次步骤S3后, 会得到最小P以及最小P所对应的N-I个词语;另一种处理方式为,每次得到P值时,进行一次 数据保存,在执行M次步骤S3后,会得到所有的P以及每个P值所对应的N-I个词语,对所有的 P值进行排序后得到最小P以及最小P所对应的N-I个词语。为方便描述,将最小P所对应的N-1个词语命名为第一词语组,将第一词语组与第一词语共同构成第一相关词语组。
[0089] 步骤S5:确定第一相关词语组中各词语之间的关系。
[0090] 在确定第一相关词语组中的各词语之间的关系时,可采用如下的两种方式。
[0091] -种方式,采用以下公式计算第一词语在第一相关词语组中的位置决定参数,以 得到第一
[0092]
[0093]其中,λ',为常量,Ki为第一词语组中第i个词语与第一词语的总体相关性距离K; [0094]将第一位置决定参数输入由N个词语组成的相关词语组所对应的第一模型,以得 到第一相关词语组中各词语之间的关系,其中,词语之间关系包括所属关系、并列关系和无 关关系,第一模型的输入为相关词语组中一个词语在相关词语组中的位置决定参数,第一 模型的输出为相关词语组中各词语之间的关系。
[0095]其中,第一模型采用以下步骤得到:获取机器学习样本集,其中,样本集中包括多 个样本,一个样本包括两个特征参数,其中,一个特征参数为由N个词语组成的相关词语组 中各词语之间的关系,另一个特征参数为相关词语组中一个词语在相关词语组中的位置决 定参数;通过人工智能学习算法对样本集进行学习,以得到第一模型。
[0096]在具有第一模型的基础上,该方式只需要计算第一位置参数代入模型即可,但该 方式不适合于第一相关词语组中词语较多的情况。原因在于,当词语较多时,各词语之间的 关系组合较多,从而在建立第一模型时,需要足够多的样本,并且建立第一模型的复杂度也 较大。
[0097] 另一种方式,采用以下步骤确定第一相关词语组中各词语之间的关系:确定第一 词语组中各词语之间的关系,以得到第一关系组;确定第一词语与第一词语组中各词语的 关系,以得到第二关系组;以及通过第一关系组和第二关系组确定第一相关词语组中各词 语之间的关系。
[0098] 在该种方式中,实际上是对确定第一相关词语组中各词语之间的关系这一问题进 行了拆分,在确定第一相关词语组中各词语之间的关系时,首先确定第一词语组中各词语 的关系,而确定第一词语组中各词语的关系,还可以进行进一步的拆分,以此类推,直至将 词语组的大小拆分到能够通过简单的模型即可得到该词语组中各词语的关系。在面对词语 组中词语较多的情况时,优于上述第一种方式。
[0099] 步骤S6:根据第一相关词语组中各词语之间的关系构建现实信息的索引。
[0100] 第一相关词语组中各词语之间的关系包括所属关系、并列关系和无关关系,其中, 所属关系又由包含关系和属于关系构成,如果A词属于B词,则B词包含A词;如果C词也属于B 词,则A词与C词是并列关系,除所属关系和并列关系之外的,属于无关关系,在获得词语之 间的关系后,能够构建现实信息的索引,形成树状检索结构如图2所示。
[0101] 在图2中,没有箭头指向关系的两个词是无关关系;箭头由A词指向B词是指A词属 于B词,B词包含A词,例如,由"人工智能"指向"李世石",是指"人工智能"属于"李世石","李 世石"包含"人工智能";同时指向B词的A词和C词是指A词与C词是并列关系,例如,由"机器" 指向"人类",由"国际象棋"指向"人类",则"机器"与"国际象棋"属于并列关系。
[0102] 第二方面,本发明实施例三提供了一种基于云平台的全文检索系统,如图2所示, 该检索系统包括现实信息索引的建立装置10、分布式数据库20和现实信息检索装置30。
[0103] 现实信息索引的建立装置10用于采用本发明提供的任一种现实信息索引的建立 方法构建现实信息的索引;分布式数据库20用于存储现实信息的数据和索引;现实信息检 索装置30用于响应检索词,以根据索引在分布式数据库中检索出结果并展示。
[0104]需要说明的是,在本申请中提到的"第一词语组"、"第一文本"、"第二句子"、"第二 段落"等中的"第一"、"第二",并没有次序限定的意思,只是起标识作用用于相互区分。
[0105] 本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与 其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于本申请的装 置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实 施例的部分说明即可。
[0106] 以上所述,仅为本发明较佳的【具体实施方式】,但本发明的保护范围并不局限于此, 任何熟悉该技术的人在本发明所揭露的技术范围内,可轻易想到的变化或替换,都应涵盖 在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
【主权项】
1. 一种现实信息索引的建立方法,其特征在于,包括: 步骤S1:对现实信息的数据库中的文本进行分词,W得到词库; 步骤S2:所述词库中获取一个词语W得到第一词语; 步骤S3:从除去所述第一词语的词库中获取N-1个词语,并与所述第一词语共同构成一 个词语组,采用W下公式计算所述词语组中每两个词语的总体相关性距离K,W得到C是个 K,采用W下公式计算所述词语组的总体距离系数P: Κ=入入 2Κιι*φ;* [入 入 4K|siii?K 入已 入 sKiiigf)],其中,Kto*为所述两个词语在不同文本中的距离,K耐山%所述两个词语在同一个文本 中的距离,Km为所述两个词语在同一文本中不同段落中的距离,K胃为所述两个词语在 同一段落中的距离,时前?为所述两个词语在同一段落中不同句子中的距离,K齡ff为所述两 个词语在同一句子中的距离,λι至λ6为常量,Ky为所述巧个K中的第y个K; 其中,在所述方法中,执行Μ次所述步骤S3,其中,每次执行所述步骤S3时,获取不同的 Ν-1个词语,W得到Μ个Ρ,Μ为预设值; 步骤S4:找出计算得到的Ρ为最小时所获取的Ν-1个词语作为第一词语组,所述第一词 语组与所述第一词语共同构成第一相关词语组; 步骤S5:确定所述第一相关词语组中各词语之间的关系;W及 步骤S6:根据所述第一相关词语组中各词语之间的关系构建所述现实信息的索引。2. 根据权利要求1所述的现实信息索引的建立方法,其特征在于,在步骤S1中,对所述 数据库中的一个文本进行分词具体包括: 将所述文本与第一词典匹配到的词作为断点词; 通过所述断点词将所述文本分割为多个文本段;W及 将所述所述断点词、所述多个文本段中的每一个文本段与第二词典匹配到的词作为对 所述文本进行分词的分词结果,其中,所述第一词典的词量小于所述第二词典的词量。3. 根据权利要求1所述的现实信息索引的建立方法,其特征在于,在步骤S1中,对所述 数据库中的一个文本进行分词具体包括: 通过标点符号将所述文本分割为多个句子; 对所述多个句子中的每个句子采用正向最大匹配法进行切分,W得到第一分词结果; 对所述多个句子中的每个句子采用逆向最大匹配法进行切分,W得到第二分词结果; 若所述第一分词结果与所述第二分词结果相同,则所述第一分词结果或所述第二分词 结果为对所述文本进行分词的分词结果; 若所述第一分词结果与所述第二分词结果不同,将不同的部分拆分为最小词;W及 将所述最小词、所述第一分词结果与所述第二分词结果相同的部分作为对所述文本进 行分词的分词结果。4. 根据权利要求1所述的现实信息索引的建立方法,其特征在于,在步骤S5中,采用W 下步骤确定所述第一相关词语组中各词语之间的关系: 采用W下公式计算所述第一词语在所述第一相关词语组中的位置决定参数,W得到第 一位置参数:其中,λ/ 1为常量,Ki为所述第一词语组中第i个词语与所述第一词语的总体相关性距离 K; 将所述第一位置决定参数输入由N个词语组成的相关词语组所对应的第一模型,W得 到所述第一相关词语组中各词语之间的关系,其中,所述词语之间关系包括所属关系、并列 关系和无关关系,所述第一模型的输入为所述相关词语组中一个词语在所述相关词语组中 的位置决定参数,所述第一模型的输出为所述相关词语组中各词语之间的关系。5. 根据权利要求4所述的现实信息索引的建立方法,其特征在于,在步骤S6中,所述第 一模型采用W下步骤得到: 获取机器学习样本集,其中,所述样本集中包括多个样本,一个所述样本包括两个特征 参数,其中,一个特征参数为由N个词语组成的相关词语组中各词语之间的关系,另一个特 征参数为所述相关词语组中一个词语在所述相关词语组中的位置决定参数; 通过人工智能学习算法对所述样本集进行学习,W得到所述第一模型。6. 根据权利要求1所述的现实信息索引的建立方法,其特征在于,在步骤S5中,采用W 下步骤确定所述第一相关词语组中各词语之间的关系: 确定所述第一词语组中各词语之间的关系,W得到第一关系组; 确定所述第一词语与所述第一词语组中各词语的关系,W得到第二关系组;W及 通过所述第一关系组和所述第二关系组确定所述第一相关词语组中各词语之间的关 系。7. 根据权利要求1所述的现实信息索引的建立方法,其特征在于,在步骤S3中,第二词 语与第Ξ词语为所述N个词语中两个词语,所述数据库中具有Zi个文本组,每个所述文本组 中包括第一文本和第二文本共两个文本,所述第二词语仅在所述第一文本出现,所述第Ξ 词语仅在所述第二文本出现,计算时^**的具体步骤如下: 对所述数据库中的所有文本按照相似性由高到低进行排序,W使所述数据库中的每一 个文本均对应一个序号; 义用W下公式计算时硕述:其中,xl = l,2,3......Zi,bxi为所述第二词语在所述Zi个文本组中第xl个文本组的第 一文本的出现次数,mxi为所述第Ξ词语在所述第XI个文本组的第二文本的出现次数,1x1为 所述第XI个文本组的第二文本对应的序号与所述第XI个文本组的第一文本对应的序号的 差。8. 根据权利要求1所述的现实信息索引的建立方法,其特征在于,在步骤S3中,第二词 语与第Ξ词语为所述N个词语中任意两个词语,所述数据库具有同时出现所述第二词语和 所述第Ξ词语的Z2个文本,采用W下公式计算K同対其中,x2 = 1,2,3......Z2,cx为所述第二词语在所述Z2个文本中第x2个文本的出现次 数,nx2为所述第Ξ词语在所述第x2个文本的出现次数。9. 根据权利要求1所述的现实信息索引的建立方法,其特征在于,在步骤S3中,第二词 语与第Ξ词语为所述N个词语中任意两个词语,所述第Ξ文本为所述数据库中同时出现所 述第二词语和所述第Ξ词语的一个文本,所述第Ξ文本中具有Z3个段落组,每个所述段落 组中包括第一段落和第二段落共两个段落,所述第二词语仅在所述第一段落出现,所述第 Ξ词语仅在所述第二段落出现,计算Km的具体步骤如下: 对所述第Ξ文本中的所有段落按照相似性由高到低进行排序,W使所述第Ξ文本中的 每一个段落均对应一个序号; 采用W下公式计算时懸:其中,x3 = 1,2,3......Z3,b。/为所述第二词语在所述Z3个段落组中第x3个段落组的第 一段落的出现次数,m。/为所述第Ξ词语在所述第x3个段落组的第二段落的出现次数,1。/ 为所述第x3个段落组的第一段落对应的序号与所述第x3个段落组的第二段落对应的序号 的差。10. 根据权利要求1所述的现实信息索引的建立方法,其特征在于,在步骤S3中,第二词 语与第Ξ词语为所述N个词语中任意两个词语,第四文本为所述数据库中具有同时出现所 述第二词语和所述第Ξ词语的段落的一个文本,所述第四文本具有同时出现所述第二词语 和所述第Ξ词语的Z4个段落,采用W下公式计算K睡懸:其中,x4 = 1,2,3......Z4,cx/为所述第二词语在所述Z4个段落中第x4个段落的出现次 数,r/X4所述第Ξ词语在所述第x4个段落的出现次数。11. 根据权利要求1所述的现实信息索引的建立方法,其特征在于,在步骤S3中,第二词 语与第Ξ词语为所述N个词语中任意两个词语,第五文本为所述数据库中具有同时出现所 述第二词语和所述第Ξ词语的段落的一个文本,第Ξ段落为所述第五文本中同时出现所述 第二词语和所述第Ξ词语的一个段落,所述第Ξ段落中具有Z5个句子组,每个所述句子组 中包括第一句子和第二句子共两个句子,所述第二词语仅在所述第一句子出现,所述第Ξ 词语仅在所述第二句子出现,计算时胃的具体步骤如下: 对所述第Ξ段落中的所有句子按照先后顺序进行排序,W使所述第Ξ段落中的每一个 句子均对应一个序号; 采用W下公式计算时胃:其中,巧=1,2,3......Z3,bx5"为所述第二词语在所述Z5个句子组中第巧个句子组的第 一段落的出现次数,mx5"为所述第Ξ词语在所述第巧个句子组的第二段落的出现次数,l"x5 为所述第巧个句子组的第一段落对应的序号与所述第巧个句子组的第二段落对应的序号 的差。12. 根据权利要求1所述的现实信息索引的建立方法,其特征在于,在步骤S3中,第二词 语与第Ξ词语为所述N个词语中任意两个词语,第六文本为所述数据库中具有同时出现所 述第二词语和所述第Ξ词语的句子的一个文本,所述第六文本具有同时出现所述第二词语 和所述第Ξ词语的Z6个句子,采用W下公式计算K同feff:其中,x6 = 1,2,3......Z6,c"x6为所述第二词语在所述Z6个句子中第x6个句子的出现次 数,η" X6所述第Ξ词语在所述第x6个句子的出现次数。13. -种基于云平台的全文检索系统,其特征在于,包括: 现实信息索引的建立装置,用于采用权利要求1至12中任一项所述的现实信息索引的 建立方法,构建现实信息的索引; 分布式数据库,用于存储所述现实信息的数据和所述索引; 现实信息检索装置,用于响应检索词,W根据所述索引在所述分布式数据库中检索出 结果并展示。
【文档编号】G06F17/27GK105843926SQ201610181067
【公开日】2016年8月10日
【申请日】2016年3月28日
【发明人】李唳天, 马雄鹰
【申请人】北京掌沃云视媒文化传媒有限公司