一种基于分布式索引的快捷信息检索系统的制作方法

文档序号:30178084发布日期:2022-05-26 12:27阅读:158来源:国知局
一种基于分布式索引的快捷信息检索系统的制作方法

1.本发明涉及电数字数据处理领域,且更确切地涉及一种基于分布式索引的快捷信息检索系统。


背景技术:

2.信息技术的飞速发展和计算机互联网的普及,给人们的生活带来了前所未有的变化,尤其是人们获取信息的途径得到丰富。在这个过程中,搜索引擎正扮演着越来越重要的地位。人们在要求搜索的查全率和查准率的同时,也对搜索的性能提出了要求。分布式系统与并行计算技术的发展是人们提高搜索引擎的性能的前提。如何提高数字数据信息的检索能力和信息处理能力,是目前基于分布式索引的关键。
3.在分布式索引过程中,为了提高快捷信息检索能力,现有技术也进行了相关技术申请,比如有一个文献设计和开发一个基于分布式索引的搜索引擎的信息检索系统。该系统设计和实现了一种基于集群系统的分布式信息检索系统,系统包括server节点、client节点、proxy节点和checker节点,这四种计算节点互相配合,完成一个完整的信息检索模块的功能,包括建立索引和索引查询等等,设计目标是为了实现整个系统性能上的提升。在分布式信息检索系统中,索引文件分布在不同的client节点之上,由server节点统一管理建立索引的过程和cliem节点的生存状态,以此达到建立索引的并行化,提高建立索引的效率;在检索过程中,proxy节点负责接收用户的查询请求,并将查询和全局数据一起进行封装,分发给负责具体查询工作的client节点,再对client节点返回的结果进行合并,返回给用户,这样就实现了检索的并行化,提高了检索的效率,该申请方法虽然具有一定的技术优越性,但对于检索系统内数据大于1000的情况的下,或者分布式索引的快捷信息检索内节点较多的情况下,检索效率仍旧低下。


技术实现要素:

4.针对上述技术的不足,本发明公开一种基于分布式索引的快捷信息检索系统,通过引入计算机算法,能够提高快捷信息检索系统检索能力。
5.为了实现上述技术效果,本发明采用以下技术方案:一种基于分布式索引的快捷信息检索系统,包括:分布式数据库,数据节点分布地设置在不同站点上的开源分布式时序、事件或者指标信息数据库,用于容纳不同节点的数据信息;检索控制模块,用于控制分布式数据库检索,并将检索结果输出至其他模块;节点信息提取模块,用于提取分布式节点的数据信息,以提取不同节点数据信息,并将各种节点的数据信息的特征提炼出来;时间序列索引模型,通过提取分布式数据库内的数据信息特征,按照时间序列对数据库内的信息特征进行标识、提取和统计,其中所述时间序列索引模型通过构建自回归模型实现所述节点信息提取模块所提取数据信息的分析;
分布式计算引擎模块,在检索控制模块控制下,通过改进型mmas算法模型提高分布式数据库信息的索引能力,提高信息索引效率;数据交互模块,用以实现不同模块之间的信息交互,以实现分布式数据库在检索过程中的传递、互通或者交互;数据检索点,用于实现分布式数据库检索输出的节点,并外联有外部数据库,以实现不同分布式数据库节点的信息输出;其中:所述检索控制模块分别与分布式数据库、节点信息提取模块、时间序列索引模型、分布式计算引擎模块、数据交互模块和数据检索点连接,其中所述分布式数据库的输出端与时间序列索引模型的输入端连接,所述时间序列索引模型的输出端与分布式计算引擎模块的输入端连接,所述时间序列索引模型还通过数据交互模块实现检索输出,所述分布式数据库的输出端与分布式节点输入端连接,所述分布式节点的输出端通过数据检索点实现检索输出,并通过检索输出接口与检索信息显示模块连接。
6.作为本发明进一步的技术方案,所述检索控制模块为16位mcu内核控制电路,其中所述16位mcu内核控制电路与可编程控制器双向连接,所述16位mcu内核控制电路为msp430fg4619单片机电路,所述可编程控制器还连接有a/d转换模块,所述a/d转换模块连接有滤波电路。
7.作为本发明进一步的技术方案,所述时间序列索引模型的索引分布式数据库中的序列数据为:
ꢀꢀꢀꢀꢀꢀꢀ
(1)其中表示在索引第个分布式数据库时的时间序列分析模型系数,表示前t个时刻点的分布式数据库内的数据信息,表示分布式数据库输出的噪声信号。
8.作为本发明进一步的技术方案,所述分布式数据库内的数据信息特征序列的回归函数表示为:
ꢀꢀꢀꢀꢀꢀꢀꢀ
(2)式(2)中,表示分布式数据库不同数据信息索引序列自身之前的回归表示,表示自回归系数,表示在第个分布式数据库时的自回归系数,通过公式(2)得到分布式数据库不同数据信息序列的自回归模型,进而实现自身数据库信息的自预测。
9.作为本发明进一步的技术方案,所述时间序列索引模型通过节点信息提取模块确定数据信息维度,则节点信息提取模块的信息提取函数表示为:
ꢀꢀꢀꢀꢀꢀꢀ
(3)式(3)中表示分布式数据库内不同数据信息的采样点,表示时间序列索引模型的维度,表示时间序列索引模型的方差;通过对分布式数据库不同数据信息索引,进而提高了时间序列索引模型工作过程中序列信息索引速度,其中在索引过程中,时间序列
索引模型索引分布式数据库时,数据内不同数据信息索引范围通过以下函数表示:
ꢀꢀꢀꢀꢀꢀꢀꢀ
(4)其中、表示时间序列索引模型在索引分布式数据库内不同数据信息时,分布式数据库数据信息具有的索引范围上限值和下限值,表示时间序列索引模型工作过程中信息进行加速时的数据序列,表示分布式数据库不同数据信息在索引加速时,数据库内所以数据信息波动的均值,表示分布式数据库不同数据信息加速度波动的方差,表示时间序列索引模型的经验修正系数;通过公式(4)能够输出时间序列索引模型在索引分布式数据库时,所索引出的数据信息在分布式数据库内的索引范围,将加速索引的分布式数据库峰值波动序列划分为多个子区间,各个子区间的上下界可表示为:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)式(5)中表示加速索引时的分布式数据库数据信息出现的加速度值波动阈值,、表示分布式数据库内各个区间的中值点。
10.作为本发明进一步的技术方案,时间序列索引模型在分布式数据库下的损失特征函数定义为:
ꢀꢀꢀꢀꢀꢀ
(6)式(6)中表示分布式数据库不同数据信息的损伤敏感因子,表示外部环境影响因素,表示时间序列索引模型本身影响因素,表示分布式数据库个数,表示第个分布式数据库的影响因素,表示第个分布式数据库受到外部环境影响因素的方差。
11.作为本发明进一步的技术方案,所述改进型mmas算法模型为加入分类算法模型的最优搜索算法模型。
12.作为本发明进一步的技术方案,所述改进型mmas算法模型工作包括以下步骤:步骤一、将不同的分布式数据库内的数据信息记作为蚂蚁信息元素,通过第一分
类算法模型实现一级分类,然后对mmas算法模型进行初始化设置;步骤二、设置不同的分布式数据库内的数据信息的索引轨迹,索引轨迹更新方法通过以下公式进行:
ꢀꢀꢀꢀꢀ
(7)其中表示索引信息素,表示信息索引蚂蚁元素,表示蚂蚁元素更新释放信息素的时间,表示释放信息素时最合适的蚂蚁元素;其中有:
ꢀꢀꢀꢀꢀꢀꢀꢀ
(8)公式(8)表示在利用mmas算法过程中,利用最合适蚂蚁信息元素的公式表示,该公式中的表示为在不断迭代计算过程中,输出的最优解或者在不断搜索过程中输出的全局最优解值;步骤三:设置最大值和最小值限制,假设介于和之间,每次蚂蚁元素进行信息更新后,在的情况下,则将二者取值为相同的形式,即,反之,时,;步骤四:对蚂蚁元素信息素轨迹进行平滑化处理,则处理公式为:
ꢀꢀꢀꢀꢀ
(9)在公式(9)中,的值介于1和1.5之间,为蚂蚁元素进行平滑化之前的信息素轨迹量,为蚂蚁元素进行索引后平滑化之后的信息素轨迹量;步骤五:通过第二分类算法模型对不同的信息元素进行二级分类。
13.作为本发明进一步的技术方案,所述第一分类算法模型和第二分类算法模型为决策树相似度矩阵分类模型。
14.在上述实施例中,所述决策树相似度矩阵分类模型的工作方法为:步骤1、在分布式数据库中的信息素进行分类计算时,相邻两个分布式数据库内的蚂蚁元素之间的相似程度用表示,则有:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(10)分布式数据库内的蚂蚁元素相似度的计算公式为:
ꢀꢀꢀꢀ
(11)其中公式(11)中的和表示不同分布式数据库数值综合差值, t为不同用户数据信息在选择蚂蚁信息元素时容忍的最大相似度,则在分布式数据库内的蚂蚁元素进行信息搜索计算时,分布式数据库内的蚂蚁元素检索路径平均值为:
ꢀꢀꢀꢀꢀꢀꢀꢀ
(12)选择两个不同蚂蚁决策树的相似度函数可以通过以下函数表示:
ꢀꢀꢀꢀꢀꢀꢀꢀ
(13)当蚂蚁信息元素大于1000时,在不断地进行迭代计算时,则任意两个蚂蚁元素的相似度计算公式表示为: (14)其中表示采用第n个蚂蚁元素与m个蚂蚁元素进行信息搜索时的元素相似度,通过数据集合的形式,能够使用户在任意时间下获取蚂蚁搜索信息,进而获取分布式数据库内的数据训练集合的最优解和相邻两个蚂蚁元素之间的相似程度。
15.积极有益效果本发明构建了一套基于分布式索引的快捷信息检索系统,包括分布式数据库、检索控制模块、节点信息提取模块、时间序列索引模型、数据交互模块、数据检索点分布式计算引擎模块,在检索控制模块控制下,通过改进型mmas算法模型提高分布式数据库信息的索引能力,提高信息索引效率。通过自回归模型(autoregressive model)将分布式数据库不同数据信息参数与分布式数据库时的自回归系数以及参数联系起来,提高了数据信息检索能力。
附图说明
16.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图,其中:
图1为本发明系统整体结构示意图;图2为本发明系统中检索控制模块结构示意图;图3为本发明系统中时间序列索引模型一种实施例工作示意图;图4为发明系统中工作流程示意图;图5为发明系统中改进型mmas算法模型结构示意图;图6为发明决策树相似度矩阵分类模型工作方法示意图。
具体实施方式
17.以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的实施例仅用于说明和解释本发明,并不用于限定本发明。
18.如图1所示,一种基于分布式索引的快捷信息检索系统,包括:分布式数据库,数据节点分布地设置在不同站点上的开源分布式时序、事件或者指标信息数据库,用于容纳不同节点的数据信息;检索控制模块,用于控制分布式数据库检索,并将检索结果输出至其他模块;节点信息提取模块,用于提取分布式节点的数据信息,以提取不同节点数据信息,并将各种节点的数据信息的特征提炼出来;时间序列索引模型,通过提取分布式数据库内的数据信息特征,按照时间序列对数据库内的信息特征进行标识、提取和统计,其中所述时间序列索引模型通过构建自回归模型实现所述节点信息提取模块所提取数据信息的分析;分布式计算引擎模块,在检索控制模块控制下,通过改进型mmas算法模型提高分布式数据库信息的索引能力,提高信息索引效率;数据交互模块,用以实现不同模块之间的信息交互,以实现分布式数据库在检索过程中的传递、互通或者交互;数据检索点,用于实现分布式数据库检索输出的节点,并外联有外部数据库,以实现不同分布式数据库节点的信息输出;其中:所述检索控制模块分别与分布式数据库、节点信息提取模块、时间序列索引模型、分布式计算引擎模块、数据交互模块和数据检索点连接,其中所述分布式数据库的输出端与时间序列索引模型的输入端连接,所述时间序列索引模型的输出端与分布式计算引擎模块的输入端连接,所述时间序列索引模型还通过数据交互模块实现检索输出,所述分布式数据库的输出端与分布式节点输入端连接,所述分布式节点的输出端通过数据检索点实现检索输出,并通过检索输出接口与检索信息显示模块连接。
19.在具体实施例中,输出外设设备能够通过检索输出获取分布式索引数据库点,该系统通过分布式数据库实现不同数据信息的存储,通过检索控制模块实现分布式数据库检索信息的控制,本技术能够提高分布式信息索引的速度,提高信息检索能力。
20.在上述实施例中,如图2所示,所述检索控制模块为16位mcu内核控制电路,其中所述16位mcu内核控制电路与可编程控制器双向连接,所述16位mcu内核控制电路为msp430fg4619单片机电路,所述可编程控制器还连接有a/d转换模块,所述a/d转换模块连接有滤波电路。
21.如图2所示,在本技术的单片机电路中,采用的是单片机msp430fg4619电路对输入
的数据信息进行处理,该芯片采用的是16位功耗较低、性能比较高的msp430单片机,该电路在运行过程中,其活动模式约为350μa左右,输入的漏电流数值大约为50na,采用该电路具有较好的稳定性。其中外设电路还可以包括运算器电路、a/d转换模块、控制器电路、晶振电路、复位电路以及jtag接口电路等多种数据输入数输出模块。在进行分布式索引数据控制时,还可以通过液晶显示电路显示分布式索引数据计量输出的数值,该模块为点阵图形式lcd显示形式,其工作电压为3.3v,显示图形模式为128(列)
×
64(行)。采用的信号调理放大电路为高精密运放max4238信号调理电路。后级放大电路采用的是op07c运算放大电路。采用的a/d转换模块为具有12位放大电路。具有1m字节运算放大地址存储空间和分布式索引数据计量高速执行计算能力。具有的数据接口为64k flash rom、1.5k ram;带有41个可供检测人员使用的i/o接口,定时器具有4个,串行接口的数量为2个。
22.在上述实施例中,如图3所示,所述时间序列索引模型的索引分布式数据库中的序列数据为:
ꢀꢀꢀꢀꢀꢀꢀ
(1)其中表示在索引第个分布式数据库时的时间序列分析模型系数,表示前t个时刻点的分布式数据库内的数据信息,表示分布式数据库输出的噪声信号。
23.在上述实施例中,由于数据库的不同,其内的数据信息的维度不同,时间序列索引模型中很容易包含分布式数据节点的多项数据和噪声数据,通过将不同的分布式数据库划分不同的特征提取模块和和分布式数据库节点。通过数据函数(1)可以直观地表示索引分布式数据库中的序列数据信息,进而提高时间序列索引模型对不同数据库信息的索引能力。
24.在上述实施例中,公式(1)表示了时间序列索引模型中输入的分布式数据库内开源分布式时序、事件或者指标信息数据库监测数据,在时间序列索引模型的监测数据序列中加入了移后算子,得到分布式数据库内的数据信息特征序列的回归函数表示为:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)式(2)中,表示分布式数据库不同数据信息索引序列自身之前的回归表示,表示自回归系数,表示在第个分布式数据库时的自回归系数,通过公式(2)得到分布式数据库不同数据信息序列的自回归模型,进而实现自身数据库信息的自预测。
25.自回归模型(autoregressive model)是用自身做回归变量的过程,即利用前期若干时刻的随机变量的线性组合来描述以后某时刻随机变量的线性回归模型,它是时间序列中的一种常见形式。但申请的函数模型为该模型中不常见的一种表示,将分布式数据库不同数据信息参数与分布式数据库时的自回归系数以及参数联系起来,提高了数据信息检索能力。
26.在上述实施例中,时间序列索引模型通过节点信息提取模块确定数据信息维度,则节点信息提取模块的信息提取函数表示为:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)式(3)中表示分布式数据库内不同数据信息的采样点,表示时间序列索引模型的维度,表示时间序列索引模型的方差;通过对分布式数据库不同数据信息索引,进而提高了时间序列索引模型工作过程中序列信息索引速度,其中在索引过程中,时间序列索引模型索引分布式数据库时,数据内不同数据信息索引范围通过以下函数表示:
ꢀꢀꢀꢀꢀꢀ
(4)其中、表示时间序列索引模型在索引分布式数据库内不同数据信息时,分布式数据库数据信息具有的索引范围上限值和下限值,表示时间序列索引模型工作过程中信息进行加速时的数据序列,表示分布式数据库不同数据信息在索引加速时,数据库内所以数据信息波动的均值,表示分布式数据库不同数据信息加速度波动的方差,表示时间序列索引模型的经验修正系数;通过公式(4)能够输出时间序列索引模型在索引分布式数据库时,所索引出的数据信息在分布式数据库内的索引范围,将加速索引的分布式数据库峰值波动序列划分为多个子区间,各个子区间的上下界可表示为:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)式(5)中表示加速索引时的分布式数据库数据信息出现的加速度值波动阈值,、表示分布式数据库内各个区间的中值点。
27.通过上述实施例,通过时间序列索引模型提高了分布式数据库索引能力。时间序列简单的说就是各时间点上形成的数值序列,时间序列分析就是通过观察历史数据预测未来的值。在这里需要强调一点的是,时间序列分析并不是关于时间的回归,通过上述函数,提高了索引能力。
28.公式(5)表示了加速索引时的数据信息在各自的分布式数据库内子区间浮动的上下界,通过在索引时间评估分布式数据库内数据信息的浮动情况,进而提高了数据信息评估能力。
29.时间序列索引模型在分布式数据库下的损失特征函数定义为:
ꢀꢀꢀꢀꢀ
(6)式(6)中表示分布式数据库不同数据信息的损伤敏感因子,表示外部环境影响因素,表示时间序列索引模型本身影响因素,表示分布式数据库个数,表示第个分布式数据库的影响因素,表示第个分布式数据库受到外部环境影响因素的方差。
30.这是由于数据库信息特征不同造成的。假设分布式数据库处于正常状态时的作为参考,测试得到的分布式数据库不同数据信息样本为测试值,对比得到的显性验证为:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)其中表示分布式数据库不同数据信息结构健康情况下的损伤平均值,表示测试样本的损伤平均值。公式(7)表示了在的情况下,分布式数据库不同数据信息结构没有明显的损坏,在的情况下,测试样本与正常情况下的损伤平均值存在差异。
31.综上所示,通过构建分布式数据库不同数据信息的时间序列分析模型,并应用实际分布式数据库加速采集不同数据内的信息,进而从模型中提取分布式数据库不同数据信息系统固有性质的参数,进而能够识别分布式数据库不同数据信息的整体损伤情况,完成分布式数据库不同数据信息整体状况的安全分析。
32.在上述实施例中,所述改进型mmas算法模型为加入分类算法模型的最优搜索算法模型。
33.在上述实施例中,如图4和图5所示,所述改进型mmas算法模型工作包括以下步骤:步骤一、将不同的分布式数据库内的数据信息记作为蚂蚁信息元素,通过第一分类算法模型实现一级分类,然后对mmas算法模型进行初始化设置;步骤二、设置不同的分布式数据库内的数据信息的索引轨迹,索引轨迹更新方法通过以下公式进行:
ꢀꢀꢀꢀꢀꢀ
(8)其中表示索引信息素,表示信息索引蚂蚁元素,表示蚂蚁元素更新释放信息素的时间,表示释放信息素时最合适的蚂蚁元素;其中有:
ꢀꢀꢀꢀꢀꢀꢀꢀ
(9)
公式(9)表示在利用mmas算法过程中,利用最合适蚂蚁信息元素的公式表示,该公式中的表示为在不断迭代计算过程中,输出的最优解或者在不断搜索过程中输出的全局最优解值;步骤三:设置最大值和最小值限制,假设介于和之间,每次蚂蚁元素进行信息更新后,在的情况下,则将二者取值为相同的形式,即,反之,时,;步骤四:对蚂蚁元素信息素轨迹进行平滑化处理,则处理公式为:
ꢀꢀꢀꢀꢀ
(10)在公式(10)中,的值介于1和1.5之间,为蚂蚁元素进行平滑化之前的信息素轨迹量,为蚂蚁元素进行索引后平滑化之后的信息素轨迹量;步骤五:通过第二分类算法模型对不同的信息元素进行二级分类。
34.在上述步骤中,改进最大最小蚁群算法(min max ant system,mmas)与蚁群系统较为相似,但本技术的创新点在于在不断的分布式数据库信息索引过程中,能够不停地进行信息元素更新,进而提高了数据信息检索能力。
35.在上述实施例中,第一分类算法模型和第二分类算法模型为决策树相似度矩阵分类模型。
36.在上述实施例中,如图6所示,所述决策树相似度矩阵分类模型的工作方法为:在分布式数据库中的信息素进行分类计算时,当时,则可以将信息素的轨迹进行转换,此时,可以重新进行初始化处理。当时,可以将平滑化机制关闭掉。当时,则可以将mmas算法模型计算过程中的所信息元素积累进行部分保留。沉淀一部分数据元素信息。然后将这些元素信息重新返到上层步骤处理。
37.相邻两个分布式数据库内的蚂蚁元素之间的相似程度用表示,则有:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(11)分布式数据库内的蚂蚁元素相似度的计算公式为
ꢀꢀꢀꢀꢀꢀ
(12)
其中公式(12)中的和表示不同分布式数据库数值综合差值, t为不同用户数据信息在选择蚂蚁信息元素时容忍的最大相似度,则在分布式数据库内的蚂蚁元素进行信息搜索计算时,分布式数据库内的蚂蚁元素检索路径平均值为:
ꢀꢀꢀꢀꢀꢀ
(13)选择两个不同蚂蚁决策树的相似度函数可以通过以下函数表示:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(14)当蚂蚁信息元素大于1000时,在不断地进行迭代计算时,则任意两个蚂蚁元素的相似度计算公式表示为:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(15)其中表示采用第n个蚂蚁元素与m个蚂蚁元素进行信息搜索时的元素相似度,通过数据集合的形式,能够使用户在任意时间下获取蚂蚁搜索信息,进而获取分布式数据库内的数据训练集合的最优解和相邻两个蚂蚁元素之间的相似程度。
38.通过上述方法,提高了蚂蚁元素快速检索能力,提高了分布式数据信息的检索。
39.虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些具体实施方式仅是举例说明,本领域的技术人员在不脱离本发明的原理和实质的情况下,可以对上述方法和系统的细节进行各种省略、替换和改变。例如,合并上述方法步骤,从而按照实质相同的方法执行实质相同的功能以实现实质相同的结果则属于本发明的范围。因此,本发明的范围仅由所附权利要求书限定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1