1.本发明属于信息技术领域,更具体的说涉及一种个性化智能搜索方法。
背景技术:2.现有搜索引擎的核心算法是谷歌的pagerank算法,现有搜索技术是pagerank的扩展,现有pagerank算法的原理是:不可约图中的随机游走收敛于唯一的一 个稳定分布,搜索技术的核心是近似求解唯一的稳定分布。
3.然而,现实世界的图(或者信息系统),通常是可约图,而不是不可约图, 因此,图中随机游走的稳定分布不唯一。pagerank的做法是:引入一个远程传 输参数
∝
,0《
∝
《1,
∝
决定着一个从任何一个点到任何另外一个点,由一个一 致的概率转移,从而把现实世界的一个信息系统s,改造成为一个不可约图g, 从而用g的唯一稳定分布近似为s的稳定分布。
4.以上过程产生的问题是(1);远程传输参数
∝
的选择是基于经验的手动调整 的参数,即并没有一个原理来解释
∝
的选择;(2)不管做怎么样的参数
∝
的选择, 搜索实际所使用的信息系统是改进后的不可约图g,而不是现实世界它真实的信 息系统s。
5.简单的说,现有的搜索技术的缺点是:没有原理;从而没有可解释性;需要 手动选参数,从而结果带有主观性;重构信息系统,从而不忠于真实信息系统。
技术实现要素:6.本发明是一个全新的搜索引擎,是具有可解释性的,是一个将逻辑推理和直 觉推理相结合,像人一样进行推理的一个搜索引擎。
7.为了实现上述目的,本发明采用以下技术方案实现的:所述的个性化智能搜 索方法采用以下步骤实现:步骤1、信息系统模块的生成;步骤2、个性化定制; 步骤3、信息处理;步骤4、解码信息度量;步骤5、建立个性化搜索知识树。
8.优选的,所述的步骤1、信息系统的生成采用以下五个原理,结构熵极大化 原理、解码信息极小化原理、正规化的解码信息极小化原理、压缩信息极小化原 理、正规化的压缩信息极小化原理,通过上述原理信息系统生成一个现实世界对 象的信息系统g。
9.优选的,所述的个性化定制是根据实际应用需求确定的,初始个体或少量个 体构成的初始个体集合x0。
10.优选的,所述的信息处理模块,根据个性化的定制个体集合x0,确定编码树 的类型找到类型中的编码树t,使得在编码树t下g的不确定性最(极) 小;信息处理模块的基本原理是结构熵极小化原理,即:
[0011][0012]
其中、h
t
(g)是信息系统在编码树t下的不确定性。
[0013]
优选的,所述的解码信息度量,假设t
*
是信息处理模块所找到的编码树,则 搜索引擎所获得的信息定义为;
[0014][0015]
其中、h1(g)是g的一维结构熵。
[0016]
优选的,所述的个性化搜索知识树,假设t
*
是信息处理模块所找到的编码树, 则t
*
的语义词释就是个性化定制x0的语义与知识,t
*
是支撑个性化定制x0的搜索 引擎的实质结构;当有新数据或新关系观察到时,返回信息系统模块,给信息系 统生成或应用已经建立的编码树t
*
进一步改进和优化以上个性化搜索引擎。
[0017]
优选的,所述的结构熵极大化原理为:生成图像g使得h(g)极大,即: 所述的压缩信息极小化原理为,生成图像g使得(g)极小,即 正规化压缩信息极小化原理,生成图像g使得ρ(g)极小,即 所述的解码信息极小化原理,生成图像g使得d(g)极小,即 所述的正规化解码信息极小化原理为,生成图像g使得θ(g)极小, 即
[0018]
优选的,所述的根据个性化的定制个体集合x0,确定编码树的类型假设x0是个性话定制所确定的集合,即,第一层上只有个节点α,使得t
α
不是独立集, 而且而第一层上所有的其它节点对应一个独立集;
[0019]
如何找到类型中的编码树t;
[0020]
假设x0是个性化定制所有确定的个体构成的集合,
[0021][0022][0023][0024]
假设t已是构造的编码树,则在t上选择两个节点做“合并运算”或“融合运算”, 构成编码树t1,选择哪一个“合并运算”或“融合运算”,则看当选择该运算后, 所得到的编码树t1使得结构熵最小化。
[0025]
优选的,所述的结构熵最小化原理的算法如下:
[0026]
s1、首先确定一个初始编码树t0;
[0027]
s2、假设t是已经构造的编码树;
[0028]
s3、按结构熵减小最大的方式,选择t上的两个节点α和β作“合并运算”或“融 合运算”;
[0029]
s4、直到s3不能进行,则停止,输出当前的编码树t
*
。
[0030]
优选的,所述的信息系统模块中引入其他信息策略,可以扩充和增强的本搜 索引擎的策略包括,联想、想象、交互、实验、创造、抽象、层谱抽象。
[0031]
本发明有益效果:
[0032]
(1)本发明是一个全新的搜索引擎,是具有可解释性的,是一个将逻辑推理 和直觉推理相结合,像人一样进行推理的一个搜索引擎。
[0033]
(2)所采用的的技术可扩展到生物、医学、数据分析、图像分析,在这些应 用领域中,本技术方案的精确度和速度显著优于现有的所有方法。
所述的解码信息极小化原理,生成图像g使得d(g)极小,即 所述的正规化解码信息极小化原理为,生成图像g使得θ(g)极小, 即
[0048]
所述的信息系统生成具体方法如下:
[0049]
令g是一个不可约信息系统,假设π=(π1,π2…
πn)是g的唯一稳定分布,对 任何一个集合定义
[0050][0051]
即
[0052][0053]
这里(a
yx
)=a是g的矩阵表示,
[0054][0055]
假设t是g的一个编码树,
[0056]
(1)定义信息系统g在编码树t的结构熵为:
[0057][0058]
这里,α-是α在编码树t上的交节点;
[0059]
(2)定义编码树t对g的压缩信息为:
[0060][0061]
这里
[0062]
(3)定义编码树t对g的解码信息为;
[0063]dt
(g)=h1(g)-h
t
(g)
[0064]
这里h1(g)是g的一维结构熵;
[0065]
给定不可约信息系统g,自然数k;
[0066]
(1)定义g的k-维结构熵为:
[0067][0068]
这里t跑遍g的所有高度≤k的编码树;
[0069]
(2)定义g的结构熵为:
[0070][0071]
这里t跑遍g的所有编码树;
[0072]
(3)假设为g的一个编码树类型,定义g的-型结构熵为
[0073][0074]
这里t取遍中的一切编码树。
[0075]
(4)定义g的压缩信息为;
[0076][0077]
这里t跑遍g的所有编码树;
[0078]
(5)定义g的解码信息为;
[0079][0080]
这里t跑遍g的所有编码树;
[0081]
其中、压缩信息可以限制在-型压缩信息,解码信息也可以限制在-型解码信息;
[0082]
(6)定义g的正规化压缩信息为;
[0083][0084]
(7)定义g的正规化解码信息为;
[0085][0086]
所述的根据个性化的定制个体集合x0,确定编码树的类型假设x0是个性 话定制所确定的集合,则编码树类型如图2
[0087]
即,第一层上只有个节点α,使得t
α
不是独点集,而且而第一层上所有 的其它节点对应一个独点集;
[0088]
如何找到类型中的编码树t;
[0089]
假设x0是个性化定制所有确定的个体构成的集合,则,初始编码树t0为如图3 所示:
[0090][0091][0092]
假设t已是构造的编码树,则在t上选择两个节点做“合并运算”或“融合 运算”,构成编码树t1,选择哪一个“合并运算”或“融合运算”,则看当选择 该运算后,所得到的编码树t1使得结构熵最小化。
[0093]
所述的结构熵最小化原理的算法如下:
[0094]
s1、首先确定一个初始编码树t0;
[0095]
s2、假设t是已经构造的编码树;
[0096]
s3、按结构熵减小最大的方式,选择t上的两个节点α和β作“合并运算”或“融 合运算”;
[0097]
s4、直到s3不能进行,则停止,输出当前的编码树t
*
。
[0098]
所述的信息系统模块中引入其他信息策略,可以扩充和增强的本搜索引擎的 策
略包括,联想、想象、交互、实验、创造、抽象、层谱抽象。
[0099]
本发明是一个全新的搜索引擎,是具有可解释性的,是一个将逻辑推理和直 觉推理相结合,像人一样进行推理的一个搜索引擎。所采用的的技术可扩展到生 物、医学、数据分析、图像分析,在这些应用领域中,本技术方案的精确度和速 度显著优于现有的所有方法。本发明的搜索引擎所获得的信息是可以度量的,可 以对搜索结果进行语义解释,知识获取背后的数学原理。
[0100]
最后说明的是,以上优选实施例仅用于说明本发明的技术方案,而非限制尽 管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当 理解可以在形式上和细节上对其做出各种改变,而不偏离本发明的保护范围。