基于生理信息熵的人体体成分预测方法
【技术领域】
[0001] 本发明涉及生物信息学领域,尤其涉及一种基于生理信息熵的人体体成分预测方 法。
【背景技术】
[0002] 人体成分的变化在一定程度上反映了身体健康状况的变化,人体成分的准确预测 对人体营养状况的调节及疾病的预防有着重要意义。影响人体成分的参数众多,目前主要 包括生理电阻抗参数和普通生理特征参数两类。这些生理参数之间还存在着高度非线性、 严重关联的特点,现有的人体体成分模型难以满足这一需要。
[0003] 随着医疗测量技术的不断进步,可测得的生理特征大规模发展,并呈现出样本少、 维数高等特点,这给传统生理数据的处理及分析带来了巨大的挑战,其中冗余特征的存在 间接加重了不利影响,导致人体体成分预测存在不足。
[0004] 鉴于上述问题,有必要提出一种新的人体体成分预测方法,以解决上述问题。
【发明内容】
[0005] 针对现有技术的不足,本发明解决的技术问题是提供一种基于生理信息熵的人体 体成分预测方法,该方法可以有效地减少特征参数间的冗余性,简化人体成分预测的拟合 模型;解决参数众多、参数耦合的建模难题;建立的人体体成分预测模型可提高人体体成 分预测精度,为人体体成分研究和临床应用提供更为有效的检测手段。
[0006] 为解决上述技术问题,本发明的技术方案是这样实现的:
[0007] -种基于生理信息熵的人体体成分预测方法,包括如下步骤:
[0008] Sl :收集数据并构造生理信息样本数据集T = (0, F,C),其中F =出,f2,…,、 C = Ic1, c2,…,ck}和0 = Io1, 〇2,…,on}分别表示原始特征、类别和数据样本集;
[0009] S2 :利用平均直方图方法估计原始特征集F中的各个特征f的概率密度分布、信息 熵和互信息;
[0010] S3 :从原始特征集F中选出初始特征子集S ;
[0011] S4 :计算初始特征子集S的评价函数J(f)并记录初始特征子集的数目,采用双向 搜索的搜索策略对原始特征集进行搜索,计算J(f),添加或删除特征;
[0012] S5 :设定评价函数值J(f)达到最高为终止条件进行判断,若条件满足,则选择算 法结束,返回初始特征子集S作为最终结果;否则搜索过程继续循环,生成新的候选子集, 返回步骤S4,直到终止条件满足为止;
[0013] S6 :构造预测人体体成分所需的拟合模型;
[0014] S7 :对拟合模型进行求解。
[0015] 进一步地,八段阻抗值,性别,年龄,身高,体重,种族为第一特征;第一特征的平 方、倒数及乘积等组合为第二特征;原始特征集F由第一特征和第二特征共同组成。 υ?Ν 丄丄λ ·/·?·? 厶/ υ X
[0016] 进一步地,特征f的概率密度分布函数为
m和h取经验 公式:m = 67. 412η °·2376、h = 3. 73 σ η 1/3。
[0017] 进一步地,信息熵计算公式为:
[0018] 进一步地,互信息计算公式为:
[0019] 进一步地,评价函数
[0020] 进一步地,新的候选子集的生成方法是将所有生理特征的生理信息熵计算出,并 将其按降序排列,每次选择新的特征子集的时候按照信息熵的多少进行选择。
[0021] 进一步地,拟合模型为
[0022]
,式中,B1-B11 为 回归系数,ε为误差。
[0023] 进一步地,所述拟合模型求解步骤包括:
[0024] S71 :假设评估事件有m个对象,η个参数,Xlj为第i个对象下的第j个指 标,则m行η列的决策矩阵Y = IxuUiI据公式
和公式
计算确定;
[0025] S72 :消除对象的不同指标具有的不同量纲单位,形成统一矩阵
[0026] S73 :计算熵值
> 公式中A为第j个评估指标所对应熵值;如 果Y' lj= 0,那么e j值在[0, 1];
[0027] S74 :计算权值
> 公式中Wj表示第j个指标的权值,η表示指标个数。
[0028] 本发明的有益效果是:相较于现有技术,本发明基于生理信息熵的人体体成分预 测方法可有效地减少特征参数间的冗余性,简化人体成分预测的拟合模型;解决参数众多、 参数耦合的建模难题;建立的人体体成分预测模型可提高人体体成分预测精度,为人体体 成分研究和临床应用提供更为有效的检测手段。
【附图说明】
[0029] 图1为本发明基于生理信息熵的人体体成分预测方法的流程图。
[0030] 图2为拟合模型求解步骤流程图。
【具体实施方式】
[0031] 为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对 本发明进行详细描述。
[0032] 在详细说明基于生理信息熵的人体体成分预测方法之前,先介绍本方法所需要参 数的收集以及相关计算公式。
[0033] 首先,构造人体生理参数原始特征集。利用八段人体阻抗测量仪测得八段阻抗值 及人体的普通生理特征参数,并选定八段阻抗值,性别,年龄,身高,体重,种族作为第一特 征。然后,由第一特征通过代数变换产生第二特征,即将第一特征的平方、倒数及乘积等组 合作为第二特征。原始特征由第一特征和第二特征共同组成,即原始特征集F由八段阻抗 值Ri~R 8,阻抗值的组合f 1/%,R1Rj (1彡i彡8, 1彡j彡8),性别S,年龄A,身高H,体重 W,种族Z组成。用F = {fi,f2,…,fm}表示原始特征集,用S = (S1, S2,…,S1J表示初始特 征集。
[0034] 由信息熵的定义可知,随机变量的概率分布必须是预先可知的。然而现实应用中, 生理参数的真实概率分布一般是未知的。因此,计算熵之前,必须先近似估计生理参数的概 率密度分布。本发明采用平均直方图的方法进行生理信息熵的概率估计。
[0035] 平均直方图法是将直方图法中每个区间再细分,将原区间的粗网格再划分为细网 格。通过计算每个细网格附近网格的加权平均得到。
[0036] 对于给定样本集T的η个特征值,…fn,将f划分为h宽度的粗网格,每个粗网格 又划分为m个细网格,V k表示落在第k个细网格的样本个数。概率密度函数可以估计为:
[0037] (!)
[0038] 式中,WniQ)代表权重函数,即对当前网格和它左右各m-Ι个网格的样本总数求加 权。且当前网格的权重为1,向左右两侧逐渐减小,上式可以写为:
[0039] (2)
[0040] m 和 h 取经验公式:m = 67. 412η。·2376、h = 3. 73 σ η 1/3。
[0041] 假定一个生理参数R1, ρ(Χ)表示生理参数R1取值为X的概率,那么它的不确定性 程度可以用生理信息熵H(R 1)表示,其中:
[0042] H(R1)=-工 xp (X) log ρ (X) dx (3)
[0043] 由上述公式(3)可知,生理信息熵H (R1)只与生理参数R1的概率分布有关,而与其 具体取值无关。这说了明信息熵有效地避免了噪声数据的干扰。
[0044] 用互信息衡量两个生理参数间相互依赖强弱程度,互信息表示两个生理参数间共 同拥有信息的含量。假定两个生理参数X和Y,若它们的边缘概率分布分别为P (X)和P (y), 则它们之间的互信息I (X ;Y)定义为:
[0045]
(4):
[0046] 与互信息描述两个生理参数间的关联程度不同的是,联合互信息KX1,…,X n;Y) 表达多个X1,…,1与Y之间的依赖程度,即
[0047]
[0048] 其中ρ (X1,…,χη)为联合概率分布。联合互信息I (X1,…,Χη;Υ)不仅考虑X1,…,Xn 与Y之间的依赖性,而且还涉及到变量X1,…,Xn内部相关性,这对于生理特征选择来说特别 适用。
[0049] 因为互信息能够很好地度量特征与类别之间的依赖关系的强弱程度,信息标准 J(f) 一般都采取互信息I (S ;C)或其变种形式。计算特征子集和特征之间关联信息量的同 时要考虑生理信息增长率,因为在特征不断地选择过程中,生理信息增长率低的特征被选 入后,已选特征子集内部的关联程度会缓和。特征之间的冗余性和特征与类别之间的相关 程度都是通过对称不确定性(Symmetrical Uncertainty,SU)度量的。所以对互信息进行 归一化处理,得到已选特征子集S与类别子集C的相关性度量公式:
[0050]
(6)
[0051] 为了选择出与类别相关性强,特征间互不冗余的特征子集,根据特征的最大相关 最小冗余原则,使用f与单个已选特征s之间的相关性对候选特征f进行惩罚,减少已选子 集S的冗余程度和计算复杂度,提出特征选择对于特征f的相关