1.本发明涉及智能中医领域,尤其涉及一种脉诊五脏状态分类方法、设备和存储介质。
背景技术:2.目前,脉诊识别分类技术使用了传统的机器学习技术或层数不深的深度神经网络来完成脉诊的分类识别任务。但是目前的脉诊识别分类技术的识别准确率和实时性较低,不利于对五脏状态进行精确的分类识别,也不能快速诊断出患者的脉诊五脏状态分类数据。
技术实现要素:3.本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种脉诊五脏状态分类方法、设备和存储介质,提升对五脏状态进行脉诊分类识别的准确率,并提升脉诊五脏状态数据分类的速率。
4.根据本发明第一方面实施例的脉诊五脏状态分类方法,其包括:
5.获取待处理数据集和五脏状态类别对应的编码标签数据;
6.对所述待处理数据集进行数据处理,得到脉象信号数据集;
7.对所述脉象信号数据集进行特征处理,得到二维数组数据;
8.将所述二维数组数据和所述编码标签数据输入到脉诊五脏状态分类模型中进行分类处理,得到脉诊五脏状态分类数据;其中,所述脉诊五脏状态分类模型根据lightgbm最优参数训练得到,且所述lightgbm最优参数根据遗传算法对lightgbm算法进行参数优化后得到。
9.根据本发明实施例中提供的一个或多个技术方案,至少具有如下有益效果:本发明根据遗传算法对lightgbm算法进行参数优化,以得到lightgbm最优参数,根据lightgbm最优参数训练得到脉诊五脏状态分类模型,将二维数组数据和编码标签数据输入到脉诊五脏状态分类模型中进行分类处理,得到脉诊五脏状态分类数据。通过这种脉诊五脏状态分类方法,提升对五脏状态进行脉诊分类识别的准确率,并提升脉诊五脏状态数据分类的速率。
10.根据本发明的一些实施例,所述获取待处理数据集和五脏状态类别对应的编码标签数据,包括:
11.获取待处理数据集;
12.对所述待处理数据集进行标注处理,得到五脏状态类别的初始标签;
13.将所述五脏状态类别的初始标签输入到所述lightgbm算法中,得到五脏状态类别对应的编码标签数据。
14.根据本发明的一些实施例,所述获取待处理数据集,包括:
15.通过脉诊手套采集脉象信息;
16.根据所述脉象信息,得到所述待处理数据集。
17.根据本发明的一些实施例,所述数据处理包括数据预处理和数据重新组建处理,所述对所述待处理数据集进行数据处理,得到脉象信号数据集,包括:
18.对所述待处理数据集进行所述数据预处理,得到脉诊数据集;
19.对所述脉诊数据集进行所述数据重新组建处理,得到脉象信号数据集。
20.根据本发明的一些实施例,所述数据预处理包括小波变换处理、中值滤波处理、高通滤波处理和样条插值处理;所述对所述待处理数据集进行数据预处理,得到脉诊数据集,包括:
21.对所述待处理数据集进行所述小波变换处理,得到去除高频噪声的第一脉诊数据集;
22.对所述第一脉诊数据集进行所述中值滤波处理,得到去除孤立噪声点的第二脉诊数据集;
23.对所述第二脉诊数据集进行所述高通滤波处理,得到去除低频噪声的第三脉诊数据集;
24.对所述第三脉诊数据集进行所述样条插值处理,得到脉诊数据集。
25.根据本发明的一些实施例,所述特征处理包括时域特征提取处理和特征选择处理,所述对所述脉象信号数据集进行特征处理,得到二维数组数据,包括:
26.对所述脉象信号数据集进行所述时域特征提取处理,得到第一脉诊单周期数据集;
27.对所述第一脉诊单周期数据集进行所述特征选择处理,得到二维数组数据。
28.根据本发明的一些实施例,所述特征选择处理包括tsfresh包特征提取处理和特征整合处理,所述对所述第一脉诊单周期数据集进行特征选择处理,得到二维数组数据,包括:
29.对所述第一脉诊单周期数据集进行所述tsfresh包特征提取处理,得到第二脉诊单周期数据集;
30.对所述第二脉诊单周期数据集进行所述特征整合处理,得到二维数组数据。
31.根据本发明的一些实施例,所述遗传算法包括初始化操作处理、选择操作处理、交叉操作处理和变异操作处理,所述lightgbm最优参数根据遗传算法对lightgbm算法进行参数优化后得到,包括:
32.获取lightgbm待处理参数并将所述lightgbm待处理参数输入到所述lightgbm算法;
33.对所述lightgbm初始化参数依次进行所述选择操作处理、所述交叉操作处理和所述变异操作处理,得到lightgbm预测参数;
34.轮询更新所述lightgbm预测参数,直至所述lightgbm预测参数符合终止条件,将符合终止条件的所述lightgbm预测参数作为所述lightgbm最优参数输出。
35.根据本发明第二方面实施例的脉诊五脏状态分类设备,其包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的脉诊五脏状态分类方法。
36.根据本发明第三方面实施例的计算机可读存储介质,所述计算机可读存储介质存
储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如上述第一方面所述的脉诊五脏状态分类方法。
37.本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
38.附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明的技术方案,并不构成对发明技术方案的限制。
39.图1是本发明实施例提供的脉诊五脏状态分类方法的流程示意图;
40.图2是本发明实施例提供的获取编码标签数据的流程示意图;
41.图3是本发明实施例提供的获取待处理数据集的流程示意图;
42.图4是本发明实施例提供的对待处理数据集进行数据处理的流程示意图;
43.图5是本发明实施例提供的对待处理数据集进行数据预处理的流程示意图;
44.图6是本发明实施例提供的对脉象信号数据集进行特征处理的流程示意图;
45.图7是本发明实施例提供的对第一脉诊单周期数据集进行特征选择处理的流程示意图;
46.图8是本发明实施例提供的根据遗传算法对lightgbm算法进行参数优化的流程示意图。
具体实施方式
47.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
48.需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
49.脉诊是通过按触人体不同部位的脉搏,以体察脉象变化的切诊方法,又称切脉、诊脉、按脉、持脉。脉象的形成与脏腑气血密切相关,若脏腑气血发生病变,血脉运行就会受到影响,脉象就有变化;脉诊在临床上,可推断疾病的进退预后,中医师只需要通过手指触摸病人的桡动脉的寸、关、尺部,通过同时或依次对这三个区域施加变化的压力来确定不同器官的状态,并通过个人的丰富经验,结合其他诊断资料,来推断出病人的五脏情况并开出相应的处方药来达到治疗病人的目的,脉诊诊断结果能够反映人的五脏状态即心、肝、脾、肺、肾的状态,但是这种传统的脉诊较难实现客观化,需要提供脉诊识别分类技术使脉诊实现客观化。
50.目前,脉诊识别分类技术使用了传统的机器学习技术或层数不深的深度神经网络来完成脉诊的分类识别任务。但是目前的脉诊识别分类技术的识别准确率和实时性较低,不利于对五脏状态进行精确的分类识别,也不能快速诊断出患者的脉诊五脏状态分类数
据。
51.基于此,本发明实施例提供了一种脉诊五脏状态分类方法、设备和存储介质,提升对五脏状态进行脉诊分类识别的准确率,并提升脉诊五脏状态数据分类的速率。
52.下面结合附图,对本发明实施例作进一步阐述。
53.本发明第一方面实施例具体提供一种脉诊五脏状态分类方法,如图1所示,图1本发明实施例提供的脉诊五脏状态分类方法的流程示意图。本发明实施例的脉诊五脏状态分类方法包括但不限于以下步骤:
54.步骤s100,获取待处理数据集和五脏状态类别对应的编码标签数据;
55.步骤s200,对待处理数据集进行数据处理,得到脉象信号数据集;
56.步骤s300,对脉象信号数据集进行特征处理,得到二维数组数据;
57.步骤s400,将二维数组数据和编码标签数据输入到脉诊五脏状态分类模型中进行分类处理,得到脉诊五脏状态分类数据;其中,脉诊五脏状态分类模型根据lightgbm最优参数训练得到,且lightgbm最优参数根据遗传算法对lightgbm算法进行参数优化后得到。
58.本发明根据遗传算法对lightgbm算法进行参数优化,以得到lightgbm最优参数,根据lightgbm最优参数训练得到脉诊五脏状态分类模型,将二维数组数据和编码标签数据输入到脉诊五脏状态分类模型中进行分类处理,得到脉诊五脏状态分类数据。通过这种脉诊五脏状态分类方法,提升对五脏状态进行脉诊分类识别的准确率,并提升脉诊五脏状态数据分类的速率。
59.需要说明的是,lightgbm是一个梯度提升框架,使用基于树的学习算法;遗传算法是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型,是一种通过模拟自然进化过程搜索最优解的方法;五脏指中医心脏、肝脏、脾脏、肺脏和肾脏系统。
60.在本实施例中,利用遗传算法对lightgbm算法进行参数优化,得到lightgbm最优参数后则将lightgbm最优参数、二维数组数据和编码标签数据输入到l ightgbm算法中进行模型的训练、验证和测试,其中训练集、验证集和测试集的比例分别为:6∶2∶2,最终得到本发明的脉诊五脏状态分类模型。
61.需要说明的是,编码标签数据为one-hot编码标签数据,例如one-hot编码标签数据为11111,则代表五脏状态:中医心脏系统功能状态正常(“心好”)、肝脏系统功能状态正常(“肝好”)、脾脏系统功能状态正常(“脾好”)、肺脏系统功能状态正常(“肺好”)、肾脏系统功能状态正常(“肾好”),也即若经过步骤s400得到的脉诊五脏状态分类数据为11111,则代表五脏状态“心好”、“肝好”、“脾好”、“肺好”、“肾好”。
62.需要说明的是,待处理数据集为通过脉诊获取的原始脉象数据。
63.可以理解的是,参照图2,步骤s100,包括但不限于以下步骤:
64.步骤s110,获取待处理数据集;
65.步骤s120,对待处理数据集进行标注处理,得到五脏状态类别的初始标签;
66.步骤s130,将五脏状态类别的初始标签输入到lightgbm算法中,得到五脏状态类别对应的编码标签数据。
67.需要说明的是,五脏状态类别的初始标签如下:心的状态好或差、肝的状态好或差、脾的状态好或差、肺的状态好或差、肾的状态好或差;将五脏状态类别的初始标签转化为编码标签数据即one-hot编码标签数据为:将五脏状态如心好、肝好、脾好、肺好、肾好转
为one-hot编码标签数据11111。
68.可以理解的是,参照图3,步骤s110,包括但不限于以下步骤:
69.步骤s111,通过脉诊手套采集脉象信息;
70.步骤s112,根据脉象信息,得到待处理数据集。
71.需要说明的是,脉诊手套是一种在食指、中指、无名指安装了压力传感器的手套,能够同时对患者的左右手和寸、关、尺部进行取脉,即可以快速进行脉诊数据的收集以达到收集大量的原始脉象数据的目的;原始脉象数据为待处理数据集。
72.可以理解的是,参照图4,数据处理包括数据预处理和数据重新组建处理,步骤s200,包括但不限于以下步骤:
73.步骤s210,对待处理数据集进行数据预处理,得到脉诊数据集;
74.步骤s220,对脉诊数据集进行数据重新组建处理,得到脉象信号数据集。
75.在本实施例中,数据重新组建处理指周期分割处理,脉象信号数据集指脉诊单周期数据集,即利用周期分割处理将脉诊数据集重构为脉诊单周期数据集;在另一些实施例中,数据重新组建处理指小波连续变换处理,脉象信号数据集指脉诊五脏状态图数据集,即利用小波连续变换将脉诊数据集转为相应时频图并整合为脉诊五脏状态图数据集。
76.可以理解的是,参照图5,数据预处理包括小波变换处理、中值滤波处理、高通滤波处理和样条插值处理;步骤s210,包括但不限于以下步骤:
77.步骤s211,对待处理数据集进行小波变换处理,得到去除高频噪声的第一脉诊数据集;
78.步骤s212,对第一脉诊数据集进行中值滤波处理,得到去除孤立噪声点的第二脉诊数据集;
79.步骤s213,对第二脉诊数据集进行高通滤波处理,得到去除低频噪声的第三脉诊数据集;
80.步骤s214,对第三脉诊数据集进行样条插值处理,得到脉诊数据集。
81.需要说明的是,小波变换处理使用的小波包为db6,将待处理数据集分解为7个系数即1个近似系数和6个细节,将代表高频噪声的近似系数和2个细节系数进行置零,即对脉诊数据中高频噪声予以去除并一定程度上改善信号的基线漂移问题,以此得到第一脉诊数据集;中值滤波处理是对第一脉诊数据集中的信号中的孤立噪声点予以去除,得到第二脉诊数据集;采用高通滤波将第二脉诊数据集中的小于3.52hz的低频噪声予以去除得到真实有效的脉诊数据,即得到第三脉诊数据集;在本实施例中,样条插值的次数为三次,利用三次样条插值拟合曲线,并通过一阶导数找到脉诊数据中每个周期的最小值,再将脉诊数据减去拟合曲线值得到最终去除基线漂移的脉诊数据,即得到脉诊数据集,其中,三次样条插值(cubic sp l ine i nterpo l at ion)简称sp l ine插值,是通过一系列形值点的一条光滑曲线,数学上通过求解三弯矩方程组得出曲线函数组的过程。本发明通过步骤s211至步骤s214初步构建脉诊数据集,其中,样条插值的次数也可以是其他次数,而不局限于本实施例。
82.在本实施例中,利用周期分割处理将脉诊数据集重构为脉诊单周期数据集的具体流程为:采用三次样条插值拟合曲线,并通过一阶导数找到脉诊数据集中每个周期的最大值,根据单周期采样点数向最大值的左右两个方向取到每个周期的脉诊数据,通过将左、右
手的寸、关、尺部的脉诊数据集的代表性单周期数据进行筛选,最终得到脉诊单周期数据集,即得到脉象信号数据集。
83.可以理解的是,参照图6,特征处理包括时域特征提取处理和特征选择处理,
84.步骤s300,包括但不限于以下步骤:
85.步骤s310,对脉象信号数据集进行时域特征提取处理,得到第一脉诊单周期数据集;
86.步骤s320,对第一脉诊单周期数据集进行特征选择处理,得到二维数组数据。
87.在本实施例中,对脉象信号数据集进行时域特征提取处理,提取如下特征:
88.极大值lmaxi,其中最大值为max
i1
;
89.极小值lminj;
90.每个极大值对应的时间长度ti;
91.每个极小值对应的时间长度tj;
92.每条脉诊单周期数据集的总的时间长度tn;
93.每个极大值对应的时间长度与总时间长度的比值ti/tn;
94.每个极小值对应的时间长度与总时间长度的比值tj/tn;
95.每个极大值与最大值的比值lmaxi/max
i1
,其中,极大值不能为最大值;
96.每条脉诊单周期数据集的均值meann:
97.每条脉诊单周期数据集的方差varn:
98.每条脉诊单周期数据集的标准差stdn:
99.每条脉诊单周期数据集的均方根rmsn:
100.每条脉诊单周期数据集的偏度skewn:其中mn是每条脉诊单周期数据集的众数;
101.每条脉诊单周期数据集的峭度kurtn:
102.每条脉诊单周期数据集的波形因子boxingn:
103.每条脉诊单周期数据集的峰值因子peafkn:
104.每条脉诊单周期数据集的脉冲因子pulsefn:
105.每条脉诊单周期数据集的裕度因子marginfn:
[0106][0107]
再利用tsfresh包提取脉象信号数据集中的时序特征如绝对能量值、一阶差分绝对和、各阶自相关系数的聚合统计特征等特征值最终完成脉诊数据的特征提取,以此得到第一脉诊单周期数据集,其中,脉诊单周期数据集包括第一脉诊单周期数据集。
[0108]
需要说明的是,特征选择处理是指第一脉诊单周期数据集进行特征选择并将选择的特征进行整合,得到二维数组数据。
[0109]
可以理解的是,参照图7,特征选择处理包括tsfresh包特征提取处理和特征整合处理,步骤s320,包括但不限于以下步骤:
[0110]
步骤s321,对第一脉诊单周期数据集进行tsfresh包特征提取处理,得到第二脉诊单周期数据集;其中,第一脉诊单周期数据集包括第二脉诊单周期数据集;
[0111]
步骤s322,对第二脉诊单周期数据集进行特征整合处理,得到二维数组数据。
[0112]
需要说明的是,tsfresh包特征提取处理指使用tsfresh包中特征选择方法来筛选和去除利用tsfresh包提取的特征中与五脏状态类别的初始标签冗余和无关的部分,得到第二脉诊单周期数据集;特征整合处理指将最终得到的特征也即第二脉诊单周期数据集展平并按照患者个体整合,得到二维数组数据。
[0113]
可以理解的是,参照图8,遗传算法包括初始化操作处理、选择操作处理、交叉操作处理和变异操作处理,lightgbm最优参数根据遗传算法对lightgbm算法进行参数优化后得到,包括:
[0114]
步骤s410,获取lightgbm待处理参数并将lightgbm待处理参数输入到lightgbm算法;
[0115]
步骤s420,对lightgbm待处理参数进行初始化操作处理,得到lightgbm初始化参数;
[0116]
步骤s430,对lightgbm初始化参数依次进行选择操作处理、交叉操作处理和变异操作处理,得到lightgbm预测参数;
[0117]
步骤s440,轮询更新lightgbm预测参数,直至lightgbm预测参数符合终止条件,将符合终止条件的lightgbm预测参数作为lightgbm最优参数输出。
[0118]
需要说明的是,lightgbm待处理参数、lightgbm初始化参数、lightgbm预测参数和lightgbm最优参数均包括四个参数,分别为:基数的棵树(tree_num)、学习率(eta)、最大树深(max_depth)和最小子树权重(min_ch i ld_weight);lightgbm待处理参数为将基数的棵树、学习率、最大树深和最小子树权重输入到lightgbm算法时的输入参数。
[0119]
需要说明的是,对lightgbm待处理参数进行初始化操作处理指将基数的棵树、学习率、最大树深和最小子树权重这四个参数的参数值均置零;选择操作处理则是通过计算目标函数值,并通过比较目标函数值来选出最好的个体即最高的目标函数值,在本实施例中,将目标函数值设置为脉诊五脏状态分类模型的准确率;交叉操作处理是通过将四个参数值中每个参数值中产生的子代进行随机长度的互换;变异操作处理则是对四个参数值中每个参数值中产生的子代按照一定概率进行置零或置一。
[0120]
需要说明的是,终止条件为当lightgbm预测参数达到预设的参数阈值,或者更新后lightgbm预测参数不在上升时,将lightgbm预测参数作为lightgbm最优参数输出。
[0121]
可以理解的是,在步骤s420之后,当lightgbm初始化参数符合终止条件,则将lightgbm初始化参数作为lightgbm最优参数输出,当lightgbm初始化参数不符合终止条件,则执行步骤s430。
[0122]
另外,本发明第二方面实施例还提供了一种脉诊五脏状态分类设备,该脉诊五脏状态分类设备包括:存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序。
[0123]
处理器和存储器可以通过总线或者其他方式连接。
[0124]
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0125]
实现上述第一方面实施例的脉诊五脏状态分类方法所需的非暂态软件程序以及指令存储在存储器中,当被处理器执行时,执行上述实施例中的脉诊五脏状态分类方法,例如,执行以上描述的图1中的方法步骤s100至s400、图2中的方法步骤s110至步骤s130、图3中的方法步骤s111至步骤s112、图4中的方法步骤s210至步骤s220、图5中的方法步骤s211至步骤s214、图6中的方法步骤s310至步骤s320、图7中的方法步骤s321至步骤s322、图8中的方法步骤s410至步骤s430。
[0126]
以上所描述的设备实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以落入一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0127]
此外,本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个处理器或控制器执行,例如,被上述设备实施例中的一个处理器执行,可使得上述处理器执行上述实施例中的脉诊五脏状态分类方法,例如,执行以上描述的图1中的方法步骤s100至s400、图2中的方法步骤s110至步骤s130、图3中的方法步骤s111至步骤s112、图4中的方法步骤s210至步骤s220、图5中的方法步骤s211至步骤s214、图6中的方法步骤s310至步骤s320、图7中的方法步骤s321至步骤s322、图8中的方法步骤s410至步骤s430。
[0128]
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、
cd-rom、数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
[0129]
以上是对本发明的较佳实施进行了具体说明,但本发明并不局限于上述实施方式,熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变形或替换,这些等同的变形或替换均包含在本发明权利要求所限定的范围内。