一种高血压中西医辩证分型系统的制作方法

文档序号:30332950发布日期:2022-06-08 06:06阅读:81来源:国知局
一种高血压中西医辩证分型系统的制作方法

1.本发明数据处理技术领域,尤其是涉及一种高血压中西医辩证分型系统。


背景技术:

2.高血压病又称原发性高血压,是一种以动脉压升高、尤其是舒张压持续升高为特点的全身性慢性血管疾病。中医理论对高血压病的辩证分型有多种方式,目前较为统一的看法是,病之本为阴阳失调,病之标为内生之风、痰、淤血。故从实用、方便以及易于掌握应用的观点出发,可分为肝火亢盛、痰湿壅盛、阴虚阳亢、阴阳两虚四个证型及内风、血淤和痰阻三个兼证。分型正确,高血压防治就有了对症下药的依据。
3.传统的辩证分型是运用中医理论基于数学模型的相关性进行研究,缺少对常规检查数据的综合分析,从而导致诊断结果不准确,所以要将西医常规检查数据与中医理论相结合,利用中西医结合的方法防治高血压,而中西医结合防治高血压的关键在于如何进行中西医辩证分型。


技术实现要素:

4.有鉴于此,本技术提出了一种高血压中西医辩证分型系统,用于解决传统的辩证分型系统常运用中医理论进行研究,缺少西医常规检查数据的支持,导致诊断结果不准确的问题。
5.本发明的技术方案是这样实现的:
6.本发明提出了一种高血压中西医辩证分型系统,所述系统包括:数据采集模块、中西医结合模块、数据融合模块、分型模型构建模块以及辩证分型模块;
7.数据采集模块,用于采集无高血压疾病人群的正常生化指标数据集和有高血压疾病患者的异常生化指标数据集;
8.中西医结合模块,用于对有高血压疾病患者进行中医分型,根据分型结果进行西医常规检查,得到分型对应的生化指标数据集;
9.数据融合模块,用于采用apriori算法将正常生化指标数据集、异常生化指标数据集以及分型对应的生化指标数据集融合在一起,得到融合数据集合;
10.分型模型构建模块,用于构建lda主题模型,对lda主题模型进行参数优化,将融合数据集合输入至参数优化后的lda主题模型中进行训练,并将训练好的lda主题模型作为中西医辩证分型模型;
11.辩证分型模块,用于获取当前高血压患者的生化指标数据,将其输入至中西医辩证分型模型中进行辩证分型,根据辩证分型结果提供专业化的健康管理方案。
12.在以上技术方案的基础上,优选的,所述数据采集模块中,采集无高血压疾病人群的正常生化指标数据集和有高血压疾病患者的异常生化指标数据集具体包括:
13.所述正常生化指标数据集和异常生化指标数据集是通过高血压的西医常规检查得到的;高血压的西医常规检查项目包括血液生化、血细胞计数以及尿液分析。
14.在以上技术方案的基础上,优选的,所述数据融合模块中,采用apriori算法将正常生化指标数据集、异常生化指标数据集以及分型对应的生化指标数据集融合在一起,得到融合数据集合具体包括:
15.s101,扫描所有数据集,获取所有数据,生成候选k项集;
16.s102,对候选k项集中的每个项进行计数并计算支持度,确定预设最小支持度,删除候选k项集中支持度小于预设最小支持度的项,得到频繁k项集;
17.s103,若频繁k项集为空,则直接返回频繁k-1项集的集合作为算法结果,算法结束;若频繁k项集不为空,基于频繁k项集,连接生成候选k+1项集,重复步骤s102,直至频繁k项集为空,算法结束,将算法结果作为融合数据集合。
18.在以上技术方案的基础上,优选的,所述步骤s102中,确定预设最小支持度包括:
19.确定预设最小支持度的选择方法,选择出若干预设最小支持度,建立综合评分公式,得到每个预设最小支持度的评分值,选择出评分值最高的预设最小支持度。
20.在以上技术方案的基础上,优选的,分型模型构建模块中,对lda主题模型进行参数优化,将融合数据集合输入至优化后的lda主题模型中进行训练具体包括:
21.s201,构建初始lda主题模型,通过tf-idf算法和textrank算法来提取融合数据集合中的关键词,构成指标数据库,为每一个指标数据随机分配一个主题,所有指标数据的主题称为子主题;
22.s202,对指标数据库进行扫描,采用改进后的吉布斯抽样方法对每个指标数据进行采样,直至收敛,得到最优超参数α和β;
23.s203,将最优超参数代入至lda主题模型,输入融合数据集合进行重新训练,得到训练好的lda主题模型,同时得到指标数据-主题矩阵和主题-指标数据矩阵。
24.在以上技术方案的基础上,优选的,步骤s201中,通过tf-idf算法和textrank算法来提取融合数据集合中的关键词,构成指标数据库具体包括:
25.对融合数据集合中的所有数据按照预设生化指标类别进行划分,得到n个划分集合;
26.基于tf-idf算法公式计算每一个划分集合在融合数据集合中的第一权重;
27.基于n个划分集合构建网络节点模型,使用textrank函数获取每个划分集合在所有融合数据集合中的第二权重;
28.按照第一权重从高到低的顺序,选择出前m个权重对应的划分集合,作为关键词的第一候选词集;
29.按照第二权重从高到低的顺序,选择出前m个权重对应的划分集合,作为关键词的第二候选词集;
30.将第一候选词集和第二候选词集中的划分集合进行匹配,对某一划分集合,若既存在于第一候选词集,又存在于第二候选词集,则将该划分集合加入到最终候选集中,将最终候选集作为指标数据库。
31.在以上技术方案的基础上,优选的,步骤s202中,采用改进后的吉布斯抽样方法对每个指标数据进行采样具体包括:
32.基于蒙特卡洛采样对原始吉布斯抽样方法进行优化,改进后的吉布斯抽样方法的计算公式为:
[0033][0034]
其中,表示文本数据中第i个位置的特征词d的主题概率分布,zi表示文本数据中的第i个位置的特征词所对应的主题,,表示第m篇文档中第k个主题的特征词的总个数,表示第k个主题中第t个特征词的个数,表示去除下标为i的特征词,特征词的总个数为d,d,j,t=1,2,

,d,weight(j)、weight(d)以及weight(t)均表示特征词的权重,α和β均为超参数。
[0035]
在以上技术方案的基础上,优选的,步骤s203之后还包括:
[0036]
统计指标数据-主题矩阵和主题-指标数据矩阵的频率,将其作为主题强度,对子主题的强度求和平均得到平均主题强度值,计算主题强度与平均主题强度的比值tip,将tip与预设阈值进行对比,判断出高血压中西医辩证分型主题类型。
[0037]
在以上技术方案的基础上,优选的,所述高血压中西医辩证分型主题类型具体包括:肝火亢盛、痰湿壅盛、阴虚阳亢以及阴阳两虚。
[0038]
本发明的一种高血压中西医辨证分型系统,相对于现有技术,具有以下有益效果:
[0039]
(1)采集无高血压人群和有高血压患者的西医常规检查主要生化数据集,将西医常规检查数据与中医理论相结合,构建中西医辩证分型模型,进而得出高血压辩证分型类别和结果,同时兼顾西医和中医,提高了高血压辩证分型的准确性,为进一步的健康管理提供了可参考性。
[0040]
(2)将不同类型的生化指标数据集融合在一起,根据生化指标类别进行关键词提取后,再用于训练生成高血压中西医辩证分型模型,提高了数据处理和数据分类的容错率。
附图说明
[0041]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0042]
图1为本发明实施例一种高血压中西医辩证分型系统的结构示意图。
具体实施方式
[0043]
下面将结合本发明实施方式,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
[0044]
请参阅图1,本实施例提供的一种高血压中西医辩证分型系统包括数据采集模块1、中西医结合模块2、数据融合模块3、分型模型构建模块4以及辩证分型模块5。
[0045]
数据采集模块1,用于采集无高血压疾病人群的正常生化指标数据集和有高血压疾病患者的异常生化指标数据集。
[0046]
需要理解的是,所述正常生化指标数据集和异常生化指标数据集是通过高血压的西医常规检查得到的;高血压的西医常规检查项目包括血液生化、血细胞计数以及尿液分析。血液生化包括空腹血糖、总胆固醇、甘油三脂、高密度脂蛋白胆固醇、低密度脂蛋白胆固醇和尿酸肌酐等,血细胞计数包括血红蛋白、血细胞比容、血小板等,尿液分析包括尿蛋白、尿糖和尿沉渣镜检、心电图、高血压检查等。除了以上这些基本的项目之外,还有一些推荐的项目,比如24小时动态血压监测、超声心动图、颈动脉超声、餐后两小时血糖、血同型半胱氨酸检测、尿白蛋白定量、尿蛋白定量、胸部x线检查、脉搏波传导速度以及踝部臂血压指数等,具体的根据实际需求选择。
[0047]
中西医结合模块2,用于对有高血压疾病患者进行中医分型,根据分型结果进行西医常规检查,得到分型对应的生化指标数据集。
[0048]
数据融合模块3,用于采用apriori算法将正常生化指标数据集、异常生化指标数据集以及分型对应的生化指标数据集融合在一起,得到融合数据集合。
[0049]
进一步的,采用apriori算法将正常生化指标数据集、异常生化指标数据集以及分型对应的生化指标数据集融合在一起,得到融合数据集合具体包括:
[0050]
s101,扫描所有数据集,获取所有数据,生成候选k项集。
[0051]
s102,对候选k项集中的每个项进行计数并计算支持度,确定预设最小支持度,删除候选k项集中支持度小于预设最小支持度的项,得到频繁k项集。
[0052]
确定预设最小支持度包括:
[0053]
确定预设最小支持度的选择方法,选择出若干预设最小支持度,建立综合评分公式,得到每个预设最小支持度的评分值,选择出评分值最高的预设最小支持度。
[0054]
需要理解的是,综合评分公式为现有技术,此处不再赘述。
[0055]
s103,若频繁k项集为空,则直接返回频繁k-1项集的集合作为算法结果,算法结束;若频繁k项集不为空,基于频繁k项集,连接生成候选k+1项集,重复步骤s102,直至频繁k项集为空,算法结束,将算法结果作为融合数据集合。
[0056]
分型模型构建模块4,用于构建lda主题模型,对lda主题模型进行参数优化,将融合数据集合输入至参数优化后的lda主题模型中进行训练,并将训练好的lda主题模型作为中西医辩证分型模型。
[0057]
传统的lda模型得到的主题词分布会向高频词倾斜,降低了主题提取的效果,本实施例将文本数据中贡献度最高的词作为关键词,在迭代过程中,基于关键词为各特征词分配不同的权重,采用不同的计算方法重新采样,改变了模型生成特征词的概率,相对于传统的lda模型,提高了迭代效率和主题提取的准确率。
[0058]
对lda主题模型进行参数优化,将融合数据集合输入至优化后的lda主题模型中进行训练具体包括:
[0059]
s201,构建初始lda主题模型,通过tf-idf算法和textrank算法来提取融合数据集合中的关键词,构成指标数据库,为每一个指标数据随机分配一个主题,所有指标数据的主题称为子主题;
[0060]
需要理解的是,初始lda主题模型的构建方法为现有技术,此处不再赘述。
[0061]
由于tf-idf算法易受数据集偏斜的影响,若某某一类别的文档偏多,会导致idf低估,且没有考虑类内、类间分布偏差,无法准确地提取出关键词。textrank虽然与tf-idf比,
不止利用了词频,但是仍然受高频词的影响,需要结合词性和词频进行筛选,以达到更好效果。因此,采用tf-idf算法和textrank算法结合的方法进行关键词提取。
[0062]
通过tf-idf算法和textrank算法来提取融合数据集合中的关键词,构成指标数据库具体包括:
[0063]
对融合数据集合中的所有数据按照预设生化指标类别进行划分,得到n个划分集合;
[0064]
基于tf-idf算法公式计算每一个划分集合在融合数据集合中的第一权重;
[0065]
基于n个划分集合构建网络节点模型,使用textrank函数获取每个划分集合在所有融合数据集合中的第二权重;
[0066]
按照第一权重从高到低的顺序,选择出前m个权重对应的划分集合,作为关键词的第一候选词集;
[0067]
按照第二权重从高到低的顺序,选择出前m个权重对应的划分集合,作为关键词的第二候选词集;
[0068]
将第一候选词集和第二候选词集中的划分集合进行匹配,对某一划分集合,若既存在于第一候选词集,又存在于第二候选词集,则将该划分集合加入到最终候选集中,将最终候选集作为指标数据库。
[0069]
需要理解的是,tf-idf算法公式和网络节点模型的构建方法均为现有技术,此处不再赘述。
[0070]
s202,对指标数据库进行扫描,采用改进后的吉布斯抽样方法对每个指标数据进行采样,直至收敛,得到最优超参数α和β;
[0071]
采用改进后的吉布斯抽样方法对每个指标数据进行采样具体包括:
[0072]
基于蒙特卡洛采样对原始吉布斯抽样方法进行优化,改进后的吉布斯抽样方法的计算公式为:
[0073][0074]
其中,表示文本数据中第i个位置的特征词d的主题概率分布,zi表示文本数据中的第i个位置的特征词所对应的主题,,表示第m篇文档中第k个主题的特征词的总个数,表示第k个主题中第t个特征词的个数,表示去除下标为i的特征词,特征词的总个数为d,d,j,t=1,2,

,d,weight(j)、weight(d)以及weight(t)均表示特征词的权重,α和β均为超参数。
[0075]
s203,将最优超参数代入至lda主题模型,输入融合数据集合进行重新训练,得到训练好的lda主题模型,同时得到指标数据-主题矩阵和主题-指标数据矩阵。
[0076]
进一步的,统计指标数据-主题矩阵和主题-指标数据矩阵的频率,将其作为主题强度,对子主题的强度求和平均得到平均主题强度值,计算主题强度与平均主题强度的比值tip,将tip与预设阈值进行对比,判断出高血压中西医辩证分型主题类型。
[0077]
所述高血压中西医辩证分型主题类型具体包括:肝火亢盛、痰湿壅盛、阴虚阳亢以及阴阳两虚。
[0078]
需要理解的是,本实施例中,预设阈值为1,若tip《1,则说明该主题强度低于平均主题强度,若tip》1,则说明该主题强度高于平均主题强度,从而判断出该高血压患者的症状具体属于哪一主题类型,即若主题强度高于平均主题强度,则说明高血压患者的症状属于该主题。
[0079]
辩证分型模块5,用于获取当前高血压患者的生化指标数据,将其输入至中西医辩证分型模型中进行辩证分型,根据辩证分型结果提供专业化的健康管理方案。
[0080]
需要说明的是,以上所述的系统实施例仅仅是示意性的,并不对本发明的保护范围构成限定,在实施应用中,本领域的技术人员可以根据实际的需要选择其中的部分或全部模块来实现本实施例方案的目的,此处不做限制。
[0081]
以上所述仅为本发明的较佳实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1