数据分类方法、装置、计算机设备和存储介质与流程

文档序号:21094430发布日期:2020-06-16 20:10阅读:226来源:国知局
数据分类方法、装置、计算机设备和存储介质与流程

本申请涉及人工智能技术领域,特别是涉及一种数据分类方法、装置、计算机设备和存储介质。



背景技术:

帕金森病是一种神经系统变性疾病,其临床表现主要包括静止性震颤、运动迟缓、肌强直和姿势步态障碍,同时患者可伴有抑郁、便秘和睡眠障碍等非运动症状。在通过精确的医学检查,确诊为帕金森病之前,一般都会经过筛查过程,在此过程中,医生依据评定量表,指导患者完成指定动作,评分主要依赖医生经验,存在主观性导致的偏差,从而导致筛查的效率和准确度较低。随着人工智能技术的发展,为提高帕金森病的筛查效率,出现了通过神经网络模型对患者的症状进行分析的方式,例如,通过分析帕金森病患者的共有特性,例如静止性震颤导致的语音发音变化,通过采集多个帕金森患者的语音数据进行模型训练,并通过训练好的模型进行帕金森病的筛查。

但这种筛查方式在实际应用过程中,由于采集对象的紧张情绪等外部因素,筛查结果极易受到各种因素的影响,从而导致模型筛查准确性低。



技术实现要素:

基于此,有必要针对模型筛查准确性低的技术问题,提供一种能够提高模式筛查准确性的数据分类方法、装置、计算机设备和存储介质。

一种数据分类方法,方法包括:

获取样本数据组,样本数据组中的数据携带有分类标签,样本数据组包括训练集和验证集;

根据训练集中的声学特征参数构建声学特征分类模型,并根据训练集中的书写数据构建书写特征分类模型;

构建初始帕金森病患者筛查模型,初始帕金森病患者筛查模型包括声学特征分类模型、书写特征分类模型以及初始卷积神经网络模型,声学特征分类模型和书写特征分类模型的输出作为初始卷积神经网络模型的输入;

以验证集作为训练数据,对初始帕金森病患者筛查模型进行训练,得到帕金森病患者筛查模型;

获取待筛查用户的目标声学特征参数和目标书写数据,采用得到的帕金森病患者筛查模型对目标声学特征参数和目标书写数据进行分类处理,得到筛查结果。

在其中一个实施例中,获取待筛查用户的目标声学特征参数包括:

获取采集的待筛查用户的目标语音数据;

识别目标语音数据的每一帧的基音周期;

确定基音周期对应的频率和振幅;

根据频率和振幅,得到目标语音数据对应的目标声学特征参数。

在其中一个实施例中,获取待筛查用户的目标书写数据包括:

获取采集的待筛查用户的目标书写图像,目标书写图像包括螺旋绘制图像或文字书写图像中的至少一种;

对目标书写图像进行书写轨迹识别,得到目标书写图像对应的目标书写数据。

在其中一个实施例中,样本数据组还包括测试集;以验证集作为训练数据,对初始帕金森病患者筛查模型进行训练,得到帕金森病患者筛查模型包括:

将验证集和测试集分别输入声学特征分类模型和书写特征分类模型,得到输出的验证结果和测试结果;

将验证结果作为初始卷积神经网络模型的训练数据,对初始卷积神经网络模型进行训练,确定初始卷积神经网络模型的模型融合参数;

将测试结果作为初始卷积神经网络模型的验证数据,更新初始卷积神经网络模型的模型融合参数,得到携带有更新模型融合参数的帕金森病患者筛查模型。

在其中一个实施例中,将测试结果作为初始卷积神经网络模型的验证数据,更新初始卷积神经网络模型的模型融合参数包括:

将测试结果作为验证数据,输入初始卷积神经网络模型得到输出结果,并确定输出结果与验证集中分类标签的偏差率;

当偏差率大于预设偏差阈值时,对模型融合参数进行迭代更新,直至偏差率小于或等于预设偏差阈值。

在其中一个实施例中,获取样本数据组,包括:

获取采集对象的语音数据、书写图像以及采集对象是否为帕金森病患者;

提取书写图像中的书写数据,并获取语音数据的频率和振幅,根据频率和振幅,得到语音数据对应的声学特征参数;

根据采集对象是否为帕金森病患者,对声学特征参数和书写数据标记分类标签,分类标签包括帕金森患者标签和非帕金森患者标签

根据携带有分类标签的声学特征参数和书写数据,构建样本数据组。

在其中一个实施例中,根据训练集中的声学特征参数构建声学特征分类模型包括:

以训练集中的声学特征参数为训练数据,对声学特征分类模型进行训练;

以验证集中的声学特征参数为验证数据,得到声学特征分类模型的模型评价参数;

当模型评价参数不满足预设评价参数要求时,调整声学特征分类模型的迭代次数、最大深度以及步长参数中的至少一项参数,对参数调整后的声学特征分类模型进行重复训练;

当模型评价参数满足预设评价参数要求时,得到声学特征分类模型。

一种数据分类装置,装置包括:

样本数据组获取模块,用于获取样本数据组,样本数据组中的数据携带有分类标签,样本数据组包括训练集和验证集;

子模型构建模块,用于根据训练集中的声学特征参数构建声学特征分类模型,并根据训练集中的书写数据构建书写特征分类模型;

初始模型构建模块,用于构建初始帕金森病患者筛查模型,初始帕金森病患者筛查模型包括声学特征分类模型、书写特征分类模型以及初始卷积神经网络模型,声学特征分类模型和书写特征分类模型的输出作为初始卷积神经网络模型的输入;

初始模型训练模块,用于以验证集作为训练数据,对初始帕金森病患者筛查模型进行训练,得到帕金森病患者筛查模型;

数据分类模块,用于获取待筛查用户的目标声学特征参数和目标书写数据,采用得到的帕金森病患者筛查模型对目标声学特征参数和目标书写数据进行分类处理,得到筛查结果。

一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述数据分类方法的步骤。

一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述数据分类方法的步骤。

上述数据分类方法、装置、计算机设备和存储介质,一方面,利用帕金森病患者的声学特征参数和书写数据的特殊性,分别构建声学特征参数和书写数据对应的分类模型,以从不同角度实现对数据的分类,避免了单一数据的评价对筛查准确性的影响,另一方面,通过卷积神经网络模型,将声学特征分类模型和书写特征分类模型相结合,并将验证集中的声学特征参数和书写数据作为训练数据,对初始帕金森病患者筛查模型的进行训练,实现了模型的融合,以降低模型的过拟合风险,从而得到高准确性的帕金森病患者筛查模型。进而利用高准确性的帕金森病患者筛查模型对待筛查用户的数据进行分类分析,得到准确性高的筛查结果。

附图说明

图1为一个实施例中帕金森病患者筛查方法的应用场景图;

图2为一个实施例中数据分类方法的流程示意图;

图3为一个实施例中数据分类方法中声学特征分类模型构建步骤的流程示意图;

图4为一个实施例中数据分类方法中获取待筛查用户的目标声学特征参数步骤的流程示意图;

图5为一个实施例中数据分类方法中获取待筛查用户的目标书写数据步骤的流程示意图;

图6为一个实施例中数据分类方法中获取样本数据组的流程示意图;

图7为一个实施例中数据分类装置的结构框图;

图8为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

本申请提供的数据分类方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。服务器获取样本数据组,样本数据组中的数据携带有分类标签,分类标签包括帕金森患者标签和非帕金森患者标签,样本数据组包括训练集和验证集,服务器根据训练集中的声学特征参数构建声学特征分类模型,并根据训练集中的书写数据构建书写特征分类模型,服务器构建初始帕金森病患者筛查模型,初始帕金森病患者筛查模型包括声学特征分类模型、书写特征分类模型以及初始卷积神经网络模型,声学特征分类模型和书写特征分类模型的输出作为初始卷积神经网络模型的输入,以验证集作为训练数据,对初始帕金森病患者筛查模型进行训练,得到帕金森病患者筛查模型。用户通过终端102上传目标语音数据和目标书写图像至服务器104,服务器104提取目标书写图像中的书写数据,并获取目标语音数据的每一帧的基音周期,确定基音周期对应的频率和振幅,根据频率和振幅,得到目标语音数据对应的目标声学特征参数,然后将目标语音数据和目标书写数据输入构建的帕金森病患者筛查模型,得到筛查结果并反馈至终端102。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中,如图2所示,提供了一种数据分类方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:

步骤s210,获取样本数据组,样本数据组中的数据携带有分类标签,样本数据组包括训练集和验证集。

样本数据组是指包含采集对象的声学特征参数和书写数据的数据组合,样本数据组根据采集对象是否为帕金森病患者的分类标签。采集对象是指通过医学检查鉴定确定患有或未患有帕金森病的用户,患有帕金森病的采集对象的采集数据标记有帕金森病患者的分类标签,未患有帕金森病的采集对象的采集数据标记有非帕金森病患者的分类标签。训练集是指用于对模型进行训练的样本数据,验证集是指对模型参数进行校验,确定模型评价结果的样本数据。在实施例中,可以将所有的样本数据组按比例划分为训练集和验证集,可以理解,训练集和验证集中的数据是可以互换的,训练集中的数据也可以用作验证数据。在另一个实施例中,还可以将样本数据组划分为训练集、验证集和测试集。通过训练集进行子模型的构建,根据验证集和测试集分别进行帕金森病患者筛查模型的训练与验证。其中,子模型包括声学特征分类模型和书写特征分类模型,是构成初始帕金森病患者筛查模型的一部分,子模型还可以包括初始卷积神经网络模型。

步骤s220,根据训练集中的声学特征参数构建声学特征分类模型,并根据训练集中的书写数据构建书写特征分类模型。

声学特征参数是指通过对采集对象的语音数据进行分析后得到特征参数,语音数据可以是持续元音数据,也可以句意简单的句子,语音数据可以通过终端的麦克风等声音采集设备进行采集并发送至服务器。例如,用户持续发固定元音,采集的元音样本的时间长度在4秒-8秒。服务器可以通过mdvp(mulit-dimensionalvoiceprogram,多维语音程序)对采集的语音数据进行多维嗓音分析,可以定量地分析出多项声学特征参数,包括标准声学分析的基本声学测量。具体来说,声学特征参数包括频率扰动度、振幅扰动度、频率扰动熵,高音扰动熵、振幅扰动熵、谐噪比等。以声学特征参数作为模型的训练样本对声学特征分类模型进行训练,可以得到能区分出帕金森病患者和非帕金森病患者的分类模型。

在一个实施例中,如图3所示,根据训练集中的声学特征参数构建声学特征分类模型包括步骤s310至步骤s340。

步骤s310,以训练集中的声学特征参数为训练数据,对声学特征分类模型进行训练。

步骤s320,以验证集中的声学特征参数为验证数据,得到声学特征分类模型的模型评价参数。

步骤s330,当模型评价参数不满足预设评价参数要求时,调整声学特征分类模型的迭代次数、最大深度以及步长参数中的至少一项参数,对参数调整后的声学特征分类模型进行重复训练。

步骤s340,当模型评价参数满足预设评价参数要求时,得到声学特征分类模型。

样本数据组可以划分为训练集和验证集,训练集和验证集中的每一组数据都包括采集对象的声学特征数据和书写数据。以训练集中的声学特征参数和验证集中的声学特征数据,对声学特征模型进行训练和验证。声学特征模型可以是gbdt(gradientboostingdecisiontree,梯度提升决策树)或xgboost(extremegradientboosting,极端梯度提升)等机器学习模型为架构得到。以声学特征模型为gbdt分类器为例,将训练集中的声学特征参数输入gbdt分类器进行训练,通过模型的机器学习训练总结帕金森病患者的细微差别特点,调整模型参数,然后将验证集中的声学特征参数输入gbdt分类器对模型验证,得到模型评价参数。在实施例中,将样本数据组分为k组,以其中的k-1组为训练集,1组为验证集,形成k种组合,分别对gbdt分类器进行训练,gbdt分类器的初始参数的迭代次数、最大深度和步长是可变的,训练时采用多种不同的参数的迭代次数、最大深度和步长进行训练,并生成多个训练好的gbdt分类器,最后通过验证集对gbdt进行验证,选取分类效果最好的参数组合,如果模型评价参数满足预设评价参数要求,确认此模型参数并保存此分类模型。如果模型评价参数不满足预设评价参数要求,则调整模型的相关参数迭代次数、最大深度和步长,或者增加训练数据,再进行重复训练和测试,直到模型评价参数满足预设评价参数要求为止。其中模型评价参数包括精确率,准确率,召回率等。

书写数据包括书写路径的震颤特征数据,以螺旋图像的特征数据为例,包括螺旋直径和和匝数密度的变化数据。通过书写特征分类模型,对采集的螺旋图像数据进行分析,确定图像数据是否是帕金森患者的绘制图片进行分类。在实施例中,书写数据分类模型可以利用卷积神经网络架构的图像分类模型训练得到。在其中一个实施例中,书写数据分类模型包括一次连接的第一卷积层、第一池化层、第二卷积层、第二池化层以及全连接层。其中,第一卷积层:采用16个5*5的卷积核,步长为1,padding(填充)为2,激活函数采用relu函数,maxpooling的kernel_size=2;第二卷积层:输入16个64*64通道,采用32个5*5的卷积核,步长为1,padding=2,激活函数采用relu函数,maxpooling的kernel_size=2;全连接层:将32层32*32卷积核展开,通过全连接层降为到两类,从而区分该书写数据的是否对应为帕金森病患者。在实施例中,书写特征分类模型的模型训练方法与声学特征分类模型相同,再次不再赘述。

在实施例中,在获取到采集对象的书写数据之后,还可以对书写数据进行图像预处理,图像预算处理包括像素值的归一化,将获取的螺旋图像或书写图像的像素大小转化为预设的像素大小,例如转化为128*128的图像,然后将像素统一的图像数据输入书写特征分类模型。

步骤s230,构建初始帕金森病患者筛查模型,初始帕金森病患者筛查模型包括声学特征分类模型、书写特征分类模型以及初始卷积神经网络模型,声学特征分类模型和书写特征分类模型的输出作为初始卷积神经网络模型的输入。

初始帕金森病患者筛查模型由声学特征分类模型、书写特征分类模型以及初始卷积神经网络模型组成,其中,声学特征分类模型和书写特征分类模型分别通过训练集中的声学特征数据和书写数据训练得到。通过初始卷积神经网络模型,将声学特征分类模型和书写特征分类模型的输出作为初始卷积神经网络模型的输入,通过二次训练,声学特征分类模型和书写特征分类模型进行融合,并通过模型验证调整模型融合参数,避免声学特征分类模型和书写特征分类模型出现过拟合现象。

步骤s240,以验证集作为训练数据,对初始帕金森病患者筛查模型进行训练,得到帕金森病患者筛查模型。

以验证集作为训练数据对初始帕金森病患者筛查模型进行训练,实质上是对初始帕金森病患者筛查模型中的初始神经网络模型的训练,以优化初始神经网络模型的模型融合参数,避免出现声学特征分类模型和书写特征分类模型的过拟合。由于声学特征分类模型和书写特征分类模型是对样本数据组中的数据分别进行训练得到的,在对初始帕金森病患者模型进行训练时,将验证集对应的样本数据组,按声学特征数据和书写数据的配对关系,将配对的声学特征数据和书写数据,同步输入初始帕金森病患者筛查模型中的声学特征分类模型和书写特征分类模型,得到声学特征分类模型和书写特征分类模型的输出结果,然后将两个输出结果同时输入初始帕金森病患者筛查模型中的初始卷积神经网络模型,对初始卷积神经网络模型进行训练,以优化初始卷积神经网络模型中的模型融合参数,得到帕金森病患者筛查模型。其中,模型融合参数可以包括声学特征分类模型和书写特征分类模型的权重参数。

步骤s250,获取待筛查用户的目标声学特征参数和目标书写数据,采用得到的帕金森病患者筛查模型对目标声学特征参数和目标书写数据进行分类处理,得到筛查结果。

待筛查用户是指未经过医学检测,未知是否患有帕金森病的用户。待筛查用户的目标声学特征参数可以通过采集用户的语音数据并进行数据预处理得到。目标书写数据可以通过采集用户的书写图像并提取图像中的书写数据得到。基于通过上述方法构建的帕金森病患者筛查模型,将书写数据和声学特征参数输入帕金森病患者筛查模型,通过模型对两种数据的分类分析,确定用户属于帕金森病患者或非帕金森病患者,以便为用户提供准确性较高的参考数据,以便进一步确定是否需要前往医院通过进一步的相关医学检验。此方法利用用户的语音数据和书写数据,提取出目标声学特征参数和目标书写数据进行帕金森病患者筛查,数据处理对象为用户表现出的外部数据信息,不直接以用户为作用对象,简化了分析过程所需的资源。通过融合了声学特征分类模型和书写数据分类模型的帕金森病患者筛查模型,避免了单独分析两类数据造成的过拟合影响,可以获得高准确度的分类结果。

上述数据分类方法,一方面,利用帕金森病患者的声学特征参数和书写数据的特殊性,分别构建声学特征参数和书写数据对应的分类模型,以从不同角度实现对数据的分类,避免了单一数据的评价对筛查准确性的影响,另一方面,通过卷积神经网络模型,将声学特征分类模型和书写特征分类模型相结合,并将验证集中的声学特征参数和书写数据作为训练数据,对初始帕金森病患者筛查模型的进行训练,实现了模型的融合,以降低模型的过拟合风险,从而得到高准确性的帕金森病患者筛查模型。进而利用高准确性的帕金森病患者筛查模型对待筛查用户的数据进行分类分析,得到准确性高的筛查结果。

在一个实施例中,如图4所示,获取待筛查用户的目标声学特征参数包括步骤s410至s440。

s410,获取采集的待筛查用户的目标语音数据。

s420,识别目标语音数据的每一帧的基音周期。

s430,确定基音周期对应的频率和振幅。

s440,根据频率和振幅,得到目标语音数据对应的目标声学特征参数。

在实施例中,语音数据对应的声学特征参数可以通过对语音数据进行多维嗓音分析得到。声学特征参数至少包括基频、基频变化率、振幅变化率、信噪比以及基音周期熵中的一项。基音周期是指声带振动的周期性,将采集到的语音数据进行滤波、短时能量分析,将模拟信号转换为数字信号,并通过采样处理将连续信号转换为离散信号,然后按时帧对离散信号进行划分,得到每一帧基音周期。基音周期的倒数为基音频率,简称基频。振幅是指最大值与最小值之间的幅度变化。基频变化率参数包括多个,例如可以表征一段连续时间内,基频的绝对平均差的参数,还可以表征在一个连续时间内,基频的平均绝对差除以平均周期的参数,还可以衡量一段连续时间内,基频变化的快慢程度的参数。振幅变化率的参数用来量化相邻周期间的振幅扰动,比如以分贝方式反映峰到峰之间的振幅变化或表征连续时间内振幅平均绝对值和平均振幅之比。信噪比用来量化语音中由于声带不完全闭合而产生的噪音。基音周期熵用来量化发音困难度。在实施例中,上述参数的分析可以基于多维嗓音分析软件(mdvp)分析得到。

在一个实施例中,如图5所示,获取待筛查用户的目标书写数据包括步骤s510至s520。

s510,获取采集的待筛查用户的目标书写图像,目标书写图像包括螺旋绘制图像或文字书写图像中的至少一种。

s520,对目标书写图像进行书写轨迹识别,得到目标书写图像对应的目标书写数据。

通过观察分析发现,帕金森病患者绘制的螺旋图像中螺旋直径减小和匝数密度增加的特点。帕金森病患者绘制螺旋转弯紧密,震颤轴为单向,且绘制过程十分缓慢,当患者绘制螺旋外圈时,震颤变得更加显著,对于文字的书写,帕金森病患者的书写路径同样具有震颤特征。书写数据可以是采集对象绘制的螺旋图像或文字书写图像。书写轨迹是指在绘制螺旋绘制或是书写文字时留下的轨迹。螺旋图像是指用户通过终端的图像采集界面中的螺旋绘制图形示意图进行图像手动绘制时采集到的图像。文字书写图像是指用户通过终端的图像采集界面中的书写内容提示进行手写对应文字时采集的图像。书写轨迹的识别可以通过图像采集前的数据与图像采集后的数据进行对比得到。通过对书写轨迹进行震颤程度分析,得到包括震颤参数的书写数据。

在其中一个实施例中,样本数据组还包括测试集。以验证集作为训练数据,对初始帕金森病患者筛查模型进行训练,得到帕金森病患者筛查模型包括:

将验证集和测试集分别输入声学特征分类模型和书写特征分类模型,得到输出的验证结果和测试结果。将验证结果作为初始卷积神经网络模型的训练数据,对初始卷积神经网络模型进行训练,确定初始卷积神经网络模型的模型融合参数。将测试结果作为初始卷积神经网络模型的验证数据,更新初始卷积神经网络模型的模型融合参数,得到携带有更新模型融合参数的帕金森病患者筛查模型。

测试集是指对模型进行测试的样本数据组构成的集合。举例来说,假设有1250个样本数据组,其中,800个样本数据组构成训练集,200个样本数据组构成验证集,250个样本数据组构成测试集。通过训练集中的声学特征数据,训练得到声学特征分类模型,通过训练集中的书写数据,训练得到书写特征分类模型。然后将训练好的声学特征分类模型和书写特征分类模型与初始卷积神经网络模型进行组合,得到初始帕金森病患者筛查模型,其中,训练好的声学特征分类模型和书写特征分类模型可以是通过利用验证集的验证处理的模型。再将验证集中的声学特征数据和书写数据同步输入声学特征分类模型和书写特征分类模型,将输出数据作为初始卷积神经网络模型的训练数据,对初始卷积神经网络模型进行训练,确定模型融合参数。

同理,根据测试集中的声学特征数据和书写数据,也可以得到声学特征分类模型和书写特征分类模型的输出结果,将输出结果作为验证数据,对训练后的初始卷积神经网络模型进行验证,确定当前的模型融合参数是否符合模型评价条件,当不符合模型评价条件时,更新初始卷积神经网络模型的模型融合参数,重新对初始卷积神经网络模型进行训练和验证,直至初始卷积神经网络模型的模型融合参数符合模型评价条件。

在一个实施例中,将测试结果作为初始卷积神经网络模型的验证数据,更新初始卷积神经网络模型的模型融合参数包括:将测试结果作为验证数据,输入初始卷积神经网络模型得到输出结果,并确定输出结果与验证集中分类标签的偏差率。当偏差率大于预设偏差阈值时,对模型融合参数进行迭代更新,直至偏差率小于或等于预设偏差阈值。

输出结果包括输入数据所属的类别为帕金森病患者或非帕金森病患者。输出结果与验证集中分类标签的偏差率是用于描述所有验证数据的输出结果与验证数据携带的分类标签的准确性的参数。例如,验证数据为250条,按照输入顺序,假设前120条验证数据对应的分类标签为帕金森病患者,后130条验证数据对应的分类标签为非帕金森病患者,当初始卷积神经网络模型的输出结果中,前120条验证数据对应的输出结果中只有100条为帕金森病患者,后130条验证数据对应的输出结果中只有125条为非帕金病森患者。总共有25条验证数据与分类标签不同,占总验证数据的10%,即偏差率为10%,若预设偏差阈值为5%,则表征初始卷积神经网络模型的模型融合参数不符合模型评价条件,对模型融合参数进行迭代更新,并重新对模型进行训练和验证,直至偏差率小于或等于预设偏差阈值。

在其中一个实施例中,如图6所示,获取样本数据组,包括步骤s610至s630。

s610,获取采集对象的语音数据、书写图像以及采集对象是否为帕金森病患者。

s620,提取书写图像中的书写数据,并获取语音数据的频率和振幅,根据频率和振幅,得到语音数据对应的声学特征参数。

s630,根据采集对象是否为帕金森病患者,对声学特征参数和书写数据标记分类标签,分类标签包括帕金森患者标签和非帕金森患者标签。

s640,根据携带有分类标签的声学特征参数和书写数据,构建样本数据组。

在实施例中,采集对象是指已通过医学检验明确其患有帕金森病或未患有帕金森病的样本用户,样本用户通过终端录制语音数据和绘制书写数据并上传其是否患有帕金森病的信息,其中,终端界面展示有数据采集规则例如,语音数据可以是5秒左右的持续元音数据,书写数据可以是按照界面所示螺旋图轨迹绘制的螺旋绘制图像或提示的书写文字进行书写得到的文字书写图像,当用户基于提示的数据采集规则,并提交上传至服务器之后,服务器对语音数据和书写数据进行处理,提取出声学特征数据和书写数据,具体的提取过程如上述对目标语音数据和目标书写图像的处理过程,再次不再赘述。然后根据用户是否患有帕金森病的信息,对该样本用户的目标语音数据和目标书写图像进行分类标签标记,以便根据分类标签进行模型的训练。基于同一采集对象的携带有分类标签的声学特征参数和和携带有分类标签的书写数据,构建该采集对象对应的样本数据组。其中,同一采集对象的声学特征参数和书写数据的分类标签相同。

在一个实施例中,可以通过使用k折交叉验证来实现帕金森病患者筛查模型的训练和模型的融合。以声学特征分类模型为例,若采用5折交叉验证,先拿出四折作为训练集,另外一折作为验证集,假设整个数据集包含训练集和验证集共1000条数据,测试集为250条数据,在每一次的交叉验证中训练数据将会是800条,验证数据是200条。每次验证相当于使用800条数据训练出一个模型,使用验证集中的200条验证数据对每个模型进行验证得到200条验证结果,并使用测试集中的250条测试数据对每个模型进行测试,得到250条测试结果。这样经过5次交叉检验,可以得到5*200条验证集的验证结果,5*250条测试集的测试结果。接下来会将验证集的5*200条验证结果拼接成1000行长的矩阵,标记为a1,而对于5*250行的测试集的测试结果进行加权平均,得到一个250一列的矩阵,标记为b1。上面得到声学特征分类模型在样本数据组上的输出结果a1、b1。同理,书写特征分类模型也可以得到输出结果a2和b2,将模型声学特征分类模型和书写特征分类模型的输出结果集成,相于得到了a1、a2、b1、b2四个矩阵。再将a1、a2并列在一起成1000行2列的矩阵作为训练数据,b1、b2合并在一起成250行2列的矩阵作为验证数据,进行模型再训练;再训练是基于每个基础模型的预测结果作为特征,在输出结果上赋予权重w,使最后的预测更为准确,从而实现模型的融合,得到帕金森病患者筛查模型。

应该理解的是,虽然图2-6的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-6中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中,如图7所示,提供了一种数据分类装置,装置包括:样本数据组获取模块710、子模型构建模块720、初始模型构建模块730、初始模型训练模块740以及数据分类模块750。

样本数据组获取模块710,用于获取样本数据组,样本数据组中的数据携带有分类标签,样本数据组包括训练集和验证集。

子模型构建模块720,用于根据训练集中的声学特征参数构建声学特征分类模型,并根据训练集中的书写数据构建书写特征分类模型。

初始模型构建模块730,用于构建初始帕金森病患者筛查模型,初始帕金森病患者筛查模型包括声学特征分类模型、书写特征分类模型以及初始卷积神经网络模型,声学特征分类模型和书写特征分类模型的输出作为初始卷积神经网络模型的输入。

初始模型训练模块740,用于以验证集作为训练数据,对初始帕金森病患者筛查模型进行训练,得到帕金森病患者筛查模型;

数据分类模块750,用于获取待筛查用户的目标声学特征参数和目标书写数据,采用得到的帕金森病患者筛查模型对目标声学特征参数和目标书写数据进行分类处理,得到筛查结果。

在其中一个实施例中,数据分类模块还用于获取采集的待筛查用户的目标语音数据;识别目标语音数据的每一帧的基音周期;确定基音周期对应的频率和振幅;根据频率和振幅,得到目标语音数据对应的目标声学特征参数。

在其中一个实施例中,数据分类模块还用于获取采集的待筛查用户的目标书写图像,目标书写图像包括螺旋绘制图像或文字书写图像中的至少一种;对目标书写图像进行书写轨迹识别,得到目标书写图像对应的目标书写数据。

在一个实施例中,样本数据组还包括测试集;初始模型训练模块还用于将验证集和测试集分别输入声学特征分类模型和书写特征分类模型,得到输出的验证结果和测试结果;将验证结果作为初始卷积神经网络模型的训练数据,对初始卷积神经网络模型进行训练,确定初始卷积神经网络模型的模型融合参数;将测试结果作为初始卷积神经网络模型的验证数据,更新初始卷积神经网络模型的模型融合参数,得到携带有更新模型融合参数的帕金森病患者筛查模型。

在其中一个实施例中,初始模型训练模块还用于将测试结果作为验证数据,输入初始卷积神经网络模型得到输出结果,并确定输出结果与验证集中分类标签的偏差率;当偏差率大于预设偏差阈值时,对模型融合参数进行迭代更新,直至偏差率小于或等于预设偏差阈值。

在其中一个实施例中,样本数据组获取模块,还用于获取采集对象的语音数据、书写图像以及采集对象是否为帕金森病患者;提取书写图像中的书写数据,并获取语音数据的频率和振幅,根据频率和振幅,得到语音数据对应的声学特征参数;根据采集对象是否为帕金森病患者,对声学特征参数和书写数据标记分类标签,分类标签包括帕金森患者标签和非帕金森患者标签;根据携带有分类标签的声学特征参数和书写数据,构建样本数据组。

在其中一个实施例中,子模型构建模块还用于以训练集中的声学特征参数为训练数据,对声学特征分类模型进行训练;以验证集中的声学特征参数为验证数据,得到声学特征分类模型的模型评价参数;当模型评价参数不满足预设评价参数要求时,调整声学特征分类模型的迭代次数、最大深度以及步长参数中的至少一项参数,对参数调整后的声学特征分类模型进行重复训练;当模型评价参数满足预设评价参数要求时,得到声学特征分类模型。

上述数据分类装置,一方面,利用帕金森病患者的声学特征参数和书写数据的特殊性,分别构建声学特征参数和书写数据对应的分类模型,以从不同角度实现对数据的分类,避免了单一数据的评价对筛查准确性的影响,另一方面,通过卷积神经网络模型,将声学特征分类模型和书写特征分类模型相结合,并将验证集中的声学特征参数和书写数据作为训练数据,对初始帕金森病患者筛查模型的进行训练,实现了模型的融合,以降低模型的过拟合风险,从而得到高准确性的帕金森病患者筛查模型。进而利用高准确性的帕金森病患者筛查模型对待筛查用户的数据进行分类分析,得到准确性高的筛查结果。

关于数据分类装置的具体限定可以参见上文中对于数据分类方法的限定,关于帕金森病患者筛查装置的具体限定可以参见上文中对于帕金森病患者筛查方法的限定,在此不再赘述。上述数据分类装置以及帕金森病患者筛查装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据分类方法或一种帕金森病患者筛查方法。

本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:

获取样本数据组,样本数据组中的数据携带有分类标签,样本数据组包括训练集和验证集;

根据训练集中的声学特征参数构建声学特征分类模型,并根据训练集中的书写数据构建书写特征分类模型;

构建初始帕金森病患者筛查模型,初始帕金森病患者筛查模型包括声学特征分类模型、书写特征分类模型以及初始卷积神经网络模型,声学特征分类模型和书写特征分类模型的输出作为初始卷积神经网络模型的输入;

以验证集作为训练数据,对初始帕金森病患者筛查模型进行训练,得到帕金森病患者筛查模型;

获取待筛查用户的目标声学特征参数和目标书写数据,采用得到的帕金森病患者筛查模型对目标声学特征参数和目标书写数据进行分类处理,得到筛查结果。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

获取采集的待筛查用户的目标语音数据;

识别目标语音数据的每一帧的基音周期;

确定基音周期对应的频率和振幅;

根据频率和振幅,得到目标语音数据对应的目标声学特征参数。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

获取采集的待筛查用户的目标书写图像,目标书写图像包括螺旋绘制图像或文字书写图像中的至少一种;

对目标书写图像进行书写轨迹识别,得到目标书写图像对应的目标书写数据。

在一个实施例中,样本数据组还包括测试集;处理器执行计算机程序时还实现以下步骤:

将验证集和测试集分别输入声学特征分类模型和书写特征分类模型,得到输出的验证结果和测试结果;

将验证结果作为初始卷积神经网络模型的训练数据,对初始卷积神经网络模型进行训练,确定初始卷积神经网络模型的模型融合参数;

将测试结果作为初始卷积神经网络模型的验证数据,更新初始卷积神经网络模型的模型融合参数,得到携带有更新模型融合参数的帕金森病患者筛查模型。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

将测试结果作为验证数据,输入初始卷积神经网络模型得到输出结果,并确定输出结果与验证集中分类标签的偏差率;

当偏差率大于预设偏差阈值时,对模型融合参数进行迭代更新,直至偏差率小于或等于预设偏差阈值。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

获取采集对象的语音数据、书写图像以及采集对象是否为帕金森病患者;

提取书写图像中的书写数据,并获取语音数据的频率和振幅,根据频率和振幅,得到语音数据对应的声学特征参数;

根据采集对象是否为帕金森病患者,对声学特征参数和书写数据标记分类标签,分类标签包括帕金森患者标签和非帕金森患者标签,根据携带有分类标签的声学特征参数和书写数据,构建样本数据组。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

以训练集中的声学特征参数为训练数据,对声学特征分类模型进行训练;

以验证集中的声学特征参数为验证数据,得到声学特征分类模型的模型评价参数;

当模型评价参数不满足预设评价参数要求时,调整声学特征分类模型的迭代次数、最大深度以及步长参数中的至少一项参数,对参数调整后的声学特征分类模型进行重复训练;

当模型评价参数满足预设评价参数要求时,得到声学特征分类模型。

上述用于实现数据分类方法的计算机设备,一方面,利用帕金森病患者的声学特征参数和书写数据的特殊性,分别构建声学特征参数和书写数据对应的分类模型,以从不同角度实现对数据的分类,避免了单一数据的评价对筛查准确性的影响,另一方面,通过卷积神经网络模型,将声学特征分类模型和书写特征分类模型相结合,并将验证集中的声学特征参数和书写数据作为训练数据,对初始帕金森病患者筛查模型的进行训练,实现了模型的融合,以降低模型的过拟合风险,从而得到高准确性的帕金森病患者筛查模型。进而利用高准确性的帕金森病患者筛查模型对待筛查用户的数据进行分类分析,得到准确性高的筛查结果。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:

获取样本数据组,样本数据组中的数据携带有分类标签,样本数据组包括训练集和验证集;

根据训练集中的声学特征参数构建声学特征分类模型,并根据训练集中的书写数据构建书写特征分类模型;

构建初始帕金森病患者筛查模型,初始帕金森病患者筛查模型包括声学特征分类模型、书写特征分类模型以及初始卷积神经网络模型,声学特征分类模型和书写特征分类模型的输出作为初始卷积神经网络模型的输入;

以验证集作为训练数据,对初始帕金森病患者筛查模型进行训练,得到帕金森病患者筛查模型;

获取待筛查用户的目标声学特征参数和目标书写数据,采用得到的帕金森病患者筛查模型对目标声学特征参数和目标书写数据进行分类处理,得到筛查结果。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

获取采集的待筛查用户的目标语音数据;

识别目标语音数据的每一帧的基音周期;

确定基音周期对应的频率和振幅;

根据频率和振幅,得到目标语音数据对应的目标声学特征参数。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

获取采集的待筛查用户的目标书写图像,目标书写图像包括螺旋绘制图像或文字书写图像中的至少一种;

对目标书写图像进行书写轨迹识别,得到目标书写图像对应的目标书写数据。

在一个实施例中,样本数据组还包括测试集;计算机程序被处理器执行时还实现以下步骤:

将验证集和测试集分别输入声学特征分类模型和书写特征分类模型,得到输出的验证结果和测试结果;

将验证结果作为初始卷积神经网络模型的训练数据,对初始卷积神经网络模型进行训练,确定初始卷积神经网络模型的模型融合参数;

将测试结果作为初始卷积神经网络模型的验证数据,更新初始卷积神经网络模型的模型融合参数,得到携带有更新模型融合参数的帕金森病患者筛查模型。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

将测试结果作为验证数据,输入初始卷积神经网络模型得到输出结果,并确定输出结果与验证集中分类标签的偏差率;

当偏差率大于预设偏差阈值时,对模型融合参数进行迭代更新,直至偏差率小于或等于预设偏差阈值。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

获取采集对象的语音数据、书写图像以及采集对象是否为帕金森病患者;

提取书写图像中的书写数据,并获取语音数据的频率和振幅,根据频率和振幅,得到语音数据对应的声学特征参数;

根据采集对象是否为帕金森病患者,对声学特征参数和书写数据标记分类标签,分类标签包括帕金森患者标签和非帕金森患者标签,根据携带有分类标签的声学特征参数和书写数据,构建样本数据组。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

以训练集中的声学特征参数为训练数据,对声学特征分类模型进行训练;

以验证集中的声学特征参数为验证数据,得到声学特征分类模型的模型评价参数;

当模型评价参数不满足预设评价参数要求时,调整声学特征分类模型的迭代次数、最大深度以及步长参数中的至少一项参数,对参数调整后的声学特征分类模型进行重复训练;

当模型评价参数满足预设评价参数要求时,得到声学特征分类模型。

上述用于实现数据分类方法的计算机可读存储介质,一方面,利用帕金森病患者的声学特征参数和书写数据的特殊性,分别构建声学特征参数和书写数据对应的分类模型,以从不同角度实现对数据的分类,避免了单一数据的评价对筛查准确性的影响,另一方面,通过卷积神经网络模型,将声学特征分类模型和书写特征分类模型相结合,并将验证集中的声学特征参数和书写数据作为训练数据,对初始帕金森病患者筛查模型的进行训练,实现了模型的融合,以降低模型的过拟合风险,从而得到高准确性的帕金森病患者筛查模型。进而利用高准确性的帕金森病患者筛查模型对待筛查用户的数据进行分类分析,得到准确性高的筛查结果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1