本发明涉及机器学习领域,特别涉及一种使用多元逻辑回归的对家畜类生理状态进行预测的方法与系统。
背景技术:
猪肉一直是中国甚至全世界最喜爱的一种肉类,据相关资料显示,中国人的肉类消费中曾有80%是猪肉。即使到了2014年,全国猪肉产量5671万吨,超过肉类总产量的65%,比牛羊肉产量加起来还要多出4倍。在养殖过程中面临的最大问题就是家畜的生理状态,养殖过程中可能因为一点疏忽就造成不可抑制的疫情。传染病是一类较为典型的疾病,对家畜的危害极大,若防控不好容易造成整个养殖场的崩溃。猪病有猪瘟、伪狂犬、口蹄疫、副猪嗜血杆菌病、猪链球菌病、传染性胸膜肺炎、猪球虫病、附红细胞体病、弓形体病。这其中有多种就属于人兽共患病,如口蹄疫、狂犬病、流行性乙型脑炎、链球菌病等。
目前对家畜疾病的防治主要采取以“预防为主,防治结合”的策略。主要措施包括加强饲养管理、搞好环境卫生,加强检疫,免疫接种,消毒杀菌,灭鼠等。这些措施的目的是杜绝猪的发病源,防止家畜感染上传染病,减少家畜的发病几率。或者当发现有少部份家畜出现传染病感染症状后立即对这部分进行隔离处理,并对其它家畜进行预防注射。在普通方法进行预防时并不能完全防止传染病的侵入而且在预防方面成本很大,一旦出现疫情后因为不能在第一时间发现而造成更大的损失。所以随时监控家畜的生理情况并判断家畜此时的生理状态对于健康养殖是十分有用的。
技术实现要素:
为了解决在传统方法中不能及时知道家畜生理状态的问题,本发明提出了一种基于多元逻辑回归模型的家畜类生理状态预测方法与系统。本发明能够根据家畜的实时生理信息对家畜的生理特征进行判断,预测家畜此时是正常还是处于普通疾病下。
根据本发明的一个方面,提供一种基于多元逻辑回归模型的家畜类生理状态预测方法,包括:
步骤1,用传感器收集家畜生理信息和环境信息;
步骤2,对搜集到的数据进行预处理;
步骤3,利用预处理的数据,采用交叉验证法和网格搜索进行训练多元逻辑回归模型;
步骤4,利用最优多元逻辑回归模型,根据家畜的实时生理和环境数据对家畜生理状态进行预测。
进一步,用传感器收集家畜生理信息和环境信息,包括:处理并分析使用传感器硬件检测到并通过服务器传输的数据,将每一头家畜的生理和环境特征信息转化为一条记录,每头家畜的生理和环境特征数据为一个样本;提取结构化信息,从记录中分开提取家畜正常、普通疾病状态下的生理信息和环境信息。
进一步,对搜集到的数据进行预处理,包括:
对连续型属性进行最大最小归一标准化minmaxscaler处理;
对标称属性进行独热one-hot处理;
对离散编码后的数值属性进行z分数z-score编码操作;
将家畜的生理状态进行编码,正常状态编码为0,生病状态根据不同的病情编码为1、2、…、n,将编码结果作为模型训练的标签。
进一步,采用交叉验证法和网格搜索进行训练多元逻辑回归模型,包括:
选定交叉验证的训练集与测试集的比例折数,折数l为10,训练集与测试集的比例为9:1,将训练集用于模型训练,测试集用于模型检验;
设置样本数为n,样本特征数为m,类别数为n+1,包括1个正常状态类别,和n个不同病情的生病状态类别;设置预处理数据的样本为(x,y),其中x∈rn*m为特征信息,y∈rn是监督信息;y的取值集合是{0,1,2,…,n},求解多元逻辑回归模型得到样本x属于不同类别k的概率,取其中概率最大的类别作为样本x的所属类别;其中多元逻辑回归模型是:
其中,wk∈rm是模型参数,表示第k类的回归系数;exp()为指数函数;
通过网格搜索调整模型的参数,找到模型的最优参数。
进一步,利用最优多元逻辑回归模型,根据家畜的实时生理数据对家畜生理状态进行预测,包括:
根据交叉验证和参数调整的结果,选出最优的参数构成的最优模型;
通过步骤1和步骤2将收集到的家畜的实时生理和环境特征数据进行预处理;
将处理后的特征数据放入最优模型中,得到预测结果,若结果为0,则家畜的生理状态正常。若结果不为0,根据所得的结果判断家畜此时的病情生理状态。
根据本发明的另一个方面,提供一种基于多元逻辑回归模型的家畜类生理状态预测系统,所述系统包括:
数据收集模块,用于利用传感器收集家畜生理信息和环境信息;
数据预处理模块,用于对搜集到的数据进行预处理;
模型训练模块,用于采用交叉验证法和网格搜索进行训练多元逻辑回归模型;
生理状态预测模块,用于利用最优多元逻辑回归模型,根据家畜的实时生理数据对家畜生理状态进行预测。
本发明提出了一种基于多元逻辑回归模型的家畜类生理状态预测方法与系统,能够根据家畜的实时生理信息对家畜的生理特征进行判断,预测家畜此时是正常还是处于普通疾病下。本发明可以帮助养殖户及时知道家畜生理状态及问题,解决了预防时并不能完全防止传染病的侵入的问题,可以降低在预防方面成本,在出现疫情后可以第一时间发现从而降低损失。
附图说明
图1是本发明实施例提供的一种基于多元逻辑回归模型的家畜类生理状态预测方法流程图;
图2是本发明实施例提供的一种基于多元逻辑回归模型的家畜类生理状态预测方法中传感器收集数据的示意图;
图3是本发明另一实施例提供的一种基于多元逻辑回归模型的家畜类生理状态预测方法逻辑流程图;
图4是本发明实施例提供的一种基于多元逻辑回归模型的家畜类生理状态预测系统结构图。
具体实施方式
下面本发明具体的实施方式进行阐述,来进一步说明本发明的出发点以及相应的技术方案。
图1是本发明实施例提供的一种基于多元逻辑回归模型的家畜类生理状态预测方法流程图,如图1所示,所述方法包括以下四个步骤:
步骤1,用传感器收集家畜生理信息和环境信息;
步骤2,对搜集到的数据进行预处理;
步骤3,利用预处理的数据,采用交叉验证法和网格搜索进行训练多元逻辑回归模型;
步骤4,利用最优多元逻辑回归模型,根据家畜的实时生理和环境数据对家畜生理状态进行预测。
图2是本发明实施例提供的一种基于多元逻辑回归模型的家畜类生理状态预测方法中传感器收集数据的示意图。优选的,步骤1,用传感器收集家畜生理信息和环境信息,具体包括:
处理并分析使用传感器硬件检测到并通过服务器传输的数据,将每一头家畜的生理和环境特征信息转化为一条记录,每头家畜的生理和环境特征数据为一个样本;提取结构化信息,从记录中分开提取家畜正常、普通疾病状态下的生理信息和环境信息。所述的家畜包括猪,羊,牛等。
所述传感器包括温度传感器、湿度传感器、气体传感器、身体特征传感器等。其中温度传感器采用非接触式传感器,湿度传感器采用低湿端传感器,气体传感器采用固体电解质气体传感器,身体特征传感器可以采用一种能够实时监测家畜身体特征信息的“猪耳钉”传感器。
优选的,步骤2对搜集到的相关数据预处理,使得算法能够接受处理后的数据,具体包括:
对连续型属性进行最大最小归一标准化minmaxscaler处理;
对标称属性进行one-hot处理;
对离散编码后的数值属性进行z-score编码操作;
将家畜的生理状态进行编码,正常状态编码为0,生病状态根据不同的病情编码为1、2、…、n,将编码结果作为模型训练的标签;
图3是本发明另一个可实施的基于多元逻辑回归模型的家畜类生理状态预测方法的逻辑流程图。步骤1,收集传感器接收的数据,步骤2,预处理得到使算法能够接受的数据,接着使用预处理的数据,步骤3,进行训练并得到多元逻辑回归模型,步骤4,利用最优多元逻辑回归模型,对家畜生理状态进行预测。
优选的,步骤3采用交叉验证法和网格搜索进行训练并得到多元逻辑回归模型,具体包括:
选定交叉验证的训练集与测试集的比例折数,折数l为10,训练集与测试集的比例为9:1,将训练集用于模型训练,测试集用于模型检验;
设置样本数为n,样本特征数为m,类别数为n+1,包括1个正常状态类别,和n个不同病情的生病状态类别;设置预处理数据的样本为(x,y),其中x∈rn*m为特征信息,y∈rn是监督信息;y的取值集合是{0,1,2,…,n},求解多元逻辑回归模型得到样本x属于不同类别k的概率,取其中概率最大的类别作为样本x的所属类别;其中多元逻辑回归模型是:
其中,wk∈rm是模型参数,表示第k类的回归系数;exp()为指数函数;
通过网格搜索调整模型的参数,找到模型的最优参数。
优选的,步骤4利用最优多元逻辑回归模型,根据家畜的实时生理数据对家畜生理状态进行预测,具体包括:
根据交叉验证和参数调整的结果,选出里面最优的参数构成的最优模型;
将家畜的实时生理特征数据预处理,使模型能够接受;
将处理后的特征数据放入最优模型中,得到结果,若为0,则家畜的生理状态正常。若结果不为0,根据所得的结果判断家畜此时的病情生理状态。
图4是本发明实施例提供的一种基于多元逻辑回归模型的家畜类生理状态预测系统结构图,所述系统包括:
数据收集模块401,用于利用传感器收集家畜生理信息和环境信息;
数据预处理模块402,用于对搜集到的数据进行预处理;
模型训练模块403,用于采用交叉验证法和网格搜索进行训练多元逻辑回归模型;
生理状态预测模块404,用于利用最优多元逻辑回归模型,根据家畜的实时生理数据对家畜生理状态进行预测。
优先的,数据收集模块,用于利用传感器收集家畜生理信息和环境信息,具体用于:
处理并分析使用传感器硬件检测到并通过服务器传输的数据,将每一头家畜的生理和环境特征信息转化为一条记录,每头家畜的生理和环境特征数据为一个样本;提取结构化信息,从记录中分开提取家畜正常、普通疾病状态下的生理信息和环境信息。
优选的,数据预处理模块,用于对搜集到的数据进行预处理,具体用于:
对连续型属性进行最大最小归一标准化minmaxscaler处理;
对标称属性进行独热one-hot处理;
对离散编码后的数值属性进行z分数z-score编码操作;
将家畜的生理状态进行编码,正常状态编码为0,生病状态根据不同的病情编码为1、2、…、n,将编码结果作为模型训练的标签。
优选的,模型训练模块,用于采用交叉验证法和网格搜索进行训练多元逻辑回归模型,具体用于:
选定交叉验证的训练集与测试集的比例折数,折数l为10,训练集与测试集的比例为9:1,将训练集用于模型训练,测试集用于模型检验;
设置样本数为n,样本特征数为m,类别数为n+1,包括1个正常状态类别,和n个不同病情的生病状态类别;设置预处理数据的样本为(x,y),其中x∈rn*m为特征信息,y∈rn是监督信息;y的取值集合是{0,1,2,…,n},求解多元逻辑回归模型得到样本x属于不同类别k的概率,取其中概率最大的类别作为样本x的所属类别;其中多元逻辑回归模型是:
其中,wk∈rm是模型参数,表示第k类的回归系数;exp()为指数函数;
通过网格搜索调整模型的参数,找到模型的最优参数。
优选的,生理状态预测模块,用于利用最优多元逻辑回归模型,根据家畜的实时生理数据对家畜生理状态进行预测,具体用于:
根据交叉验证和参数调整的结果,选出最优的参数构成的最优模型;
通过数据收集模块和数据预处理模块将收集到的家畜的实时生理和环境特征数据进行预处理;
将处理后的特征数据放入最优模型中,得到预测结果,若结果为0,则家畜的生理状态正常。若结果不为0,根据所得的结果判断家畜此时的病情生理状态。
以上的所述乃是本发明的具体实施例及所运用的技术原理,若依本发明的构想所作的改变,其所产生的功能作用仍未超出说明书及附图所涵盖的精神时,仍应属本发明的保护范围。