一种生猪养殖场多源数据异常检测与不良数据修正方法

文档序号:37054341发布日期:2024-02-20 20:57阅读:16来源:国知局
一种生猪养殖场多源数据异常检测与不良数据修正方法

本技术涉及生猪养殖,具体涉及一种生猪养殖场多源数据异常检测与不良数据修正方法。


背景技术:

1、我国是世界上最大的生猪生产国与猪肉消费国,生猪产业是我国畜牧业支柱性产业。现阶段,丹麦、荷兰、美国的生猪养殖饲料利用率、养殖技术、生产效能等指标远高于中国行业平均水平。我国生猪养殖规模化占比和集约化水平不断提升,但仍存在智能化水平低、自动化装备落后、管理效率低、环境污染和能源利用效率低,缺乏大数据平台支撑等问题。

2、近年来,学术界在大数据分析与个性化推荐方面已取得较为丰富的成果,但在畜牧业应用领域还存在数据来源不稳定、数据质量不高、信息挖掘决策精度低等问题。数据的准确性和可靠性对于生猪养殖场的管理和决策具有重要意义。面对生猪养殖场存在的各种复杂因素和环境变量,如何完整、及时、可靠地获取养殖过程全景数据以及对信息有效地分析、处理和利用,实现养殖场的精益化管理,成为当前亟需解决的一个重要问题。


技术实现思路

1、本技术为了解决上述技术问题,提出了如下技术方案:

2、第一方面,本技术实施例提供了一种生猪养殖场多源数据异常检测与不良数据修正方法,包括:

3、获取规模化养猪场监控、采集、传输、用能和管理异构数据;

4、进行生猪养猪数据源分类和数据特征分析,对采集到的异构数据进行预处理,预处理包括离群样本剔除、数据归一化处理和去冗余;

5、基于生猪养殖场数据异常检测算法,改进评价指标和特定异常检测算法权重计算方法,集成与优化多源异构数据异常检测方法;

6、采用协同过滤推荐算法,以无监督的方式减少错误数据修补的输入依赖,从横向关联性着手,寻找与当前时刻相似的历史监测点数据集合,计算范围推荐度,采用遗传算法对推荐的数据集合进行寻优,找到生猪养殖不良数据的最佳修正值。

7、在一种可能的实现方式中,所述获取规模化养猪场监控、采集、传输、用能和管理异构数据,包括:

8、根据养猪场环境信息监测需求,布置传感器/采集器节点,安装各种传感器,包括温度传感器、相对湿度传感器、氨气/硫化氢/二氧化硫/二氧化碳传感器;

9、根据布设的传感器实时采集猪舍内各项数据指标,通过5g传输模块实现数据传输;

10、获取舍外气候数据,包括舍外温度、相对湿度、风速、空气质量数据;

11、基于养猪场生产管理系统,获取采购管理、成本核算、生猪产量、体型特征、生理健康监测数据;

12、基于养猪场综合能源能耗监测管理系统,获取沼气/热/电综合能源消耗数据。

13、在一种可能的实现方式中,所述进行生猪养猪数据源分类和数据特征分析,包括:

14、养殖情况数据:包括猪只数量、品种、体型体征、生理健康、饲料消耗量、疫苗使用情况;

15、环境监测数据:包括温度、湿度、气候条件、氨气浓度、硫化氢浓度、二氧化硫浓度、二氧化碳浓度;

16、猪舍管理数据:包括猪舍布局、设备使用情况、卫生检查记录;

17、疾病监测数据:包括猪只健康情况、疫情监测;

18、饲养方案数据:包括饲料配方、喂养计划;

19、成本收益数据:包括饲料成本、人工成本、养殖收益;

20、农药使用数据:包括防治病虫害所使用的农药品种、用量;

21、能源消耗数据:包括照明设备耗电量、通风和空调耗电量、饲料加工和搬运设备、清洁和消毒设备、水泵和灌溉系统耗能。

22、在一种可能的实现方式中,所述对采集到的异构数据进行预处理,预处理包括离群样本剔除、数据归一化处理和去冗余,包括:

23、采用k-means聚类算法对采集到的原始数据进行简单清洗:

24、对清洗后的数据进行归一化处理:通过规范化生猪养殖数据,将数据变换归一化到相同的区间范围内;

25、采用g-relief f算法进行生猪养殖场的数据特征选择和去冗余,并对特征权重进行计算。

26、在一种可能的实现方式中,所述采用k-means聚类算法对采集到的原始数据进行简单清洗,包括:

27、根据数据的相似性把数据集划分成组,同一簇中的对象彼此相似,不同簇中的对象相异;

28、使用簇ci的形心代表该簇,簇ci的质量用簇内变差度量,定义为dist(p,ci)表示对象p∈ci与该簇代表ci之差;

29、假设到对象p的最近中心为cp,cp与指派到cp对象之间的平均距离lcp,定义比率根据比率r判断离群样本并剔除。

30、在一种可能的实现方式中,所述采用g-relief f算法进行生猪养殖场的数据特征选择和去冗余,包括:

31、

32、特征a、b分别用n维数组表示,a={a1,a2,…,an}、b={b1,b2,…,bn},每个样本为n维空间的一个点;

33、

34、样本r1和样本r2在特征a上的差用diff(a,r1,r2)表示。

35、在一种可能的实现方式中,所述对特征权重进行计算,包括:

36、特征权重计算公式为

37、

38、

39、diff(a,r,hj)代表样本r和hj关于特征a的差异;hj与mj分别代表训练集中与样本r距离最近的同类样本与不同类样本;m代表抽样次数;k代表近邻样本数;p(class(r)为随机选择的某样本类别的比例;p(c)是第c类样本数占样本总数的比例;

40、

41、主要特征种类为m*,每个评价对象包含的评价指标个数为n;特征矩阵中选择xtm*作为“参考序列”,剩余特征分别作为“比较序列”;

42、

43、0<ξoi(k)≤1,p∈[0-1]

44、

45、(i=1,2,…,m*;k=1,2,…,n)

46、xij=inter(xi→xj),xi,xj∈a

47、第k时刻比较序列xti与参考序列xto的相对差值作为xti对xto在k时刻的关联系数为ξoi(k),δ0i(min)=min(i)min(k)|xto(k)-xti(k)|称为两级最小差,即xto与所有xti的最小绝对差值中再选出一个最小的差值;δ0i(max)=max(i)max(k)|xto(k)-xti(k)|称为两级最大差,即xto与所有xti的最大绝对差值中再选出一个最大的差值;|xto(k)-xti(k)|=δ0i(k)称为参考序列与比较序列在第k时刻的绝对差值;p为分辨系数;ωk的取值直接影响关联度的大小,的值越大说明两个特征之间的相关性越强。

48、在一种可能的实现方式中,所述基于生猪养殖场数据异常检测算法,改进评价指标和特定异常检测算法权重计算方法,集成与优化多源异构数据异常检测方法,包括:

49、根据生猪养殖场实际业务需求,选择具体场景数据集;

50、选择单一异常数据检测算法,训练得到集成学习算法中的弱检测器;

51、根据养猪场具体应用场景,改进数据检测效果评价指标;

52、改进集成学习过程中单一检测算法权重计算方法,集成数据异常强检测模型。

53、在一种可能的实现方式中,所述改进集成学习过程中单一检测算法权重计算方法,集成数据异常强检测模型,包括:

54、对比典型数据异常检测算法的辨识准确率、执行时间、预测准确率和kappa统计值,确定检测算法训练集成学习中的弱检测器gp,m为特定辨识器数,p=1,…,m;

55、改进预测误差率计算方法,综合考虑辨识准确率、预测准确率和kappa统计值,采用熵权法计算评价指标权重权值ωj:

56、

57、l为数据样本个数,i=1,…,l;n为评价指标数,j=1,…,n,aij为生猪养殖场实际场景中评价指标值,sij根为第j项指标下第i个样本指标值所占的比重,dj为计算第j项信息熵值,根据指标权重分别计算弱检测器的检测效果综合评分gp,进而求得平均误差率ep;

58、

59、根据平均误差率计算单一检测模型的系数αp,进而得到六种特定弱检测器的线性组合,

60、最终集成数据异常强检测模型g:

61、g=sign(α1*g1+α2*g2+···αp*gp)

62、

63、在一种可能的实现方式中,根据下述步骤修正不良数据:

64、统计当前时序的生猪养殖业务场景数据集合sw(t0),循环分析每一个点si,确定该异常数据的邻近节点集合,记作t′0(t′0∈t0);

65、根据t′0读取一定数量的历史数据,形成时间节点集合{t′0,t′-1,...,t′k}作为协同过滤算法的输入;

66、求t′0集合{t′0,t′-1,...,t′k}中其他向量的相关系数rk并进行排序,设置一定阈值得到相似的时序数据集rec(t′);

67、

68、得到相似时序数据集合后,进行推荐分析,异常数据上下界估计值为:

69、

70、采用遗传算法对推荐的数据集合进行寻优,以确定不良数据的最佳修正值。

71、在本技术实施例中,通过对养猪场布置各类传感器、监控设备、5g无线传输设备,获取规模化养猪场生产、管理、舍外气候和舍内环境等多源异构数据,进行养猪场数据源分类和数据特征分析。研究生猪养殖大数据环境下数据质量检测、不良数据修正、数据品质提升技术,从而提升生猪养殖场数据的准确性和可靠性,为生猪养殖场温室气体排放预警、环境质量综合评估和精益化管理策略制定等提供高质量的数据支撑。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1