本发明涉及数据预测,具体涉及一种院校投档线预测方法、系统、设备及介质。
背景技术:
1、作为最为公正的人才选拔机制,高考不仅是评估学生学业水平的重要手段,也是各高等教育机构选拔优秀人才的关键指标。在此机制下,投档线成为各大高校招生录取的关键标准,自高考成绩公布之刻起便受到广泛关注。不论是对投档线的高估还是低估,均可能导致考生失去进入心仪高校的机会,从而对其未来的教育和职业发展产生重大影响。因此,如何准确预测投档线,成为考生在填报志愿过程中必须面临的一项重大挑战。
2、目前对高考投档线预测大多采用arima模型或lstm模型进行预测,其中arima模型通过平稳性检验分析,针对时间序列中的线性关系进行分析,并获得序列中的季节性关系;lstm模型通过引入门控机制,捕捉序列中的长期依赖关系完成时间序列的预测。然而,时间序列数据既包含线性关系又包含非线性关系,arima模型不能处理非线性关系,而lstm模型不擅长捕捉模型中的线性趋势和季节性成分。
3、然而,由于高考数据的复杂性和多样性,单独采用arima模型或lstm模型进行投档线的预测,其预测结果的精度和稳定性较差。
技术实现思路
1、针对现有技术存在单独采用arima模型或lstm模型进行投档线的预测,其预测结果的精度和稳定性较差的不足,本发明提出一种院校投档线预测方法、系统、设备及介质,利用了arima模型的线性预测优势,以优化lstm模型处理时间序列数据的能力,从而提高整体预测模型的精度和稳定性,从而解决了现有技术存在的问题。
2、一种院校投档线预测方法,包括以下步骤:
3、选取历年影响院校投档线的变量;所述变量包括以省控制线和高考总人数作为的自变量和以投档线位置值作为的因变量;
4、对所述自变量、因变量进行标准化处理,分别得到以时间为行、特征变量为列的自变量矩阵m和因变量列向量y;
5、将自变量矩阵m和因变量列向量y输入arima模型中,得到m的预测值m'和y的预测值y'、以及对t+1年投档线位置值的预测值y't+1;
6、根据m及其预测值m'、y及其预测值y'得到m的误差矩阵δm和y的误差向量δy,同时获得因变量列向量y的arima模型的自回归系数p;以δm的前t行数据所组成的矩阵δx为自变量、δy为因变量,构建lstm残差模型;
7、以所述自回归系数p作为lstm模型的时间步长,以δm的最后p行所组成的矩阵输入lstm残差模型中,得到t+1年投档线位置值的误差值δyt+1;
8、结合t+1年投档线位置值的预测值y't+1与误差值δyt+1,获得t+1年院校投档线的预测值。
9、进一步地,利用min-max标准化方法对所述自变量、因变量进行标准化处理,得到以行为时间、列为特征变量的自变量矩阵m和因变量列向量y,其分别表示为:
10、
11、y=(y1,y2,…,yt)t
12、其中,xt=(xt1,xt2,…,xtn)表示第t个年份的自变量特征数据,yt是和xt对应的因变量,表示第t个年份在该省的投档线位置值,t=(1,2,...,t+1),t表示时间。
13、进一步地,所述通过arima模型分别计算m的预测值m'和y的预测值y',其计算过程表示为:
14、
15、y'=(y'1,y'2,…,y'′t)t
16、其中,x't=(x't1,x't2,…,x'′tn)表示第t个年份自变量特征数据的arima预测值,y't是和x't对应的因变量的arima预测值,t=(1,2,...,t+1)。
17、进一步地,所述根据m'和y'分别计算m的误差矩阵δm和y的误差向量δy,其分别表示为:
18、
19、δy=(y1-y'1,y2-y'2,…,yt-y't)t
20、其中,δxtj=xtj-x'tj,t=(1,2,...,t+1),j=(1,2,...,n)。
21、进一步地,所述以δm的前t行数据所组成的矩阵δx为自变量,δy为因变量,构建lstm残差模型,其中所述矩阵δx表示为:
22、
23、则所述lstm残差模型表示为:
24、δyt=flstm (δxt,δxt-1,…,δxt-p+1)
25、其中,δxt=(δxt1,δxt2,…,δxtn)表示第t个年份自变量特征数据的真实值和预测值的误差,δyt是通过δx建立lstm模型得到的因变量的预测误差。
26、进一步地,所述以所述自回归系数p作为lstm模型的时间步长,以δm的最后p行所组成的矩阵输入lstm残差模型中,计算出t+1年投档线位置值的误差值δyt+1,其中,所述以δm的最后p行所组成的矩阵表示为:
27、
28、则得到所述t+1年的投档线位置值的误差值δyt+1为:δyt+1=flstm(xtest)。
29、进一步地,所述结合t+1年投档线位置值的预测值y't+1与误差值δyt+1,获得t+1年院校投档线的预测值,具体包括以下步骤:
30、将t+1年投档线位置值的预测值y't+1与误差值δyt+1相加得到第t+1年的最终投档线位置值预测值yt+1,其表示为yt+1=y't+1+δyt+1;
31、利用min-max标准化逆向运算对yt+1进行处理,得到对投档线位置值的估计值;
32、根据一分一段表,得到t+1年投档线位置值的对应的分数。
33、本发明还包括一种院校投档线预测系统,包括:
34、选取模块,用于选取历年影响院校投档线的变量;所述变量包括以省控制线和高考总人数作为的自变量和以投档线位置值作为的因变量;
35、标准化模块,用于对所述自变量、因变量进行标准化处理,分别得到以时间为行、特征变量为列的自变量矩阵m和因变量列向量y;
36、第一预测值计算模块,用于将自变量矩阵m和因变量列向量y输入ari ma模型中,得到m的预测值m'和y的预测值y'、以及对t+1年投档线位置值的预测值y't+1;
37、lstm残差模型构建模块,用于根据m及其预测值m'、y及其预测值y'得到m的误差矩阵δm和y的误差向量δy,同时获得因变量列向量y的ari ma模型的自回归系数p;以δm的前t行数据所组成的矩阵δx为自变量、δy为因变量,构建lstm残差模型;
38、误差值计算模块,用于以所述自回归系数p作为lstm模型的时间步长,以δm的最后p行所组成的矩阵输入lstm残差模型中,得到t+1年投档线位置值的误差值δyt+1;
39、第二预测值计算模块,用于结合t+1年投档线位置值的预测值y't+1与误差值δyt+1,获得t+1年院校投档线的预测值。
40、本发明还包括一种院校投档线预测计算机设备,包括:存储器、处理器以及存储在所述存储器内的计算机程序,所述处理器执行所述计算机程序时实现所述的院校投档线预测方法的步骤。
41、本发明还包括一种可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,用于执行所述的院校投档线预测方法的步骤。
42、本发明提供了一种院校投档线预测方法、系统、设备及介质,具备以下有益效果:
43、本发明通过将历年影响院校投档线的变量分为自变量和因变量,利用ari ma模型对线性时间序列的预测能力提取自变量和因变量时间序列的线性关系并进行预测,得到投档线位置的预测值,再根据lstm模型对投档线位置值的误差进行预测,结合arima模型对线性时间序列的预测能力和lstm模型对非线性时间序列的预测,从而完成对时间序列信息的完全提取,完成对高考投档线的最终预测,该组合模型与单独的arima模型和lstm模型相比,具有更高的预测精度。