本发明涉及智能成矿预测,尤其涉及一种基于地质大数据的智能成矿预测方法。
背景技术:
1、矿产资源作为人类社会生存和发展重要的物质基础,其开发利用状况与经济发展水平密切相关,其中尤其关键的是与国家安全有紧密联系的战略性矿产资源。目前我国经济发展方式将由高速增长向高质量发展转变,对矿产资源仍将保持相当大的需求,因此矿产资源的勘查与开发刻不容缓。然而,经过几十年大规模的地质调查及找矿勘查工作,地表大部分易发现矿床已被发现、开发并利用,因此,如何更高效地探寻隐伏矿便成为我国当前找矿工作的热点和难点。
2、阻碍矿产资源的定量预测评价可归结以下主客观因素:①可靠和普适性的成矿作用机理、因果关系、成矿动力学等理论模型缺乏;②受已有知识模型束缚较多、采样点随机、数据内容主观限定、样品空间狭小、精确数据少;③海量的多源多类异质异构数据难以一体化存储、管理和利用;④在多数情况下,只能凭借少量观测数据和定性模式进行分析、类比和预测。
3、随着地质探测技术的不断进步,所积累的数据越来越多,近几十年来的地质工作信息化发展,更使多源多类异质异构地质数据呈爆炸性的增长。在地质科学大数据面前,传统方法在数据分析和处理能力方面的不足凸显出来,多数地质数据没有得到及时和妥善处理,许多隐含信息未被识别、提取和利用。大数据的优势在于所容许的数据集合“不是随机样本,而是全体数据”,所注重的数据品质“不是精确性,而是混杂性”,所揭示的数据内涵“不是因果关系,而是关联关系”。以数据为驱动的人工智能技术,能够充分发挥大数据这三个优势,突破前述矿产资源定量预测的主、客观因素的限制,是目前成矿预测研究领域的国际前沿和热点。
4、陕西凤太铅锌-金矿集区地处秦岭造山带西段,是南秦岭著名的有色金属、贵金属矿集区。前人对矿集区金矿床开展了大量的地质、物探、化探、科研等方面工作,积累了丰富的数据资源,在找矿突破和成矿理论方面取得了一定进展,但未建立定量化的成矿预测模型,对找矿靶区预测研究不够深入。因此,本次研究选取了凤太矿集区西部地区作为试点,研发了基于地质大数据和人工智能的智能成矿预测技术,以期指导矿集区未来的金矿勘查工作。
技术实现思路
1、为此,本发明提供一种基于地质大数据的智能成矿预测方法,用以克服现有技术中对成矿预测精准度低的问题。
2、为实现上述目的,本发明提供一种基于地质大数据的智能成矿预测方法,包括:
3、步骤s1,找矿预测因子的选取
4、在对研究区开展地质调查和文献调研的基础上,归纳和总结了区域金找矿的三级预测因子,如表1所示,并以9类第三级因子作为机器学习的特征数据;
5、表1
6、
7、步骤s2,预测单元的划分
8、根据对已知矿床(点)的调研,统计得到各金矿床(点)之间最近的距离为170m,同时根据carranza et al.(2009)的理论,1:5万尺度下预测单元的最小尺度为75m×75m,因此,本研究将研究区按照100m×100m的标准进行了预测单元的划分,研究区面积共500.83km2,共划分出50083个预测单元;
9、步骤s3,预测因子的定量表征与数据融合
10、通过gis技术实现了对各预测因子的定量化表征,获得了研究区所有预测单元所对应的各类预测因子的数值型数据,并对数据进行融合以构建数据集;
11、步骤s4,样本集的构建
12、将存在金矿床(点)的预测单元作为正样本,以非金矿床(铅锌矿、铜矿等)所在预测单元作为负样本,正负样本共同组成了样本集,以此保证了建模数据的准确性和代表性,将70%的样本集随机划分为训练集,其余样本作为测试集;
13、步骤s5,机器学习预测模型的训练和调优
14、机器学习是人工智能最重要的分支,本次研究选取了机器学习中的随机森林rf、支持向量机svm、梯度提升决策树gbdt、朴素贝叶斯nb、逻辑回归lr五种算法进行建模,通过训练集样本对模型进行训练,使用随机搜索、网格搜索等方法对预测模型的超参数进行调优;
15、步骤s6,机器学习预测模型的定量评价和优选
16、以测试集样本对模型性能进行定量评价,评价的指标包括:准确率、精确率、召回率、f1值、auc值等;通过对以上五种预测模型的定量评估,选取了随机森林模型作为研究区金成矿的预测模型,其中,随机森林模型在训练集和测试集上的准确率都达到了95%以上,表明该模型具有优异的预测能力;
17、步骤s7,研究区成矿概率的计算
18、使用已训练好的随机森林模型,对研究区50083个预测单元的金成矿概率进行了计算,并通过gis技术对研究区成矿概率进行展示;
19、步骤s8,成矿靶区的圈定
20、由于矿产勘查工作具有资金投入大、勘探风险高的特点,为保证勘探工作的效率,有必要对成矿概率进行分级评价,依据rodriguez(2015)提出的“成功率曲线”方法,我们将研究区划分为了金成矿极高潜力区、高潜力区和一般潜力区,其中,极高潜力区和高潜力区可作为该区金矿勘查工作的靶区。
21、进一步地,在所述数据处理中心对成矿潜力值计算的过程中,针对一个待预测单元,通过该预测单元中各一级地质因子数量求得一个相对应的预测值,数据处理中心根据各一级地质因子求得的相对应的预测值计算单个待测区域的潜力值;所述数据处理中心将地质类因子数据量记为a,将地球化学类因子数据量记为b,将地球物理类因子数据量记为c,数据处理中心根据a求得一个预测值sa,根据b求得一个预测值sb,根据c求得一个预测值sc,数据处理中心通过积分制判定单个待测区域的潜力值,设定实际潜力值s=α×sa+β×sb+γ×sc,其中α为地质类因子的权重系数,β为地球化学类因子的权重系数,γ为地球物理类因子的权重系数。
22、进一步地,在所述数据处理中心计算单个待测区域的潜力值时,各一级地质因子对应的权重系数根据各一级地质因子的数据量进行选取;所述数据处理中心设有地质类因子数据量预设值a0、地球化学类因子数据量预设值b0以及地球物理类因子数据量预设值c0,
23、针对地质类因子
24、若a≤a0,对应的权重系数选取α0;
25、若a>a0,对应的权重系数选取α1,并根据对应的二级因子种类选取对应的权重调节系数调节α1;
26、针对地球化学类因子
27、若b≤b0,对应的权重系数选取β0;
28、若b>b0,对应的权重系数选取β1,并根据对应的三级因子种类选取对应的权重调节系数调节β1;
29、针对地球物理类因子
30、若c≤c0,对应的权重系数选取γ0;
31、若c>c0,对应的权重系数选取γ1。
32、进一步地,当地质类因子权重系数选取α1时,所述数据处理中心根据地质类因子对应的二级因子种类选取对应的权重调节系数调节权重值;所述数据处理中心将地层数据量记为a1、构造数据量记为a2、岩浆岩数据量记为a3,
33、当a1最大时,所述数据处理中心选用e1调节α1,调节后记为α1’,α1’=α1×e1;
34、当a2最大时,所述数据处理中心采集构造因子相对应的各三级因子数据量并根据三级因子中各种类因子的数据量计算调节系数e2并将α1调节至对应值,调节后记为α1’,α1’=α1×e2;
35、当a3最大时,所述数据处理中心选用e3调节α1,调节后记为α1’,α1’=α1×e3。
36、进一步地,当地质类因子对应的二级因子中构造数据量a2最大时,所述数据处理中心统计构造因子相对应的各三级因子的数据量,采用加权求和的方式确定e2;所述数据处理中心将nw向脆韧性断裂数据量记为a,将ne向脆性断裂数据量记为b,将断裂交汇部位数据量记为c,将背斜构造数据量记为d,数据处理中心根据各三级因子的数据量计算e2,设定e2=fa×a+fb×b+fc×c+fd×d,其中fa、fb、fc、fd分别为nw向脆韧性断裂因子、ne向脆性断裂因子、断裂交汇部位因子、背斜构造因子的权重系数。
37、进一步地,在所述数据处理中心根据各三级因子的数据量计算e2时,各三级因子的权重系数根据各三级因子的数据量进行选取;所述数据处理中心设有nw向脆韧性断裂因子数据量预设值a0、ne向脆性断裂因子数据量预设值b0、断裂交汇部位因子数据量预设值c0以及背斜构造因子数据量预设值d0,数据处理中心还设有nw向脆韧性断裂因子初始权重系数fa0、ne向脆性断裂因子初始权重系数fb0、断裂交汇部位因子初始权重系数fc0以及背斜构造因子初始权重系数fd0;
38、针对nw向脆韧性断裂因子
39、若a≤a0,所述数据处理中心选用初始权重系数fa0,
40、若a>a0,所述数据处理中心计算a与a0的差值△a并根据△a选取对应的权重系数,设定△a=a-a0;
41、针对ne向脆性断裂因子
42、若b≤b0,所述数据处理中心选用初始权重系数fb0,
43、若b>b0,所述数据处理中心计算b与b0的差值△b并根据△b选取对应的权重系数,设定△b=b-b0;
44、针对断裂交汇部位因子
45、若c≤c0,所述数据处理中心选用初始权重系数fc0,
46、若c>c0,所述数据处理中心计算c与c0的差值△c并根据△c选取对应的权重系数,设定△c=c-c0;
47、针对背斜构造因子
48、若d≤d0,所述数据处理中心选用初始权重系数fd0,
49、若d>d0,所述数据处理中心计算d与d0的差值△d并根据△d选取对应的权重系数,设定△d=d-d0。
50、进一步地,对于各三级因子,当其数据量大于预设值时,数据处理中心计算数据量与预设值的差值,并根据计算的差值所在的数据范围确定对应的权重系数,
51、针对nw向脆韧性断裂因子
52、所述数据处理中心设有第一预设数据量差值△a1,第二预设数据量差值△a2,其中,△a1≤△a2,
53、当△a≤△a1时,所述数据处理中心选用权重系数fa1;
54、当△a1<△a≤△a2时,所述数据处理中心选用权重系数fa2;
55、当△a>△a2时,所述数据处理中心选用权重系数fa3;
56、针对ne向脆性断裂因子
57、所述数据处理中心设有第一预设数据量差值△b1,第二预设数据量差值△b2,其中,△b1≤△b2,
58、当△b≤△b1时,所述数据处理中心选用权重系数fb1;
59、当△b1<△b≤△b2时,所述数据处理中心选用权重系数fb2;
60、当△b>△b2时,所述数据处理中心选用权重系数fb3;
61、针对断裂交汇部位因子
62、所述数据处理中心设有第一预设数据量差值△c1,第二预设数据量差值△c2,其中,△c1≤△c2,
63、当△c≤△c1时,所述数据处理中心选用权重系数fc1;
64、当△c1<△c≤△c2时,所述数据处理中心选用权重系数fc2;
65、当△c>△c2时,所述数据处理中心选用权重系数fc3;
66、针对背斜构造因子
67、所述数据处理中心设有第一预设数据量差值△d1,第二预设数据量差值△d2,其中,△d1≤△d2,
68、当△d≤△d1时,所述数据处理中心选用权重系数fd1;
69、当△d1<△d≤△d2时,所述数据处理中心选用权重系数fd2;
70、当△d>△d2时,所述数据处理中心选用权重系数fd3。
71、进一步地,当三级因子中有大于等于两项的因子数据量大于其对应的预设值时,所述数据处理中心选取对应的修正系数对求得的e2进行修正;
72、当三级因子中有两项因子的数据量大于其对应的预设值时,所述数据处理中心选取w1对e2进行修正,修正后的e2记为e2’,设定e2’=e2×w1;
73、当三级因子中有三项因子的数据量大于其对应的预设值时,所述数据处理中心选取w2对e2进行修正,修正后的e2记为e2’,设定e2’=e2×w2;
74、当三级因子中有四项因子的数据量大于其对应的预设值时,所述数据处理中心选取w3对e2进行修正,修正后的e2记为e2’,设定e2’=e2×w3。
75、进一步地,当地球化学类因子权重系数选取β1时,所述数据处理中心根据地质类因子对应的三级因子种类选取对应的权重调节系数调节权重值;所述数据处理中心将au元素地球化学数据记为b1,将r型因子分析所得的与au有关的因子f5数据量记为b2,
76、当b1最大时,所述数据处理中心选用的φ1调节β1,调节后记为β1’,β1’=β1×φ1;
77、当b2最大时,所述数据处理中心选用的φ2调节β1,调节后记为β1’,β1’=β1×φ2。
78、进一步地,当所述数据处理中心求得实际潜力值s时,数据处理中心根据实际潜力值s确定待测单元的潜力区域,数据处理中心设有第一预设潜力值s1、第二预设潜力值s2以及第三预设潜力值s3,其中,s1<s2<s3,
79、当s≤s1时,所述数据处理中心判定待测单元为一般潜力区;
80、当s1<s≤s2时,所述数据处理中心判定待测单元为高潜力区;
81、当s2<s≤s3,所述数据处理中心判定待测单元为极高潜力区;
82、当s>s3,所述数据处理中心判定待测单元为金矿区。
83、与现有技术相比,本发明的有益效果在于,
84、进一步地,智能成矿预测模型划分的极高、高、一般潜力区分别占研究区面积的:1.4%、4.7%、93.9%,其中,极高和高潜力区以6.1%的面积捕获了全区95.7%的已知金矿(点),表现出了优异的预测性能,从而有效提高了本发明所述基于地质大数据的智能成矿预测方法预测精准度。
85、进一步地,由智能成矿预测模型圈定的靶区可精细到100m×100m的尺度,避免了传统方法圈定的靶区面积过大的弊端,能够有效提高勘查工作的效率,降低勘探的风险,减少人力物力的投入。
86、进一步地,基于大数据与人工智能的成矿预测技术,不需要预先假设各类预测因子的数据分布特征,而是通过算法编程使计算机自主学习数据特征、自主开展数据挖掘、自主进行权重赋值、自主构建预测模型,避免了人为的干扰,因而具有客观化的优势。
87、进一步地,定量化主要体现在三个方面:一、对地质数据的定量化表征;二、对预测模型的性能定量化评价;三、对研究区所有地段的成矿概率给出定量化的预测。
88、进一步地,本次研究所研发的智能成矿预测技术不局限于对金矿的成矿预测,可推广至各类矿种的预测,同样也不仅局限于凤太矿集区,可推广至全省各个重要矿集区及成矿有利区段。