一種基于Stacking算法的巖性識別預測方法技術

技術編號：41128135 閱讀：19 留言：0更新日期：2024-04-30 17:56

本發明專利技術公開了一種基于Stacking算法的巖性識別預測方法，涉及巖土工程數據處理技術領域，解決了復雜地質巖石巖性識別預測問題。方法包括以下步驟：1)獲取訓練用數據，包括隨鉆測量參數、地質報告，構建學習樣本；2)對數據進行異常值處理和歸一化處理，并劃分出訓練集與測試集；3)將處理后的訓練集放入Stacking算法建立的模型進行巖性識別的訓練；4)使用訓練好的模型對測試集的數據進行巖性預測；5)通過F1?Score評價訓練的模型性能，如未達到預期效果，調整Stacking中的超參數重新進行步驟3)、4)，直到獲得預期模型。與現有技術相比，基于Stacking算法構建的巖性識別模型對非線性關系的擬合更為出色，擁有良好的表達能力與泛化能力。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及巖土工程數據處理，尤其是一種基于stacking算法的巖性識別預測方法。

技術介紹

1、測定煤巷巖性是實現煤炭安全、高效、智能化開采的前提，巖性識別是根據鉆進過程中的鉆進參數，獲取巖土體結構特征參數，并反演地層結構信息的過程。但是目前的傳統識別方法，如鉆孔窺視法、鉆井取心鑒定等，工作成本高，耗時長，且獲取巖體信息數據有限。因此，利用機器學習算法分析鉆進數據，提高巖性識別的準確性，并降低巖性信息獲取成本，無疑對煤礦的安全生產具有重要的意義，也是對傳統地層巖性識別方法的補充。

2、應用機器學習算法進行巖性識別的本質是建立模型對已有隨鉆測量數據(推進力、扭矩、鉆進距離、時間等)和對應地質報告進行學習，建立隨鉆測量數據與巖性間的隱藏關系，最后實現對其他地層進行巖性識別。目前常用的機器學習算法有支持向量機、神經網絡、k-最近鄰、隨機森林、梯度提升決策樹等，這些方法在巖性識別的精度提升上有著顯著的表現。

3、以上均為單一巖性識別算法，實際上每種算法均存在一定的缺點和應用局限性，可以通過組合各算法來解決該問題。傳統的組合預測方法只是將各基礎算法的預測結果加以權重從而進行預測輸出，只是將結果進行線性組合的過程，沒有反饋學習和非線性表達的能力。

技術實現思路

1、本專利技術要解決的技術問題是提供一種具有自我學習和非線性組合能力，且對復雜地質巖石巖性具有較高預測精度的基于stacking算法的巖性識別預測方法。

2、為解決以上問題，本專利技術采用以下技術方案：

3、一種基于stacking算法的巖性識別預測方法，包括以下步驟：

4、s1、獲取訓練用數據，包括隨鉆測量參數(時間、位移、扭矩、馬達油壓差、推進油壓差、推進力)、地質報告；

5、s2、對s1中獲取的數據，進行異常值處理和歸一化處理，并劃分出訓練集與測試集；

6、s3、將s2中處理的訓練集放入stacking算法建立的模型進行巖性識別的訓練；

7、s4、使用s3中訓練的模型對測試集的數據進行巖性預測；

8、s5、通過f1-score評價訓練的模型性能，如未達到預期效果，調整stacking中的超參數重新進行步驟3)、4)，直到獲得預期模型。

9、進一步的是，所述s1中獲取的樣本數據集記為χ＝{{x1,y1},{x2,y2},···,{xi,yi}}，其中xi代表第i組特征向量。

10、進一步的是，所述s2中的異常值處理方法為：

11、s21)、從s1中的樣本數據集中隨機選擇ψ個點作為子樣本，放入一棵孤立樹的根節點；

12、s22)、隨機指定一個維度，在當前節點數據范圍內，隨機產生一個切割點α；

13、s23)、此切割點的選取生成了一個超平面，將當前節點數據空間切分為2個子空間：把當前所選維度下小于α的點放在當前節點的左分支，把大于等于α的點放在當前節點的右分支；

14、s24)、在節點的左分支和右分支節點遞歸步驟s22)、s23)，不斷構造新的葉子節點，直到葉子節點上只有一個數據；

15、s25)、對整個數據集共建立t個孤立樹，對數據集中的每個樣本點x進行評分，h(x)為樣本x在每棵孤立樹的高度，c(ψ)為給定樣本樹ψ時平均路徑長度。其中評分過高的樣本視為異常值，將從數據集中剔除。

16、進一步的是，所述s2中涉及的歸一化處理方法為：其中x為待處理樣本，x′為歸一化處理后的數據，為樣本的平均值，max(x)為樣本中最大值，min(x)為樣本中最小值。將經過異常值處理和歸一化處理后的數據劃分訓練集χ′與測試集χ″。

17、進一步的是，所述s3中stacking算法采用特征線性加權stacking，具體實施方法為：

18、s31)、設g1,g2,···,gl為l個機器學習模型的學習預測函數，f1,f2,···,fm為用于混合的m個元特征函數的集合，其中每個f將每個χ中的數據映射到相應的元特征。

19、s32)、由s31)中的假設可以得到特征線性加權stacking的融合預測函數b(x)為：其中，vml為學習權重，vml∈r。

20、s33)、學習權重的獲取按照以下方式：其中y(x)為樣本點x所對應的巖性，χ′為訓練樣本集。

21、s34)、訓練步驟s32)、s33)中的迭代回歸訓練的學習器選用支持向量機、bp-神經網絡、k-最近鄰，每種學習器建立兩個，分別使用不同的元特征函數，共使用6個基學習器進行stacking模型的建立。不同學習器使用的訓練集遵循6折交叉驗證原則，即將訓練集χ′隨機劃分為六個相同大小的子訓練集，每個學習器對應1個子訓練集作為驗證集，同時，每個學習器的訓練集為除去自身驗證集的其他五個子訓練集。進一步的是，所述s5中f1-score評價模型的方法為，計算測試集每種巖性預測的準確率其中tpi為第i種巖性分類正確的樣本數量，fpi為第i種巖性分類錯誤的樣本數量，計算測試集每種巖性預測的召回率其中fni為其他巖性錯誤預測為第i種巖性的樣本數量，評價模型的指標其中n為巖性的總數量。

22、本專利技術與現有技術相比，其有益效果體現在：集成常用于巖性識別且預測精度較高的機器學習算法作為基學習器，既彌補了單一算法在使用范圍上的不足，又提升了對影響巖性叛變的特征因素的提取能力；基于stacking算法的巖性識別模型對非線性關系的擬合更為出色，擁有良好的表達能力與泛化能力。

本文檔來自技高網...

【技術保護點】

1.一種基于Stacking算法的巖性識別預測方法，其特征在于，包括以下步驟：1)獲取訓練用數據，包括隨鉆測量參數(時間、位移、扭矩、馬達油壓差、推進油壓差、推進力)、地質報告，構建樣本數據集；2)對樣本數據集進行異常值處理，包括數據清洗和歸一化處理，并劃分出訓練集與測試集；3)將處理后的訓練集放入Stacking算法建立的模型進行巖性識別的訓練；4)使用訓練好的模型對測試集的數據進行巖性預測；5)通過F1-Score評價訓練的模型性能，如未達到預期效果，調整Stacking中的超參數重新進行步驟3)、4)，直到獲得預期模型。

2.根據權利要求1所述的一種基于Stacking算法的巖性識別預測方法，所述步驟1)特征在于，樣本數據集記為χ＝{{x1,y1},{x2,y2},···,{xi,yi}}，其中xi代表第i組特征向量，其中xi＝[xi1,xi1,···,xi6]T，xi1,xi2,···,xi6分別代表第i組特征向量的時間、位移、扭矩、馬達油壓差、推進油壓差、推進力。

3.根據權利要求1所述的一種基于Stacking算法的巖性識別預測方法，所述步驟2

4.根據權利要求1所述的一種基于Stacking算法的巖性識別預測方法，所述的步驟3)特征在于，包括以下步驟：31)、設g1,g2,···,gl為l個機器學習模型的學習預測函數，f1,f2,···,fm為用于混合的m個元特征函數的集合，其中每個f將每個χ中的數據映射到相應的元特征；32)、由步驟31)中的假設可以得到特征線性加權Stacking的融合預測函數b(x)為：其中，vml為學習權重，vml∈R；33)、學習權重的獲取按照以下方式：其中y(x)為樣本點x所對應的巖性，χ′為訓練樣本集；34)、訓練步驟32)、33)中的迭代回歸訓練的學習器選用支持向量機、BP-神經網絡、K-最近鄰，每種學習器建立兩個，分別使用不同的元特征函數，共使用6個基學習器進行Stacking模型的建立，不同每個學習器使用的訓練集遵循6折交叉驗證原則，即將訓練集χ′隨機劃分為六個相同大小的子訓練集，每個學習器對應1個子訓練集作為驗證集，同時，每個學習器的訓練集為除去自身驗證集的其他五個子訓練集。

5.根據權利要求1所述的一種基于Stacking算法的巖性識別預測方法，所述的步驟5)特征在于，F1-Score評價模型的方法為，計算測試集每種巖性預測的準確率其中TPi為第i種巖性分類正確的樣本數量，FPi為第i種巖性分類錯誤的樣本數量，計算測試集每種巖性預測的召回率其中FNi為其他巖性錯誤預測為第i種巖性的樣本數量，評價模型的指標其中n為巖性的總數量。

...

【技術特征摘要】

1.一種基于stacking算法的巖性識別預測方法，其特征在于，包括以下步驟：1)獲取訓練用數據，包括隨鉆測量參數(時間、位移、扭矩、馬達油壓差、推進油壓差、推進力)、地質報告，構建樣本數據集；2)對樣本數據集進行異常值處理，包括數據清洗和歸一化處理，并劃分出訓練集與測試集；3)將處理后的訓練集放入stacking算法建立的模型進行巖性識別的訓練；4)使用訓練好的模型對測試集的數據進行巖性預測；5)通過f1-score評價訓練的模型性能，如未達到預期效果，調整stacking中的超參數重新進行步驟3)、4)，直到獲得預期模型。

2.根據權利要求1所述的一種基于stacking算法的巖性識別預測方法，所述步驟1)特征在于，樣本數據集記為χ＝{{x1,y1},{x2,y2},···,{xi,yi}}，其中xi代表第i組特征向量，其中xi＝[xi1,xi1,···,xi6]t，xi1,xi2,···,xi6分別代表第i組特征向量的時間、位移、扭矩、馬達油壓差、推進油壓差、推進力。

3.根據權利要求1所述的一種基于stacking算法的巖性識別預測方法，所述步驟2)特征在于，對樣本數據集使用隔離森林方法進行數據清洗，清洗5％的異常值，將清洗后的數據集進行歸一化處理，所述的歸一化處理方法為：其中x為待處理樣本，x′為歸一化處理后的數據，x為樣本的平均值，max(x)為樣本中最大值，min(x)為樣本中最小值，將經過異常值處理和歸一化處理后的數據劃分訓練集χ...

【專利技術屬性】
技術研發人員：岳中文，薛克軍，閆逸飛，金慶雨，馬文彪，周星源，龍思晨，胡昊，薛力瑋，
申請(專利權)人：中國礦業大學北京，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術