一種自動學(xué)習(xí)索引方法及系統(tǒng),具體涉及一種根據(jù)計算機(jī)數(shù)據(jù)特征自動推薦最佳索引的方法及系統(tǒng),為了解決計算機(jī)的學(xué)習(xí)索引在建立時,需要人為定義學(xué)習(xí)索引的層數(shù)以及每個節(jié)點相應(yīng)的模型,導(dǎo)致索引建立的空間代價較大,建立過程難度較高,建立時間較長的問題,它包括構(gòu)建學(xué)習(xí)索引模型,學(xué)習(xí)索引模型包括回歸模型和隨機(jī)森林模型,利用計算機(jī)數(shù)據(jù)庫作為訓(xùn)練集對學(xué)習(xí)索引模型進(jìn)行訓(xùn)練,輸入訓(xùn)練數(shù)據(jù)的鍵key,輸出訓(xùn)練數(shù)據(jù)在計算機(jī)數(shù)據(jù)庫中的位置。屬于數(shù)據(jù)庫索引領(lǐng)域。于數(shù)據(jù)庫索引領(lǐng)域。于數(shù)據(jù)庫索引領(lǐng)域。
【技術(shù)實現(xiàn)步驟摘要】
一種自動學(xué)習(xí)索引方法及系統(tǒng)
[0001]本專利技術(shù)涉及一種學(xué)習(xí)索引方法及系統(tǒng),具體涉及一種根據(jù)計算機(jī)數(shù)據(jù)特征自動推薦最佳索引的方法及系統(tǒng),屬于數(shù)據(jù)庫索引領(lǐng)域。
技術(shù)介紹
[0002]現(xiàn)有計算機(jī)索引結(jié)構(gòu)的優(yōu)化大多是基于計算機(jī)數(shù)據(jù)最差的情況,并且是對讀寫相對均勻的計算機(jī)索引進(jìn)行優(yōu)化,所以對于一些特殊的情況,例如,某計算機(jī)數(shù)據(jù)集中的數(shù)據(jù)按照1
?
100M順序排列,由于數(shù)據(jù)key值本身就可以作為偏移量使用,此時采用常用的B
?
Tree索引進(jìn)行計算機(jī)數(shù)據(jù)查詢就不是最優(yōu)解,反而會因為B
?
Tree的構(gòu)建增加B
?
Tree索引的查詢時間復(fù)雜度和空間復(fù)雜度。B
?
Tree或B+Tree索引結(jié)構(gòu)使用簡單的條件判斷語句進(jìn)行遞歸地劃分空間,不考慮每條計算機(jī)數(shù)據(jù)和其索引鍵值間是否具有聯(lián)系,也沒有利用已知數(shù)據(jù)的分布特點,因此,它們具有次優(yōu)的空間代價和查詢性能,且在現(xiàn)實中并沒有一種已知的計算機(jī)數(shù)據(jù)模式分布可以遵循,就導(dǎo)致求出的實際計算機(jī)數(shù)據(jù)的分布模型的成本開銷太大,以及索引結(jié)構(gòu)推薦面向的計算機(jī)數(shù)據(jù)比較復(fù)雜,利用大規(guī)模的神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)參數(shù)較多,模型靈活性也不足。為了解決這些問題,現(xiàn)有技術(shù)采用強(qiáng)化學(xué)習(xí)方法,但此方法應(yīng)用于計算機(jī)數(shù)據(jù)查詢時需要人為定義好當(dāng)前計算機(jī)數(shù)據(jù)集和對應(yīng)工作負(fù)載下的可選索引配置集,以及每個索引的層數(shù)和每個節(jié)點相應(yīng)的模型,無法實現(xiàn)計算機(jī)查詢數(shù)據(jù)從零開始的索引推薦,增加了索引建立的時間復(fù)雜度和空間復(fù)雜度,導(dǎo)致索引建立時的空間代價較大,建立過程難度較高,建立時間較長。
技術(shù)實現(xiàn)思路
[0003]本專利技術(shù)為了解決現(xiàn)有計算機(jī)的學(xué)習(xí)索引在建立時,需要人為定義學(xué)習(xí)索引的層數(shù)以及每個節(jié)點相應(yīng)的模型,導(dǎo)致索引建立的空間代價較大,建立過程難度較高,建立時間較長的問題,進(jìn)而提出了一種自動學(xué)習(xí)索引方法及系統(tǒng)。
[0004]本專利技術(shù)采取的技術(shù)方案是:
[0005]它包括以下步驟:
[0006]S1、獲取計算機(jī)數(shù)據(jù)庫作為訓(xùn)練集;
[0007]S2、構(gòu)建學(xué)習(xí)索引模型,學(xué)習(xí)索引模型包括回歸模型和隨機(jī)森林模型,利用訓(xùn)練集對學(xué)習(xí)索引模型進(jìn)行訓(xùn)練,輸入訓(xùn)練數(shù)據(jù)的鍵key,輸出訓(xùn)練數(shù)據(jù)在計算機(jī)數(shù)據(jù)庫中的位置,得到訓(xùn)練好的學(xué)習(xí)索引模型;
[0008]S3、將待查詢的計算機(jī)數(shù)據(jù)輸入訓(xùn)練好的學(xué)習(xí)索引模型內(nèi),輸出計算機(jī)數(shù)據(jù)在計算機(jī)數(shù)據(jù)庫中的位置。
[0009]進(jìn)一步地,S2中回歸模型包括線性回歸模型,多項式回歸模型,彈性回歸模型,梯度提升樹,極限樹。
[0010]進(jìn)一步地,S2中構(gòu)建學(xué)習(xí)索引模型,學(xué)習(xí)索引模型包括回歸模型和隨機(jī)森林模型,利用訓(xùn)練集對學(xué)習(xí)索引模型進(jìn)行訓(xùn)練,輸入訓(xùn)練數(shù)據(jù)的鍵key,輸出訓(xùn)練數(shù)據(jù)在計算機(jī)數(shù)據(jù)
庫中的位置,得到訓(xùn)練好的學(xué)習(xí)索引模型,具體過程為:
[0011]將訓(xùn)練集中某個訓(xùn)練數(shù)據(jù)的鍵key分別輸入回歸模型的線性回歸模型,多項式回歸模型,彈性回歸模型,梯度提升樹,極限樹內(nèi)進(jìn)行訓(xùn)練,每個回歸模型均輸出某個訓(xùn)練數(shù)據(jù)鍵key在計算機(jī)數(shù)據(jù)庫中的位置,即得到訓(xùn)練數(shù)據(jù)在計算機(jī)數(shù)據(jù)庫中的位置;
[0012]訓(xùn)練完成后,記錄每個回歸模型的訓(xùn)練參數(shù),利用打分函數(shù)對每個回歸模型的輸出結(jié)果進(jìn)行打分,選取打分最高的多個回歸模型與某個訓(xùn)練數(shù)據(jù)建立關(guān)聯(lián),得到每個訓(xùn)練數(shù)據(jù)及其對應(yīng)的打分最高的多個回歸模型;
[0013]利用每個訓(xùn)練數(shù)據(jù)及其對應(yīng)的打分最高的多個回歸模型對隨機(jī)森林模型進(jìn)行訓(xùn)練,利用隨機(jī)森林模型優(yōu)化每個回歸模型的訓(xùn)練參數(shù),得到每個訓(xùn)練數(shù)據(jù)對應(yīng)的最佳回歸模型,利用最佳回歸模型查找對應(yīng)訓(xùn)練數(shù)據(jù)在計算機(jī)數(shù)據(jù)庫中的位置,得到訓(xùn)練好的學(xué)習(xí)索引模型。
[0014]進(jìn)一步地,S2中學(xué)習(xí)索引模型在訓(xùn)練過程中,記錄回歸模型索引錯誤的計算機(jī)數(shù)據(jù)位置E,比較計算機(jī)數(shù)據(jù)正確位置R和錯誤位置E的相對關(guān)系,根據(jù)正確位置R和錯誤位置E的相對關(guān)系采用搜索策略對回歸模型進(jìn)行糾錯。
[0015]進(jìn)一步地,S2中學(xué)習(xí)索引模型在訓(xùn)練過程中還包括:自定義索引出錯報警閾值,若索引出錯概率超出閾值,在索引錯誤位置的自定義區(qū)域內(nèi)以遍歷查找的方式,根據(jù)區(qū)域內(nèi)索引錯誤率最低的原則確定索引正確位置。
[0016]一種自動學(xué)習(xí)索引系統(tǒng),包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機(jī)程序,所述處理器執(zhí)行所述計算機(jī)程序時實現(xiàn)如一種自動學(xué)習(xí)索引方法任一步驟。
[0017]一種計算機(jī)可讀存儲介質(zhì),所述計算機(jī)可讀存儲介質(zhì)存儲有計算機(jī)程序,所述計算機(jī)程序被處理器執(zhí)行時實現(xiàn)如一種自動學(xué)習(xí)索引方法任一步驟。
[0018]有益效果:
[0019]本專利技術(shù)將學(xué)習(xí)索引看作是一種非層次模型結(jié)構(gòu),利用回歸模型和隨機(jī)森林模型構(gòu)建了學(xué)習(xí)索引模型,在進(jìn)行計算機(jī)數(shù)據(jù)查詢時,從計算機(jī)數(shù)據(jù)的分布角度出發(fā),回歸模型會根據(jù)計算機(jī)數(shù)據(jù)的特征推薦最佳的回歸模型,隨機(jī)森林模型對最佳的回歸模型進(jìn)行優(yōu)化與加強(qiáng),以回歸模型作為索引,從而輸出計算機(jī)數(shù)據(jù)在計算機(jī)數(shù)據(jù)庫中最準(zhǔn)確的存儲位置。
[0020]本專利技術(shù)實現(xiàn)了計算機(jī)數(shù)據(jù)從零開始的索引推薦,在計算機(jī)索引的建立過程中,無需人為定義學(xué)習(xí)索引的層數(shù)以及每個節(jié)點相應(yīng)的模型,根據(jù)學(xué)習(xí)索引的回歸模型能夠自動構(gòu)建多種索引,且在計算機(jī)數(shù)據(jù)查詢時能夠快速的得到最佳的索引推薦,降低了計算機(jī)索引的時間復(fù)雜度、空間復(fù)雜度、空間代價和建立難度,減少了計算機(jī)索引的建立時間,還提高了計算機(jī)數(shù)據(jù)的查詢性能、查詢時間和工作運行效率。本專利技術(shù)在維持運行時間穩(wěn)定的基礎(chǔ)上,在空間上比現(xiàn)有研究中的模型節(jié)約了大量的空間資源。這使得本專利技術(shù)和現(xiàn)有技術(shù)相比,具有更廣泛的適用性和更高的靈活性。
附圖說明
[0021]圖1是本專利技術(shù)的流程圖;
[0022]圖2是本專利技術(shù)的結(jié)構(gòu)圖;
具體實施方式
[0023]具體實施方式一:結(jié)合圖1
?
圖2說明本實施方式,本實施方式所述一種自動學(xué)習(xí)索引方法,它包括以下步驟:
[0024]S1、獲取計算機(jī)數(shù)據(jù)庫作為訓(xùn)練集;
[0025]S2、構(gòu)建學(xué)習(xí)索引模型,學(xué)習(xí)索引模型包括回歸模型和隨機(jī)森林模型,利用訓(xùn)練集對學(xué)習(xí)索引模型進(jìn)行訓(xùn)練,輸入訓(xùn)練數(shù)據(jù)的鍵key,輸出訓(xùn)練數(shù)據(jù)在計算機(jī)數(shù)據(jù)庫中的位置position,得到訓(xùn)練好的學(xué)習(xí)索引模型,具體過程為:
[0026]回歸模型包括線性回歸模型、多項式回歸模型、彈性回歸模型、梯度提升樹、極限樹等。
[0027]將訓(xùn)練集中某個訓(xùn)練數(shù)據(jù)的鍵key分別輸入回歸模型的線性回歸模型、多項式回歸模型、彈性回歸模型、梯度提升樹、極限樹內(nèi)進(jìn)行訓(xùn)練,每個回歸模型均輸出鍵key在計算機(jī)數(shù)據(jù)庫中的位置(鍵值),即得到訓(xùn)練數(shù)據(jù)在計算機(jī)數(shù)據(jù)庫中的位置position。回歸模型學(xué)習(xí)了計算機(jī)數(shù)據(jù)的分布規(guī)律,并有針對性的訓(xùn)練了若干個性能優(yōu)異、數(shù)據(jù)分布類型覆蓋面廣的回歸模型。
[0028]訓(xùn)練完成后,記錄每個回歸模型的訓(xùn)練參數(shù),利用打分函數(shù)對每個回歸模型的輸出結(jié)果進(jìn)行打分,選取打分最高的多個回歸模型與某個訓(xùn)練數(shù)據(jù)建立關(guān)聯(lián),得到每個訓(xùn)練數(shù)本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點】
【技術(shù)特征摘要】
1.一種自動學(xué)習(xí)索引方法,其特征在于:它包括以下步驟:S1、獲取計算機(jī)數(shù)據(jù)庫作為訓(xùn)練集;S2、構(gòu)建學(xué)習(xí)索引模型,學(xué)習(xí)索引模型包括回歸模型和隨機(jī)森林模型,利用訓(xùn)練集對學(xué)習(xí)索引模型進(jìn)行訓(xùn)練,輸入訓(xùn)練數(shù)據(jù)的鍵key,輸出訓(xùn)練數(shù)據(jù)在計算機(jī)數(shù)據(jù)庫中的位置,得到訓(xùn)練好的學(xué)習(xí)索引模型;S3、將待查詢的計算機(jī)數(shù)據(jù)輸入訓(xùn)練好的學(xué)習(xí)索引模型內(nèi),輸出計算機(jī)數(shù)據(jù)在計算機(jī)數(shù)據(jù)庫中的位置。2.根據(jù)權(quán)利要求1中所述的一種自動學(xué)習(xí)索引方法,其特征在于:S2中回歸模型包括線性回歸模型,多項式回歸模型,彈性回歸模型,梯度提升樹,極限樹。3.根據(jù)權(quán)利要求2中所述的一種自動學(xué)習(xí)索引方法,其特征在于:S2中構(gòu)建學(xué)習(xí)索引模型,學(xué)習(xí)索引模型包括回歸模型和隨機(jī)森林模型,利用訓(xùn)練集對學(xué)習(xí)索引模型進(jìn)行訓(xùn)練,輸入訓(xùn)練數(shù)據(jù)的鍵key,輸出訓(xùn)練數(shù)據(jù)在計算機(jī)數(shù)據(jù)庫中的位置,得到訓(xùn)練好的學(xué)習(xí)索引模型,具體過程為:將訓(xùn)練集中某個訓(xùn)練數(shù)據(jù)的鍵key分別輸入回歸模型的線性回歸模型,多項式回歸模型,彈性回歸模型,梯度提升樹,極限樹內(nèi)進(jìn)行訓(xùn)練,每個回歸模型均輸出某個訓(xùn)練數(shù)據(jù)鍵key在計算機(jī)數(shù)據(jù)庫中的位置,即得到訓(xùn)練數(shù)據(jù)在計算機(jī)數(shù)據(jù)庫中的位置;訓(xùn)練完成后,記錄每個回歸模型的訓(xùn)練參數(shù),利用打分函數(shù)對每個回歸模型的輸出結(jié)果進(jìn)行打分,選取打分最高的多個回歸模型與某個訓(xùn)練數(shù)據(jù)建立關(guān)聯(lián),得到每個訓(xùn)練數(shù)據(jù)及其對應(yīng)的...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:王宏志,朱銳,唐亞鋒,徐博,
申請(專利權(quán))人:哈爾濱工業(yè)大學(xué),
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。