The invention relates to a method and device modeling method based on data mining, the modeling method based on data mining in alternative indicators include: received to be screened, the alternative indicators are divided into K index group; calculate each alternative indicators of each index in group D1 and group D2, the distance between the distance and according to the group within the distance D1 and the distance between groups D2 and based on the screening evaluation calculation rules to calculate the predetermined optional index value corresponding to the A; according to the screening evaluation value A alternative indicators, the K value and establish the index model using alternative indicators based on the selected. The invention can accurately select the weakest index of correlation and improve the modeling efficiency.
【技術實現步驟摘要】
基于數據挖掘的建模方法及裝置
本專利技術涉及數據挖掘
,尤其涉及一種基于數據挖掘的建模方法及裝置。
技術介紹
目前,在與數據挖掘相關的建模中,通常收集到的備選建模指標數量較多,有時多達200個以上,但通常對建模有效的一般只有一部分,例如在200個備選建模指標中可能只有30個是有效的。為了從大量的備選建模指標中篩選出建模所需的有效指標,現有的方法是人工手動選出高相關度的指標進行建模,這種人工選擇的方法由于帶有主觀性,因此不能準確地選出建模的有效指標,且建模的效率低。
技術實現思路
本專利技術的目的在于提供一種基于數據挖掘的建模方法及裝置,旨在準確地選出相關性最弱的備選指標,提高建模效率。為實現上述目的,本專利技術提供一種基于數據挖掘的建模方法,所述基于數據挖掘的建模方法包括:S1,在收到待篩選的備選指標后,將所述備選指標均分成K個指標群;S2,計算各指標群中每一備選指標的群內距離D1和群間距離D2,根據所述群內距離D1和群間距離D2并基于預定的計算規則計算各備選指標對應的篩選評價值A;S3,根據所述篩選評價值A選擇備選指標,基于所述K值并利用所選擇的備選指標建立指標模型。優選地,所述步驟S2包括:S21,計算每一指標群下的備選指標的均值,根據所述均值獲取群中心集合,根據所述群中心集合計算每一備選指標與所述群中心集合的距離,以計算得到的距離作為所述群內距離D1;S22,計算每一備選指標所在的指標群與其他各指標群的中心距離,從所述中心距離中獲取距離最小的對應的指標群,根據所獲取的指標群計算所述群間距離D2;S23,計算所述篩選評價值A:A=(1-D1)/(1- ...
【技術保護點】
一種基于數據挖掘的建模方法,其特征在于,所述基于數據挖掘的建模方法包括:S1,在收到待篩選的備選指標后,將所述備選指標均分成K個指標群;S2,計算各指標群中每一備選指標的群內距離D1和群間距離D2,根據所述群內距離D1和群間距離D2并基于預定的計算規則計算各備選指標對應的篩選評價值A;S3,根據所述篩選評價值A選擇備選指標,基于所述K值并利用所選擇的備選指標建立指標模型。
【技術特征摘要】
1.一種基于數據挖掘的建模方法,其特征在于,所述基于數據挖掘的建模方法包括:S1,在收到待篩選的備選指標后,將所述備選指標均分成K個指標群;S2,計算各指標群中每一備選指標的群內距離D1和群間距離D2,根據所述群內距離D1和群間距離D2并基于預定的計算規則計算各備選指標對應的篩選評價值A;S3,根據所述篩選評價值A選擇備選指標,基于所述K值并利用所選擇的備選指標建立指標模型。2.根據權利要求1所述的基于數據挖掘的建模方法,其特征在于,所述步驟S2包括:S21,計算每一指標群下的備選指標的均值,根據所述均值獲取群中心集合,根據所述群中心集合計算每一備選指標與所述群中心集合的距離,以計算得到的距離作為所述群內距離D1;S22,計算每一備選指標所在的指標群與其他各指標群的中心距離,從所述中心距離中獲取距離最小的對應的指標群,根據所獲取的指標群計算所述群間距離D2;S23,計算所述篩選評價值A:A=(1-D1)/(1-D2)。3.根據權利要求2所述的基于數據挖掘的建模方法,其特征在于,所述步驟S3包括:S31,在每一指標群中,選出最大篩選評價值對應的至少一個備選指標和最小篩選評價值對應的至少一個備選指標;S32,若所述K值大于等于預設閾值時,則利用各指標群挑選出的備選指標建立預定的一指標模型;S33,若所述K值小于預設閾值時,則增大所述K值,重新計算篩選評價值并執行步驟S31,以利用各指標群選出的備選指標建立預定的另一指標模型。4.根據權利要求1至3任一項所述的基于數據挖掘的建模方法,其特征在于,所述步驟S3之后還包括:S4,利用預定的驗證數據樣本對所建立的指標模型進行驗證,將驗證后準確率最高的指標模型作為基準模型進行應用。5.根據權利要求4所述的基于數據挖掘的建模方法,其特征在于,所述步驟S4包括:若準確率最高的指標模型的數量為1,則將該準確率最高的指標模型作為基準模型進行應用;若準確率最高的指標模型的數量大于1,則隨機選擇一準確率最高的指標模型作為基準模型進行應用,或者,增加驗證數據樣本的數量,直至準確率最高的指標模型的數量為1,并將該準確率最高的指標模型作為基準模型進行應用。6.一種基于數據挖掘的建模裝置,其特征在于,所述基...
【專利技術屬性】
技術研發人員:陳依云,
申請(專利權)人:平安科技深圳有限公司,
類型:發明
國別省市:廣東,44
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。