本發明專利技術公開了一種互聯網消費貸反欺詐風險識別方法及系統,該方法包括:采集大量用戶與消費貸業務相關的運營商特有數據及金融數據;通過所述運營商特有數據及所述金融數據提取特征數據,生成建模樣本;利用所述建模樣本建立風險預測模型;獲取待識別用戶的借貸相關信息;將所述借貸相關信息輸入所述風險預測模型,計算所述待識別用戶的評分;根據所述評分確定所述待識別用戶是否存在騙取消費貸欺詐行為。利用本發明專利技術方案,可以更準確地評估互聯網消費貸反欺詐風險。網消費貸反欺詐風險。網消費貸反欺詐風險。
【技術實現步驟摘要】
互聯網消費貸反欺詐風險識別方法及系統
[0001]本專利技術涉及風險管理
,具體涉及一種互聯網消費貸反欺詐風險識別方法及系統。
技術介紹
[0002]隨著普惠金融的發展,金融機構與互聯網平臺合作強度不斷加深,通過互聯網平臺面向客戶提供消費貸款產品應運而生。在健全多層次金融市場的同時,也使得金融欺詐產業呈現指數級增加。對此,傳統監管手段已不足以應對日趨復雜的金融風險。欺詐風險管理已被銀行、金融機構和網絡電商平臺等經濟主體視為最重要的任務之一。風險管理過程的欺詐風險識別是經濟主體貸款批準決策的關鍵部分,如何防范和識別欺詐行為成為當前面臨的一個具有挑戰性的問題。
[0003]傳統的風險評估方法主要是利用多維度數據通過相關數據進行定性分析。然而,隨著金融服務的增長,這種模型已經難以反映風險變量之間的非線關系。雖然基于現代金融理論和新工具的現代方法,如欺詐檢測模型、欺詐度量模型等,這些模型通常基于外生參數來確定欺詐風險概率,取得了較大的成就,但由于大多數模型對其正態分布的假設很難真實反應風險的實際分布,一但發生欺詐行為將會對企業造成重大損失,影響風險評估的準確性。因此,隨著信息技術的發展,人工智能技術被引入到反欺詐風險評估中,如決策樹、XGBoost(eXtreme Gradient Boosting,極度梯度提升樹)、隨機森林和LightGBM(Light Gradient Boosting Machine,輕量級的梯度提升算法)等。并且由于其大規模并行、分步式存儲和處理、自組織和自學習能力,以及在處理非線性信息方面的優勢,已經成為反欺詐風險管理中有效的估計方法,其中LightGBM具有更快的訓練速度、更低的內存消耗、更好的準確率等優勢應用十分廣泛。
[0004]但現有技術難以適配復雜金融場景,特別是針對新興的互聯網消費貸業務適配度不高,泛化能力不強。同時,數據資源不充分,難以觀察用戶行為,使得風險策略評估效果較差。且就常見XGBoost算法應用而言,其存在預排序過程的空間復雜度高,以及難以應對大數據,導致內存消耗高等缺點。
技術實現思路
[0005]本專利技術提供一種互聯網消費貸風險反欺詐風險識別方法及系統,可以更準確地評估互聯網消費貸反欺詐風險。
[0006]為此,本專利技術提供如下技術方案:
[0007]一種互聯網消費貸反欺詐風險識別方法,所述方法包括:
[0008]采集大量用戶與消費貸業務相關的運營商特有數據及金融數據;
[0009]通過所述運營商特有數據及所述金融數據提取特征數據,生成建模樣本;
[0010]利用所述建模樣本建立風險預測模型;
[0011]獲取待識別用戶的借貸相關信息;
[0012]將所述借貸相關信息輸入所述風險預測模型,計算所述待識別用戶的評分;
[0013]根據所述評分確定所述待識別用戶是否存在騙取消費貸欺詐行為。
[0014]可選地,所述金融數據包括以下任意一項或多項:總資產級別、近12個月理財產品購買次數,個貸授信總額度、信用卡持卡最高等級、歷史貸款最長逾期天數、還款記錄;所述運營商特有數據包括以下任意一項或多項:用戶APP使用信息、位置信息、用戶網頁訪問信息、用戶關鍵詞搜索信息。
[0015]可選地,所述通過所述運營商特有數據及所述金融數據提取特征數據,生成建模樣本包括:
[0016]對所述運營商特有數據及所述金融數據進行探索性分析處理,得到處理后的數據;
[0017]對所述處理后的數據進行特征衍生,得到數據特征及衍生特征;
[0018]對所述數據特征及衍生特征進行編碼,得到編碼特征;
[0019]從所述數據特征、衍生特征和編碼特征中進行特征選擇,將選擇的特征作為入模變量,生成建模樣本。
[0020]可選地,對所述運營商特有數據及所述金融數據進行探索性分析處理包括以下任意一種或多種處理:
[0021]數據預處理;
[0022]對變量的分布進行可視化處理;
[0023]數值型特征數據轉換處理;
[0024]類別特征分析。
[0025]可選地,所述對所述處理后的數據進行特征衍生,得到數據特征及衍生特征包括以下任意一項或多項:
[0026]按月統計近半年用戶登陸借貸APP頻率變異系數;
[0027]匯總用戶近一、三、六個月登錄借貸APP的次數;
[0028]觀察近半年借貸APP使用個數增量;
[0029]計算各時段下用戶通話頻次;
[0030]確定用戶通話活躍時間分布情況;
[0031]確定用戶的網絡瀏覽情況、以及所述網絡的類型、瀏覽頻次和流量情況。
[0032]可選地,所述從所述衍生特征和編碼特征中進行特征選擇包括:采用以下任意一種方法從所述衍生特征和編碼特征中進行特征選擇:方差選擇法、相關系數法、卡方檢驗法、遞歸特征消除法、基于樹模型的特征選擇方法。
[0033]可選地,所述利用所述建模樣本建立風險預測模型包括:
[0034]利用所述建模樣本擬合LightGBM模型,并利用GridSearvhCV網格交叉驗證調參方法對所述LightGBM模型進行參數調整,得到最優模型參數;
[0035]將最優模型參數的LightGBM模型作為風險預測模型。
[0036]可選地,所述待識別用戶的借貸相關信息包括:所述待識別用戶登錄借貸APP的次數、時段、位置信息、網頁訪問信息、用戶關鍵詞搜索信息。
[0037]可選地,所述將所述借貸相關信息輸入所述風險預測模型,計算所述待識別用戶的評分包括:
[0038]計算所述待識別用戶的每個特征信息的得分;
[0039]將所有特征信息的得分相加,并加上基礎分,得到所述待識別用戶的評分。
[0040]一種互聯網消費貸反欺詐風險識別系統,所述系統包括:模型構建模塊、以及預測模塊;
[0041]所述模型構建模塊包括:
[0042]數據采集單元,用于采集大量用戶與消費貸業務相關的運營商特有數據及金融數據;
[0043]樣本生成單元,用于通過所述運營商特有數據及所述金融數據提取特征數據,生成建模樣本;
[0044]模型訓練單元,用于利用所述建模樣本建立風險預測模型;
[0045]所述預測模塊,用于獲取待識別用戶的借貸相關信息,將所述借貸相關信息輸入所述風險預測模型,計算所述待識別用戶的評分;根據所述評分確定所述待識別用戶是否存在騙取消費貸欺詐行為。
[0046]本專利技術提供的互聯網消費貸反欺詐風險識別方法及系統,借助于運營商特有的豐富“數據礦產”資源,數據中蘊藏著巨大的用戶行為等信息,這些信息對于企業而言都是強有效的信息資源,使得用戶畫像精細度有所提升。利用這些數據及用戶的金融數據,訓練基于LightGBM算法的風險預測模型,符合運營商大規模數據的處理場景,相較于其他算法來說具有更強的魯棒性,在新興的互聯網消費貸反欺詐方面的預測效果也更好。
附圖說明
本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.一種互聯網消費貸反欺詐風險識別方法,其特征在于,所述方法包括:采集大量用戶與消費貸業務相關的運營商特有數據及金融數據;通過所述運營商特有數據及所述金融數據提取特征數據,生成建模樣本;利用所述建模樣本建立風險預測模型;獲取待識別用戶的借貸相關信息;將所述借貸相關信息輸入所述風險預測模型,計算所述待識別用戶的評分;根據所述評分確定所述待識別用戶是否存在騙取消費貸欺詐行為。2.根據權利要求1所述的方法,其特征在于:所述金融數據包括以下任意一項或多項:總資產級別、近12個月理財產品購買次數,個貸授信總額度、信用卡持卡最高等級、歷史貸款最長逾期天數、還款記錄;所述運營商特有數據包括以下任意一項或多項:用戶APP使用信息、位置信息、用戶網頁訪問信息、用戶關鍵詞搜索信息。3.根據權利要求2所述的方法,其特征在于,所述通過所述運營商特有數據及所述金融數據提取特征數據,生成建模樣本包括:對所述運營商特有數據及所述金融數據進行探索性分析處理,得到處理后的數據;對所述處理后的數據進行特征衍生,得到數據特征及衍生特征;對所述數據特征及衍生特征進行編碼,得到編碼特征;從所述數據特征、衍生特征和編碼特征中進行特征選擇,將選擇的特征作為入模變量,生成建模樣本。4.根據權利要求3所述的方法,其特征在于,對所述運營商特有數據及所述金融數據進行探索性分析處理包括以下任意一種或多種處理:數據預處理;對變量的分布進行可視化處理;數值型特征數據轉換處理;類別特征分析。5.根據權利要求3所述的方法,其特征在于,所述對所述處理后的數據進行特征衍生,得到數據特征及衍生特征包括以下任意一項或多項:按月統計近半年用戶登陸借貸APP頻率變異系數;匯總用戶近一、三、六個月登錄借貸APP的次數;觀察近半年借貸APP使用個數增量;計算各時段下用戶通話頻次;確...
【專利技術屬性】
技術研發人員:呂敏,趙思雯,李佳馨,馬放,
申請(專利權)人:卓望信息技術北京有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。