The present invention discloses a method and a device for screening user characteristics. The method includes: extracting user feature sets the user feature set contains at least two user characteristics; for each user characteristics of the set of user characteristics in the dependent variable the user features, the user characteristics set the user characteristics of its user characteristics as independent variables, determine related factors for the user characteristics; the correlation factor of each user user features in the feature set and a preset threshold comparison, select the user characteristics according to the results of. The utility model solves the problem that the prior art can complete the screening of user characteristics only through manual intervention after the user's characteristics are extracted as much as possible, resulting in low screening efficiency of the user characteristics.
【技術實現步驟摘要】
一種篩選用戶特征的方法及裝置
本申請涉及機器學習
,尤其涉及一種篩選用戶特征的方法及裝置。
技術介紹
隨著互聯網的蓬勃發展,機器學習(MachineLearning,ML)技術作為一種新的技術,越來越受到人們的重視。機器學習技術通常用來分析和預測用戶的行為,在實際應用中可以通過建立各種數學模型來實現。在數學模型的建立過程中,通常需要在網絡中收集大量的用戶數據,然后對這些用戶數據進行分析和處理,從而提取用戶數據中能夠解釋用戶行為的用戶特征,并將這些用戶特征作為解釋變量來建立數學模型。然而,在對網絡中收集大量的用戶數據進行分析和處理,進而提取用戶特征時,由于事先很難知道所要分析的用戶行為會和哪些用戶特征有關,因此實際應用中通常會盡可能多的提取與所要分析的用戶行相關的用戶特征,由于用于獎勵模型的用戶特征增多,從而導致建立數學模型的時間較長,并且所建立的數學模型復雜。例如用于分析用戶信用的數學模型中,通常會采集用戶的收入信息和學歷信息,但是通常收入信息和學歷信息會用較強的依賴關系,如果將它們都作為解釋變量,將會使該數學模型參數的數量增多,模型的建立時間加長,并且還會對模型的性能有所影響。現有技術在盡可能多的提取與所要分析的用戶行相關的用戶特征之后,只能通過人工干預的方式來完成對用戶特征的篩選,從而導致用戶特征的篩選效率較低。
技術實現思路
本申請實施例提供一種篩選用戶特征的方法及裝置,用于解決現有技術篩選用戶特征效率低的問題。本專利技術實施例提供一種篩選用戶特征的方法,所述方法包括:提取用戶特征集合,所述用戶特征集合至少包含兩個用戶特征;針對所述用戶特征集合中的 ...
【技術保護點】
一種篩選用戶特征的方法,其特征在于,包括:提取用戶特征集合,所述用戶特征集合至少包含兩個用戶特征;針對所述用戶特征集合中的每一個用戶特征,以所述用戶特征為因變量,所述用戶特征集合中所述用戶特征之外的其它用戶特征為自變量,確定所述用戶特征的關聯因子;將用戶特征集合中每一個用戶特征的關聯因子分別和預設閾值對比,根據對比的結果對用戶特征進行篩選。
【技術特征摘要】
1.一種篩選用戶特征的方法,其特征在于,包括:提取用戶特征集合,所述用戶特征集合至少包含兩個用戶特征;針對所述用戶特征集合中的每一個用戶特征,以所述用戶特征為因變量,所述用戶特征集合中所述用戶特征之外的其它用戶特征為自變量,確定所述用戶特征的關聯因子;將用戶特征集合中每一個用戶特征的關聯因子分別和預設閾值對比,根據對比的結果對用戶特征進行篩選。2.如權利要求1所述的方法,其特征在于,所述將用戶特征集合中每一個用戶特征的關聯因子分別和預設閾值對比,根據對比的結果對用戶特征進行篩選具體包括:將用戶特征集合中每一個用戶特征的關聯因子分別和預設閾值對比,篩選出所述用戶特征集合中關聯因子大于預設閾值的用戶特征子集合。3.如權利要求2所述的方法,其特征在于,當篩選出的用戶特征子集合中至少包含兩個用戶特征時,所述方法還包括:通過用戶特征子集合中每一個用戶特征的標準差以及用戶特征子集合中用戶特征兩兩之間的協方差,確定用戶特征子集合中用戶特征兩兩之間的相關系數;將所確定的每一個相關系數取絕對值并分別與預設變量對比,當所述相關系數的絕對值大于所述預設變量時,將所述相關系數以及所述相關系數對應的兩個用戶特征構建為關聯組;通過所構建的各個關聯組,確定構建各個關聯組的用戶特征的特征相關分;根據所述特征相關分,篩選出至少一個用戶特征。4.如權利要求3所述的方法,其特征在于,當特征相關分越高表示相關關系越強時,所述根據所述特征相關分,篩選出至少一個用戶特征具體包括:提取最高特征相關分所對應的用戶特征,并將所述用戶特征構建篩選集合;根據特征相關分從高到低的順序,針對構建各個關聯組的每一個用戶特征依次執行如下操作:獲取所述用戶特征和所述篩選集合中的每一個用戶特征之間的相關系數;判斷所獲取的各相關系數的絕對值是否均小于第二閾值,若是,則...
【專利技術屬性】
技術研發人員:杜瑋,張柯,李文鵬,李屾,姜曉燕,王曉光,謝樹坤,俞吳杰,朱訓,
申請(專利權)人:阿里巴巴集團控股有限公司,
類型:發明
國別省市:開曼群島,KY
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。