The invention provides a social network user portrait method based on random forest, and includes the following steps: multi attribute data acquisition of online social networking sites; the data attribute attribute set to the original original multi - attribute label, called similarity function of different data attribute set of decision tree traversal similarity detection; according to the original single source the attribute, data attribute will meet the similarity threshold set combined to generate a combined properties after the label, the random forest algorithm; acquisition of voting mode, the voting mode according to the weight of the weight, from big to small order, get the weight value of all labels; keep within the preset threshold label, forming a tag a new attribute set for the attributes of the social network user portrait. The invention aims at adopting random forest model for user's attribute label division, effectively improving the traditional deficiency and complexity of attribute division based on small sample sampling.
【技術(shù)實現(xiàn)步驟摘要】
基于隨機(jī)森林的社交網(wǎng)絡(luò)用戶畫像方法
本專利技術(shù)涉及在線社會網(wǎng)絡(luò)
,特別涉及一種基于隨機(jī)森林的社交網(wǎng)絡(luò)用戶畫像方法。
技術(shù)介紹
在線社會網(wǎng)絡(luò)的研究是近年來學(xué)術(shù)研究的重點領(lǐng)域,我國有著世界上規(guī)模最大的互聯(lián)網(wǎng)網(wǎng)民,因此,在互聯(lián)網(wǎng)的前期推廣階段和現(xiàn)階段的使用過程中產(chǎn)生了大量的數(shù)據(jù)。絕大多數(shù)的數(shù)據(jù)資源被閑置,不能很好的處理和商業(yè)化應(yīng)用,造成巨大的損失,同時也不利于社交網(wǎng)絡(luò)的進(jìn)一步發(fā)展,各大互聯(lián)網(wǎng)公司紛紛投入巨大的財力和人力對在線社會關(guān)系領(lǐng)域開展一系列研究,把互聯(lián)網(wǎng)的數(shù)據(jù)資源合理的開發(fā)和使用意義重大。
技術(shù)實現(xiàn)思路
本專利技術(shù)提供一種基于隨機(jī)森林的社交網(wǎng)絡(luò)用戶畫像方法,目的在于采用隨機(jī)森林模型,用于用戶的屬性標(biāo)簽劃分,有效改進(jìn)了傳統(tǒng)的基于小樣本抽樣劃分屬性的不足和復(fù)雜度的問題。為解決上述問題,本專利技術(shù)實施例提供一種基于隨機(jī)森林的社交網(wǎng)絡(luò)用戶畫像方法,具體包括如下步驟:獲取在線社交網(wǎng)站的多源屬性數(shù)據(jù);將原始多源屬性的數(shù)據(jù)屬性集合進(jìn)行原始屬性標(biāo)號,調(diào)用相似度函數(shù)對不同屬性的數(shù)據(jù)屬性集合遍歷相似檢測;根據(jù)原始單層多源屬性的決策樹,將相似度滿足閾值范圍的數(shù)據(jù)屬性集合合并生成合并屬性標(biāo)簽后,采用隨機(jī)森林算法訓(xùn)練樣本;獲取投票眾數(shù),將獲得的投票眾數(shù)賦予權(quán)重,再按照權(quán)重的由大到小排序,獲取全部的標(biāo)簽權(quán)重值;保留預(yù)設(shè)閾值內(nèi)的標(biāo)簽,形成新的標(biāo)簽屬性集用于用戶社交網(wǎng)絡(luò)中屬性的畫像。作為一種實施方式,還包括以下步驟:設(shè)定最低檢測終止閾值,當(dāng)相似度小于最低檢測終止閾值時,終止該集合的相似度檢測。作為一種實施方式,所述最低檢測終止閾值為0.15。作為一種實施方式,所述相似度函數(shù)為:其中,α ...
【技術(shù)保護(hù)點】
一種基于隨機(jī)森林的社交網(wǎng)絡(luò)用戶畫像方法,其特征在于,具體包括如下步驟:獲取在線社交網(wǎng)站的多源屬性數(shù)據(jù);將原始多源屬性的數(shù)據(jù)屬性集合進(jìn)行原始屬性標(biāo)號,調(diào)用相似度函數(shù)對不同屬性的數(shù)據(jù)屬性集合遍歷相似檢測;根據(jù)原始單層多源屬性的決策樹,將相似度滿足閾值范圍的數(shù)據(jù)屬性集合合并生成合并屬性標(biāo)簽后,采用隨機(jī)森林算法訓(xùn)練樣本;獲取投票眾數(shù),將獲得的投票眾數(shù)賦予權(quán)重,再按照權(quán)重的由大到小排序,獲取全部的標(biāo)簽權(quán)重值;保留預(yù)設(shè)閾值內(nèi)的標(biāo)簽,形成新的標(biāo)簽屬性集用于用戶社交網(wǎng)絡(luò)中屬性的畫像。
【技術(shù)特征摘要】
1.一種基于隨機(jī)森林的社交網(wǎng)絡(luò)用戶畫像方法,其特征在于,具體包括如下步驟:獲取在線社交網(wǎng)站的多源屬性數(shù)據(jù);將原始多源屬性的數(shù)據(jù)屬性集合進(jìn)行原始屬性標(biāo)號,調(diào)用相似度函數(shù)對不同屬性的數(shù)據(jù)屬性集合遍歷相似檢測;根據(jù)原始單層多源屬性的決策樹,將相似度滿足閾值范圍的數(shù)據(jù)屬性集合合并生成合并屬性標(biāo)簽后,采用隨機(jī)森林算法訓(xùn)練樣本;獲取投票眾數(shù),將獲得的投票眾數(shù)賦予權(quán)重,再按照權(quán)重的由大到小排序,獲取全部的標(biāo)簽權(quán)重值;保留預(yù)設(shè)閾值內(nèi)的標(biāo)簽,形成新的標(biāo)簽屬性集用于用戶社交網(wǎng)絡(luò)中屬性的畫像。2.根據(jù)權(quán)利要求1所述的基于隨機(jī)森林的社交網(wǎng)絡(luò)用戶畫像方法,其特征在于,還包括以下步驟:設(shè)定最低檢測終止閾值,當(dāng)相似度小于最低檢測終止閾值時,終止該集合的相似度檢測。3.根據(jù)權(quán)利要求2所述的基于隨機(jī)森林的社交網(wǎng)絡(luò)用戶畫像方法,其特征在于,所述最低檢...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:琚春華,胡坤,鮑福光,
申請(專利權(quán))人:浙江工商大學(xué),
類型:發(fā)明
國別省市:浙江,33
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。