• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當(dāng)前位置: 首頁 > 專利查詢>浙江工商大學(xué)專利>正文

    基于隨機(jī)森林的社交網(wǎng)絡(luò)用戶畫像方法技術(shù)

    技術(shù)編號:15691871 閱讀:63 留言:0更新日期:2017-06-24 05:25
    本發(fā)明專利技術(shù)提供了一種基于隨機(jī)森林的社交網(wǎng)絡(luò)用戶畫像方法,具體包括如下步驟:獲取在線社交網(wǎng)站的多源屬性數(shù)據(jù);將原始多源屬性的數(shù)據(jù)屬性集合進(jìn)行原始屬性標(biāo)號,調(diào)用相似度函數(shù)對不同屬性的數(shù)據(jù)屬性集合遍歷相似檢測;根據(jù)原始單層多源屬性的決策樹,將相似度滿足閾值范圍的數(shù)據(jù)屬性集合合并生成合并屬性標(biāo)簽后,采用隨機(jī)森林算法訓(xùn)練樣本;獲取投票眾數(shù),將獲得的投票眾數(shù)賦予權(quán)重,再按照權(quán)重的由大到小排序,獲取全部的標(biāo)簽權(quán)重值;保留預(yù)設(shè)閾值內(nèi)的標(biāo)簽,形成新的標(biāo)簽屬性集用于用戶社交網(wǎng)絡(luò)中屬性的畫像。本發(fā)明專利技術(shù)目的在于采用隨機(jī)森林模型,用于用戶的屬性標(biāo)簽劃分,有效改進(jìn)了傳統(tǒng)的基于小樣本抽樣劃分屬性的不足和復(fù)雜度的問題。

    A method of social network user portrait based on random forest

    The invention provides a social network user portrait method based on random forest, and includes the following steps: multi attribute data acquisition of online social networking sites; the data attribute attribute set to the original original multi - attribute label, called similarity function of different data attribute set of decision tree traversal similarity detection; according to the original single source the attribute, data attribute will meet the similarity threshold set combined to generate a combined properties after the label, the random forest algorithm; acquisition of voting mode, the voting mode according to the weight of the weight, from big to small order, get the weight value of all labels; keep within the preset threshold label, forming a tag a new attribute set for the attributes of the social network user portrait. The invention aims at adopting random forest model for user's attribute label division, effectively improving the traditional deficiency and complexity of attribute division based on small sample sampling.

    【技術(shù)實現(xiàn)步驟摘要】
    基于隨機(jī)森林的社交網(wǎng)絡(luò)用戶畫像方法
    本專利技術(shù)涉及在線社會網(wǎng)絡(luò)
    ,特別涉及一種基于隨機(jī)森林的社交網(wǎng)絡(luò)用戶畫像方法。
    技術(shù)介紹
    在線社會網(wǎng)絡(luò)的研究是近年來學(xué)術(shù)研究的重點領(lǐng)域,我國有著世界上規(guī)模最大的互聯(lián)網(wǎng)網(wǎng)民,因此,在互聯(lián)網(wǎng)的前期推廣階段和現(xiàn)階段的使用過程中產(chǎn)生了大量的數(shù)據(jù)。絕大多數(shù)的數(shù)據(jù)資源被閑置,不能很好的處理和商業(yè)化應(yīng)用,造成巨大的損失,同時也不利于社交網(wǎng)絡(luò)的進(jìn)一步發(fā)展,各大互聯(lián)網(wǎng)公司紛紛投入巨大的財力和人力對在線社會關(guān)系領(lǐng)域開展一系列研究,把互聯(lián)網(wǎng)的數(shù)據(jù)資源合理的開發(fā)和使用意義重大。
    技術(shù)實現(xiàn)思路
    本專利技術(shù)提供一種基于隨機(jī)森林的社交網(wǎng)絡(luò)用戶畫像方法,目的在于采用隨機(jī)森林模型,用于用戶的屬性標(biāo)簽劃分,有效改進(jìn)了傳統(tǒng)的基于小樣本抽樣劃分屬性的不足和復(fù)雜度的問題。為解決上述問題,本專利技術(shù)實施例提供一種基于隨機(jī)森林的社交網(wǎng)絡(luò)用戶畫像方法,具體包括如下步驟:獲取在線社交網(wǎng)站的多源屬性數(shù)據(jù);將原始多源屬性的數(shù)據(jù)屬性集合進(jìn)行原始屬性標(biāo)號,調(diào)用相似度函數(shù)對不同屬性的數(shù)據(jù)屬性集合遍歷相似檢測;根據(jù)原始單層多源屬性的決策樹,將相似度滿足閾值范圍的數(shù)據(jù)屬性集合合并生成合并屬性標(biāo)簽后,采用隨機(jī)森林算法訓(xùn)練樣本;獲取投票眾數(shù),將獲得的投票眾數(shù)賦予權(quán)重,再按照權(quán)重的由大到小排序,獲取全部的標(biāo)簽權(quán)重值;保留預(yù)設(shè)閾值內(nèi)的標(biāo)簽,形成新的標(biāo)簽屬性集用于用戶社交網(wǎng)絡(luò)中屬性的畫像。作為一種實施方式,還包括以下步驟:設(shè)定最低檢測終止閾值,當(dāng)相似度小于最低檢測終止閾值時,終止該集合的相似度檢測。作為一種實施方式,所述最低檢測終止閾值為0.15。作為一種實施方式,所述相似度函數(shù)為:其中,α為相似度調(diào)節(jié)參數(shù),α∈[0,1],ω(x)代表標(biāo)簽相似度較高的兩種屬性函數(shù)。作為一種實施方式,所述α取值為0.001。作為一種實施方式,所述保留預(yù)設(shè)閾值內(nèi)的標(biāo)簽,形成新的標(biāo)簽屬性集用于用戶社交網(wǎng)絡(luò)中屬性的畫像步驟,具體包括以下步驟:設(shè)定標(biāo)簽眾數(shù)閾值,當(dāng)隨機(jī)森林算法獲取的投票眾數(shù)小于標(biāo)簽眾數(shù)時,則認(rèn)為該標(biāo)簽不具代表性,舍棄該標(biāo)簽;將保留后的標(biāo)簽根據(jù)標(biāo)簽權(quán)重值由大到小排序,形成新的標(biāo)簽屬性集。作為一種實施方式,所述相似度閾值范圍為[0.9,1]。本專利技術(shù)相比于現(xiàn)有技術(shù)的有益效果在于:采用隨機(jī)森林模型,用于用戶的屬性標(biāo)簽劃分,有效改進(jìn)了傳統(tǒng)的基于小樣本抽樣劃分屬性的不足和復(fù)雜度的問題。附圖說明圖1為本專利技術(shù)的基于隨機(jī)森林的社交網(wǎng)絡(luò)用戶畫像方法的流程圖。具體實施方式以下結(jié)合附圖,對本專利技術(shù)上述的和另外的技術(shù)特征和優(yōu)點進(jìn)行清楚、完整地描述,顯然,所描述的實施例僅僅是本專利技術(shù)的部分實施例,而不是全部實施例。如圖所示,一種基于隨機(jī)森林的社交網(wǎng)絡(luò)用戶畫像方法,具體包括如下步驟:S100:獲取在線社交網(wǎng)站的多源屬性數(shù)據(jù),將其導(dǎo)入數(shù)據(jù)存儲系統(tǒng);S101:將原始多源屬性的數(shù)據(jù)屬性集合進(jìn)行原始屬性標(biāo)號,調(diào)用相似度函數(shù)對不同屬性的集合遍歷相似檢測,相似度函數(shù)為:其中,其中,α為相似度調(diào)節(jié)參數(shù),α∈[0,1],ω(x)代表標(biāo)簽相似度較高的兩種屬性函數(shù)。但是實際中α取值一般非常小,依賴于樣本的測試取值不斷修正,根據(jù)實驗結(jié)果表明當(dāng)α提高一個數(shù)量級時,選擇的特征非常少,而當(dāng)α降低一個數(shù)量級時獲取的數(shù)值幾乎不變,因此,本實施例中α使用0.001;S102:設(shè)定最低檢測終止閾值,當(dāng)相似度小于最低檢測終止閾值時,終止該集合的相似度檢測,其中,最低檢測終止閾值為0.15;S103:根據(jù)原始單層多源屬性的決策樹,將相似度滿足閾值范圍的集合合并生成合并屬性標(biāo)簽后,采用隨機(jī)森林算法訓(xùn)練樣本,相似度閾值范圍為[0.9,1];S104:獲取投票眾數(shù),將獲得的投票眾數(shù)賦予權(quán)重,再按照權(quán)重的由大到小排序,獲取全部的標(biāo)簽權(quán)重值;S105:保留預(yù)設(shè)閾值內(nèi)的標(biāo)簽,形成新的標(biāo)簽屬性集用于用戶社交網(wǎng)絡(luò)中屬性的畫像,具體實施方式為:設(shè)定標(biāo)簽眾數(shù)閾值,當(dāng)隨機(jī)森林算法獲取的投票眾數(shù)小于標(biāo)簽眾數(shù)閾值時,則認(rèn)為該標(biāo)簽不具代表性,舍棄該標(biāo)簽;將保留后的標(biāo)簽根據(jù)標(biāo)簽權(quán)重值由大到小排序,形成新的標(biāo)簽屬性集,新的標(biāo)簽屬性集用于社交網(wǎng)絡(luò)的用戶畫像。本專利技術(shù)相比于現(xiàn)有技術(shù)的有益效果在于:采用隨機(jī)森林模型,用于用戶的屬性標(biāo)簽劃分,有效改進(jìn)了傳統(tǒng)的基于小樣本抽樣劃分屬性的不足和復(fù)雜度的問題。以上所述的具體實施例,對本專利技術(shù)的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)一步的詳細(xì)說明,應(yīng)當(dāng)理解,以上所述僅為本專利技術(shù)的具體實施例而已,并不用于限定本專利技術(shù)的保護(hù)范圍。特別指出,對于本領(lǐng)域技術(shù)人員來說,凡在本專利技術(shù)的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本專利技術(shù)的保護(hù)范圍之內(nèi)。本文檔來自技高網(wǎng)...
    基于隨機(jī)森林的社交網(wǎng)絡(luò)用戶畫像方法

    【技術(shù)保護(hù)點】
    一種基于隨機(jī)森林的社交網(wǎng)絡(luò)用戶畫像方法,其特征在于,具體包括如下步驟:獲取在線社交網(wǎng)站的多源屬性數(shù)據(jù);將原始多源屬性的數(shù)據(jù)屬性集合進(jìn)行原始屬性標(biāo)號,調(diào)用相似度函數(shù)對不同屬性的數(shù)據(jù)屬性集合遍歷相似檢測;根據(jù)原始單層多源屬性的決策樹,將相似度滿足閾值范圍的數(shù)據(jù)屬性集合合并生成合并屬性標(biāo)簽后,采用隨機(jī)森林算法訓(xùn)練樣本;獲取投票眾數(shù),將獲得的投票眾數(shù)賦予權(quán)重,再按照權(quán)重的由大到小排序,獲取全部的標(biāo)簽權(quán)重值;保留預(yù)設(shè)閾值內(nèi)的標(biāo)簽,形成新的標(biāo)簽屬性集用于用戶社交網(wǎng)絡(luò)中屬性的畫像。

    【技術(shù)特征摘要】
    1.一種基于隨機(jī)森林的社交網(wǎng)絡(luò)用戶畫像方法,其特征在于,具體包括如下步驟:獲取在線社交網(wǎng)站的多源屬性數(shù)據(jù);將原始多源屬性的數(shù)據(jù)屬性集合進(jìn)行原始屬性標(biāo)號,調(diào)用相似度函數(shù)對不同屬性的數(shù)據(jù)屬性集合遍歷相似檢測;根據(jù)原始單層多源屬性的決策樹,將相似度滿足閾值范圍的數(shù)據(jù)屬性集合合并生成合并屬性標(biāo)簽后,采用隨機(jī)森林算法訓(xùn)練樣本;獲取投票眾數(shù),將獲得的投票眾數(shù)賦予權(quán)重,再按照權(quán)重的由大到小排序,獲取全部的標(biāo)簽權(quán)重值;保留預(yù)設(shè)閾值內(nèi)的標(biāo)簽,形成新的標(biāo)簽屬性集用于用戶社交網(wǎng)絡(luò)中屬性的畫像。2.根據(jù)權(quán)利要求1所述的基于隨機(jī)森林的社交網(wǎng)絡(luò)用戶畫像方法,其特征在于,還包括以下步驟:設(shè)定最低檢測終止閾值,當(dāng)相似度小于最低檢測終止閾值時,終止該集合的相似度檢測。3.根據(jù)權(quán)利要求2所述的基于隨機(jī)森林的社交網(wǎng)絡(luò)用戶畫像方法,其特征在于,所述最低檢...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:琚春華胡坤鮑福光
    申請(專利權(quán))人:浙江工商大學(xué)
    類型:發(fā)明
    國別省市:浙江,33

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲AV永久无码精品水牛影视| 国产精品xxxx国产喷水亚洲国产精品无码久久一区| 无码人妻精品丰满熟妇区| 91精品无码久久久久久五月天| 亚洲中文字幕无码久久2020| 久久久无码精品人妻一区| 亚洲精品高清无码视频| 无码少妇一区二区浪潮免费| 久久久久亚洲AV无码专区首| 亚洲AV无码国产一区二区三区 | 精品无码久久久久久久动漫| 国产av无码专区亚洲av桃花庵| 亚洲啪AV永久无码精品放毛片| 人妻AV中出无码内射| 色国产色无码色欧美色在线| 人妻系列无码专区无码中出| YY111111少妇无码理论片| 国产丰满乱子伦无码专| 亚洲人片在线观看天堂无码| 日木av无码专区亚洲av毛片| 中文字幕av无码专区第一页| 精品无码av无码专区| 无码人妻丰满熟妇区毛片18| 亚洲精品无码aⅴ中文字幕蜜桃| 久久亚洲精品无码| 亚洲AV无码精品色午夜果冻不卡| 无码欧精品亚洲日韩一区夜夜嗨| 亚洲一区AV无码少妇电影| 精品国产a∨无码一区二区三区| 无码视频一区二区三区在线观看| 国产精品无码日韩欧| 成人无码a级毛片免费| 国产精品亚洲аv无码播放| 精品人体无码一区二区三区 | 日韩免费无码一区二区三区 | 波多野结衣AV无码久久一区 | 18禁无遮挡无码网站免费| 亚洲熟妇无码AV不卡在线播放| 亚洲av无码一区二区三区观看| 人妻无码αv中文字幕久久| 久久精品中文字幕无码绿巨人|