【技術(shù)實現(xiàn)步驟摘要】
畫像數(shù)據(jù)處理方法和畫像模型訓(xùn)練方法
本申請涉及計算機
,特別是涉及一種畫像數(shù)據(jù)處理方法和畫像模型訓(xùn)練方法。
技術(shù)介紹
隨著計算機技術(shù)的發(fā)展,人們越來越多地依賴互聯(lián)網(wǎng)來獲取各方面的信息,為了達到向用戶及時推薦各種有用信息又盡量避免推薦無用信息的目的,通常根據(jù)用戶的用戶畫像確定接受信息的目標(biāo)人群。用戶畫像的構(gòu)建可以通過訓(xùn)練好的畫像模型進行預(yù)測得到。傳統(tǒng)技術(shù)中,在訓(xùn)練畫像模型時,對于存在多領(lǐng)域用戶數(shù)據(jù)的場景,通常是分別對每個領(lǐng)域單獨提取對應(yīng)的用戶行為數(shù)據(jù),進行模型訓(xùn)練,得到每個領(lǐng)域?qū)?yīng)的用戶畫像模型。這種方式忽略了多領(lǐng)域之間的關(guān)聯(lián),導(dǎo)致訓(xùn)練得到的畫像模型生成的用戶畫像并不準(zhǔn)確。
技術(shù)實現(xiàn)思路
基于此,有必要針對
技術(shù)介紹
中引出的技術(shù)問題,提供一種畫像數(shù)據(jù)處理方法和畫像模型訓(xùn)練方法。一種畫像數(shù)據(jù)處理方法,包括:獲取目標(biāo)用戶對應(yīng)的歷史離散用戶特征集合;所述歷史離散用戶特征集合中包括至少一個非目標(biāo)特征域?qū)?yīng)的歷史離散用戶特征;獲取目標(biāo)特征域?qū)?yīng)的目標(biāo)畫像模型;所述目標(biāo)畫像模型是根據(jù)第一訓(xùn)練樣本對預(yù)訓(xùn)練畫像模型進行調(diào)整得到的;所述第一訓(xùn)練樣本包括第一訓(xùn)練離散用戶特征集合和所述目標(biāo)特征域的訓(xùn)練標(biāo)簽,所述第一訓(xùn)練離散用戶特征集合包括所述目標(biāo)特征域?qū)?yīng)的歷史離散用戶特征;所述預(yù)訓(xùn)練畫像模型是根據(jù)第二訓(xùn)練樣本對初始畫像模型進行訓(xùn)練得到的;所述第二訓(xùn)練樣本包括多個訓(xùn)練特征域?qū)?yīng)的第二訓(xùn)練離散用戶特征集合及訓(xùn)練標(biāo)簽集合;將所述歷史離散用戶特征集合輸入所述目標(biāo)畫像模 ...
【技術(shù)保護點】
1.一種畫像數(shù)據(jù)處理方法,包括:/n獲取目標(biāo)用戶對應(yīng)的歷史離散用戶特征集合;所述歷史離散用戶特征集合中包括至少一個非目標(biāo)特征域?qū)?yīng)的歷史離散用戶特征;/n獲取目標(biāo)特征域?qū)?yīng)的目標(biāo)畫像模型;/n所述目標(biāo)畫像模型是根據(jù)第一訓(xùn)練樣本對預(yù)訓(xùn)練畫像模型進行調(diào)整得到的;所述第一訓(xùn)練樣本包括第一訓(xùn)練離散用戶特征集合和所述目標(biāo)特征域的訓(xùn)練標(biāo)簽,所述第一訓(xùn)練離散用戶特征集合包括所述目標(biāo)特征域?qū)?yīng)的歷史離散用戶特征;/n所述預(yù)訓(xùn)練畫像模型是根據(jù)第二訓(xùn)練樣本對初始畫像模型進行訓(xùn)練得到的;所述第二訓(xùn)練樣本包括多個訓(xùn)練特征域?qū)?yīng)的第二訓(xùn)練離散用戶特征集合及訓(xùn)練標(biāo)簽集合;/n將所述歷史離散用戶特征集合輸入所述目標(biāo)畫像模型,得到所述目標(biāo)用戶對應(yīng)于所述目標(biāo)特征域的用戶畫像。/n
【技術(shù)特征摘要】
1.一種畫像數(shù)據(jù)處理方法,包括:
獲取目標(biāo)用戶對應(yīng)的歷史離散用戶特征集合;所述歷史離散用戶特征集合中包括至少一個非目標(biāo)特征域?qū)?yīng)的歷史離散用戶特征;
獲取目標(biāo)特征域?qū)?yīng)的目標(biāo)畫像模型;
所述目標(biāo)畫像模型是根據(jù)第一訓(xùn)練樣本對預(yù)訓(xùn)練畫像模型進行調(diào)整得到的;所述第一訓(xùn)練樣本包括第一訓(xùn)練離散用戶特征集合和所述目標(biāo)特征域的訓(xùn)練標(biāo)簽,所述第一訓(xùn)練離散用戶特征集合包括所述目標(biāo)特征域?qū)?yīng)的歷史離散用戶特征;
所述預(yù)訓(xùn)練畫像模型是根據(jù)第二訓(xùn)練樣本對初始畫像模型進行訓(xùn)練得到的;所述第二訓(xùn)練樣本包括多個訓(xùn)練特征域?qū)?yīng)的第二訓(xùn)練離散用戶特征集合及訓(xùn)練標(biāo)簽集合;
將所述歷史離散用戶特征集合輸入所述目標(biāo)畫像模型,得到所述目標(biāo)用戶對應(yīng)于所述目標(biāo)特征域的用戶畫像。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述第一訓(xùn)練樣本的確定步驟包括:
獲取第一時間段對應(yīng)的第一訓(xùn)練離散業(yè)務(wù)數(shù)據(jù)集合及第二時間段對應(yīng)于所述目標(biāo)特征域的第二訓(xùn)練離散業(yè)務(wù)數(shù)據(jù)集合;所述第二時間段為第一時間段之后的時間段;所述第一訓(xùn)練離散業(yè)務(wù)數(shù)據(jù)集合包括所述目標(biāo)特征域?qū)?yīng)的歷史離散業(yè)務(wù)數(shù)據(jù);
根據(jù)所述第一訓(xùn)練離散業(yè)務(wù)數(shù)據(jù)集合確定所述第一訓(xùn)練離散用戶特征集合;
根據(jù)所述第二訓(xùn)練離散業(yè)務(wù)數(shù)據(jù)集合確定所述目標(biāo)特征域的訓(xùn)練標(biāo)簽。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述預(yù)訓(xùn)練畫像模型的調(diào)整步驟包括:
獲取預(yù)設(shè)的第一保留概率及第二保留概率;
根據(jù)所述第一訓(xùn)練樣本對所述預(yù)訓(xùn)練畫像模型進行調(diào)整,并且以所述第一保留概率保留第一訓(xùn)練離散用戶特征集合中目標(biāo)特征域?qū)?yīng)的歷史離散用戶特征,以第二保留概率保留第一訓(xùn)練離散用戶特征集合中其他特征域?qū)?yīng)的歷史離散用戶特征。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述第二訓(xùn)練樣本的確定步驟包括:
分別獲取各訓(xùn)練特征域?qū)?yīng)的訓(xùn)練行為數(shù)據(jù)集合;
獲取各所述訓(xùn)練行為數(shù)據(jù)集合中各訓(xùn)練行為數(shù)據(jù)對應(yīng)的標(biāo)簽,得到各訓(xùn)練特征域?qū)?yīng)的第一標(biāo)簽集合;
根據(jù)各所述第一標(biāo)簽集合中各標(biāo)簽對應(yīng)的訓(xùn)練行為數(shù)據(jù)所對應(yīng)的行為次數(shù)及時間衰減系數(shù),確定各所述第一標(biāo)簽集合中各標(biāo)簽的權(quán)重;
根據(jù)各所述第一標(biāo)簽集合中各標(biāo)簽的權(quán)重確定所述第二訓(xùn)練樣本對應(yīng)的候選標(biāo)簽集合;
從所述候選標(biāo)簽集合中選取預(yù)設(shè)數(shù)量的候選標(biāo)簽作為所述第二訓(xùn)練樣本對應(yīng)的目標(biāo)訓(xùn)練標(biāo)簽,根據(jù)所述目標(biāo)訓(xùn)練標(biāo)簽得到所述第二訓(xùn)練樣本對應(yīng)的訓(xùn)練標(biāo)簽集合;
將所述候選標(biāo)簽集合中剩下的標(biāo)簽組成所述第二訓(xùn)練樣本對應(yīng)的第二訓(xùn)練離散用戶特征集合。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)所述目標(biāo)訓(xùn)練標(biāo)簽得到所述第二訓(xùn)練樣本對應(yīng)的訓(xùn)練標(biāo)簽集合包括:
將所述目標(biāo)訓(xùn)練標(biāo)簽確定為所述第二訓(xùn)練樣本對應(yīng)的正訓(xùn)練標(biāo)簽;
獲取負訓(xùn)練標(biāo)簽;所述負訓(xùn)練標(biāo)簽為第一訓(xùn)練標(biāo)簽和第二訓(xùn)練標(biāo)簽中的至少一種;所述第一訓(xùn)練標(biāo)簽為其他訓(xùn)練樣本對應(yīng)的正訓(xùn)練標(biāo)簽;所述第二訓(xùn)練標(biāo)簽為預(yù)設(shè)的標(biāo)簽詞典中的標(biāo)簽;
將所述正訓(xùn)練標(biāo)簽和負訓(xùn)練標(biāo)簽組成所述第二訓(xùn)練樣本對應(yīng)的訓(xùn)練標(biāo)簽集合。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將所述歷史離散用戶特征集合輸入所述目標(biāo)畫像模型,得到所述目標(biāo)用戶對應(yīng)于所述目標(biāo)特征域的用戶畫像包括:
將所述歷史離散用戶特征集合輸入所述目標(biāo)畫像模型的輸入層,通過所述輸入層向量化所述歷史離散用戶特征集合,得到各特征域?qū)?yīng)的離散特征向量;
通過所述目標(biāo)畫像模型的融合層融合各特征域?qū)?yīng)的離散特征向量,得到所述目標(biāo)用戶對應(yīng)的目標(biāo)特征向量;
通過所述目標(biāo)畫像模型從所述目標(biāo)特征域?qū)?yīng)的候選用戶標(biāo)簽集合中篩選出與所述目標(biāo)特征向量對應(yīng)的用戶標(biāo)簽,得到所述用戶畫像。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述融合層包括域內(nèi)融合層、域間融合層、特征交叉層和全連接層;所述通過所述目標(biāo)畫像模型的融合層融合各特征域?qū)?yīng)的離散特征向量,得到所述目標(biāo)用戶對應(yīng)的目標(biāo)特征向量包括:
通過所述域內(nèi)融合層融合各所述特征域?qū)?yīng)的離散特征向量得到各特征域?qū)?yīng)的域內(nèi)特征...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:閆肅,陳鑫,張旭,林樂宇,
申請(專利權(quán))人:騰訊科技深圳有限公司,
類型:發(fā)明
國別省市:廣東;44
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。