• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種相關文章的推薦處理方法和處理系統技術方案

    技術編號:8593944 閱讀:176 留言:0更新日期:2013-04-18 07:06
    本發明專利技術公開了一種相關文章的推薦處理方法和系統。所述方法包括:A、根據給定文章的內容特征檢索出候選相關文章;B、根據給定用戶特征和每篇候選相關文章的用戶特征,確定每篇候選相關文章的用戶相關性;C、針對所述給定文章,優先推薦所述相關性高的候選相關文章。所述系統包括:特征檢索模塊,用于根據給定文章的內容特征檢索出候選相關文章;相關性確定模塊,用于根據所述每篇候選相關文章的內容特征和用戶特征,確定所述每篇候選相關文章的相關性;推薦控制模塊,用于針對所述給定文章,優先推薦所述相關性高的候選相關文章。利用本發明專利技術,可以提高相關文章推薦結果的準確度,減少用戶為尋找目標文章而導致的人機交互次數,降低對機器側資源的占用。

    【技術實現步驟摘要】

    本專利技術涉及互聯網信息處理技術,尤其涉及一種在互聯網中相關文章的推薦處理方法和處理系統
    技術介紹
    目前,隨著互聯網技術的發展,網絡逐漸成為人們獲取信息的重要來源,特別是在互聯網進入Web2. O時代后,用戶既是網站內容的瀏覽者,也是網站內容的制造者。用戶參與創造的內容被稱為用戶生成內容(UGC,User Generated Content),在Web2. O時代,由于UGC的大量涌現,網絡信息量呈幾何級快速增長。為了將信息迅速、有針對性地提供給感興趣的用戶,各種網站系統、互聯網社區系統等都在用戶閱讀給定文章時,向用戶推薦相關文章,以減少用戶查找文章造成的人機交互次數,方便用戶找到目標文章。目前互聯網系統中相關文章的推薦處理技術主要有以下三種(I)人工整理的方式,即通過編輯人員閱讀大量文章,人為確定將某些相關的文章確定有針對某一文章的推薦文章。這種推薦處理方式的缺點是人工成本太高,效率低下,難以處理每天大量的UGC內容。(2)固定推薦方式,即在一個網站系統或社區系統中預先選定一批推薦文章(比如每天點擊率高的、置頂的、質量好的文章等),針對給定文章(例如用戶當前閱讀的文章),從所述推薦文章中隨機選擇一部分推薦給該網站系統或社區系統的所有讀者。這種推薦處理方式的缺點是所有給定文章的推薦文章都是相同的,不能針對每篇給定文章推薦出相關的而且不同的內容,難以滿足用戶的個性化信息的獲取需求,不方便用戶從推薦結果中找到與給定文章相關性較高的目標文章。(3)動態推薦方式,即通過當前給定文章的關鍵詞或者核心詞,從待推薦文章數據庫檢索出相關文章,然后推薦給所述給定文章的讀者,還可以根據文章發表時間、點擊次數等調整推薦結果。這種推薦處理方式缺點是只是通過當前給定文章的核心詞匹配檢索相關文章,沒有考慮相關文章的用戶特征以及該用戶特征與給定用戶(例如所述給定文章的讀者或作者)的用戶相關性,導致不同的讀者在同一時間得到的推薦結果沒有區別,不能滿足不同讀者的個性化需求,不方便用戶從推薦結果中找到與給定文章和給定用戶相關性較高的目標文章。總之,現有的推薦相關文章的技術方案在面對當前互聯網海量信息時,推薦結果的準確度不高,不方便用戶從推薦結果中找到與給定文章(如當前閱讀的文章)和給定用戶(如給定文章的讀者或作者)相關性較高的目標文章,用戶為了查找與給定文章和給定用戶相關性較高的目標文章,往往需要點擊查看更多的頁面進行人工搜索和查找,導致用戶與互聯網機器側的人機交互次數增多,而每一次人機交互操作都會發出操作請求信息、觸發計算過程并產生響應結果信息,從而會占用機器側的大量資源,包括客戶端資源、服務器資源、網絡帶寬資源等等。
    技術實現思路
    有鑒于此,本專利技術提供一種相關文章的推薦處理方法和處理系統,以提高相關文章推薦結果的準確度。本專利技術的技術方案是這樣實現的一種相關文章的推薦處理方法,包括A、根據給定文章的內容特征檢索出候選相關文章;B、根據每篇候選相關文章的用戶特征,確定每篇候選相關文章的用戶相關性;C、針對所述給定文章,優先推薦所述相關性高的候選相關文章。—種相關文章的推薦處理系統,包括特征檢索模塊,用于根據給定文章的內容特征檢索出候選相關文章;相關性確定模塊,用于根據所述每篇候選相關文章的用戶特征,確定所述每篇候選相關文章的用戶相關性;推薦控制模塊,用于針對所述給定文章,優先推薦所述相關性高的候選相關文章。與現有技術相比,本專利技術綜合考慮了文章內容特征和用戶特征,不但利用給定文章的內容特征檢索相關文章,而且根據用戶特征確定相關文章的用戶相關性,優先推薦相關性高的候選相關文章,從而提高了相關文章推薦結果的準確度,方便用戶從海量的互聯網文章信息中找到與給定文章和給定用戶相關性較高的目標文章。例如針對用戶當前閱讀的文章,其推薦的相關文章不但與該當前文章的內容相關,而且與當前用戶(即讀者)相關,從而具有較好的推薦效果。因此本專利技術能夠滿足互聯網用戶的個性化閱讀需求,減少用戶為尋找目標文章而導致的人機交互次數,降低對機器側資源的占用。隨著網絡社區化程度越來越高,在大量UGC內容里面,重復、近似的信息很多,對不同用戶來說,更加傾向于關注來源于與自己存在密切社會關系的UGC信息,利用本專利技術可以根據相關文章的用戶特征確定與給定用戶之間相關性,從而可以使用戶可以方便地獲取到與自己相關性高的UGC信息。附圖說明圖1為本專利技術所述相關文章的推薦處理方法的一種流程圖;圖2為本專利技術所述相關文章的推薦處理系統的一種實施例示意圖;圖3為本專利技術所述相關文章的推薦處理系統的又一種實施例示意圖;圖4為本專利技術所述相關文章的推薦處理系統的再一種實施例示意圖;圖5為本專利技術所述相關文章的推薦處理系統的再一種實施例示意圖;圖6為本專利技術所述相關文章的推薦處理系統的再一種實施例示意圖。具體實施例方式下面結合附圖及具體實施例對本專利技術再作進一步詳細的說明。圖1為本專利技術所述相關文章的推薦處理方法的一種流程圖。參見圖1,該流程包括步驟101、根據給定文章的內容特征檢索出候選相關文章。步驟102、根據每篇候選相關文章的用戶特征,確定每篇候選相關文章的用戶相關性。步驟103、針對所述給定文章,優先推薦所述相關性分數高的候選相關文章。本專利技術中,所述相關性可以用相關性分數來表示,也可以用其他值來表示,例如用等級值表示。本文實施例中所述用戶相關性以用戶相關性分數表示,所述內容相關性以內容相關性分數表示。上述步驟101和102可以從已經存在的文章數據庫和用戶數據庫中檢索需要的候選相關文章的數據以及獲取需要的用戶特征數據。也可以自建和維護專用的文章數據庫和用戶數據庫,從該專用的文章數據庫中檢索候選相關文章的數據,從該專用的用戶數據庫中獲取需要的用戶特征數據。所述建立和維護文章數據庫的具體過程包括步驟al、建立文章數據庫。步驟a2、從互聯網中篩選出待推薦的文章,將待推薦文章的特征數據存儲到所述文章數據庫中。本步驟a2的具體實時中,可以從本網站系統甚至其他相關網站系統的所有文章中進行質量篩選,過濾掉質量較低的文章。之所以要進行篩選過濾處理,是因為UGC文章相對新聞文章具有很多特點例如數量多、用語規范程度相對較差、相互轉載重復信息多、作弊和垃圾信息很多等。因此如果用UGC作為推薦文章,則需要對其進行有效過濾,選取質量高的文章。所述具體的文章篩選過濾方法例如可以包括(a21)根據文章標題可讀性進行判別和篩選,即對文章標題的格式、語言規范化程度、語義信息量等進行打分,根據打分高低對文章進行篩選。(a22)根據文章內容可讀性進行判別和篩選,即對文章內容的格式、語言規范化程度、語義信息量等進行打分,根據打分高低對文章進行篩選。(a23)對作弊垃圾類文章進行篩選,即篩選去掉包含廣告推廣、政治色情類等內容的文章。篩選出待推薦的文章后,將待推薦文章的特征數據存儲到所述文章數據庫中。所述文章特征數據包括文章質量分數、文章作者、文章類別、文章詞向量空間、文章主題詞等。本專利技術可以根據實際應用需要,設計多種數據存儲格式,比如以文章類別建立索引、文章主題詞建立文章索引,按文章ID建立數據索引等。另外,索引文章的排列次序可以按照文章的質量分數排序,這樣可以在保證質量的前提下提高查詢速度。步驟a3、根據互聯網中文章數據的變化,更新和排重本文檔來自技高網
    ...

    【技術保護點】
    一種相關文章的推薦處理方法,其特征在于,包括:A、根據給定文章的內容特征檢索出候選相關文章;B、根據每篇候選相關文章的用戶特征,確定每篇候選相關文章的用戶相關性;C、針對所述給定文章,優先推薦所述相關性高的候選相關文章。

    【技術特征摘要】
    1.一種相關文章的推薦處理方法,其特征在于,包括A、根據給定文章的內容特征檢索出候選相關文章;B、根據每篇候選相關文章的用戶特征,確定每篇候選相關文章的用戶相關性;C、針對所述給定文章,優先推薦所述相關性高的候選相關文章。2.根據權利要求1所述的方法,其特征在于,所述步驟B進一步包括確定每篇候選相關文章與所述給定文章的內容相關性;所述步驟C中,進一步將每篇候選相關文章的所述內容相關性和用戶相關性進行組合加權,得到綜合相關性;針對所述給定文章,優先推薦所述綜合相關性高的候選相關文章。3.根據權利要求1所述的方法,其特征在于,所述候選相關文章的用戶相關性為用戶屬性相關性;或者為與給定用戶的關系鏈相關性;或者為用戶屬性相關性和與給定用戶的關系鏈相關性進行組合加權的分數。4.根據權利要求3所述的方法,其特征在于,當所述候選相關文章的用戶相關性為用戶屬性相關性時,所述確定每篇候選相關文章的用戶相關性的具體方法為預存用戶屬性對應的相關性評分標準,查詢候選相關文章的作者屬性,根據候選相關文章的作者屬性和對應的相關性評分標準確定候選相關文章的用戶屬性相關性。5.根據權利要求3所述的方法,其特征在于,當所述候選相關文章的用戶相關性為與給定用戶的關系鏈相關性時,所述確定每篇候選相關文章的用戶相關性的具體方法為預存關系鏈距離對應的評分標準,確定所述給定用戶與候選相關文章作者的關系鏈距離,根據所述給定用戶與候選相關文章作者的關系鏈距離和對應的評分標準確定候選相關文章與所述給定用戶的關系鏈相關性。6.根據權利要求3或5所述的方法,其特征在于,所述給定用戶為所述給定文章的閱讀者,或者為所述給定文章的作者。7.根據權利要求2、3、4、或5所述的方法,其特征在于,當每篇候選相關文章的相關性包括多種相關性時;所述步驟C后進一步包括搜集所推薦的相關文章的點擊反饋信息,根據所述點擊反饋信息調整所述各相關性對應的權重因子的比重。8.根據權利要求1所述的方法,其特征在于,步驟C中,進一步包括根據應用場景對所述推薦文章的推薦結果信息進行選擇展示。9.根據權利要求1所述的方法,其特征在于,該方法進一步包括建立和維護文章數據庫,步驟A中,從所述文章數據庫中檢索候選相關文章;所述建立和維護文章數據庫的具體過程包括al、建立文章數據庫;a2、從互聯網中篩選出待推薦的文章,將待推薦文章的特征數據存儲到所述文章數據庫中;a3、根據互聯網中文章數據的變化,更新和排重所述文章數據庫中的待推薦文章的特征數據。10.根據權利要求9所述的方法,其特征在于,步驟a2中所述篩選待推薦文章的方法包括以下至少一種方法根據文章標題可讀性進行篩選;根據文章內容可讀性進行篩選; 對作弊垃圾類文章進行篩選。11.根據權利要求1所述的方法,其特征在于,該方法進一步包括建立和維護用戶數據庫,步驟B中,進一步包括從所述用戶數據庫獲取所述用戶特征; 所述建立和維護用戶數據庫的具體過程包括 bl、建立用戶數...

    【專利技術屬性】
    技術研發人員:劉建羅侃楊志峰
    申請(專利權)人:騰訊科技深圳有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 四虎成人精品无码永久在线| 日韩av无码中文字幕| 无码狠狠躁久久久久久久| 亚洲av中文无码乱人伦在线观看| 免费无码精品黄AV电影| 亚洲va无码专区国产乱码| 国产午夜无码片在线观看影院| 亚洲成AV人片在线播放无码| 日韩夜夜高潮夜夜爽无码| 精品无码av一区二区三区| 亚洲中文字幕无码久久2017| 亚洲AV无码AV男人的天堂不卡| 无码中文人妻视频2019| 中文字幕无码AV波多野吉衣| 蜜臀亚洲AV无码精品国产午夜.| 亚洲2022国产成人精品无码区 | 国产精品成人无码久久久久久| 亚欧免费无码aⅴ在线观看| 国产精品无码一区二区在线观一| 精品人妻无码区在线视频 | 国产AV无码专区亚洲AV手机麻豆| 亚洲成a∨人片在无码2023| 日韩人妻精品无码一区二区三区| 精品久久久久久无码免费| 欧洲精品无码成人久久久| 在线观看无码AV网站永久免费| 国产午夜无码精品免费看动漫| 国产精品无码一区二区在线观一 | 国产精品一级毛片无码视频| 亚洲AV日韩AV无码污污网站| 高清无码中文字幕在线观看视频| 少妇人妻偷人精品无码视频| 国产亚洲精久久久久久无码| 亚洲av无码不卡| 久久精品无码午夜福利理论片| 精品亚洲AV无码一区二区| 无码人妻丰满熟妇区96| 亚洲AV无码国产一区二区三区| 亚洲AV永久无码精品一福利 | 亚洲午夜AV无码专区在线播放| 无码人妻精品一区二|