• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    事件脈絡生成方法和裝置制造方法及圖紙

    技術編號:15639404 閱讀:194 留言:0更新日期:2017-06-15 23:20
    本發明專利技術公開了事件脈絡生成方法和裝置,其中方法包括:針對待處理的事件,分別獲取各時間窗口內的資源;針對每個時間窗口,分別確定出該時間窗口內的各資源的重要性評分,并從所述時間窗口內的各資源中選出重要性評分符合預定要求的資源,將選出的資源作為所述時間窗口內的代表性資源;將各時間窗口內的代表性資源按照時間順序進行組合,得到事件脈絡。應用本發明專利技術所述方案,能夠提高用戶的信息獲取效率。

    【技術實現步驟摘要】
    事件脈絡生成方法和裝置
    本專利技術涉及網絡技術,特別涉及事件脈絡生成方法和裝置。
    技術介紹
    當前,用戶在使用搜索引擎等進行搜索時,如對某一事件進行搜索時,只能將與該事件相關的各個資源如新聞資源,按照預定方式進行排序等處理后,展示給用戶。而用戶如果想要了解事件進展的主要過程,則需要分別查找對應的資源并進行查看,實現起來非常困難,從而降低了用戶的信息獲取效率。
    技術實現思路
    有鑒于此,本專利技術提供了事件脈絡生成方法和裝置,能夠提高用戶的信息獲取效率。具體技術方案如下:一種事件脈絡生成方法,包括:針對待處理的事件,分別獲取各時間窗口內的資源;針對每個時間窗口,分別確定出所述時間窗口內的各資源的重要性評分,并從所述時間窗口內的各資源中選出重要性評分符合預定要求的資源,將選出的資源作為所述時間窗口內的代表性資源;將各時間窗口內的代表性資源按照時間順序進行組合,得到事件脈絡。一種事件脈絡生成裝置,包括:處理單元;所述處理單元,用于針對待處理的事件,分別獲取各時間窗口內的資源;針對每個時間窗口,分別確定出所述時間窗口內的各資源的重要性評分,并從所述時間窗口內的各資源中選出重要性評分符合預定要求的資源,將選出的資源作為所述時間窗口內的代表性資源;將各時間窗口內的代表性資源按照時間順序進行組合,得到事件脈絡?;谏鲜鼋榻B可以看出,采用本專利技術所述方案,針對待處理的事件,可分別獲取各時間窗口內的資源,并針對每個時間窗口,分別從中選出最能反映事件進展情況的代表性資源,進而利用所選出的各時間窗口內的代表性資源組合得到事件脈絡,這樣,當用戶使用如搜索引擎進行搜索時,可直接將事件脈絡展示給用戶,從而克服了現有技術中存在的問題,進而提高了用戶的信息獲取效率。【附圖說明】圖1為本專利技術所述事件脈絡生成方法實施例的流程圖。圖2為本專利技術所述獲取到的一個時間窗口內的資源示意圖。圖3為本專利技術所述生成事件脈絡的方式示意圖。圖4為本專利技術所述“明星A離婚”事件對應的事件脈絡示意圖。圖5為本專利技術所述事件脈絡生成裝置實施例的組成結構示意圖。【具體實施方式】針對現有技術中存在的問題,本專利技術中提出一種事件脈絡生成方案,可以有效地從大量的資源中篩選出最能反映事件進展情況的代表性資源,并自動地生成事件脈絡展示給用戶。為了使本專利技術的技術方案更加清楚、明白,以下參照附圖并舉實施例,對本專利技術所述方案作進一步地詳細說明。實施例一圖1為本專利技術所述事件脈絡生成方法實施例的流程圖,如圖1所示,包括以下具體實現方式:在11中,針對待處理的事件,分別獲取各時間窗口內的資源;在12中,針對每個時間窗口,分別確定出該時間窗口內的各資源的重要性評分,并從該時間窗口內的各資源中選出重要性評分符合預定要求的資源,將選出的資源作為該時間窗口內的代表性資源;在13中,將各時間窗口內的代表性資源按照時間順序進行組合,得到事件脈絡。所述資源可為新聞資源等。為實現上述方案,需要預先獲取訓練樣本,并根據訓練樣本訓練得到評估模型,這樣,針對待處理的事件,可以時間窗口為單位,針對每個時間窗口內獲取到的資源,分別根據評估模型確定出各資源的重要性評分,并從每個時間窗口內的各資源中選出重要性評分符合預定要求的資源,將選出的資源作為該時間窗口內的代表性資源,進而將各時間窗口內的代表性資源按照時間順序進行組合,得到事件脈絡。以下分別對上述各部分內容進行詳細介紹。一)訓練樣本為了得到后續的評估模型,需要首先獲取訓練樣本。本專利技術所述方案中,可采用基于配對(pairwise)的方法,從若干有時間順序的資源中,選出最能反映事件發展的幾個資源,從而即能獲取到被選出的資源與未被選出的資源之間的優劣關系,進而生成訓練樣本。比如,可將任一事件對應的任一時間窗口內的資源進行展示,獲取從所展示的資源中選定的優質資源,分別將每個優質資源與所展示的每個非優質資源組成一個資源對,分別生成每個資源對對應的訓練樣本。以“明星A離婚”事件為例,整個事件是在隨著時間不斷發展的,可分別獲取到每個時間窗口內的資源。時間窗口,是指將整個事件發展的時間軸切分(比如可以等時長進行切分)為多個連續的時間段后所得到的每個時間段。圖2為本專利技術所述獲取到的一個時間窗口內的資源示意圖,如圖2所示,可將這些資源展示給樣本收集人員,樣本收集人員可從中選出認為最能反映“明星A離婚”事件的來龍去脈的2個資源,將選定的資源作為優質資源。之后,可分別將每個優質資源與所展示的每個非優質資源組成一個資源對。比如,選定的優質資源為圖2中所示的資源1和資源2,那么可得到以下資源對:(資源1、資源3)、(資源1、資源4)、(資源1、資源5)、(資源2、資源3)、(資源2、資源4)、(資源2、資源5)等。再之后,可分別生成每個資源對對應的訓練樣本,每個訓練樣本中可包括:分別從一個資源對中的兩個資源中提取出的特征,以及,兩個資源孰優孰劣的判定結果。即針對每個資源對,可分別對該資源對中的每個資源進行特征提取,并結合兩個資源資源孰優孰劣的判定結果,生成一個訓練樣本。判定結果可用1和0來表示,比如,若一個資源對中的前一個資源優于后一個資源,則判定結果可為1,反之,若后一個資源優于前一個資源,則判定結果可為0。這樣,以(資源1、資源3)、(資源2、資源4)兩個資源對為例,其對應的訓練樣本將分別為:(資源1的特征、資源3的特征、1)、(資源2的特征、資源4的特征、1)。采用上述處理方式,每次只展示給樣本收集人員一個時間窗口內的若干條資源,讓樣本收集人員從中選出最優的幾條資源,從而使樣本收集人員在進行選擇時充分考慮了事件脈絡的時間性背景,即不僅考慮了資源的相關性,還考慮了資源的脈絡重要性,同時,采用上述處理方式,使得樣本收集人員通過較少的工作就能獲取到較多的訓練樣本,從而提高了樣本收集效率等。二)特征提取從每個資源中提取出的特征包括但不限于以下之一或任意組合,較佳地,可提取出以下全部特征:純文本特征、資源熱度特征、搜索熱度特征、相似資源數特征。1)純文本特征如何獲取資源的純文本特征為現有技術,比如,可基于詞袋(Bagofwords)方法,利用詞頻-逆文檔頻率(TF-IDF,TermFrequency-InverseDocumentFrequency)的權重計算方式提取出資源的純文本特征。2)資源熱度特征這個特征主要反映的是資源被點擊閱讀的數量,如何獲取同樣為現有技術。3)搜索熱度特征對于事件脈絡而言,在脈絡的關鍵節點,往往能引起人們對其進行搜索,通過對如百度搜索日志等進行分析,可以查找到對某個關鍵詞在哪個時間點的搜索量達到峰值,與這個時間點對應的資源往往在事件發展過程中具有較重要的意義。對于兩個不同的資源,假設均對應關鍵詞“明星A離婚”,由于兩個資源的發布時間不同,對應的在資源發布時該關鍵詞的搜索熱度也會不同,因此,可將搜索熱度作為資源的一個重要特征。4)相似資源數特征在互聯網中,重要的資源常常會被以不同形式轉載,其在內容上通常是相似的,因此,可通過對互聯網海量數據的挖掘,提取出每個資源的相似資源數,作為該資源的特征,從另一個方面反映資源的重要性。在以上介紹的內容的基礎上,如何獲取資源的搜索熱度特征以及相似資源數特征為現有技術。三)模型訓練在獲取到足夠多的訓練樣本之后,即可根據訓練樣本訓練本文檔來自技高網...
    事件脈絡生成方法和裝置

    【技術保護點】
    一種事件脈絡生成方法,其特征在于,包括:針對待處理的事件,分別獲取各時間窗口內的資源;針對每個時間窗口,分別確定出所述時間窗口內的各資源的重要性評分,并從所述時間窗口內的各資源中選出重要性評分符合預定要求的資源,將選出的資源作為所述時間窗口內的代表性資源;將各時間窗口內的代表性資源按照時間順序進行組合,得到事件脈絡。

    【技術特征摘要】
    1.一種事件脈絡生成方法,其特征在于,包括:針對待處理的事件,分別獲取各時間窗口內的資源;針對每個時間窗口,分別確定出所述時間窗口內的各資源的重要性評分,并從所述時間窗口內的各資源中選出重要性評分符合預定要求的資源,將選出的資源作為所述時間窗口內的代表性資源;將各時間窗口內的代表性資源按照時間順序進行組合,得到事件脈絡。2.根據權利要求1所述的方法,其特征在于,該方法進一步包括:獲取訓練樣本,根據所述訓練樣本訓練得到評估模型;所述分別確定出所述時間窗口內的各資源的重要性評分包括:根據所述評估模型,分別確定出所述時間窗口內的各資源的重要性評分。3.根據權利要求2所述的方法,其特征在于,所述根據所述評估模型,分別確定出所述時間窗口內的各資源的重要性評分包括:針對所述時間窗口內的每個資源,分別進行以下處理:將所述資源作為待評估資源,將所述待評估資源與所述時間窗口內的其它每個資源分別組成一個資源對;根據所述評估模型分別獲取到每個資源對中的兩個資源孰優孰劣的判定結果;統計判定結果滿足以下條件的資源對數:所述待評估資源優于所在資源對中的另一資源;將統計結果作為所述待評估資源的重要性評分。4.根據權利要求3所述的方法,其特征在于,每個訓練樣本中包括:分別從一個資源對中的兩個資源中提取出的特征,以及,兩個資源孰優孰劣的判定結果;所述根據所述評估模型分別獲取到每個資源對中的兩個資源孰優孰劣的判定結果包括:分別提取出每個資源對中的兩個資源的特征;根據提取出的特征以及所述評估模型,分別獲取到每個資源對中的兩個資源孰優孰劣的判定結果。5.根據權利要求4所述的方法,其特征在于,所述獲取訓練樣本包括:將任一事件對應的任一時間窗口內的資源進行展示;獲取從所展示的資源中選定的優質資源;分別將每個優質資源與所展示的每個非優質資源組成一個資源對;分別生成每個資源對對應的訓練樣本。6.根據權利要求3所述的方法,其特征在于,所述評估模型的個數為一個或大于一個;所述根據所述訓練樣本訓練得到評估模型包括:分別根據所述訓練樣本訓練得到每個評估模型;所述根據所述評估模型分別獲取到每個資源對中的兩個資源孰優孰劣的判定結果包括:當所述評估模型數大于一時,針對每個資源對,分別根據每個評估模型獲取到一個判定結果,將各判定結果進行匯總,根據匯總結果確定出最終的判定結果。7.根據權利要求6所述的方法,其特征在于,所述評估模型包括以下之一或任意組合:支持向量機模型、邏輯回歸模型、隨機森林模型。8.根據權利要求4所述的方法,其特征在于,從每個資源中提取出的特征包括以下之一或任意組合:純文本特征、資源熱度特征、搜索熱度特征、相似資源數特征。9.根據權利要求1所述的方法,其特征在于,所述從所述時間窗口內的各資源中選出重要性評分符合預定要求的資源,將選出的資源作為所述時間窗口內的代表性資源包括:從所述時間窗口內的各資源中選出重要性評分最高的N個資源,N為正整數,將選出的資源作為所述時間窗口內的代表性資源;或者,從所述時間窗口內的各資源中選出重要性評分大于預定閾值的資源,將選出的資源作為所述時間窗口內的代表性資源。10.一種事件脈絡生成裝置,其特征在于,包括:處理單元;所述處理單元,用于針對待處理的事件,分別獲取各時間窗口內的資源;針對每個時間窗口,分別確定出所述時間窗口內的各資源的重要性評分,并從所述時間窗口內的各資源中選...

    【專利技術屬性】
    技術研發人員:莫洋沈劍平,黃強,鄭景耀,駱金昌,
    申請(專利權)人:百度在線網絡技術北京有限公司
    類型:發明
    國別省市:北京,11

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲大尺度无码无码专区| 无码AV中文字幕久久专区| 无码国内精品久久人妻麻豆按摩| 亚洲乱亚洲乱妇无码麻豆| 韩国19禁无遮挡啪啪无码网站| 国产成人无码A区在线观看导航| 精品日韩亚洲AV无码| 色综合久久无码中文字幕| 成人免费午夜无码视频| 国产成人无码免费视频97| 小SAO货水好多真紧H无码视频| 久久久久成人精品无码中文字幕 | 777爽死你无码免费看一二区 | 精品无码人妻一区二区三区| 亚洲AV无码一区二区三区牲色| 亚洲中文久久精品无码| 无码人妻啪啪一区二区| 久久久久亚洲av无码尤物| 亚洲av无码偷拍在线观看| 无码av免费一区二区三区试看| 精品少妇人妻av无码专区| 无码AV大香线蕉| 亚洲精品无码久久久久APP| 国产精品无码久久综合| 精品久久久久久无码中文字幕| 国产午夜无码片在线观看| 亚洲综合久久精品无码色欲| 无码精品尤物一区二区三区| 天堂无码在线观看| 亚洲综合无码一区二区痴汉| 亚洲中文字幕在线无码一区二区 | 国产成人年无码AV片在线观看| 亚洲乱人伦中文字幕无码| 免费a级毛片无码a∨蜜芽试看| 精品无码av一区二区三区| 亚洲∧v久久久无码精品| 亚洲中文无码av永久| 中文国产成人精品久久亚洲精品AⅤ无码精品| 亚洲成a∧人片在线观看无码 | 无码 免费 国产在线观看91| 亚洲Av无码国产一区二区|