• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于用戶查詢日志實時發現熱點視頻的方法和裝置制造方法及圖紙

    技術編號:8533043 閱讀:194 留言:0更新日期:2013-04-04 16:11
    一種基于用戶查詢日志實時發現熱點視頻的方法和裝置,其首先將一段時間內的用戶視頻查詢日志進行切詞,得到原子詞;然后,統計所述原子詞的每一個在所述一段時間內的用戶視頻查詢日志中出現的次數以及任意兩個原子詞同時出現在同一條用戶查詢中的次數;根據得到的次數值采用逐點互信息(PMI)的方法計算用戶視頻查詢日志中任意兩個原子詞之間的關聯度,將關聯度超過一定閾值的任意兩個原子詞合并為一復合詞放入復合詞詞表中;最后對復合詞進行降序排序,最終按一定比例將排在前面的復合詞作為實時發現熱點視頻的關鍵詞。

    【技術實現步驟摘要】
    一種基于用戶查詢日志實時發現熱點視頻的方法和裝置
    本專利技術屬于互聯網數據統計分析
    ,尤其涉及一種基于用戶查詢日志實時發現熱點視頻的方法和裝置。
    技術介紹
    隨著互聯網的迅猛發展,用戶對視頻搜索結果提出了更高的要求,不僅需要搜索結果相關,而且還應有較高的實時性,這使得實時搜索變得日趨重要。視頻實時搜索指的是對視頻庫中的信息進行即時、快速的搜索,實現即搜即得的效果。通過實時搜索,用戶可以在第一時間獲取到熱點事件的第一手信息。然而,相比于傳統搜索,實時搜索也帶來了巨大的挑戰。對于熱點事件,由于其突發性和不可預測性,很可能相關視頻的數量和點擊量較少,導致在它們在搜索結果中排序靠后,從而無法真正滿足用戶對實時性的需求。因為實時熱點具有在較短時間內搜索量大的特點,通過對最新的用戶查詢日志分析最有可能發現出新的熱點詞和熱點事件,以此來改善搜索排序結果對實時性的反應。分析用戶日志時所遇到的一個困難是:每天的用戶查詢日志中都會不斷涌現出新名詞、新熱點,如“歐洲杯”,“樓道王菲劉美麟”等,而原有的切詞程序無法反映出這些新詞的語義關聯,即有可能將語義上應連接在一起的構成一個詞的字符串切分為多個詞。切詞程序一般采用基于詞表的方法,即根據一個預先給定的詞表對字符串掃描,通過一定的匹配方法(正向最大、逆向最大、雙向匹配等)找到一種最合適的詞語切分,這一方法的缺點在于:無法切分出原詞表中不包含的詞,即新詞。這一缺陷將可能導致模糊匹配(即搜索時只對部分查詢詞進行匹配)的結果不夠理想。
    技術實現思路
    鑒于現有技術中存在的問題,本專利技術的目的在于提供一種基于用戶查詢日志實時發現熱點視頻的方法,其特征在于包括如下步驟:S1、將一段時間內的用戶視頻查詢日志輸入到切詞程序,完成每一條用戶視頻查詢日志的切詞,得到每條用戶查詢的切詞結果,并將組成所述切詞結果的不同詞語作為原子詞;S2、統計所述原子詞的每一個在所述一段時間內的用戶視頻查詢日志中出現的次數;S3、根據步驟S1得到的切詞結果統計任意兩個原子詞同時出現在同一條用戶查詢中的次數;S4、根據步驟S2和S3得到的次數值采用逐點互信息(PMI)的方法計算用戶視頻查詢日志中任意兩個原子詞之間的關聯度;S5、將步驟S4中所計算的關聯度超過一定閾值的任意兩個原子詞合并為一復合詞放入復合詞詞表中;S6、在復合詞表中按照構成復合詞的原子詞在所述一段時間內的用戶視頻查詢日志中出現的次數對復合詞進行降序排序,最終按一定比例將排在前面的復合詞作為實時發現熱點視頻的關鍵詞返回。進一步,本專利技術所述的基于用戶查詢日志實時發現熱點視頻的方法,其特征在于所述步驟S4中所述逐點互信息(PMI)的方法的具體計算方法如下:任給兩個原子詞A、B,它們的關聯度表示為其中,P(A,B)表示A,B出現在同一條用戶視頻查詢日志中次數,P(A)、P(B)分別表示A、B在所述一段時間內的用戶視頻查詢日志中出現的次數。進一步,本專利技術所述的基于用戶查詢日志實時發現熱點視頻的方法,其特征在于采用最大似然估計(Maximumlikelihoodestimate)來計算次數。此外,本專利技術還提供了一種基于用戶查詢日志實時發現熱點視頻的裝置,其特征在于包括如下模塊:切詞模塊,用于將一段時間內的用戶視頻查詢日志輸入到切詞程序,完成每一條用戶視頻查詢日志的切詞,得到每條用戶查詢的切詞結果,并將組成所述切詞結果的不同詞語作為原子詞;原子詞出現次數統計模塊,用于統計所述原子詞的每一個在所述一段時間內的用戶視頻查詢日志中出現的次數;原子詞共現次數統計模塊,用于根據所述原子詞出現次數統計模塊得到的切詞結果統計任意兩個原子詞同時出現在同一條用戶查詢中的次數;關聯度計算模塊,用于根據所述原子詞出現次數統計模塊和所述原子詞共現次數統計模塊得到的次數值采用逐點互信息(PMI)的方法計算用戶視頻查詢日志中任意兩個原子詞之間的關聯度;復合詞生成模塊,用于將所述關聯度計算模塊所計算的關聯度超過一定閾值的任意兩個原子詞合并為一復合詞放入復合詞詞表中;熱點關鍵詞確定模塊,用于在復合詞表中按照構成復合詞的原子詞在所述一段時間內的用戶視頻查詢日志中出現的次數對復合詞進行降序排序,最終按一定比例將排在前而的復合詞作為實時發現熱點視頻的關鍵詞返同。進一步,本專利技術所述的基于用戶查詢日志實時發現熱點視頻的裝置,其特征在于所述關聯度計算模塊中所述逐點互信息(PMI)的方法的具體計算方法如下:任給兩個原子詞A、B,它們的關聯度表示為其中,P(A,B)表示A,B出現在同一條用戶視頻查詢日志中次數,P(A)、P(B)分別表示A、B在所述一段時間內的用戶視頻查詢日志中出現的次數。進一步,本專利技術所述的基于用戶查詢日志實時發現熱點視頻的裝置,其特征在于采用最大似然估計(Maximumlikelihoodestimate)來計算次數。本專利技術將逐點互信息這一信息論中的概念,應用于用戶查詢日志的分析,解決了新名詞涌現而導致的切詞不準確以及視頻實時熱點的發現問題。本專利技術不僅有嚴格的理論基礎,而且在工程實現上簡單高效,有效地避免了因采用級聯方式(即窮舉任意兩詞或多詞的組合)而帶來的組合爆炸的問題。本方法可使得視頻熱點發現完全自動化,無需人工的參與,在極大提高效率的同時又保證了較高的準確率。附圖說明圖1是本專利技術基于用戶查詢日志實時發現熱點視頻的方法的實現原理圖;圖2是本專利技術基于用戶查詢日志實時發現熱點視頻的方法的流程圖;圖3是本專利技術基于用戶查詢日志實時發現熱點視頻的裝置的功能框圖。具體實施方式為使本專利技術的上述目的、特征和優點更加明顯易懂,下面結合附圖和具體實施方式對本專利技術作進一步詳細的說明:因為實時熱點具有在較短時間內搜索量大的特點,通過對最新的用戶查詢日志分析最有可能發現出新的熱點詞和熱點事件,以此來改善搜索排序結果對實時性的反應。圖1是本專利技術基于用戶查詢日志實時發現熱點視頻的方法的實現原理圖;如圖1所示,本專利技術將一段時間內的用戶查詢日志輸入到切詞程序中,得到每條用戶查詢的切詞結果,這里所提取出的詞我們稱為原子詞。然后,在此基礎上統計原子詞的詞頻信息和它們的共現次數(即兩詞同時出現在同一條用戶查詢中),并采用逐點互信息(PMI)的計算方法,將語義上密切關聯的兩個或多個原子詞合成為一個復合詞,由此迭代生成出新詞表。最后,按新詞表中詞的詞頻排序,自動發現出熱點詞和熱點事件。圖2是本專利技術基于用戶查詢日志實時發現熱點視頻的方法的流程圖;如圖所示,本專利技術基于用戶查詢日志發現視頻實時熱點的方法包括如下步驟:S1、將一段時間內的用戶視頻查詢日志輸入到切詞程序,完成每一條用戶視頻查詢日志的切詞,得到每條用戶查詢的切詞結果,并將組成所述切詞結果的不同詞語作為原子詞;切詞程序根據已有詞表以最大正向匹配的方法對查詢進行切分。例如,用戶輸入查詢:“還珠格格主題曲”,切詞程序返回結果“還珠|格格|主題曲”,即該查詢中包含了三個原子詞:“還珠”、“格格”和“主題曲”。S2、統計所述原子詞的每一個在所述一段時間內的用戶視頻查詢日志中出現的次數;例如,從一天的用戶查詢日志中統計得到:“還珠”出現61,661次,“格格”出現65,564次,“主題曲”出現306,050次。S3、根據步驟S1得到的切詞結果統計任意兩個原子詞同時出現在同一條用戶查本文檔來自技高網...
    一種基于用戶查詢日志實時發現熱點視頻的方法和裝置

    【技術保護點】
    一種基于用戶查詢日志實時發現熱點視頻的方法,其特征在于包括如下步驟:S1、將一段時間內的用戶視頻查詢日志輸入到切詞程序,完成每一條用戶視頻查詢日志的切詞,得到每條用戶查詢的切詞結果,并將組成所述切詞結果的不同詞語作為原子詞;S2、統計所述原子詞的每一個在所述一段時間內的用戶視頻查詢日志中出現的次數;S3、根據步驟S1得到的切詞結果統計任意兩個原子詞同時出現在同一條用戶查詢中的次數;S4、根據步驟S2和S3得到的次數值采用逐點互信息(PMI)的方法計算用戶視頻查詢日志中任意兩個原子詞之間的關聯度;S5、將步驟S4中所計算的關聯度超過一定閾值的任意兩個原子詞合并為一復合詞放入復合詞詞表中;S6、在復合詞表中按照構成復合詞的原子詞在所述一段時間內的用戶視頻查詢日志中出現的次數對復合詞進行降序排序,最終按一定比例將排在前面的復合詞作為實時發現熱點視頻的關鍵詞返回。

    【技術特征摘要】
    1.一種基于用戶查詢日志實時發現熱點視頻的方法,其特征在于包括如下步驟:S1、將一段時間內的用戶視頻查詢日志輸入到切詞程序,完成每一條用戶視頻查詢日志的切詞,得到每條用戶查詢的切詞結果,并將組成所述切詞結果的不同詞語作為原子詞,其中切詞程序根據已有詞表以最大正向匹配的方法對查詢進行切分;S2、統計所述原子詞的每一個在所述一段時間內的用戶視頻查詢日志中出現的次數;S3、根據步驟S1得到的切詞結果統計任意兩個原子詞同時出現在同一條用戶查詢中的次數;S4、根據步驟S2和S3得到的次數值采用逐點互信息的方法計算用戶視頻查詢日志中任意兩個原子詞之間的關聯度;S5、將步驟S4中所計算的關聯度超過一定閾值的任意兩個原子詞合并為一復合詞放入復合詞詞表中;S6、在復合詞表中按照構成復合詞的原子詞在所述一段時間內的用戶視頻查詢日志中出現的次數對復合詞進行降序排序,最終按一定比例將排在前面的復合詞作為實時發現熱點視頻的關鍵詞返回;所述步驟S4中所述逐點互信息的方法的具體計算方法如下:任給兩個原子詞A、B,它們的關聯度表示為其中,P(A,B)表示A,B出現在同一條用戶視頻查詢日志中次數,P(A)、P(B)分別表示A、B在所述一段時間內的用戶視頻查詢日志中出現的次數;其中,采用最大似然估計來計算次數。2.一種基于用戶查詢日志實時發現熱點視頻的裝置,其特征在于包括如下模塊:切詞模塊,用于將...

    【專利技術屬性】
    技術研發人員:李力行姚健潘柏宇盧述奇尹玉宗
    申請(專利權)人:合一網絡技術北京有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 在线看无码的免费网站| 国产嫖妓一区二区三区无码| 亚洲综合一区无码精品 | 人妻丰满熟妇aⅴ无码| 中文成人无码精品久久久不卡| 亚洲精品无码成人AAA片| 久久久久精品国产亚洲AV无码| 精品无码一区二区三区水蜜桃| 亚洲AV无码国产精品麻豆天美| 免费a级毛片无码a∨蜜芽试看| 亚洲午夜国产精品无码老牛影视| 亚洲中文字幕无码av在线| 中文字幕无码不卡在线| 久久久无码精品午夜| 无码成A毛片免费| 国产亚洲精品无码专区| 久久美利坚合众国AV无码| 人妻精品久久无码专区精东影业| 韩日美无码精品无码| 久久久久无码精品国产app| 精品国产一区二区三区无码| 亚洲成av人片在线观看天堂无码| 亚洲熟妇无码一区二区三区| 人妻丝袜中文无码av影音先锋专区| 国产综合无码一区二区辣椒 | 无码熟熟妇丰满人妻啪啪软件| 日韩精品真人荷官无码| 亚洲AV无码欧洲AV无码网站| 人妻AV中出无码内射| 久久国产三级无码一区二区| 国产丰满乱子伦无码专| 亚洲熟妇无码AV不卡在线播放| 亚洲中文字幕无码中文字| 人妻中文字系列无码专区| 久久ZYZ资源站无码中文动漫| 无码中文字幕av免费放dvd| 日韩AV无码久久一区二区| 亚洲AV无码无限在线观看不卡| 中文字幕久久久人妻无码| 无码中文字幕乱码一区| 亚洲av无码专区在线电影|