本發明專利技術提供一種多媒體文件搜索方法及裝置,涉及互聯網多媒體領域,能夠擴大用戶搜索的范圍,提高搜索匹配率,降低搜索開銷。該方法包括,預先建立一全網數據庫,所述全網數據庫至少包括自身網站具有播放版權的多媒體文件資源、對外合作網站的多媒體文件資源以及通過爬蟲技術從各個外部網站抓取多媒體文件資源,多媒體搜索裝置接收來自電子設備的多媒體文件搜索信息,并根據所述多媒體文件搜索信息,從所述全網數據庫中獲取與所述多媒體文件搜索信息匹配的多媒體文件資源,然后,向所述電子設備發送所述多媒體文件資源。
【技術實現步驟摘要】
一種多媒體文件搜索方法及裝置
本專利技術涉及互聯網多媒體領域,尤其涉及一種多媒體文件搜索方法及裝置。
技術介紹
隨著網路技術和視頻技術的發展,用戶對視頻搜索的功能有了更高的要求,以前,對于很多視頻用戶,站內搜索足以滿足其需求,因為其它網站有的,自己使用的網站也會有,在這種情況下,用戶僅僅在有限的一或兩家視頻網站就可以滿足搜索需求。但是,隨著視頻網站“版權化”的日益正規和深入,用戶對全網視頻搜索的需求越來越迫切。在視頻版權的約束下,各家的視頻內容將出現“異質化”,由于各視頻網站的建設方向不同,電影、電視等內容也各有所長,使得各視頻網站的內容不可避免地出現差異。在各視頻網站逐漸“異質化”的情況下,用戶的搜索匹配率低,用戶經常需要在多家網站之間進行切換,進行多次搜索,才能得到符合的搜索結果,使得用戶搜索開銷大。
技術實現思路
本專利技術提供一種多媒體文件搜索方法及裝置,能夠擴大用戶搜索的范圍,提高搜索匹配率,降低搜索開銷。為達到上述目的,本專利技術的實施例采用如下技術方案:本專利技術提供一種多媒體文件搜索方法,預先建立一全網數據庫,所述全網數據庫至少包括自身網站具有播放版權的多媒體文件資源、對外合作網站的多媒體文件資源以及通過爬蟲技術從各個外部網站抓取的多媒體文件資源,所述方法包括:接收來自電子設備的多媒體文件搜索信息;根據所述多媒體文件搜索信息,從所述全網數據庫中獲取與所述多媒體文件搜索信息匹配的多媒體文件資源;向所述電子設備發送所述多媒體文件資源。所述自身網站具有播放版權的多媒體文件資源包括用戶上傳的多媒體文件資源,以及已購買播放版權的多媒體文件資源;所述對外合作網站的多媒體文件資源包括自身網站與外部網站合作的所述外部網站的多媒體文件資源,所述對外合作網站的多媒體文件資源是通過網址鏈接到所述對外合作網站的多媒體文件資源上來實現的。所述通過爬蟲技術從各個外部網站抓取的多媒體文件資源的抓取步驟包括:根據網頁分析算法從所述各個外部網站過濾與多媒體文件無關的鏈接,并將與所述多媒體文件相關聯的鏈接放入等待抓取的統一資源定位符URL隊列;獲取至少一個初始抓取URL,根據預設抓取方法從初始抓取URL開始對所述URL隊列中的URL進行分析,選擇要抓取的網頁的URL,直到到達預設條件時停止;將所述被抓取的URL對應的網頁在系統中存儲。所述網頁分析算法包括基于網絡拓撲的分析算法、基于網頁內容的分析算法、基于用戶訪問的分析算法。所述預設抓取方法包括深度優先抓取方法、廣度優先抓取方法、最佳優先抓取方法。本專利技術提供一種多媒體文件搜索裝置,包括:預處理單元,用于預先建立一全網數據庫,所述全網數據庫至少包括自身網站具有播放版權的多媒體文件資源、對外合作網站的多媒體文件資源以及通過爬蟲技術從各個外部網站抓取的多媒體文件資源;接收單元,用于接收來自電子設備的多媒體文件搜索信息;獲取單元,用于根據所述多媒體文件搜索信息,從所述全網數據庫中獲取與所述多媒體文件搜索信息匹配的多媒體文件資源;發送單元,用于向所述電子設備發送所述多媒體文件資源。所述自身網站具有播放版權的多媒體文件資源包括用戶上傳的多媒體文件資源,以及已購買播放版權的多媒體文件資源;所述對外合作網站的多媒體文件資源包括自身網站與外部網站合作的所述外部網站的多媒體文件資源,所述對外合作網站的多媒體文件資源是通過網址鏈接到所述對外合作網站的多媒體文件資源上來實現的。所述預處理單元,還用于根據網頁分析算法從所述各個外部網站過濾與多媒體文件無關的鏈接,并將與所述多媒體文件相關聯的鏈接放入等待抓取的統一資源定位符URL隊列;獲取至少一個初始抓取URL,根據預設抓取方法從初始抓取URL開始對所述URL隊列中的URL進行分析,選擇要抓取的網頁URL,直到到達預設條件時停止;將所述被抓取的URL對應的網頁在系統中存儲。所述網頁分析算法包括基于網絡拓撲的分析算法、基于網頁內容的分析算法、基于用戶訪問的分析算法。所述預設抓取方法包括深度優先抓取方法、廣度優先抓取方法、最佳優先抓取方法。本專利技術提供一種多媒體文件搜索方法及裝置,多媒體文件搜索裝置預先建立一全網數據庫,全網數據庫至少包括自身網站具有播放版權的多媒體文件資源、對外合作網站的多媒體文件資源以及通過爬蟲技術從各個外部網站抓取多媒體文件資源,多媒體搜索裝置接收來自電子設備的多媒體文件搜索信息,并根據多媒體文件搜索信息,從全網數據庫中獲取與多媒體文件搜索信息匹配的多媒體文件資源,然后,向電子設備發送多媒體文件資源。通過該方案,多媒體文件搜索裝置通過預先建立全網數據庫,若電子設備搜索多媒體文件,則從全網數據庫中搜索與多媒體文件搜索信息匹配的多媒體文件資源,通過在全網數據庫中搜索擴大用戶搜索的范圍,提高用戶的搜索匹配率,降低用戶的搜索開銷。【附圖說明】為了更清楚地說明本專利技術實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本專利技術的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。圖1為本專利技術實施例提供的多媒體文件搜索方法流程示意圖;圖2為本專利技術實施例提供的多媒體文件搜索方法流程示意圖;圖3為本專利技術實施例提供的多媒體文件搜索裝置示意圖。【具體實施方式】下面將結合本專利技術實施例中的附圖,對本專利技術實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本專利技術一部分實施例,而不是全部的實施例。基于本專利技術中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬于本專利技術保護的范圍。實施例一本專利技術實施例提供一種多媒體文件搜索方法,如圖1所示,該方法包括:S101、多媒體文件搜索裝置預先建立一全網數據庫,全網數據庫至少包括自身網站具有播放版權的多媒體文件資源、對外合作網站的多媒體文件資源以及通過爬蟲技術從各個外部網站抓取的多媒體文件資源。其中,本專利技術實施例的多媒體文件搜索裝置具體可以為服務器,也可以為能夠執行本專利技術方法的設備。進一步地,本專利技術實施例的多媒體文件可以是視頻文件、音頻文件、圖像文件或者用戶編輯的文本文件中的任意一種,或者多媒體文件也可以是上述任意至少兩種格式的文件組成的文件。S102、多媒體文件搜索裝置接收來自電子設備的多媒體文件搜索信息。具體的,當用戶要進行搜索多媒體文件時,在電子設備上輸入多媒體文件搜索信息,其中,多媒體文件搜索信息包括關鍵詞、標題、標簽,分類等;多媒體文件搜索裝置接收來自電子設備的多媒體文件搜索信息,根據多媒體文件搜索信息行搜索。其中,本專利技術實施例的電子設備,電子設備,可以是指向用戶提供語音和/或數據連通性的設備,其可以是移動終端,如手機和具有移動終端的計算機,例如,可以是便攜式、袖珍式、手持式、計算機內置的或者車載的移動裝置,也可以是PC (personal computer,個人計算機),還可以是能夠連接到互聯網的智能電視。需要說明的是,本專利技術實施例的多媒體文件可以是視頻文件、音頻文件、圖像文件或者用戶編輯的文本文件中的任意一種,或者多媒體文件也可以是上述任意至少兩種格式的文件組成的文件。本專利技術實施例對多媒體文件的具體形式不做限制。S103、多媒體文件搜索裝置根據多本文檔來自技高網...
【技術保護點】
一種多媒體文件搜索方法,其特征在于,預先建立一全網數據庫,所述全網數據庫至少包括自身網站具有播放版權的多媒體文件資源、對外合作網站的多媒體文件資源以及通過爬蟲技術從各個外部網站抓取的多媒體文件資源,所述方法包括:接收來自電子設備的多媒體文件搜索信息;根據所述多媒體文件搜索信息,從所述全網數據庫中獲取與所述多媒體文件搜索信息匹配的多媒體文件資源;向所述電子設備發送所述多媒體文件資源。
【技術特征摘要】
1.一種多媒體文件搜索方法,其特征在于,預先建立一全網數據庫,所述全網數據庫至少包括自身網站具有播放版權的多媒體文件資源、對外合作網站的多媒體文件資源以及通過爬蟲技術從各個外部網站抓取的多媒體文件資源,所述方法包括:接收來自電子設備的多媒體文件搜索信息;根據所述多媒體文件搜索信息,從所述全網數據庫中獲取與所述多媒體文件搜索信息匹配的多媒體文件資源;向所述電子設備發送所述多媒體文件資源。2.根據權利要求1所述的方法,其特征在于, 所述自身網站具有播放版權的多媒體文件資源包括用戶上傳的多媒體文件資源,以及已購買播放版權的多媒體文件資源;所述對外合作網站的多媒體文件資源包括自身網站與外部網站合作的所述外部網站的多媒體文件資源,所述對外合作網站的多媒體文件資源是通過網址鏈接到所述對外合作網站的多媒體文件資源上來實現的。3.根據權利要求1或2所述的方法,其特征在于,所述通過爬蟲技術從各個外部網站抓取的多媒體文件資源的抓取步驟包括:根據網頁分析算法從所述各個外部網站過濾與多媒體文件無關的鏈接,并將與所述多媒體文件相關聯的鏈接放入等待抓取的統一資源定位符URL隊列;獲取至少一個初始抓取URL,根據預設抓取方法從初始抓取URL開始對所述URL隊列中的URL進行分析,選擇要抓取的網頁的URL,直到到達預設條件時停止;將所述被抓取的URL對應的網頁在系統中存儲。4.根據權利要求3所述的方法,其特征在于,所述網頁分析算法包括基于網絡拓撲的分析算法、基于網頁內容的分析算法、基于用戶訪問的分析算法。5.根據權利要求3或4所述的方法,其特征在于,所述預設抓取方法包括深度優先抓取方法、廣度優先抓取方法、最佳優先抓取方法。6....
【專利技術屬性】
技術研發人員:曹坤波,鄭磊,
申請(專利權)人:樂視網信息技術北京股份有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。