本發(fā)明專利技術提供了一種網(wǎng)絡圖像自主收集與篩選方法,該方法利用互聯(lián)網(wǎng)日益豐富的海量圖像數(shù)據(jù),借助搜索引擎提供的強大的圖像檢索能力實現(xiàn)網(wǎng)絡圖像的自主收集與篩選。本發(fā)明專利技術為獲取圖像目標類別數(shù)據(jù)庫數(shù)據(jù)集提供了一種自動化的解決方案,這樣既可避免大量的人工勞動,又能消除由于人工收集數(shù)據(jù)集而帶來的有偏性。
【技術實現(xiàn)步驟摘要】
本專利技術涉及構建計算機視覺與模式識別圖像數(shù)據(jù)庫領域,特別涉及一種用于構建圖像目標類別數(shù)據(jù)庫的網(wǎng)絡圖像自主收集與篩選方法。
技術介紹
圖像目標類別數(shù)據(jù)庫是進行計算機視覺與模式識別研究的必要條件,研究建立高質量圖像目標類別數(shù)據(jù)庫的方法和系統(tǒng)對于計算機視覺與模式識別的研究工作具有重要的意義。目前,建立圖像數(shù)據(jù)庫的絕大多數(shù)方法均出現(xiàn)以下問題I)收集圖像數(shù)據(jù)以及數(shù)據(jù)的標記工作需要大量的人工勞動,極大的限制了數(shù)據(jù)庫的規(guī)模,這成為擴大圖像數(shù)據(jù)庫規(guī)模時一個很難突破的瓶頸。 2)人工收集和標記圖像數(shù)據(jù)庫的過程并非一個完全客觀地過程,不同知識文化背景的人所收集的圖像數(shù)據(jù)以及對其進行的標記總是不同的,這就導致建立的圖像數(shù)據(jù)庫往往是有偏的,即無法確保對各種計算機視覺和模式識別算法進行評測的客觀性。
技術實現(xiàn)思路
本專利技術的目的在于提供一種網(wǎng)絡圖像自主收集與篩選方法。為達到上述目的,本專利技術采用了以下技術方案I)圖像主題提取選取單幅圖像,然后選擇網(wǎng)絡搜索引擎對單幅圖像進行檢索得到搜索結果,對搜索結果進行提取后得到圖像主題;2)網(wǎng)絡圖像及相關文本信息自動下載根據(jù)圖像主題從網(wǎng)絡下載圖像及與圖像相關的文本信息至本地數(shù)據(jù)庫得數(shù)據(jù)集;3)圖像數(shù)據(jù)篩選利用圖像信息及與圖像相關的文本信息對數(shù)據(jù)集內的圖像進行篩選得目標圖像集。所述圖像主題提取的步驟為首先,借助網(wǎng)絡上的以圖搜圖服務對選取的單幅圖像進行檢索,得到與單幅圖像相關的文本檢索信息;其次,利用先驗語義知識以及統(tǒng)計方法對文本檢索信息進行提取處理得到圖像主題。所述對文本檢索信息進行提取處理包括以下步驟調用WordNet的語義網(wǎng)絡對文本檢索信息進行過濾,濾除介詞、冠詞、抽象名詞、動詞、形容詞以及副詞;如果過濾后只剩一個單詞,那么該單詞便是圖像主題;如果過濾后剩余多個單詞,以剩余的單詞作為關鍵詞分別在基于文本的圖像檢索中搜索圖像的網(wǎng)址,獲取前15-20幅圖像的網(wǎng)址;將圖像的網(wǎng)址分別利用以圖搜圖服務進行檢索,得到與網(wǎng)址相關的文本檢索信息;對所有與網(wǎng)址相關的文本檢索信息進行分詞后統(tǒng)計詞頻,詞頻最高的單詞即為單幅圖像的圖像主題。所述自動下載中,如果因下載請求遭到拒絕或讀取流失敗導致下載失敗,并且重試三次仍下載失敗,那么跳過對此圖像的下載程序,直接進入下一張圖像的下載程序;下載某一圖像時,如果在設定時間內圖像下載完成,則進入下一張圖像的下載程序,若在設定時間內沒有完成圖像下載,則拋棄此次下載結果,然后進入下一張圖像的下載程序。所述圖像數(shù)據(jù)篩選的步驟為首先,利用圖像的歸一化灰度直方圖分布信息剔除數(shù)據(jù)集中的非自然圖像;其次,利用與圖像相關的文本信息剔除數(shù)據(jù)集中偏離圖像主題的圖像。所述文本信息為圖像Tag信息。所述非自然圖像包括卡通畫、圖標、手繪或合成的圖像。所述非自然圖像的判斷依據(jù)為在圖像的歸一化灰度直方圖中,頻率閾值取O.06,即當出現(xiàn)頻率大于O. 06的灰度級數(shù)量小于60時圖像被判定為非自然圖像。 所述剔除數(shù)據(jù)集中偏離圖像主題的圖像包括以下步驟對與圖像相關的文本信息進行分詞得多個單詞;利用WordNet的語義網(wǎng)絡從多個單詞中篩選表示Object的詞;若表示Object的詞屬于同一個同義詞集合,那么保留與文本信息相關的圖像,否則剔除與文本信息相關的圖像。本專利技術的有益效果為首先,互聯(lián)網(wǎng)上的圖像數(shù)據(jù)信息日漸龐大,網(wǎng)絡傳輸協(xié)議更加標準和完善,圖像搜索引擎飛速發(fā)展,在一定的時間段內,搜索引擎在特定搜索條件下的返回結果是不變的,即不論何人進行圖像檢索,得到的返回結果在一定時間段內是相同的,這樣就能消除由于人工收集數(shù)據(jù)集而帶來的有偏性。其次,將搜索引擎返回的圖像搜索結果自動的并具有針對性的下載至本地數(shù)據(jù)庫中,這樣能避免大量的人工收集工作。附圖說明圖I為網(wǎng)絡圖像自主收集與篩選系統(tǒng)框圖。圖2為圖像主題提取流程圖。圖3為網(wǎng)絡圖像及其Tag信息自動下載流程圖。圖4為圖像數(shù)據(jù)篩選流程圖。圖5為Google返回結果中的非自然圖像。圖6為Tag信息及其對應圖像示例。圖7為自然圖像的灰度直方圖示例。圖8為卡通圖等非自然圖像的灰度直方圖示例。圖9為WordNet的單詞分類結構樹示意。具體實施例方式下面結合附圖對專利技術作進一步說明。對于網(wǎng)絡圖像自主收集與篩選,要求輸入單幅圖像或檢索關鍵詞后,輸出與輸入圖像或關鍵詞主題相關度較高的大量圖像數(shù)據(jù),圖I為網(wǎng)絡圖像自主收集與篩選系統(tǒng)的總體框圖,顯示了系統(tǒng)功能實現(xiàn)的三個基本步驟,分別為圖像主題提取、圖像及其Tag信息下載、圖像篩選。其中,圖像Tag信息是指每幅圖像下方對應的文本信息(如圖5所示)。(一)首先是圖像主題提取,圖像主題提取模塊的實現(xiàn)主要分為兩步第一,選擇合適搜索引擎對輸入圖像進行檢索,得到與其相關的文本檢索信息;第二,基于統(tǒng)計、先驗知識對文本檢索信息進行處理,提取圖像主題,將輸入的圖像轉化為對圖像進行描述的文本信息。圖像主題提取模塊流程如圖2所示,具體步驟為步驟I,按照發(fā)送POST請求的格式要求,將輸入圖像加入POST請求后向Google(谷歌)服務器發(fā)送請求;步驟2,獲取Google服務器返回的結果,得到輸入圖像的最佳猜測;步驟3,調用WordNet的語義網(wǎng)絡(關于WordNet的詳細信息,請參照http: //wordnet. princeton. edu/)對最佳猜測(文本檢索信息)進行過濾,濾除介詞、冠詞、抽象名詞、動詞、形容詞、副詞;步驟4,如果濾除后只剩一個詞,那么該單詞便是圖像主題,輸出結果,第一階段完成;否則,分別以過濾后剩余的單詞作為關鍵詞在Google基于文本的圖像檢索中搜索圖·像,獲取前15幅圖像數(shù)據(jù)的網(wǎng)址;步驟5,分別將15幅圖像的網(wǎng)址輸入Google以圖搜圖中,得到15個最佳猜測的結果;步驟6,對所有結果進行分詞并統(tǒng)計詞頻,出現(xiàn)頻率最高的單詞即為輸入圖像的最終主題,輸出結果后第一階段完成。(二)其次是圖像及其Tag信息下載,對于圖像集下載,本專利技術力求下載模塊運行要有較強的異常處理能力和穩(wěn)定性。在圖像集較小的情況下,利用網(wǎng)上現(xiàn)有的與網(wǎng)絡數(shù)據(jù)下載有關的開源軟件可以滿足下載需求,但是隨著下載圖像數(shù)量的增加,程序出現(xiàn)異常的幾率大大增加,運行過程中經常出現(xiàn)異常中斷或假死的狀態(tài),使得后續(xù)圖像無法繼續(xù)下載,影響整個進程的自動化實現(xiàn)。因此本專利技術在系統(tǒng)設計中加入以下原則I)舍小求大,在下載某一圖像時,如果出現(xiàn)異常,比如請求遭到拒絕或讀取流失敗,并且在重試三次仍以失敗告終,那么跳過對此圖像的下載程序,直接進入下一張的下載程序。2)有限等待,為每次圖像的下載加入守護進程,類似于嵌入式系統(tǒng)的看門狗程序。當某一圖像下載時便啟動計時器,設定時限,如果在設定時間內圖像下載成功,則正常進入下一張圖像的下載程序,若設定時間內圖像并未下載成功,則拋棄此次下載結果,直接進入下一張的下載。圖3為下載模塊的流程圖,具體步驟為步驟1,輸入圖像主題信息和下載圖像的數(shù)量(頁數(shù));步驟2,生成滿足Google搜圖要求的URL ;步驟3,向Google搜圖發(fā)送Get請求,獲取返回的網(wǎng)頁源碼;步驟4,從網(wǎng)頁源碼中提取20個圖像的URL以及對應的Tag信息;步驟5,通過20個URL下載對應的圖像數(shù)據(jù)并保存至本地;步驟6,若下載至最后一頁則退出,否則下載下一頁,進入步驟2。(三)最后為圖像數(shù)據(jù)的篩選,將下載的圖像數(shù)據(jù)分為本文檔來自技高網(wǎng)...
【技術保護點】
一種網(wǎng)絡圖像自主收集與篩選方法,其特征在于,包括以下步驟:1)圖像主題提取選取單幅圖像,然后選擇網(wǎng)絡搜索引擎對單幅圖像進行檢索得到搜索結果,對搜索結果進行提取后得到圖像主題;2)網(wǎng)絡圖像及相關文本信息自動下載根據(jù)圖像主題從網(wǎng)絡下載圖像及與圖像相關的文本信息至本地數(shù)據(jù)庫得數(shù)據(jù)集;3)圖像數(shù)據(jù)篩選利用圖像信息及與圖像相關的文本信息對數(shù)據(jù)集內的圖像進行篩選得目標圖像集。
【技術特征摘要】
1.一種網(wǎng)絡圖像自主收集與篩選方法,其特征在于,包括以下步驟 1)圖像主題提取 選取單幅圖像,然后選擇網(wǎng)絡搜索引擎對單幅圖像進行檢索得到搜索結果,對搜索結果進行提取后得到圖像主題; 2)網(wǎng)絡圖像及相關文本信息自動下載 根據(jù)圖像主題從網(wǎng)絡下載圖像及與圖像相關的文本信息至本地數(shù)據(jù)庫得數(shù)據(jù)集; 3)圖像數(shù)據(jù)篩選 利用圖像信息及與圖像相關的文本信息對數(shù)據(jù)集內的圖像進行篩選得目標圖像集。2.根據(jù)權利要求I所述一種網(wǎng)絡圖像自主收集與篩選方法,其特征在于,所述圖像主題提取的步驟為首先,借助網(wǎng)絡上的以圖搜圖服務對選取的單幅圖像進行檢索,得到與單幅圖像相關的文本檢索信息;其次,利用先驗語義知識以及統(tǒng)計方法對文本檢索信息進行提取處理得到圖像主題。3.根據(jù)權利要求2所述一種網(wǎng)絡圖像自主收集與篩選方法,其特征在于,所述對文本檢索信息進行提取處理包括以下步驟 調用WordNet的語義網(wǎng)絡對文本檢索信息進行過濾,濾除介詞、冠詞、抽象名詞、動詞、形容詞以及副詞;如果過濾后只剩一個單詞,那么該單詞便是圖像主題;如果過濾后剩余多個單詞,以剩余的單詞作為關鍵詞分別在基于文本的圖像檢索中搜索圖像的網(wǎng)址,獲取前15-20幅圖像的網(wǎng)址;將圖像的網(wǎng)址分別利用以圖搜圖服務進行檢索,得到與網(wǎng)址相關的文本檢索信息;對所有與網(wǎng)址相關的文本檢索信息進行分詞后統(tǒng)計詞頻,詞頻最高的單詞即為單幅圖像的圖像主題。4.根據(jù)權利要求I所述一種網(wǎng)絡圖像自主收集與篩選方法,其特征在于,...
【專利技術屬性】
技術研發(fā)人員:薛建儒,王樂,高占寧,
申請(專利權)人:西安交通大學,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。