【技術實現步驟摘要】
本專利技術涉及圖像搜索
,尤其涉及一種基于分層聚類的圖像高維向量快速近似k_近鄰檢索方法。
技術介紹
在基于內容的圖像搜索技術(Content-Based Image Retrieval, CBIR)中,當用戶上傳一幅商品圖像并期望搜尋與該圖相同或相近的商品時,搜索引擎對用戶上傳的商品圖像進行特征提取,并從索引圖像特征矢量數據庫中選取與其在高維空間中距離最近的k個圖像作為結果返回。在大量索引特征數據庫中查詢最近的k個圖像特征,最基本的方法是SSA方法。SSA方法通過計算被檢索圖像與每ー個已入庫圖像的距離,然后對這些距離進行排序的方式獲得最近的k個圖像。這是ー種精確的k近鄰檢索(k-Nearest Neighbor, kNN)。但是,當圖像特征維度以及庫內圖像數量較大時,該方法的查詢耗時較大,無法滿足工程需要。聚類的方法被引入CBIR中。采用聚類的方法,將數據按照其在高維空間的分布,聚集成為聚類簇;檢索時,首先計算被檢索圖像與所有簇的中心的距離,確定被檢索圖像所屬的聚類簇,然后對簇內的數據進行遍歷,獲得最近的k個圖像。由于需要遍歷的數據量的減少,該方法相對于正向遍歷的方式檢索效率有所提高,但是存在以下問題1、查詢時間效率依賴于被查詢圖像所屬的簇的大小,如果聚類產生的簇的大小不均衡,會導致查詢時間產生不均衡性。當被查詢圖像屬于包含圖像個數較大的簇時,需要遍歷的圖像量及查詢耗時増大。由于包含數據量大的簇代表更“常見”的圖像特征,被查詢圖像落在其中的概率大于包含數據量少的聚類簇。因此,如果某個聚類簇包含的數據量遠高于平均值,將會嚴重影響商品圖像搜索引擎的平 ...
【技術保護點】
一種基于分層聚類的均衡圖像聚類方法,其特征在于,包含如下步驟:(1)在建立索引時,首先對圖像特征數據進行初始聚類;(2)對步驟(1)得到的每個聚類簇進行聚類切分操作。具體步驟為:檢查該聚類所包含的圖像個數。如果該聚類中心包含的圖像個數小于設置的上限Ntop,則在聚類內部進行二分聚類。如果二分聚類的結果包含的數據量仍超過Ntop,則對二分聚類的結果迭代此過程。將數據量不超過Ntop的聚類簇中心記錄到聚類中心文件中。之后將該類目所有圖像特征數據按照獲得的聚類中心進行組織。(3)在檢索時,對查詢圖像的特征數據,計算其到所屬類目的所有聚類中心的距離,并且對這些距離進行升序排序,獲取距離最小的前c個聚類簇標識,c值由系統參數指定。之后在c個聚類簇的內部進行數據遍歷,得到最后的查詢結果。
【技術特征摘要】
1.一種基于分層聚類的均衡圖像聚類方法,其特征在于,包含如下步驟 (1)在建立索引時,首先對圖像特征數據進行初始聚類; (2)對步驟(I)得到的每個聚類簇進行聚類切分操作。具體步驟為檢查該聚類所包含的圖像個數。如果該聚類中心包含的圖像個數小于設置的上限Nttjp,則在聚類內部進行二分聚類。如果二分聚類的結果包含的數據量仍超過Ν_,則對二分聚類的結果迭代此過程。將數據量不超過Ν_的聚類簇中心記錄到聚類中心文件中。之后將該類目所有圖像特征數據按照獲得的聚類中心進行組織。(3)在檢索時,對查詢圖像的特征數據,計算其到所屬類目的所有聚類中心的距離,并且對這些距離進行升序排序,獲取距離最小的前c個聚類簇標識,c值由系統參數指定。之后在c個聚類簇的內部進行數據遍歷,得到最后的查詢結果。2.根據權利要求1所述的聚類方法,其特征在于,所述聚類分2個步驟進行,并且兩個步驟使用相同的視覺特征和距離公...
【專利技術屬性】
技術研發人員:薛亮,孫凱,
申請(專利權)人:杭州淘淘搜科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。