The invention discloses a construction method of lexical tree model based on disk, which comprises the following steps: A, the picture is divided into several sample groups; B, extracted feature points all image descriptor of each sample group, descriptors of each sample were aggregated classification, the classification of the sample group each sub sample geometry center vector and the corresponding sub sample group descriptor into the external memory; C, all samples sample geometric center vector is read into memory, the geometric center vector all sub samples of polymer classification, includes K subclass; D, for the K subclass of each subclass of maximum L layers 1 and the number of nodes for K hierarchical aggregation classification, construct complete vocabulary tree model. This method makes full use of the storage space of external memory to avoid excessive requirements for computer memory.
【技術實現步驟摘要】
一種基于磁盤的詞匯樹模型構建方法
本專利技術涉及詞匯樹模型構建方法領域,更具體的說是涉及一種基于磁盤的詞匯樹模型構建方法。
技術介紹
利用詞匯樹對圖片進行搜索,是把從訓練集中提取到的特征進行K-Means聚類,生成的每個簇集定義為一個單詞,每個單詞再關聯一個倒排檔,然后把從查詢圖片中提取到的特征量化到這些單詞當中,利用TF-IDF模型對查詢圖片與庫中圖片的相似度進行評測。利用分層聚類生成的詞匯樹,使特征量化時不必遍歷所有單詞,極大縮短了量化所需時間。在使用詞匯樹進行特征分類前,需要通過訓練得到一個合適的詞匯樹模型,在訓練時,需要將大量的特征點進行分層聚合分類。向樹狀結構模型中添加圖片可以形成基于詞匯樹的圖像數據庫,針對不同數量級別的樹形圖像數據庫,所需要詞匯樹模型大小也不一樣。當數據庫的量級超過百萬張圖片時,訓練可以支持如此大規模的數據庫的詞匯樹模型可能需要近十萬張圖片,這一過程一般需要系統提取數以億級的圖片特征描述子,而相應的硬件系統所需要的內存也將達到上百GB,其對計算機的內存要求高,這是一般的計算機很難以滿足的。
技術實現思路
本專利技術為了解決上述技術問題提供一種基于磁盤的詞匯樹模型構建方法,其在構建用于建立大規模或超大規模圖像數據庫的詞匯樹模型時,可以充分利用外部存儲器的存儲空間,避免對計算機內存提出過大要求。本專利技術通過下述技術方案實現:一種基于磁盤的詞匯樹模型構建方法,包括以下步驟:A、將用于構建詞匯樹模型的圖片按照一定數量分為若干個樣本組;B、分別提取每個樣本組里所有圖片的特征點描述子,根據特征點描述子之間的歐氏距離,分別對各樣本組的特征點描 ...
【技術保護點】
一種基于磁盤的詞匯樹模型構建方法,其特征在于,包括以下步驟:A、將圖片分為若干個樣本組;B、分別提取每個樣本組里所有圖片的特征點描述子,根據特征點描述子之間的歐氏距離,分別對各樣本組的特征點描述子進行聚合分類,分為K類且最大層數為L,將樣本組分類出的每個子樣本的幾何中心向量以及子樣本所對應的描述子組寫入到外部存儲器中,其中,K和L均為大于1的自然數;C、將所有樣本組子樣本的幾何中心向量讀入內存,對所有子樣本的幾何中心向量進行聚合分類,共包含K個子類;D、針對該K個子類,對每一個子類做最大層數為L?1以及子節點數為K的分層聚合分類,完成詞匯樹模型的構建。
【技術特征摘要】
1.一種基于磁盤的詞匯樹模型構建方法,其特征在于,包括以下步驟:A、將圖片分為若干個樣本組;B、分別提取每個樣本組里所有圖片的特征點描述子,根據特征點描述子之間的歐氏距離,分別對各樣本組的特征點描述子進行聚合分類,分為K類且最大層數為L,將樣本組分類出的每個子樣本的幾何中心向量以及子樣本所對應的描述子組寫入到外部存儲器中,其中,K和L均為大于1的自然數;C、將所有樣本組子樣本的幾何中心向量讀入內存,對所有子樣本的幾何中心向量進行聚合分類,共包含K個子類;D、針對該K個子類,對每一個子類做最大層數為L-1以及子節點數為K的分層聚合分類,完成詞...
【專利技術屬性】
技術研發人員:施茂燊,
申請(專利權)人:深圳前海大造科技有限公司,
類型:發明
國別省市:廣東,44
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。