• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于磁盤的詞匯樹模型構建方法技術

    技術編號:15691039 閱讀:122 留言:0更新日期:2017-06-24 03:55
    本發明專利技術公開了一種基于磁盤的詞匯樹模型構建方法,包括以下步驟:A、將圖片分為若干個樣本組;B、分別提取每個樣本組里所有圖片的特征點描述子,分別對各樣本組的特征點描述子進行聚合分類,將樣本組分類出的每個子樣本的幾何中心向量以及子樣本所對應的描述子組寫入到外部存儲器中;C、將所有樣本組子樣本的幾何中心向量讀入內存,對所有子樣本的幾何中心向量進行聚合分類,共包含K個子類;D、針對該K個子類,對每一個子類做最大層數為L?1以及子節點數為K的分層聚合分類,完成詞匯樹模型的構建。采用該方法其充分利用外部存儲器的存儲空間,避免對計算機內存提出過大要求。

    A method of building a vocabulary tree model based on disk

    The invention discloses a construction method of lexical tree model based on disk, which comprises the following steps: A, the picture is divided into several sample groups; B, extracted feature points all image descriptor of each sample group, descriptors of each sample were aggregated classification, the classification of the sample group each sub sample geometry center vector and the corresponding sub sample group descriptor into the external memory; C, all samples sample geometric center vector is read into memory, the geometric center vector all sub samples of polymer classification, includes K subclass; D, for the K subclass of each subclass of maximum L layers 1 and the number of nodes for K hierarchical aggregation classification, construct complete vocabulary tree model. This method makes full use of the storage space of external memory to avoid excessive requirements for computer memory.

    【技術實現步驟摘要】
    一種基于磁盤的詞匯樹模型構建方法
    本專利技術涉及詞匯樹模型構建方法領域,更具體的說是涉及一種基于磁盤的詞匯樹模型構建方法。
    技術介紹
    利用詞匯樹對圖片進行搜索,是把從訓練集中提取到的特征進行K-Means聚類,生成的每個簇集定義為一個單詞,每個單詞再關聯一個倒排檔,然后把從查詢圖片中提取到的特征量化到這些單詞當中,利用TF-IDF模型對查詢圖片與庫中圖片的相似度進行評測。利用分層聚類生成的詞匯樹,使特征量化時不必遍歷所有單詞,極大縮短了量化所需時間。在使用詞匯樹進行特征分類前,需要通過訓練得到一個合適的詞匯樹模型,在訓練時,需要將大量的特征點進行分層聚合分類。向樹狀結構模型中添加圖片可以形成基于詞匯樹的圖像數據庫,針對不同數量級別的樹形圖像數據庫,所需要詞匯樹模型大小也不一樣。當數據庫的量級超過百萬張圖片時,訓練可以支持如此大規模的數據庫的詞匯樹模型可能需要近十萬張圖片,這一過程一般需要系統提取數以億級的圖片特征描述子,而相應的硬件系統所需要的內存也將達到上百GB,其對計算機的內存要求高,這是一般的計算機很難以滿足的。
    技術實現思路
    本專利技術為了解決上述技術問題提供一種基于磁盤的詞匯樹模型構建方法,其在構建用于建立大規模或超大規模圖像數據庫的詞匯樹模型時,可以充分利用外部存儲器的存儲空間,避免對計算機內存提出過大要求。本專利技術通過下述技術方案實現:一種基于磁盤的詞匯樹模型構建方法,包括以下步驟:A、將用于構建詞匯樹模型的圖片按照一定數量分為若干個樣本組;B、分別提取每個樣本組里所有圖片的特征點描述子,根據特征點描述子之間的歐氏距離,分別對各樣本組的特征點描述子進行聚合分類,分為K類且最大層數為L,將樣本組分類出的每個子樣本的幾何中心向量以及子樣本所對應的描述子組寫入到外部存儲器中,其中,K和L均為大于1的自然數;C、將所有樣本組子樣本的幾何中心向量讀入內存,對所有子樣本的幾何中心向量進行聚合分類,共包含K個子類;D、針對該K個子類,對每一個子類做最大層數為L-1以及子節點數為K的分層聚合分類,完成詞匯樹模型的構建。在步驟C中,將每一個子類自己本身的幾何中心向量,以及分到這個子類中的所有幾何中心向量對應的描述子檔的存儲路徑寫入到一個子類檔中,產生K個子類檔并存儲到外部存儲器上。所述步驟D具體為:讀入一個子類檔,按照子類檔中所記錄的描述子文件的存儲路徑,讀入所有屬于這個子類的描述子,對該子類做最大層數為L-1以及子節點數為K的分層聚合分類,按照此步驟對每一個子類檔做相同操作后將分層聚合分類的結果匯總。本專利技術與現有技術相比,具有如下的優點和有益效果:本專利技術在在構建用于建立大規模或超大規模圖像數據庫的詞匯樹模型時,可以充分利用外部存儲器的存儲空間,減小內存的負荷,避免對計算機內存提出過大要求。具體實施方式為使本專利技術的目的、技術方案和優點更加清楚明白,下面結合實施例,對本專利技術作進一步的詳細說明,本專利技術的示意性實施方式及其說明僅用于解釋本專利技術,并不作為對本專利技術的限定。實施例1A、將圖片分為若干個樣本組;B、分別提取每個樣本組里所有圖片的特征點描述子,根據特征點描述子之間的歐氏距離,分別對各樣本組的特征點描述子進行聚合分類,分為K類且最大層數為L,將樣本組分類出的每個子樣本的幾何中心向量以及子樣本所對應的描述子組寫入到外部存儲器中,其中,K和L均為大于1的自然數;C、將所有樣本組子樣本的幾何中心向量讀入內存,對所有子樣本的幾何中心向量進行聚合分類,共包含K個子類;D、針對該K個子類,對每一個子類做最大層數為L-1以及子節點數為K的分層聚合分類,完成詞匯樹模型的構建。針對上述實施例,現例舉一詳細實施方式進行說明。實施例2現以45000張照片進行詳細說明:將這45000張圖片按照每組1500張隨機分為30組;提取一組圖片的所有特征點描述子,根據特征點描述子之間的歐氏距離,對該組的特征點描述子進行聚合分類,分為K類,譬如90類,并將該樣本組分類出的每個子樣本的幾何中心向量以及子樣本所對應的描述子組寫入到一個文件放在外部存儲器上,譬如本地磁盤、硬盤、光盤、U盤等;按照該步驟分別對30組照片依此進行處理,此時,在外部存儲器上一共會產生30*K個描述子檔;將30*K個描述子檔所存儲的描述子幾何中心向量讀入內存,并對這些幾何中心向量做聚合分類,分成K個子類;將每一個子類自己本身的幾何中心向量,以及分到這個子類中的所有幾何中心向量對應的描述子檔的存儲路徑寫入到一個子類檔中,產生K個子類檔并存儲到外部存儲器上,此時完成了對45000張圖片中所有的特征點描述子的第一次聚合分類;讀入一個子類檔,按照子類檔中所記錄的描述子文件的存儲路徑,讀入所有屬于這個子類的描述子,由于第一層分類已經完成,故再對這一子類做最大層數為L-1,最大子節點數為K的分層聚合分類;對每一個子類檔做相同操作,將分層聚合分類的結果匯總即可得到詞匯樹的模型。以上所述的具體實施方式,對本專利技術的目的、技術方案和有益效果進行了進一步詳細說明,所應理解的是,以上所述僅為本專利技術的具體實施方式而已,并不用于限定本專利技術的保護范圍,凡在本專利技術的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本專利技術的保護范圍之內。本文檔來自技高網...

    【技術保護點】
    一種基于磁盤的詞匯樹模型構建方法,其特征在于,包括以下步驟:A、將圖片分為若干個樣本組;B、分別提取每個樣本組里所有圖片的特征點描述子,根據特征點描述子之間的歐氏距離,分別對各樣本組的特征點描述子進行聚合分類,分為K類且最大層數為L,將樣本組分類出的每個子樣本的幾何中心向量以及子樣本所對應的描述子組寫入到外部存儲器中,其中,K和L均為大于1的自然數;C、將所有樣本組子樣本的幾何中心向量讀入內存,對所有子樣本的幾何中心向量進行聚合分類,共包含K個子類;D、針對該K個子類,對每一個子類做最大層數為L?1以及子節點數為K的分層聚合分類,完成詞匯樹模型的構建。

    【技術特征摘要】
    1.一種基于磁盤的詞匯樹模型構建方法,其特征在于,包括以下步驟:A、將圖片分為若干個樣本組;B、分別提取每個樣本組里所有圖片的特征點描述子,根據特征點描述子之間的歐氏距離,分別對各樣本組的特征點描述子進行聚合分類,分為K類且最大層數為L,將樣本組分類出的每個子樣本的幾何中心向量以及子樣本所對應的描述子組寫入到外部存儲器中,其中,K和L均為大于1的自然數;C、將所有樣本組子樣本的幾何中心向量讀入內存,對所有子樣本的幾何中心向量進行聚合分類,共包含K個子類;D、針對該K個子類,對每一個子類做最大層數為L-1以及子節點數為K的分層聚合分類,完成詞...

    【專利技術屬性】
    技術研發人員:施茂燊
    申請(專利權)人:深圳前海大造科技有限公司
    類型:發明
    國別省市:廣東,44

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 国产丝袜无码一区二区视频| 狠狠精品干练久久久无码中文字幕 | 无码国产精成人午夜视频一区二区 | 精品人体无码一区二区三区| 亚洲综合无码AV一区二区| 亚洲AV成人无码天堂| 少妇无码AV无码一区| 无码人妻aⅴ一区二区三区| 国产精品无码A∨精品影院| 无码专区国产精品视频| 精品亚洲成在人线AV无码| H无码精品3D动漫在线观看| 无码熟熟妇丰满人妻啪啪软件| 无码人妻久久一区二区三区免费 | 亚洲最大中文字幕无码网站| 精品久久久无码中文字幕边打电话| 久久久久成人精品无码| 亚洲av中文无码字幕色不卡| 亚洲AV无码国产丝袜在线观看| 一本大道无码日韩精品影视 | 一本一道av中文字幕无码| 无码少妇一区二区三区芒果| 日韩免费无码一区二区三区 | 亚洲AV综合色区无码一二三区| 久久久久亚洲精品无码系列| 亚洲中文字幕无码日韩| 亚洲AV无码之日韩精品| 亚洲AV无码专区在线厂| 亚洲爆乳少妇无码激情| 寂寞少妇做spa按摩无码| 亚洲乱人伦中文字幕无码| 亚洲爆乳无码一区二区三区| 在线观看片免费人成视频无码 | 一级片无码中文字幕乱伦| 亚洲AV日韩AV高潮无码专区| 亚洲精品无码久久久久久| 久久久亚洲精品无码| 日韩精品人妻系列无码专区免费 | 伊人天堂av无码av日韩av| 无码人妻精品一区二区三区99仓本 | 亚洲AV永久无码精品一福利|