一種基于主動學習的分類器構建方法技術

技術編號：10040232 閱讀：126 留言：0更新日期：2014-05-14 10:50

本發明專利技術公開了一種基于主動學習的分類器構建方法，充分考慮未標注樣本的當前價值和預期價值，挑選高價值的樣本。首先利用樣本的最優和次優類別信息計算樣本的當前價值，根據樣本的當前價值的高低選出一部分價值高的樣本組成候選樣本集，然后計算候選樣本集中樣本的預期價值，結合樣本的當前價值，得到樣本的總價值，最后根據樣本的總價值，挑選高價值的未標注樣本進行標注，添加到訓練樣本集中，更新分類器。根據不同數據集上的實驗結果表明，本發明專利技術的方法能夠在選擇相同數量樣本的條件下，得到較高分類正確率的分類器。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及一種采用計算機進行數據分類的方法，具體涉及基于主動學習方法從大量樣本中選擇生成訓練樣本集，并構建經過訓練的數據分類器的方法。
技術介紹
數據的自動分類是計算機自動處理中的一項重要技術，廣泛應用于數據挖掘、醫學診斷、交通管理、人體特征識別等領域。計算機處理中的數據分類方法，通常包括構建分類器模型并采用訓練樣本集對分類器模型進行訓練，獲得經過訓練的數據分類器。數據分類方法中訓練分類器模型是關鍵的難點，主要是原因是由于分類器模型需要用戶標注大量的數據訓練樣本，而標注大量的數據樣本需要花費大量的人力和時間。且在實際的應用中，有大量的圖像標注工作比較困難，需要專家進行標注。為了解決標注大量樣本困難的問題，主動學習算法已經在機器學習和模式識別領域收到廣大研究學者的廣泛關注和深入研究。在主動學習算法中，不是被動地接受訓練樣本，而是利用一定的準則主動選擇有價值的樣本去訓練學習器。因此，主動學習算法主要通過選擇少量高價值的訓練樣本來提高學習器的分類性能，減少人工標注的工作量，提高效率。主動學習算法主要包括學習和采樣兩部分。學習即是利用得到的訓練樣本學習得到相應的學習器。采樣策略就是從大量的未標注樣本中挑選出少量的有價值的樣本，降低分類算法的標記代價，利用少量的訓練樣本得到高性能的學習器。所以，采樣策略是主動學習算法的關鍵部分。現有技術中，提出了基于樣本最優次優類別（Best?vs?Second?Best，BvSB）的主動學習算法，該算法僅考慮對樣本的不確定性影響較大的部分類別，較好地改進了信息熵的不足。...
一種基于主動學習的分類器構建方法

【技術保護點】
一種基于主動學習的分類器構建方法，根據未標注樣本和數據特征生成訓練樣本集并訓練分類器，包括下列步驟：(1)?從未標注樣本集中隨機選擇20~50個樣本進行人工標注，構建初始訓練樣本集，然后根據初始訓練樣本集的數據特征構建初始分類器H(0)；(2)采用上一步獲得的分類器H(t)計算每一個未標注樣本的BvSB值，BvSB值的計算方法是：，其中，x是未標注樣本集U中的樣本，是樣本屬于最優類別的后驗概率，是樣本屬于次優類別的后驗概率，t是步驟(2)至(6)的循環次數；(3)根據步驟(2)選擇h個BvSB值最小的未標注樣本組成候選樣本集，其中，h為步驟(5)中選擇的樣本個數的2～5倍；(4)計算候選樣本集中每個未標注樣本的總價值，方法是：[4?1]?取候選樣本集中的一個未標注樣本，用該樣本分別結合其最優類別和次優類別標簽更新分類器H(t)，得到臨時分類器和，其中是最優類別標簽，是次優類別標簽；[4?2]?利用得到的兩個臨時分類器計算該未標注樣本的兩個BvSB值，在這兩個BvSB值中較大的BvSB值作為該未標注樣本的期望價值，表達為；[4?3]?基于分類器H(t)得到該未標注樣本的BvSB值，表達為...

【技術特征摘要】
1.一種基于主動學習的分類器構建方法，根據未標注樣本和數據特征生成訓練樣本集并訓練分類器，包括下列步驟：
(1)?從未標注樣本集中隨機選擇20~50個樣本進行人工標注，構建初始訓練樣本集，然后根據初始訓練樣本集的數據特征構建初始分類器H(0)；
(2)采用上一步獲得的分類器H(t)計算每一個未標注樣本的BvSB值，BvSB值的計算方法是：
，
其中，x是未標注樣本集U中的樣本，?是樣本屬于最優類別的后驗概率，是樣本屬于次優類別的后驗概率，t是步驟(2)至(6)的循環次數；
(3)根據步驟(2)選擇h個BvSB值最小的未標注樣本組成候選樣本集，其中，h為步驟(5)中選擇的樣本個數的2～5倍；
(4)計算候選樣本集中每個未標注樣本的總價值，方法是：
[4-1]?取候選樣本集中的一個未標注樣本，用該樣本分別結合其最優類別和次優類別標簽更新分類器H(t)，得到臨時分類器和，其中是最優類別標簽，是次優類別標簽；
[4-2]?利用得到的兩個臨時分類器計算該未標注樣本的兩個BvSB值，在這兩個BvSB值中較大的BvS...

【專利技術屬性】
技術研發人員：吳健，張宇，徐在俊，
申請(專利權)人：蘇州融希信息科技有限公司，
類型：發明
國別省市：江蘇;32

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術