本發明專利技術公開了一種基于主動學習的分類器構建方法,充分考慮未標注樣本的當前價值和預期價值,挑選高價值的樣本。首先利用樣本的最優和次優類別信息計算樣本的當前價值,根據樣本的當前價值的高低選出一部分價值高的樣本組成候選樣本集,然后計算候選樣本集中樣本的預期價值,結合樣本的當前價值,得到樣本的總價值,最后根據樣本的總價值,挑選高價值的未標注樣本進行標注,添加到訓練樣本集中,更新分類器。根據不同數據集上的實驗結果表明,本發明專利技術的方法能夠在選擇相同數量樣本的條件下,得到較高分類正確率的分類器。
【技術實現步驟摘要】
本專利技術涉及一種采用計算機進行數據分類的方法,具體涉及基于主動學習方法從大量樣本中選擇生成訓練樣本集,并構建經過訓練的數據分類器的方法。
技術介紹
數據的自動分類是計算機自動處理中的一項重要技術,廣泛應用于數據挖掘、醫學診斷、交通管理、人體特征識別等領域。計算機處理中的數據分類方法,通常包括構建分類器模型并采用訓練樣本集對分類器模型進行訓練,獲得經過訓練的數據分類器。數據分類方法中訓練分類器模型是關鍵的難點,主要是原因是由于分類器模型需要用戶標注大量的數據訓練樣本,而標注大量的數據樣本需要花費大量的人力和時間。且在實際的應用中,有大量的圖像標注工作比較困難,需要專家進行標注。為了解決標注大量樣本困難的問題,主動學習算法已經在機器學習和模式識別領域收到廣大研究學者的廣泛關注和深入研究。在主動學習算法中,不是被動地接受訓練樣本,而是利用一定的準則主動選擇有價值的樣本去訓練學習器。因此,主動學習算法主要通過選擇少量高價值的訓練樣本來提高學習器的分類性能,減少人工標注的工作量,提高效率。主動學習算法主要包括學習和采樣兩部分。學習即是利用得到的訓練樣本學習得到相應的學習器。采樣策略就是從大量的未標注樣本中挑選出少量的有價值的樣本,降低分類算法的標記代價,利用少量的訓練樣本得到高性能的學習器。所以,采樣策略是主動學習算法的關鍵部分。現有技術中,提出了基于樣本最優次優類別(Best?vs?Second?Best,BvSB)的主動學習算法,該算法僅考慮對樣本的不確定性影響較大的部分類別,較好地改進了信息熵的不足。但是,BvSB算法僅考慮對于當前分類器不確定的樣本,實際使用中,當樣本添加到訓練樣本集后,添加的樣本的不確定性對于更新之后的分類器會產生影響,導致訓練結果不能達到預期目標。因此,采用BvSB算法構建的分類器存在一定的缺陷。
技術實現思路
本專利技術的專利技術目的是提供一種基于主動學習生成訓練樣本集并構建數據分類器的方法,以解決現有技術中訓練樣本集生成中存在的缺陷,獲得高價值的樣本,提高數據分類器的分類性能。為達到上述專利技術目的,本專利技術采用的技術方案是:一種基于主動學習的分類器構建方法,根據未標注樣本和數據特征生成訓練樣本集并訓練分類器,包括下列步驟:(1)?從未標注樣本集中隨機選擇20~50個樣本進行人工標注,構建初始訓練樣本集,然后根據初始訓練樣本集的數據特征構建初始分類器H(0);(2)采用上一步獲得的分類器H(t)計算每一個未標注樣本的BvSB值,BvSB值的計算方法是:,其中,x是未標注樣本集U中的樣本,?是樣本屬于最優類別的后驗概率,是樣本屬于次優類別的后驗概率,t是步驟(2)至(6)的循環次數;(3)根據步驟(2)選擇h個BvSB值最小的未標注樣本組成候選樣本集,其中,h為步驟(5)中選擇的樣本個數的2~5倍;(4)計算候選樣本集中每個未標注樣本的總價值,方法是:[4-1]?取候選樣本集中的一個未標注樣本,用該樣本分別結合其最優類別和次優類別標簽更新分類器H(t),得到臨時分類器和,其中是最優類別標簽,是次優類別標簽;[4-2]?利用得到的兩個臨時分類器計算該未標注樣本的兩個BvSB值,在這兩個BvSB值中較大的BvSB值作為該未標注樣本的期望價值,表達為;[4-3]?基于分類器H(t)得到該未標注樣本的BvSB值,表達為,利用以下公式計算該未標注樣本的總價值;;重復步驟[4-1]至[4-3],獲得候選樣本集中所有未標注樣本的總價值;(5)在候選樣本集中選擇2~10個Opt值最小的未標注樣本進行人工標注,添加到訓練樣本集中,獲得當前訓練樣本集;(6)?利用當前訓練樣本集對分類器H(t)進行訓練更新;(7)?重復步驟(2)至(6),直至滿足分類器訓練的停止條件。上述技術方案中,總樣本數(即初始的未標注樣本數)根據待分類的數據而定,通常為數千至數十萬。初始分類器的構建為現有技術,可以采用現有的任一種分類器構建方法構建,例如,貝葉斯分類器、BP神經網絡分類器、支持向量機,等等。優選的技術方案,步驟(3)中,h為步驟(5)中選擇的樣本個數的2~3倍。候選樣本集過大,會導致速度變慢,因此,上述選擇能有效加快訓練速度。優選的技術方案,步驟(5)中,在候選樣本集中選擇2~5個Opt值最小的未標注樣本進行人工標注。從而在保證分類器訓練速度的同時,有效減少樣本冗余。上述技術方案中,步驟(7)中,分類器訓練的停止條件是,分類正確率≥95%,或者訓練樣本集中的樣本數≥總樣本數×70%。由于上述技術方案運用,本專利技術與現有技術相比具有下列優點:1.本專利技術在計算未標注樣本的價值時,綜合考慮樣本的當前價值和預期價值,充分考慮了未標注樣本對新分類器的價值。2.與基于熵的主動算法相比,本專利技術利用樣本的最優和次優類別信息計算樣本的價值,減少樣本的其他類別信息對樣本價值的影響。3.與BvSB主動算法相比,本專利技術考慮樣本的預期價值,結合當前價值和預期價值,得到未標注樣本的總價值,能夠優化樣本價值的計算方法。4.與BvSB+EER主動算法相比,本專利技術有較低的時間復雜度。5.實驗結果表明,本專利技術的方法能夠在選擇較少樣本的情況下獲得較高分類性能的分類器。附圖說明圖1是本專利技術實施例中基于最大分類優化主動學習算法框架圖。圖2是實施例中各種方法在人工數據集上實驗結果比較圖;圖3是實施例中各種方法在UCI標準數據集上Letter數據集的實驗結果比較圖;?圖4是實施例中各種方法在UCI標準數據集上Pen-Digits數據集的實驗結果比較圖;圖5是實施例中各種方法在高維數據集上的實驗結果比較圖。具體實施方式下面結合附圖及實施例對本專利技術作進一步描述:實施例一:參見圖1所示,一種基于主動學習的分類器構建方法,根據未標注樣本和數據特征生成訓練樣本集并訓練分類器,包括下列步驟:(1)?從未標注樣本集中隨機選擇20~50個樣本進行人工標注,構建初始訓練樣本集,然后根據初始訓練樣本集的數據特征構建初始分類器H(0);(2)采用上一步獲得的分類器H(t)計算每一個未標注樣本的BvSB值,BvSB值的計算方法是:,其中,x是未標注樣本集U中的樣本,?是樣本屬于最優類別的后驗概率,是樣本屬于次優類別的后驗概率,t是步驟(2)至(6)的循環次數;(3)根據步驟(2)選擇h個BvSB值最小的未標注樣本組成候選樣本集,其中,h為步驟(5)中選擇的樣本個數的2~5倍;(4)計算候選樣本集中每個未標注樣本的總價值,方法是:[4-1]?取候選樣本集中的一個未標注樣本,用該樣本分別結合其最優類別和次優類別標簽更新分類器H(t),得到臨時分類器和,其中是最優類別標簽,是次優類別標簽;[4-2]?利用得到的兩個臨時分類器計算該未標注樣本的兩個BvSB值,在這兩個BvSB值中較大的BvSB值本文檔來自技高網...

【技術保護點】
一種基于主動學習的分類器構建方法,根據未標注樣本和數據特征生成訓練樣本集并訓練分類器,包括下列步驟:(1)?從未標注樣本集中隨機選擇20~50個樣本進行人工標注,構建初始訓練樣本集,然后根據初始訓練樣本集的數據特征構建初始分類器H(0);(2)采用上一步獲得的分類器H(t)計算每一個未標注樣本的BvSB值,BvSB值的計算方法是:,其中,x是未標注樣本集U中的樣本,是樣本屬于最優類別的后驗概率,是樣本屬于次優類別的后驗概率,t是步驟(2)至(6)的循環次數;(3)根據步驟(2)選擇h個BvSB值最小的未標注樣本組成候選樣本集,其中,h為步驟(5)中選擇的樣本個數的2~5倍;(4)計算候選樣本集中每個未標注樣本的總價值,方法是:[4?1]?取候選樣本集中的一個未標注樣本,用該樣本分別結合其最優類別和次優類別標簽更新分類器H(t),得到臨時分類器和,其中是最優類別標簽,是次優類別標簽;[4?2]?利用得到的兩個臨時分類器計算該未標注樣本的兩個BvSB值,在這兩個BvSB值中較大的BvSB值作為該未標注樣本的期望價值,表達為;[4?3]?基于分類器H(t)得到該未標注樣本的BvSB值,表達為,利用以下公式計算該未標注樣本的總價值;;重復步驟[4?1]至[4?3],獲得候選樣本集中所有未標注樣本的總價值;(5)在候選樣本集中選擇2~10個Opt值最小的未標注樣本進行人工標注,添加到訓練樣本集中,獲得當前訓練樣本集;(6)?利用當前訓練樣本集對分類器H(t)進行訓練更新;(7)?重復步驟(2)至(6),直至滿足分類器訓練的停止條件。...
【技術特征摘要】
1.一種基于主動學習的分類器構建方法,根據未標注樣本和數據特征生成訓練樣本集并訓練分類器,包括下列步驟:
(1)?從未標注樣本集中隨機選擇20~50個樣本進行人工標注,構建初始訓練樣本集,然后根據初始訓練樣本集的數據特征構建初始分類器H(0);
(2)采用上一步獲得的分類器H(t)計算每一個未標注樣本的BvSB值,BvSB值的計算方法是:
,
其中,x是未標注樣本集U中的樣本,?是樣本屬于最優類別的后驗概率,是樣本屬于次優類別的后驗概率,t是步驟(2)至(6)的循環次數;
(3)根據步驟(2)選擇h個BvSB值最小的未標注樣本組成候選樣本集,其中,h為步驟(5)中選擇的樣本個數的2~5倍;
(4)計算候選樣本集中每個未標注樣本的總價值,方法是:
[4-1]?取候選樣本集中的一個未標注樣本,用該樣本分別結合其最優類別和次優類別標簽更新分類器H(t),得到臨時分類器和,其中是最優類別標簽,是次優類別標簽;
[4-2]?利用得到的兩個臨時分類器計算該未標注樣本的兩個BvSB值,在這兩個BvSB值中較大的BvS...
【專利技術屬性】
技術研發人員:吳健,張宇,徐在俊,
申請(專利權)人:蘇州融希信息科技有限公司,
類型:發明
國別省市:江蘇;32
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。