【技術實現步驟摘要】
本專利技術涉及深度學習,尤其涉及一種基于動態雙教師多級蒸餾的迭代剪枝優化方法。
技術介紹
1、隨著深度學習技術的快速發展,模型的尺寸和計算復雜度逐漸成為限制其廣泛應用的瓶頸。為了解決這一問題,模型壓縮技術應運而生。尤其是迭代剪枝技術,通過反復去除模型中不重要的神經元和連接,能夠在保持性能的同時顯著減小模型的規模。然而,盡管迭代剪枝能夠有效地降低模型計算復雜度,但在剪枝過程中模型性能通常會受到較大影響,尤其是在微調階段,如何有效恢復剪枝后喪失的性能成為了一個亟待解決的問題。
2、傳統的微調方法通常采用基于硬標簽的監督學習來恢復模型性能,即通過使用真實標簽對剪枝后的學生模型進行訓練。然而,這種方法存在幾個顯著的缺陷。首先,硬標簽訓練提供的監督信息相對單一,難以在剪枝后有效指導學生模型的學習,尤其是在剪枝過程中,學生模型的容量逐步減小,導致模型訓練變得更加困難。其次,教師模型的容量與學生模型的差距逐漸增大,傳統的知識蒸餾方法通常使用固定的原始教師模型進行指導,而隨著剪枝的進行,學生模型容量不斷縮小,這種固定教師與不斷變化的學生模型之間的容量差異會導致知識蒸餾效果不佳。因此,如何在剪枝后的微調過程中克服這些問題,提高學生模型的性能恢復能力,是當前模型壓縮技術面臨的主要挑戰。
3、知識蒸餾技術作為一種通過遷移教師模型知識到學生模型的技術,在一定程度上能夠彌補這一缺陷。蒸餾過程能夠使學生模型在容量較小的情況下,從教師模型中學習到更豐富的特征表示。然而,傳統的知識蒸餾方法仍然面臨一些問題,特別是在迭代剪枝的場景中。固定
4、為了解決這些問題,近年來動態雙教師機制逐漸成為一個研究熱點。動態雙教師機制的核心思想是引入多個教師模型,通過動態選擇與學生模型容量更接近的教師模型,提升知識遷移的效果。尤其是將原始模型作為副教師,與中間模型作為正教師共同指導學生模型的學習,這一方式不僅能夠提供更多維度的知識信息,還能夠更好地適應剪枝過程中的變化。
5、總的來說,現有的技術方案在迭代剪枝過程中雖然能夠減小模型規模,但由于微調過程中固定教師模型與學生模型之間的容量差異過大,導致剪枝后的模型難以有效恢復性能。
技術實現思路
1、本專利技術提供一種基于動態雙教師多級蒸餾的迭代剪枝優化方法,提出基于動態雙教師的迭代剪枝優化方法,在微調階段通過引入多級蒸餾和動態教師選擇機制,顯著提高了剪枝后的模型性能恢復能力。
2、本專利技術提供了一種基于動態雙教師多級蒸餾的迭代剪枝優化方法,包括以下步驟:
3、s1:訓練一個深度學習模型作為原始模型;
4、s2:使用預設的濾波器重要性評估標準對模型進行剪枝,得到剪枝后的學生模型;
5、s3:從教師模型倉庫中選擇與所述學生模型容量相近的一個教師模型作為正教師,并選擇所述原始模型作為副教師;
6、s4:利用所述正教師和副教師對所述學生模型進行多級蒸餾微調;
7、s5:重復上述剪枝、教師選擇和多級蒸餾微調的步驟,直至達到預設的最大剪枝率。
8、優選的,在步驟s2中,所述使用預設的濾波器重要性評估標準對模型進行剪枝包括:濾波器重要性評估標準采用l1-norm對卷積層中的濾波器進行篩選,以確定各濾波器的重要性并執行剪枝。
9、優選的,在步驟s3中,在每輪剪枝和微調結束后,將當前得到的剪枝并微調后的模型加入教師模型倉庫,以使后續剪枝輪次選擇該模型作為正教師模型。
10、優選的,選擇正教師的條件具體為:學生模型容量與正教師模型容量之間的比值不低于預設閾值,并在該閾值范圍內挑選具有最佳性能的教師模型作為正教師。
11、優選的,在步驟s4中,多級蒸餾微調包括中間特征蒸餾與軟標簽蒸餾,并同時引入真實標簽的交叉熵損失構成多級蒸餾微調的總損失,對所述學生模型進行訓練;其中,淺層網絡的中間特征主要從所述正教師學習,深層未被剪枝的層同時從所述正教師和副教師學習中間特征知識。
12、優選的,所述中間特征蒸餾基于注意力機制,采用注意力損失函數對學生模型進行指導;其中,注意力損失函數具體為:
13、
14、其中,是學生模型第j個向量化的注意力特征;和分別是原始模型的第j個向量化的注意力特征和中間教師模型的第i個向量化的注意力特征;和分別表示學生和教師網絡的激活張量,p表示范數類型。
15、優選的,所述軟標簽蒸餾基于溫度參數的輸出蒸餾技術,將教師模型與學生模型的輸出分布進行對齊,具體包括:
16、采用軟化的softmax函數得到教師模型的輸出概率分布:其中,softmax函數具體為:
17、
18、其中,zs是學生網絡的邏輯輸出;zs為學生網絡的軟化輸出;t為參數溫度,參數溫度控制輸出結果的軟化程度;
19、計算學生模型在相同溫度下的輸出概率分布,并基于kl散度構建軟標簽蒸餾損失;具體為:
20、
21、lmulti_kd=k1ldis(s,t1)+k2ldis(s,t2)
22、其中,zs和分別為學生網絡和教師網絡的軟化輸出;t1與t2分別為正教師與副教師;k1和k2表示各損失權重占比,且k1+k2=1。
23、優選的,所述引入真實標簽的交叉熵損失包括:每個學生模型同時學習真實標簽,并使用交叉熵函數獲得交叉熵損失,用于模型學習給定的數據集;其中,交叉熵函數具體為:
24、lce=crossentorpy(zs,ytrue)
25、其中,zs是將學生網絡邏輯輸出經過softmax后的結果;ytrue是真實標簽。
26、優選的,所述多級蒸餾微調的總損失函數由注意力損失、軟標簽蒸餾損失以及交叉熵損失加權構成,具體為:
27、ltotal=αlce+βlmulti_at+γlmulti_kd
28、其中,α、β和γ表示各損失權重占比,且α+β+γ=1。
29、優選的,在步驟s5中,當累計剪枝率達到所述預設的最大剪枝率,或經過一輪多級蒸餾微調后模型性能恢復程度未達預期閾值時,停止迭代并輸出最終剪枝模型,所述最終剪枝模型兼具較少的模型容量與較優的性能。
30、與現有技術相比,本專利技術的有益效果為:
31、本專利技術公開一種基于動態雙教師多級蒸餾的迭代剪枝優化方法,提出基于動態雙教師的迭代剪枝優化方法,在微調階段通過引入多級蒸餾和動態教師選擇機制,顯著提高了剪枝后的模型性能恢復能力,減小了教師模型和學生模型之間的容量差距,提高了知識蒸餾的效率。
本文檔來自技高網...【技術保護點】
1.一種基于動態雙教師多級蒸餾的迭代剪枝優化方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的一種基于動態雙教師多級蒸餾的迭代剪枝優化方法,其特征在于,在步驟S2中,所述使用預設的濾波器重要性評估標準對模型進行剪枝包括:濾波器重要性評估標準采用L1-norm對卷積層中的濾波器進行篩選,以確定各濾波器的重要性并執行剪枝。
3.根據權利要求1所述的一種基于動態雙教師多級蒸餾的迭代剪枝優化方法,其特征在于,在步驟S3中,在每輪剪枝和微調結束后,將當前得到的剪枝并微調后的模型加入教師模型倉庫,以使后續剪枝輪次選擇該模型作為正教師模型。
4.根據權利要求3所述的一種基于動態雙教師多級蒸餾的迭代剪枝優化方法,其特征在于,選擇正教師的條件具體為:學生模型容量與正教師模型容量之間的比值不低于預設閾值,并在該閾值范圍內挑選具有最佳性能的教師模型作為正教師。
5.根據權利要求4所述的一種基于動態雙教師多級蒸餾的迭代剪枝優化方法,其特征在于,在步驟S4中,多級蒸餾微調包括中間特征蒸餾與軟標簽蒸餾,并同時引入真實標簽的交叉熵損失構成多級蒸餾微調的總
6.根據權利要求5所述的一種基于動態雙教師多級蒸餾的迭代剪枝優化方法,其特征在于,所述中間特征蒸餾基于注意力機制,采用注意力損失函數對學生模型進行指導;其中,注意力損失函數具體為:
7.根據權利要求5所述的一種基于動態雙教師多級蒸餾的迭代剪枝優化方法,其特征在于,所述軟標簽蒸餾基于溫度參數的輸出蒸餾技術,將教師模型與學生模型的輸出分布進行對齊,具體包括:
8.根據權利要求5所述的一種基于動態雙教師多級蒸餾的迭代剪枝優化方法,其特征在于,所述引入真實標簽的交叉熵損失包括:每個學生模型同時學習真實標簽,并使用交叉熵函數獲得交叉熵損失,用于模型學習給定的數據集;其中,交叉熵函數具體為:
9.根據權利要求6~8中任意一項所述的一種基于動態雙教師多級蒸餾的迭代剪枝優化方法,其特征在于,所述多級蒸餾微調的總損失函數由注意力損失、軟標簽蒸餾損失以及交叉熵損失加權構成,具體為:
10.根據權利要求9所述的一種基于動態雙教師多級蒸餾的迭代剪枝優化方法,其特征在于,在步驟S5中,當累計剪枝率達到所述預設的最大剪枝率,或經過一輪多級蒸餾微調后模型性能恢復程度未達預期閾值時,停止迭代并輸出最終剪枝模型,所述最終剪枝模型兼具較少的模型容量與較優的性能。
...【技術特征摘要】
1.一種基于動態雙教師多級蒸餾的迭代剪枝優化方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的一種基于動態雙教師多級蒸餾的迭代剪枝優化方法,其特征在于,在步驟s2中,所述使用預設的濾波器重要性評估標準對模型進行剪枝包括:濾波器重要性評估標準采用l1-norm對卷積層中的濾波器進行篩選,以確定各濾波器的重要性并執行剪枝。
3.根據權利要求1所述的一種基于動態雙教師多級蒸餾的迭代剪枝優化方法,其特征在于,在步驟s3中,在每輪剪枝和微調結束后,將當前得到的剪枝并微調后的模型加入教師模型倉庫,以使后續剪枝輪次選擇該模型作為正教師模型。
4.根據權利要求3所述的一種基于動態雙教師多級蒸餾的迭代剪枝優化方法,其特征在于,選擇正教師的條件具體為:學生模型容量與正教師模型容量之間的比值不低于預設閾值,并在該閾值范圍內挑選具有最佳性能的教師模型作為正教師。
5.根據權利要求4所述的一種基于動態雙教師多級蒸餾的迭代剪枝優化方法,其特征在于,在步驟s4中,多級蒸餾微調包括中間特征蒸餾與軟標簽蒸餾,并同時引入真實標簽的交叉熵損失構成多級蒸餾微調的總損失,對所述學生模型進行訓練;其中,淺層網絡的中間特征主要從所述正教師學習,深層未被剪枝的層同時從所述正教師和副教師學習中...
【專利技術屬性】
技術研發人員:蔡君,胡準一,劉燕,羅建楨,廖麗平,
申請(專利權)人:廣東技術師范大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。