【技術實現步驟摘要】
本專利技術涉及人工智能,尤其是一種高效低延遲的聲音事件檢測的模型及其訓練方法。
技術介紹
1、聲音事件檢測(audio?event?detection,aed),主要目的是檢測連續的音頻流之中有無出現目標聲音事件,比如檢測設備故障異常發出的聲音,事故現場發出的聲音,野生動物的聲音等等。具體的,就是使用神經網絡,以一段聲學特征作為輸入,并以該聲學片段中可能包含的聲學事件作為輸出,從而標定音頻流中包含的聲音事件。
2、現有技術中,業界對于聲音事件檢測的通用做法是將該任務視為分類任務進行訓練并加以優化,為應對復雜多變的應用環境,其骨干網絡尺寸較大,這不利于模型的推理部署。
3、并且,基于分類的任務的訓練方式不利于模型學習提取通用聲學表征的能力,造成模型的泛化性不足、容易造成誤檢。
4、此外,對于aed的訓練數據,細粒度(標注事件邊界)的音頻事件標注非常耗時費力,這造成aed的訓練數據制作獲取困難、大量無細粒度標注的訓練數據無法有效利用。
技術實現思路
1、為解決上述問題,本專利技術提供一種結構合理的高效低延遲的聲音事件檢測的模型及其訓練方法,從而產出小、推理效率高的模型,極大地減小模型的延遲,提升推理效率,并具有良好的泛化性,無需進行細粒度標注,省時省力。
2、本專利技術所采用的技術方案如下:
3、一種高效低延遲的聲音事件檢測的模型,所述模型采用vit作為模型骨干,包括:
4、輸入音頻對應的聲學特征,利用二維卷積對聲
5、將頻率軸與時間軸進行合并,依次送入transformer模型得到幀級別的聲音事件表征;
6、將幀級別的聲音事件表征在時頻軸取平均,得到段級別的聲音事件表征;
7、利用分類層將段級別的聲音事件表征投影至n類事件的空間;
8、將分類層輸出的動態范圍進行歸一化,以表征n類事件在音頻中的概率。
9、作為上述技術方案的進一步改進:
10、所述二維卷積的卷積核輸出通道數為192、卷積核為16×16、跳步為16×16。
11、對降采樣加上位置編碼,以表征時頻輸入的順序關系。
12、所述transformer模型設置為12層。
13、將分類層輸出的動態范圍歸一化至[0,1]。
14、一種高效低延遲的聲音事件檢測的模型的訓練方法,包括教師模型,由教師模型指導學生模型,教師模型與學生模型的輸出均對應每條輸入音頻中可能包含的事件的概率;還包括預訓練數據集,預訓練數據集海量涵蓋所有常見聲音事件的音頻數據,預訓練數據集中標注每條音頻內包含的聲音事件標簽;
15、所述訓練方法的步驟為:
16、利用預訓練數據集訓練尺寸較大的教師模型,最小化事件概率與標簽之間的bce;
17、固定教師模型,蒸餾學生模型,采用kl散度約束教師模型的指導與學生模型輸出的事件概率盡可能一致,采用bce約束學生模型輸出的音頻中的事件概率與標簽盡可能一致;
18、將目標事件數據加入預訓練數據集,對學生模型進行微調,得到檢測目標事件的模型。
19、作為上述技術方案的進一步改進:
20、所述預訓練數據集中有n種事件類別,目標事件中有k種新的事件類別;待微調的學生模型采用vit骨干,vit骨干之后有兩個分支,分支一輸出節點數為n+k類,分支二輸出節點數為k+1類;對兩個分支同時優化,兩個分支的損失函數均為bce。
21、所述教師模型包含了多重不同結構的分類網絡,教師模型的結構與vit相似或者由純卷積網絡構成。
22、對送入教師模型的聲學特征進行數據增強,數據增強包括而不限于specaugment、相位翻轉、加噪。
23、所述教師模型有m個,在指導學生模型時,將m個教師模型輸出的事件概率進行加權。
24、與現有技術相比,本專利技術具有以下有益效果:
25、本專利技術的模型采用vit作為模型骨干,具有更強的信息抽取能力,相較于卷積結構具有更高效的矩陣運算效率,對聲學表征的時域、頻域進行獨立建模,可以根據設備性能靈活選定輸入序列的長度,極大地減小模型的延遲,提升推理效率;采用知識蒸餾的方式進行預訓練,產出小、推理效率高的模型,并通過預訓練使模型獲得抽取聲音事件表征的能力,利用先驗知識使得模型具有良好的泛化性;在預訓練模型的基礎上,在少量目標事件的數據集上進行微調,產出目標事件的檢測模型,而無需進行細粒度標注,省時省力。
本文檔來自技高網...【技術保護點】
1.一種高效低延遲的聲音事件檢測的模型,其特征在于:所述模型采用Vit作為模型骨干,包括:
2.如權利要求1所述的一種高效低延遲的聲音事件檢測的模型,其特征在于:所述二維卷積的卷積核輸出通道數為192、卷積核為16×16、跳步為16×16。
3.如權利要求1所述的一種高效低延遲的聲音事件檢測的模型,其特征在于:對降采樣加上位置編碼,以表征時頻輸入的順序關系。
4.如權利要求1所述的一種高效低延遲的聲音事件檢測的模型,其特征在于:所述transformer模型設置為12層。
5.如權利要求1所述的一種高效低延遲的聲音事件檢測的模型,其特征在于:將分類層輸出的動態范圍歸一化至[0,1]。
6.一種高效低延遲的聲音事件檢測的模型的訓練方法,其特征在于:包括教師模型,由教師模型指導學生模型,教師模型與學生模型的輸出均對應每條輸入音頻中可能包含的事件的概率;還包括預訓練數據集,預訓練數據集海量涵蓋所有常見聲音事件的音頻數據,預訓練數據集中標注每條音頻內包含的聲音事件標簽;
7.如權利要求6所述的一種高效低延遲的聲音事件
8.如權利要求6所述的一種高效低延遲的聲音事件檢測的模型的訓練方法,其特征在于:所述教師模型包含了多重不同結構的分類網絡,教師模型的結構與Vit相似或者由純卷積網絡構成。
9.如權利要求6所述的一種高效低延遲的聲音事件檢測的模型的訓練方法,其特征在于:對送入教師模型的聲學特征進行數據增強,數據增強包括而不限于SpecAugment、相位翻轉、加噪。
10.如權利要求6所述的一種高效低延遲的聲音事件檢測的模型的訓練方法,其特征在于:所述教師模型有M個,在指導學生模型時,將M個教師模型輸出的事件概率進行加權。
...【技術特征摘要】
1.一種高效低延遲的聲音事件檢測的模型,其特征在于:所述模型采用vit作為模型骨干,包括:
2.如權利要求1所述的一種高效低延遲的聲音事件檢測的模型,其特征在于:所述二維卷積的卷積核輸出通道數為192、卷積核為16×16、跳步為16×16。
3.如權利要求1所述的一種高效低延遲的聲音事件檢測的模型,其特征在于:對降采樣加上位置編碼,以表征時頻輸入的順序關系。
4.如權利要求1所述的一種高效低延遲的聲音事件檢測的模型,其特征在于:所述transformer模型設置為12層。
5.如權利要求1所述的一種高效低延遲的聲音事件檢測的模型,其特征在于:將分類層輸出的動態范圍歸一化至[0,1]。
6.一種高效低延遲的聲音事件檢測的模型的訓練方法,其特征在于:包括教師模型,由教師模型指導學生模型,教師模型與學生模型的輸出均對應每條輸入音頻中可能包含的事件的概率;還包括預訓練數據集,預訓練數據集海量涵蓋所有常見聲音事件的音頻數據,預訓練數據集中標...
【專利技術屬性】
技術研發人員:王飛,王歡良,馬殿昌,謝勇,
申請(專利權)人:蘇州奇夢者科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。