• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種高效低延遲的聲音事件檢測的模型及其訓練方法技術

    技術編號:40702919 閱讀:30 留言:0更新日期:2024-03-22 11:01
    本發明專利技術涉及一種高效低延遲的聲音事件檢測的模型及其訓練方法,采用Vit作為模型骨干,具有更強的信息抽取能力,相較于卷積結構具有更高效的矩陣運算效率,對聲學表征的時域、頻域進行獨立建模,可以根據設備性能靈活選定輸入序列的長度,極大地減小模型的延遲,提升推理效率;采用知識蒸餾的方式進行預訓練,產出小、推理效率高的模型,并通過預訓練使模型獲得抽取聲音事件表征的能力,利用先驗知識使得模型具有良好的泛化性;在預訓練模型的基礎上,在少量目標事件的數據集上進行微調,產出目標事件的檢測模型,而無需進行細粒度標注,省時省力。

    【技術實現步驟摘要】

    本專利技術涉及人工智能,尤其是一種高效低延遲的聲音事件檢測的模型及其訓練方法


    技術介紹

    1、聲音事件檢測(audio?event?detection,aed),主要目的是檢測連續的音頻流之中有無出現目標聲音事件,比如檢測設備故障異常發出的聲音,事故現場發出的聲音,野生動物的聲音等等。具體的,就是使用神經網絡,以一段聲學特征作為輸入,并以該聲學片段中可能包含的聲學事件作為輸出,從而標定音頻流中包含的聲音事件。

    2、現有技術中,業界對于聲音事件檢測的通用做法是將該任務視為分類任務進行訓練并加以優化,為應對復雜多變的應用環境,其骨干網絡尺寸較大,這不利于模型的推理部署。

    3、并且,基于分類的任務的訓練方式不利于模型學習提取通用聲學表征的能力,造成模型的泛化性不足、容易造成誤檢。

    4、此外,對于aed的訓練數據,細粒度(標注事件邊界)的音頻事件標注非常耗時費力,這造成aed的訓練數據制作獲取困難、大量無細粒度標注的訓練數據無法有效利用。


    技術實現思路

    1、為解決上述問題,本專利技術提供一種結構合理的高效低延遲的聲音事件檢測的模型及其訓練方法,從而產出小、推理效率高的模型,極大地減小模型的延遲,提升推理效率,并具有良好的泛化性,無需進行細粒度標注,省時省力。

    2、本專利技術所采用的技術方案如下:

    3、一種高效低延遲的聲音事件檢測的模型,所述模型采用vit作為模型骨干,包括:

    4、輸入音頻對應的聲學特征,利用二維卷積對聲學特征的時間、頻率維度進行降采樣;

    5、將頻率軸與時間軸進行合并,依次送入transformer模型得到幀級別的聲音事件表征;

    6、將幀級別的聲音事件表征在時頻軸取平均,得到段級別的聲音事件表征;

    7、利用分類層將段級別的聲音事件表征投影至n類事件的空間;

    8、將分類層輸出的動態范圍進行歸一化,以表征n類事件在音頻中的概率。

    9、作為上述技術方案的進一步改進:

    10、所述二維卷積的卷積核輸出通道數為192、卷積核為16×16、跳步為16×16。

    11、對降采樣加上位置編碼,以表征時頻輸入的順序關系。

    12、所述transformer模型設置為12層。

    13、將分類層輸出的動態范圍歸一化至[0,1]。

    14、一種高效低延遲的聲音事件檢測的模型的訓練方法,包括教師模型,由教師模型指導學生模型,教師模型與學生模型的輸出均對應每條輸入音頻中可能包含的事件的概率;還包括預訓練數據集,預訓練數據集海量涵蓋所有常見聲音事件的音頻數據,預訓練數據集中標注每條音頻內包含的聲音事件標簽;

    15、所述訓練方法的步驟為:

    16、利用預訓練數據集訓練尺寸較大的教師模型,最小化事件概率與標簽之間的bce;

    17、固定教師模型,蒸餾學生模型,采用kl散度約束教師模型的指導與學生模型輸出的事件概率盡可能一致,采用bce約束學生模型輸出的音頻中的事件概率與標簽盡可能一致;

    18、將目標事件數據加入預訓練數據集,對學生模型進行微調,得到檢測目標事件的模型。

    19、作為上述技術方案的進一步改進:

    20、所述預訓練數據集中有n種事件類別,目標事件中有k種新的事件類別;待微調的學生模型采用vit骨干,vit骨干之后有兩個分支,分支一輸出節點數為n+k類,分支二輸出節點數為k+1類;對兩個分支同時優化,兩個分支的損失函數均為bce。

    21、所述教師模型包含了多重不同結構的分類網絡,教師模型的結構與vit相似或者由純卷積網絡構成。

    22、對送入教師模型的聲學特征進行數據增強,數據增強包括而不限于specaugment、相位翻轉、加噪。

    23、所述教師模型有m個,在指導學生模型時,將m個教師模型輸出的事件概率進行加權。

    24、與現有技術相比,本專利技術具有以下有益效果:

    25、本專利技術的模型采用vit作為模型骨干,具有更強的信息抽取能力,相較于卷積結構具有更高效的矩陣運算效率,對聲學表征的時域、頻域進行獨立建模,可以根據設備性能靈活選定輸入序列的長度,極大地減小模型的延遲,提升推理效率;采用知識蒸餾的方式進行預訓練,產出小、推理效率高的模型,并通過預訓練使模型獲得抽取聲音事件表征的能力,利用先驗知識使得模型具有良好的泛化性;在預訓練模型的基礎上,在少量目標事件的數據集上進行微調,產出目標事件的檢測模型,而無需進行細粒度標注,省時省力。

    本文檔來自技高網...

    【技術保護點】

    1.一種高效低延遲的聲音事件檢測的模型,其特征在于:所述模型采用Vit作為模型骨干,包括:

    2.如權利要求1所述的一種高效低延遲的聲音事件檢測的模型,其特征在于:所述二維卷積的卷積核輸出通道數為192、卷積核為16×16、跳步為16×16。

    3.如權利要求1所述的一種高效低延遲的聲音事件檢測的模型,其特征在于:對降采樣加上位置編碼,以表征時頻輸入的順序關系。

    4.如權利要求1所述的一種高效低延遲的聲音事件檢測的模型,其特征在于:所述transformer模型設置為12層。

    5.如權利要求1所述的一種高效低延遲的聲音事件檢測的模型,其特征在于:將分類層輸出的動態范圍歸一化至[0,1]。

    6.一種高效低延遲的聲音事件檢測的模型的訓練方法,其特征在于:包括教師模型,由教師模型指導學生模型,教師模型與學生模型的輸出均對應每條輸入音頻中可能包含的事件的概率;還包括預訓練數據集,預訓練數據集海量涵蓋所有常見聲音事件的音頻數據,預訓練數據集中標注每條音頻內包含的聲音事件標簽;

    7.如權利要求6所述的一種高效低延遲的聲音事件檢測的模型的訓練方法,其特征在于:所述預訓練數據集中有N種事件類別,目標事件中有K種新的事件類別;待微調的學生模型采用Vit骨干,Vit骨干之后有兩個分支,分支一輸出節點數為N+K類,分支二輸出節點數為K+1類;對兩個分支同時優化,兩個分支的損失函數均為BCE。

    8.如權利要求6所述的一種高效低延遲的聲音事件檢測的模型的訓練方法,其特征在于:所述教師模型包含了多重不同結構的分類網絡,教師模型的結構與Vit相似或者由純卷積網絡構成。

    9.如權利要求6所述的一種高效低延遲的聲音事件檢測的模型的訓練方法,其特征在于:對送入教師模型的聲學特征進行數據增強,數據增強包括而不限于SpecAugment、相位翻轉、加噪。

    10.如權利要求6所述的一種高效低延遲的聲音事件檢測的模型的訓練方法,其特征在于:所述教師模型有M個,在指導學生模型時,將M個教師模型輸出的事件概率進行加權。

    ...

    【技術特征摘要】

    1.一種高效低延遲的聲音事件檢測的模型,其特征在于:所述模型采用vit作為模型骨干,包括:

    2.如權利要求1所述的一種高效低延遲的聲音事件檢測的模型,其特征在于:所述二維卷積的卷積核輸出通道數為192、卷積核為16×16、跳步為16×16。

    3.如權利要求1所述的一種高效低延遲的聲音事件檢測的模型,其特征在于:對降采樣加上位置編碼,以表征時頻輸入的順序關系。

    4.如權利要求1所述的一種高效低延遲的聲音事件檢測的模型,其特征在于:所述transformer模型設置為12層。

    5.如權利要求1所述的一種高效低延遲的聲音事件檢測的模型,其特征在于:將分類層輸出的動態范圍歸一化至[0,1]。

    6.一種高效低延遲的聲音事件檢測的模型的訓練方法,其特征在于:包括教師模型,由教師模型指導學生模型,教師模型與學生模型的輸出均對應每條輸入音頻中可能包含的事件的概率;還包括預訓練數據集,預訓練數據集海量涵蓋所有常見聲音事件的音頻數據,預訓練數據集中標...

    【專利技術屬性】
    技術研發人員:王飛王歡良馬殿昌謝勇
    申請(專利權)人:蘇州奇夢者科技有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 国产精品无码专区AV在线播放| 精品爆乳一区二区三区无码av| 午夜爽喷水无码成人18禁三级| 免费无码VA一区二区三区| 无码人妻精品一区二区三区66| 无码人妻精品一区二区三区99性| 国产精品无码久久久久久久久久| 午夜不卡无码中文字幕影院| 成人h动漫精品一区二区无码| 亚洲精品无码MV在线观看| 久久久久亚洲AV无码网站| 国产精品无码不卡一区二区三区| 亚洲性无码av在线| 国产无码网页在线观看| 亚洲精品无码专区在线| 国产网红主播无码精品| 妖精色AV无码国产在线看| 久久久久无码精品国产| 亚洲AV日韩AV永久无码免下载 | 亚洲无码精品浪潮| 亚洲熟妇无码八V在线播放| 亚洲AV无码一区二区乱子伦| 永久无码精品三区在线4| 亚洲AV无码专区国产乱码不卡| 亚洲V无码一区二区三区四区观看| 无码乱码观看精品久久| 无码毛片内射白浆视频| 亚洲AV成人无码网站| 亚洲色无码专区一区| 中文字幕无码亚洲欧洲日韩| 无码AV中文一区二区三区| 国产aⅴ无码专区亚洲av| 亚洲一区AV无码少妇电影☆| 在线精品自拍无码| 熟妇人妻系列aⅴ无码专区友真希 熟妇人妻系列av无码一区二区 | 无码国产亚洲日韩国精品视频一区二区三区| 少妇精品无码一区二区三区| 亚洲VA中文字幕无码毛片| 亚洲午夜无码久久久久| 少妇无码一区二区三区| 秋霞无码一区二区|