The invention relates to an audio segmentation method and system. The method comprises the following steps: reading each audio frame of the audio data to be segmented, extracting features of each audio frame, obtaining corresponding audio signal features of each audio frame; inputting the features of the audio signal into a pre-trained audio classifier, and calculating the corresponding sound of the audio signal features separately. Frequency frames belong to the probability values of each audio category. According to the probability values, the target audio categories of the audio frames corresponding to the audio signal characteristics are acquired, and the audio data are segmented according to the target audio categories of each audio frame. The above audio segmentation method and system can divide the audio data into small fragments with high accuracy.
【技術(shù)實(shí)現(xiàn)步驟摘要】
音頻分割方法和系統(tǒng)
本專利技術(shù)涉及音頻信號處理
,特別是涉及一種音頻分割方法和系統(tǒng)。
技術(shù)介紹
原始的音頻數(shù)據(jù)不利于用戶查看、檢索。為了解決這一問題,有一種方式是對音頻數(shù)據(jù)進(jìn)行音頻分割。通過音頻分割,可以將音頻分割為細(xì)小的片段,而每個片段代表的意義不同,如連續(xù)的背景聲、解說者聲、觀眾的歡呼聲等,可用于后續(xù)建立有效的檢索系統(tǒng)。傳統(tǒng)的音頻分割方式大多分為兩種,一種是通過提取音頻的長時和短時特征,將音頻特征分為SVM(SupportVectorMachine,支持向量機(jī)),或高斯混合模型等類別;另一種是提取音頻特征,將音頻劃分為目標(biāo)音頻和靜音,再將目標(biāo)音頻經(jīng)過高斯混合模型,分為目標(biāo)音樂和非目標(biāo)音樂。然而,上述音頻分割方式都是基于自主設(shè)計的音頻特征對音頻數(shù)據(jù)進(jìn)行音頻分割,由于設(shè)計規(guī)則受限,音頻分割精確度較低。
技術(shù)實(shí)現(xiàn)思路
基于此,有必要針對音頻分割精確度較低的問題,提供一種音頻分割方法和系統(tǒng)。一種音頻分割方法,包括以下步驟:讀取待分割的音頻數(shù)據(jù)的各個音頻幀,分別對各個音頻幀進(jìn)行特征提取,得到各個音頻幀對應(yīng)的音頻信號特征;將所述音頻信號特征輸入到預(yù)先訓(xùn)練的音頻類別分類器,分別計算所述音頻信號特征對應(yīng)的音頻幀屬于各個音頻類別的概率值,根據(jù)所述概率值獲取所述音頻信號特征對應(yīng)的音頻幀所屬的目標(biāo)音頻類別;根據(jù)各個音頻幀所屬的目標(biāo)音頻類別對所述音頻數(shù)據(jù)進(jìn)行音頻分割。一種音頻分割系統(tǒng),包括:特征提取模塊,用于讀取待分割的音頻數(shù)據(jù)的各個音頻幀,分別對各個音頻幀進(jìn)行特征提取,得到各個音頻幀對應(yīng)的音頻信號特征;類別劃分模塊,用于將所述音頻信號特征輸入到預(yù)先訓(xùn)練的音頻類別分類器,分 ...
【技術(shù)保護(hù)點(diǎn)】
1.一種音頻分割方法,其特征在于,包括以下步驟:讀取待分割的音頻數(shù)據(jù)的各個音頻幀,分別對各個音頻幀進(jìn)行特征提取,得到各個音頻幀對應(yīng)的音頻信號特征;將所述音頻信號特征輸入到預(yù)先訓(xùn)練的音頻類別分類器,分別計算所述音頻信號特征對應(yīng)的音頻幀屬于各個音頻類別的概率值,根據(jù)所述概率值獲取所述音頻信號特征對應(yīng)的音頻幀所屬的目標(biāo)音頻類別;根據(jù)各個音頻幀所屬的目標(biāo)音頻類別對所述音頻數(shù)據(jù)進(jìn)行音頻分割。
【技術(shù)特征摘要】
1.一種音頻分割方法,其特征在于,包括以下步驟:讀取待分割的音頻數(shù)據(jù)的各個音頻幀,分別對各個音頻幀進(jìn)行特征提取,得到各個音頻幀對應(yīng)的音頻信號特征;將所述音頻信號特征輸入到預(yù)先訓(xùn)練的音頻類別分類器,分別計算所述音頻信號特征對應(yīng)的音頻幀屬于各個音頻類別的概率值,根據(jù)所述概率值獲取所述音頻信號特征對應(yīng)的音頻幀所屬的目標(biāo)音頻類別;根據(jù)各個音頻幀所屬的目標(biāo)音頻類別對所述音頻數(shù)據(jù)進(jìn)行音頻分割。2.根據(jù)權(quán)利要求1所述的音頻分割方法,其特征在于,在將所述音頻信號特征輸入到預(yù)先訓(xùn)練的音頻類別分類器之前,還包括以下步驟:將預(yù)先獲取的樣本音頻數(shù)據(jù)劃分為多個樣本音頻幀;分別對各個樣本音頻幀進(jìn)行特征提取,得到各個樣本音頻幀對應(yīng)的樣本音頻信號特征;根據(jù)所述樣本音頻信號特征以及各個多個樣本音頻幀所屬的類別對深度神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到音頻類別分類器。3.根據(jù)權(quán)利要求1所述的音頻分割方法,其特征在于,在讀取待分割的音頻數(shù)據(jù)的各個音頻幀之前,還包括以下步驟:對所述音頻數(shù)據(jù)進(jìn)行重疊分幀,得到所述音頻數(shù)據(jù)的各個音頻幀;其中,進(jìn)行重疊分幀時,將所述音頻數(shù)據(jù)的前一幀的末尾部分作為所述音頻數(shù)據(jù)的后一幀的起始部分。4.根據(jù)權(quán)利要求2所述的音頻分割方法,其特征在于,根據(jù)所述概率值獲取所述音頻信號特征對應(yīng)的音頻幀所屬的目標(biāo)音頻類別的步驟包括:根據(jù)各個音頻類別之間的轉(zhuǎn)移概率對所述概率值進(jìn)行平滑處理;根據(jù)平滑處理后的概率值獲取所述音頻信號特征對應(yīng)的音頻幀所屬的目標(biāo)音頻類別。5.根據(jù)權(quán)利要求4所述的音頻分割方法,其特征在于,根據(jù)各個音頻類別之間的轉(zhuǎn)移概率對所述概率值進(jìn)行平滑處理的步驟包括:根據(jù)如下方式對所述概率值進(jìn)行平滑處理:式中,Si和Sj分別表示第i個類別和第j個類別,xt為t時刻任意一個音頻幀的音頻信號特征,p'(Si/xt)為平滑處理后xt屬于類別Si的概率值,p(Sj/xt)為平滑處理前xt屬于類別Sj的概率值,αj,i表示從第j個類別切換到第i個類別的轉(zhuǎn)移概率。6.根據(jù)權(quán)利要求4所述的音頻分割方法,其特征在于,在根據(jù)各個音頻類別之間的轉(zhuǎn)移概率對所述概率值...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:雷延強(qiáng),
申請(專利權(quán))人:廣州視源電子科技股份有限公司,
類型:發(fā)明
國別省市:廣東,44
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。