• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    音頻分割方法和系統(tǒng)技術(shù)方案

    技術(shù)編號:20007020 閱讀:34 留言:0更新日期:2019-01-05 18:39
    本發(fā)明專利技術(shù)涉及一種音頻分割方法和系統(tǒng),方法包括以下步驟:讀取待分割的音頻數(shù)據(jù)的各個音頻幀,分別對各個音頻幀進(jìn)行特征提取,得到各個音頻幀對應(yīng)的音頻信號特征;將所述音頻信號特征輸入到預(yù)先訓(xùn)練的音頻類別分類器,分別計算所述音頻信號特征對應(yīng)的音頻幀屬于各個音頻類別的概率值,根據(jù)所述概率值獲取所述音頻信號特征對應(yīng)的音頻幀所屬的目標(biāo)音頻類別;根據(jù)各個音頻幀所屬的目標(biāo)音頻類別對所述音頻數(shù)據(jù)進(jìn)行音頻分割。上述音頻分割方法和系統(tǒng)可以將音頻數(shù)據(jù)分割為細(xì)小的片段,音頻分割精確度高。

    Audio Segmentation Method and System

    The invention relates to an audio segmentation method and system. The method comprises the following steps: reading each audio frame of the audio data to be segmented, extracting features of each audio frame, obtaining corresponding audio signal features of each audio frame; inputting the features of the audio signal into a pre-trained audio classifier, and calculating the corresponding sound of the audio signal features separately. Frequency frames belong to the probability values of each audio category. According to the probability values, the target audio categories of the audio frames corresponding to the audio signal characteristics are acquired, and the audio data are segmented according to the target audio categories of each audio frame. The above audio segmentation method and system can divide the audio data into small fragments with high accuracy.

    【技術(shù)實(shí)現(xiàn)步驟摘要】
    音頻分割方法和系統(tǒng)
    本專利技術(shù)涉及音頻信號處理
    ,特別是涉及一種音頻分割方法和系統(tǒng)。
    技術(shù)介紹
    原始的音頻數(shù)據(jù)不利于用戶查看、檢索。為了解決這一問題,有一種方式是對音頻數(shù)據(jù)進(jìn)行音頻分割。通過音頻分割,可以將音頻分割為細(xì)小的片段,而每個片段代表的意義不同,如連續(xù)的背景聲、解說者聲、觀眾的歡呼聲等,可用于后續(xù)建立有效的檢索系統(tǒng)。傳統(tǒng)的音頻分割方式大多分為兩種,一種是通過提取音頻的長時和短時特征,將音頻特征分為SVM(SupportVectorMachine,支持向量機(jī)),或高斯混合模型等類別;另一種是提取音頻特征,將音頻劃分為目標(biāo)音頻和靜音,再將目標(biāo)音頻經(jīng)過高斯混合模型,分為目標(biāo)音樂和非目標(biāo)音樂。然而,上述音頻分割方式都是基于自主設(shè)計的音頻特征對音頻數(shù)據(jù)進(jìn)行音頻分割,由于設(shè)計規(guī)則受限,音頻分割精確度較低。
    技術(shù)實(shí)現(xiàn)思路
    基于此,有必要針對音頻分割精確度較低的問題,提供一種音頻分割方法和系統(tǒng)。一種音頻分割方法,包括以下步驟:讀取待分割的音頻數(shù)據(jù)的各個音頻幀,分別對各個音頻幀進(jìn)行特征提取,得到各個音頻幀對應(yīng)的音頻信號特征;將所述音頻信號特征輸入到預(yù)先訓(xùn)練的音頻類別分類器,分別計算所述音頻信號特征對應(yīng)的音頻幀屬于各個音頻類別的概率值,根據(jù)所述概率值獲取所述音頻信號特征對應(yīng)的音頻幀所屬的目標(biāo)音頻類別;根據(jù)各個音頻幀所屬的目標(biāo)音頻類別對所述音頻數(shù)據(jù)進(jìn)行音頻分割。一種音頻分割系統(tǒng),包括:特征提取模塊,用于讀取待分割的音頻數(shù)據(jù)的各個音頻幀,分別對各個音頻幀進(jìn)行特征提取,得到各個音頻幀對應(yīng)的音頻信號特征;類別劃分模塊,用于將所述音頻信號特征輸入到預(yù)先訓(xùn)練的音頻類別分類器,分別計算所述音頻信號特征對應(yīng)的音頻幀屬于各個音頻類別的概率值,根據(jù)所述概率值獲取所述音頻信號特征對應(yīng)的音頻幀所屬的目標(biāo)音頻類別;音頻分割模塊,用于根據(jù)各個音頻幀所屬的目標(biāo)音頻類別對所述音頻數(shù)據(jù)進(jìn)行音頻分割。上述音頻分割方法和系統(tǒng),將從音頻數(shù)據(jù)的各個音頻幀提取的音頻信號特征輸入到分類器,得到各個音頻信號特征對應(yīng)的音頻幀屬于各個音頻類別的概率值,根據(jù)所述概率值獲取所述音頻信號特征對應(yīng)的音頻幀所屬的目標(biāo)音頻類別,在得到全部音頻幀所屬的音頻類別之后,根據(jù)各個音頻幀所屬的目標(biāo)音頻類別對音頻數(shù)據(jù)進(jìn)行音頻分割,可以將音頻數(shù)據(jù)分割為細(xì)小的片段,音頻分割精確度高。附圖說明圖1為一個實(shí)施例的音頻分割方法流程圖;圖2為一個實(shí)施例的音頻數(shù)據(jù)示意圖;圖3為一個實(shí)施例的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖;圖4為一個實(shí)施例的音頻分割方法的總體流執(zhí)行程圖;圖5為一個實(shí)施例的音頻分割系統(tǒng)的結(jié)構(gòu)框圖。具體實(shí)施方式下面結(jié)合附圖對本專利技術(shù)的技術(shù)方案進(jìn)行說明。如圖1所示,本專利技術(shù)提供一種音頻分割方法,可包括以下步驟:S1,讀取待分割的音頻數(shù)據(jù)的各個音頻幀,分別對各個音頻幀進(jìn)行特征提取,得到各個音頻幀對應(yīng)的音頻信號特征;可先獲取一段待分割的音頻數(shù)據(jù),一段音頻數(shù)據(jù)可以包括多個音頻幀,可以分別對每個音頻幀進(jìn)行特征提取,得到各個音頻幀對應(yīng)的音頻信號特征,這里說的音頻信號特征可以是現(xiàn)有的典型的音頻信號特征(例如頻譜系數(shù)等),也可以是其他類型的音頻信號特征。進(jìn)行特征提取之前,可以首先將一段音頻數(shù)據(jù)劃分為多個音頻幀,劃分的方式可以采用重疊分幀方式,如圖2所示,即,將所述音頻數(shù)據(jù)的前一幀的末尾部分(可以是所述音頻數(shù)據(jù)的前一幀的末尾N毫秒)作為所述音頻數(shù)據(jù)的后一幀的起始部分(可以是所述音頻數(shù)據(jù)的后一幀的起始N毫秒),N為正整數(shù),且N小于一幀音頻幀的總長度。經(jīng)過重疊分幀,可以得到一段音頻數(shù)據(jù)的多個音頻幀。進(jìn)行重疊分幀后,可以對劃分出來的每個幀分別進(jìn)行特征提取。由于音頻信號是不平穩(wěn)信號,但在短時范圍內(nèi)可以認(rèn)為是平穩(wěn)的(特征變化也小),如果語音分幀時,剛好劃分到聲母-韻母過渡,或者是音節(jié)-音節(jié)的過渡,那么前后兩幀對應(yīng)的特征變化就很大,不利用于當(dāng)做平穩(wěn)信號處理了,所以為了使特征進(jìn)行平滑的變動,在采用短時特征對音頻進(jìn)行分析時,需要合理地選擇每一時刻下的過渡,帶少量的重疊是比較合理的,可以避免出現(xiàn)前后兩幀特征變化較大的情況。S2,將所述音頻信號特征輸入到預(yù)先訓(xùn)練的音頻類別分類器,分別計算所述音頻信號特征對應(yīng)的音頻幀屬于各個音頻類別的概率值,根據(jù)所述概率值獲取所述音頻信號特征對應(yīng)的音頻幀所屬的目標(biāo)音頻類別;本專利技術(shù)實(shí)施例中的音頻類別可以劃分為有效音頻、背景噪聲音頻、干擾音頻等類別。以體育音頻為例,有效音頻可以是解說員的解說聲,背景噪聲音頻可以指連續(xù)的背景聲,干擾音頻可以是觀眾的歡呼聲。上述說明僅作為一個例子,實(shí)際情況不限于此。經(jīng)過上述劃分之后的音頻數(shù)據(jù),可用于后續(xù)建立有效的檢索系統(tǒng)。假設(shè)步驟S1中的音頻數(shù)據(jù)劃分為音頻幀{F1,F2,…,Fn}(n為音頻幀的總數(shù)),對應(yīng)的音頻信號特征為{x1,x2,…,xn},其中,xi(1≤i≤n)為音頻幀F(xiàn)i對應(yīng)的音頻信號特征。可將{x1,x2,…,xn}輸入到預(yù)先訓(xùn)練的音頻類別分類器,得到概率值:然后,可根據(jù)上述概率值獲取目標(biāo)音頻類別。m為音頻類別分類器輸出的類別總數(shù),其中,p(Sk|xi)(1≤i≤n,1≤k≤m)表示音頻信號特征xi對應(yīng)的音頻幀F(xiàn)i屬于類別Sk的概率。在一個實(shí)施例中,本步驟的音頻類別分類器可以根據(jù)以下方式獲取:首先,可以將預(yù)先獲取的樣本音頻數(shù)據(jù)劃分為多個樣本音頻幀;然后,可以分別對各個樣本音頻幀進(jìn)行特征提取,得到各個樣本音頻幀對應(yīng)的樣本音頻信號特征;最后,可以根據(jù)所述樣本音頻信號特征以及各個多個樣本音頻幀所屬的類別對深度神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到音頻類別分類器。樣本音頻數(shù)據(jù)可以是一段已知的音頻數(shù)據(jù),在獲取樣本音頻數(shù)據(jù)之后,可以對樣本音頻數(shù)據(jù)進(jìn)行特征提取,為了便于處理,對樣本音頻數(shù)據(jù)進(jìn)行特征提取的方式可與步驟S1中對待分割的音頻數(shù)據(jù)進(jìn)行特征提取的方式相同。樣本音頻數(shù)據(jù)可以預(yù)先標(biāo)注,以獲取樣本音頻數(shù)據(jù)的各個音頻幀所屬的音頻類別。具體地,在實(shí)際操作過程中,每個音頻幀對應(yīng)的標(biāo)注可直接采用其所在時刻對應(yīng)的標(biāo)注。一個實(shí)施例的音頻數(shù)據(jù)如圖3所示,圖3示出了對音頻數(shù)據(jù)進(jìn)行標(biāo)注及重疊分幀的示意圖,圖中的F1和F2表示兩個音頻幀,S0、S1和S2表示標(biāo)注的三個音頻類別。深度神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如圖3所示,包括一個輸入層,多個隱含層和一個輸出層,每一層包括多個結(jié)點(diǎn)。圖3示出的是包括4個隱含層的神經(jīng)網(wǎng)絡(luò),但實(shí)際應(yīng)用中并不限于此。輸入層可以由相鄰的多個音頻幀特征拼接而成,假設(shè)由相鄰的音頻幀F(xiàn)1與F2直接拼接,若F1,F(xiàn)2各為40維特征,直接拼接則為80維,輸入層一般可以左右5(共11幀拼接),但這里沒有做限制,拼接的幀數(shù)可根據(jù)需要調(diào)整;輸入層的結(jié)點(diǎn)數(shù)可與拼接后的音頻幀的維數(shù)相同,即,若只有兩幀拼接,每幀40維,則輸入層則有80維,即對應(yīng)80個結(jié)點(diǎn)。其中,“維”指向量長度。深度神經(jīng)網(wǎng)絡(luò)參數(shù)包括:任意兩層之間,有分別表示第l層第j個結(jié)點(diǎn)的輸出值,表示第l+1層第i個結(jié)點(diǎn)與第l層第j個結(jié)點(diǎn)之間的連接權(quán)重,n表示第l層的結(jié)點(diǎn)數(shù)量,表示第l+1層第i個結(jié)點(diǎn)的偏置項,表示第l+1層第i個結(jié)點(diǎn)的加權(quán)和,f(·)表示一個非線性函數(shù),隱含層可采用:(稱sigmod函數(shù));而輸出層可采用:(稱softmax函數(shù))。采用深度神經(jīng)網(wǎng)絡(luò),分類能力更強(qiáng),且深度神經(jīng)網(wǎng)絡(luò)的復(fù)雜度較低,可以提高音頻分割效率。神經(jīng)網(wǎng)絡(luò)輸出層輸出的是p(Si/x)本文檔來自技高網(wǎng)...

    【技術(shù)保護(hù)點(diǎn)】
    1.一種音頻分割方法,其特征在于,包括以下步驟:讀取待分割的音頻數(shù)據(jù)的各個音頻幀,分別對各個音頻幀進(jìn)行特征提取,得到各個音頻幀對應(yīng)的音頻信號特征;將所述音頻信號特征輸入到預(yù)先訓(xùn)練的音頻類別分類器,分別計算所述音頻信號特征對應(yīng)的音頻幀屬于各個音頻類別的概率值,根據(jù)所述概率值獲取所述音頻信號特征對應(yīng)的音頻幀所屬的目標(biāo)音頻類別;根據(jù)各個音頻幀所屬的目標(biāo)音頻類別對所述音頻數(shù)據(jù)進(jìn)行音頻分割。

    【技術(shù)特征摘要】
    1.一種音頻分割方法,其特征在于,包括以下步驟:讀取待分割的音頻數(shù)據(jù)的各個音頻幀,分別對各個音頻幀進(jìn)行特征提取,得到各個音頻幀對應(yīng)的音頻信號特征;將所述音頻信號特征輸入到預(yù)先訓(xùn)練的音頻類別分類器,分別計算所述音頻信號特征對應(yīng)的音頻幀屬于各個音頻類別的概率值,根據(jù)所述概率值獲取所述音頻信號特征對應(yīng)的音頻幀所屬的目標(biāo)音頻類別;根據(jù)各個音頻幀所屬的目標(biāo)音頻類別對所述音頻數(shù)據(jù)進(jìn)行音頻分割。2.根據(jù)權(quán)利要求1所述的音頻分割方法,其特征在于,在將所述音頻信號特征輸入到預(yù)先訓(xùn)練的音頻類別分類器之前,還包括以下步驟:將預(yù)先獲取的樣本音頻數(shù)據(jù)劃分為多個樣本音頻幀;分別對各個樣本音頻幀進(jìn)行特征提取,得到各個樣本音頻幀對應(yīng)的樣本音頻信號特征;根據(jù)所述樣本音頻信號特征以及各個多個樣本音頻幀所屬的類別對深度神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到音頻類別分類器。3.根據(jù)權(quán)利要求1所述的音頻分割方法,其特征在于,在讀取待分割的音頻數(shù)據(jù)的各個音頻幀之前,還包括以下步驟:對所述音頻數(shù)據(jù)進(jìn)行重疊分幀,得到所述音頻數(shù)據(jù)的各個音頻幀;其中,進(jìn)行重疊分幀時,將所述音頻數(shù)據(jù)的前一幀的末尾部分作為所述音頻數(shù)據(jù)的后一幀的起始部分。4.根據(jù)權(quán)利要求2所述的音頻分割方法,其特征在于,根據(jù)所述概率值獲取所述音頻信號特征對應(yīng)的音頻幀所屬的目標(biāo)音頻類別的步驟包括:根據(jù)各個音頻類別之間的轉(zhuǎn)移概率對所述概率值進(jìn)行平滑處理;根據(jù)平滑處理后的概率值獲取所述音頻信號特征對應(yīng)的音頻幀所屬的目標(biāo)音頻類別。5.根據(jù)權(quán)利要求4所述的音頻分割方法,其特征在于,根據(jù)各個音頻類別之間的轉(zhuǎn)移概率對所述概率值進(jìn)行平滑處理的步驟包括:根據(jù)如下方式對所述概率值進(jìn)行平滑處理:式中,Si和Sj分別表示第i個類別和第j個類別,xt為t時刻任意一個音頻幀的音頻信號特征,p'(Si/xt)為平滑處理后xt屬于類別Si的概率值,p(Sj/xt)為平滑處理前xt屬于類別Sj的概率值,αj,i表示從第j個類別切換到第i個類別的轉(zhuǎn)移概率。6.根據(jù)權(quán)利要求4所述的音頻分割方法,其特征在于,在根據(jù)各個音頻類別之間的轉(zhuǎn)移概率對所述概率值...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:雷延強(qiáng)
    申請(專利權(quán))人:廣州視源電子科技股份有限公司
    類型:發(fā)明
    國別省市:廣東,44

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 日韩aⅴ人妻无码一区二区| 久久亚洲精品成人av无码网站| 最新亚洲春色Av无码专区| 亚洲av中文无码乱人伦在线r▽ | 亚洲av无码成人影院一区| 亚洲av无码专区国产不乱码| av无码东京热亚洲男人的天堂 | 国产成人无码免费看视频软件| 亚洲AV无码国产剧情| 国产真人无码作爱视频免费| 精品久久久久久中文字幕无码| 国产无码网页在线观看| 亚洲AV无码专区亚洲AV桃| 无码囯产精品一区二区免费 | 国产精品ⅴ无码大片在线看| 精品无码专区亚洲| 人妻系列无码专区无码中出| 成人免费无码H在线观看不卡 | 免费无码VA一区二区三区| 国产成人无码午夜视频在线观看| 亚洲精品无码久久久久久久 | 亚洲AV无码一区二区三区国产 | 日韩网红少妇无码视频香港| 亚洲成a人在线看天堂无码 | 无码人妻AV免费一区二区三区| 亚洲中文字幕无码爆乳av中文| 精品无码久久久久久久久| 性色AV蜜臀AV人妻无码| 精品高潮呻吟99av无码视频| 国产成人精品一区二区三区无码| 特黄熟妇丰满人妻无码| 无码一区二区三区在线| 久久亚洲中文字幕无码| 国产AV无码专区亚洲AV麻豆丫| 99久久国产热无码精品免费| 18禁网站免费无遮挡无码中文| 久久水蜜桃亚洲av无码精品麻豆| 人妻av无码一区二区三区| 无码孕妇孕交在线观看| 久久精品无码一区二区无码| 精品无码无人网站免费视频|