本發明專利技術公開了一種基于聲學事件的音頻場景識別方法,具體步驟為:步驟一:對擬進行音頻場景識別的音頻流進行音頻分割;步驟二:對每個音頻場景片段中所包含的音頻幀,通過聲學事件模型進行分類,得到音頻幀與各個聲學事件類之間的概率關系;步驟三:對每個音頻場景片段,綜合音頻場景片段中包含的所有音頻幀的信息得到音頻場景片段與各個聲學事件類之間的概率關系;步驟四:對每個音頻場景片段,確定音頻場景片段中包含的主要聲學事件,確定音頻場景片段的語義場景。本發明專利技術對主要聲學事件的判斷更加合理準確,進而能提高語義場景識別的準確率;本發明專利技術具有很好的推廣性;本發明專利技術為視頻場景識別提供很好的輔助作用,以提高視頻場景識別的準確率。
【技術實現步驟摘要】
本專利技術涉及模式識別和多媒體信息處理領域,尤其涉及。
技術介紹
當前,隨著信息化社會的快速發展,多媒體信息數據呈現爆炸式增長,如何對這些多媒體數據進行有效利用以服務于人們的日常生活,成為當前亟待解決的問題。多媒體數據包括圖像、音頻等多種形式。目前對圖像的研究與利用已經非常廣泛,而對音頻的研究起步相對較晚,還有許多技術上的難題亟待解決。連續的音頻流中通常會包含一系列的聲學事件,比如說話聲、笑聲、音樂聲等等,而音頻場景是指由時間上相鄰且語義上相關的若干聲學事件所組成的一個音頻片段。相對于聲學事件來說,音頻場景蘊 含著更高層次的語義表達,比如戰爭音頻場景中包含有槍聲、炮彈的爆炸聲、士兵的喊叫聲等一系列的聲學事件,而戰爭音頻場景就是在這一系列聲學事件的基礎上所演繹出來的更加抽象的語義表達。音頻場景識別(Audio SceneRe co gn i t i on,ASR )就是對音頻片段的內容加以分析和識別,進而加以音頻場景的類別標識。在音頻的研究與利用方面,目前國內外已經開展了不少對聲學事件(AcousticEvent)的分類研究。但是,在日常生活中,人們往往對音頻場景更感興趣,而不是具體的聲學事件。這是因為越高層次的語義表達越接近于人們的思維習慣,也就越容易被人們所接受。比如說,對某一戰爭影片進行音頻檢索以實現影片的瀏覽時,人們更喜歡檢索影片中的戰爭場景部分,而不是僅僅對戰爭場景中的槍聲這一聲學事件感興趣。因此,這就需要用到音頻場景識別技術來實現更高層語義上的音頻內容識別。雖然,對上述諸如戰爭場景的檢索應用可以借助于視頻檢索來實現,而且目前也有不少關于視頻場景識別的研究,這些研究為視頻檢索提供了技術保障,比如,許利群等人專利技術了一種用于對視頻序列的場景進行語義分段的方法和系統(申請號200580009646.5);胡衛明等人專利技術了一種基于多示例學習的恐怖視頻場景識別方法(申請號201110369289.0),但是僅僅依靠視頻場景識別技術往往難以達到滿意的識別效果,而音頻也是人類獲取信息的一種很重要的手段,音頻場景識別研究能為視頻場景識別提供很好的輔助作用,因此本專利技術提出了一種音頻場景識別的方法。音頻場景識別除了用于上述多媒體檢索以外,還具有其它更廣闊的應用前景。比如,可以應用到智能機器人中,使機器人更好地感知周圍的環境,進而做出正確的決策。再比如,可以用于公共或機密場所的安全監控。基于音頻場景識別的音頻安全監控具有視頻監控所不具備的獨特優勢,它可以不受光照條件和遮擋的影響,另外也適合用于隱私場合的安全監控。因此,音頻監控可以用來輔助視頻監控,它可以很好地覆蓋視頻監控難以達到的死角。音頻場景識別具有如此廣闊的應用前景和迫切的市場需求,但目前國內外對音頻場景識別的研究較少,尚不能滿足人們的需求。
技術實現思路
為了實現從音頻的角度進行場景識別,本專利技術提出了,它具有對主要聲學事件的判斷更加合理準確,進而能提高語義場景識別準確率的優點。為了實現上述目的,本專利技術采用如下技術方案:—種基于聲學事件的音頻場景識別方法,具體步驟為:步驟一:對擬進行音頻場景識別的音頻流進行音頻分割,形成音頻場景片段和音頻幀;步驟二:對每個音頻場景片段中所包含的音頻幀,通過聲學事件模型進行分類,得到音頻幀與各個聲學事件類之間的概率關系;步驟三:對每個音頻場景片段,綜合音頻場景片段中包含的所有音頻幀的信息得到音頻場景片段與各個聲學事件類之間的概率關系;步驟四:對每個音頻場景片段,根據其與各個聲學事件類之間的概率關系得到音頻場景片段中包含的主要聲學事件,進而得到音頻場景片段的語義場景。 所述步驟一的具體步驟為:(1-1)對擬進行音頻場景識別的音頻流進行音頻場景分割,將音頻流分割成若干個長短不一的音頻場景片段;(1-2)對每個音頻場景片段進行二次定長分割,將其分割成若干個長度為30毫秒的音頻幀。所述步驟二的具體步驟為:(2-1)通過高斯混合模型或支持向量機模型建立各聲學事件模型;(2-2)根據各聲學事件模型,確定待識別的音頻場景片段中的每個音頻幀Xi和每個聲學事件類的概率關系P (Lj I Xi),1、j為自然數。所述步驟三的具體步驟為:(3-1)設每個音頻場景片段中的各音頻幀Xi相互獨立,即滿足:P(X1, X2..., xN) =Px1)P(X2)…P(xN)其中,P (Xi)為音頻巾貞 Xi 的概率;(3-2)對每個音頻場景片段,根據其所包含的各個音頻幀Xi與各聲學事件類的概率關系P (Lj I Xi),確定音頻場景片段與各聲學事件類的概率關系P (Lj I C),C表示音頻場景片段。所述步驟四的具體步驟為:(4-1)設定閾值Th,當步驟三中確定的P(LjIc)大于閾值Th時,則說明聲學事件Lj是該音頻場景片段的主要聲學事件,C表示音頻場景片段;(4-2)根據音頻場景片段中所包含的主要聲學事件,通過啟發式決策規則得到音頻場景片段的語義場景。本專利技術的有益效果:1.本專利技術對音頻場景片段中所包含的主要聲學事件的判斷是綜合音頻場景片段中所包含的所有音頻幀與聲學事件的概率關系得到的,因此其對主要聲學事件的判斷更加合理準確,進而能提高語義場景識別的準確率。2.目前對音頻場景識別的研究還很少,本專利技術能為相關領域的研究人員提供一種很好的方法借鑒。3.本專利技術具有很好的推廣性,提出的方法思路可以推廣到視頻分析、文本分析等領域。4.本專利技術提出的音頻場景識別方法可以為視頻場景識別提供很好的輔助作用,以提高視頻場景識別的準確率。附圖說明圖1為本專利技術提出的基于聲學事件的音頻場景識別方法的流程圖;圖2為對音頻流進行音頻場景分割以及對音頻場景片段進行二次分割的示意圖;圖3為用GMM模型為聲學事件類建模時,求解樣本Xi與聲學事件類h的概率關系P(LjIxi)的流程圖;圖4為用SVM模型為聲學事件類建模時,求解樣本Xi與聲學事件類h的概率關系P(LjIxi)的流程圖;圖5為根據音頻場景片段與各個聲學事件類h之間的概率關系P(Lj I C),確定音頻場景片段的語義場景的流程圖。具體實施例方式下面結合附圖與實施例對本專利技術作進一步說明。圖1給出了基于聲學事件的音頻場景識別方法的流程圖,該方法共分為四個步驟:步驟一:對擬進行音頻場景識別的音頻流進行音頻分割,形成音頻場景片段和音頻幀;步驟二:對每個音頻場景片段中所包含的音頻幀,通過聲學事件模型進行分類,得到音頻幀與各個聲學事件類之間的概率關系;步驟三:對每個音頻場景片段,綜 合音頻場景片段中包含的所有音頻幀的信息得到音頻場景片段與各個聲學事件類之間的概率關系;步驟四:對每個音頻場景片段,根據其與各個聲學事件類之間的概率關系得到音頻場景片段中包含的主要聲學事件,進而推理得到音頻場景片段的語義場景。下面對每個步驟進行詳細闡述:步驟一:對擬進行音頻場景識別的音頻流進行音頻分割,形成音頻場景片段和音頻幀;音頻分割包括兩部分:音頻場景分割和二次分割。音頻場景分割是指在潛在的場景轉變點處將音頻流分割成若干個長短不一的音頻片段。目前已有不少音頻場景分割算法可供借鑒,由于這部分內容不是本專利技術的重點,因此這里不再詳述,具體可參考相關文獻。在音頻場景分割以后,為了后續音頻場景識別算法的進行,這里還需要進行二次分割,二次分割是指對每個音頻場景片段進行分本文檔來自技高網...
【技術保護點】
一種基于聲學事件的音頻場景識別方法,其特征是,具體步驟為:步驟一:對擬進行音頻場景識別的音頻流進行音頻分割,形成音頻場景片段和音頻幀;步驟二:對每個音頻場景片段中所包含的音頻幀,通過聲學事件模型進行分類,得到音頻幀與各個聲學事件類之間的概率關系;步驟三:對每個音頻場景片段,綜合音頻場景片段中包含的所有音頻幀的信息得到音頻場景片段與各個聲學事件類之間的概率關系;步驟四:對每個音頻場景片段,根據其與各個聲學事件類之間的概率關系得到音頻場景片段中包含的主要聲學事件,進而推理得到音頻場景片段的語義場景。
【技術特征摘要】
1.一種基于聲學事件的音頻場景識別方法,其特征是,具體步驟為: 步驟一:對擬進行音頻場景識別的音頻流進行音頻分割,形成音頻場景片段和音頻幀; 步驟二:對每個音頻場景片段中所包含的音頻幀,通過聲學事件模型進行分類,得到音頻幀與各個聲學事件類之間的概率關系; 步驟三:對每個音頻場景片段,綜合音頻場景片段中包含的所有音頻幀的信息得到音頻場景片段與各個聲學事件類之間的概率關系; 步驟四:對每個音頻場景片段,根據其與各個聲學事件類之間的概率關系得到音頻場景片段中包含的主要聲學事件,進而推理得到音頻場景片段的語義場景。2.如權利要求1所述一種基于聲學事件的音頻場景識別方法,其特征是,所述步驟一的具體步驟為: (1-1)對擬進行音頻場景識別的音頻流進行音頻場景分割,將音頻流分割成若干個長短不一的音頻場景片段; (1-2)對每個音頻場景片段進行二次定長分割,將其分割成若干個長度為30毫秒的音頻幀。3.如權利要求1所述一種基于聲學事件的音頻場景識別方法,其特征是,所述步驟二的具體步驟為: (2-1)通過高斯混合模型或支持向量機模型建立各...
【專利技術屬性】
技術研發人員:冷嚴,徐新艷,
申請(專利權)人:山東師范大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。