【技術實現步驟摘要】
對音頻信號進行歌曲檢測的方法和設備
本專利技術涉及音頻信號處理。更具體地,本專利技術的實施例涉及對音頻信號進行歌曲檢測的方法和設備。
技術介紹
在許多音頻應用中,音頻信號被記錄下來。例如在移動電話、平板計算機或其它便攜設備的調頻(FM)錄音應用中,能夠響應用戶對錄音按鈕的操作或基于預訂來記錄FM節目。所記錄的音頻信號可包含歌曲(song)、話音(speech)(包含話音疊加音樂(speech-over-music))、噪聲、靜音等等。用戶可能希望僅保存所記錄的音頻信號中的單獨的歌曲。已經提出了根據音頻信號中音頻分段(segment)的重復出現來從音頻信號中檢測歌曲的方案,其中假定重復的長音頻分段是歌曲,而話音很少多次重復。在來自PopCatcherAB,Hastholmsvagen28,5tr,13140Nacka,SWEDEN的PopCatcher因特網廣播錄音機應用(InternetRadioRecorderApplication)中能夠看到這種方案的示例性實現,這里通過引用將其合并進來以用于各種目的。本章節中描述的方案是能夠采用的方案,但不一定是先前已經構思或采用的方案。因此,除非另外指出,不應僅因為被包含在本章節中就假定本章節描述的任何方案適合作為現有技術。類似地,根據本章節而關于一個或更多個方案發現的問題不應被假定為任何現有技術中已經認識到的問題,除非另外指出。
技術實現思路
根據本專利技術一個實施例,提供了一種對音頻信號進行歌曲檢測的方法。音頻信號的片段被分類為包括音樂的類別。音樂片段的類邊界被檢測為第一類型的候選邊界。每個音樂分段內的每個位置被檢 ...
【技術保護點】
一種對音頻信號進行歌曲檢測的方法,包括:把音頻信號的片段分類為包括音樂的類別;檢測音樂片段的類邊界以作為候選邊界;以及導出包含由所述候選邊界限定的一個或更多個非交疊部分的至少一個組合,其中每個所述部分滿足下列條件:1)包含長于預定最小歌曲時長的至少一個音樂分段,以作為候選歌曲,2)短于預定最大歌曲時長,3)開始和結束于音樂片段,以及4)每個所述部分中所述音樂片段的比例大于預定最小比例。
【技術特征摘要】
1.一種對音頻信號進行歌曲檢測的方法,包括:把音頻信號的片段分類為包括音樂的類別;檢測音樂片段的類邊界以作為第一類型的候選邊界;檢測每個音樂分段內的每個位置以作為第二類型的候選邊界,其中在關于所述位置布置的兩個第一窗口之間的內容相異度高于第一閾值的情況下,檢測到所述位置;以及導出包含由所述候選邊界限定的一個或更多個非交疊部分的至少一個組合,其中每個所述部分滿足下列條件:1)包含長于預定最小歌曲時長的至少一個音樂分段,以作為候選歌曲,2)短于預定最大歌曲時長,3)開始和結束于音樂片段,以及4)每個所述部分中所述音樂片段的比例大于預定最小比例。2.如權利要求1所述的方法,其中所述類別還包括話音,并且所述檢測還包括:在音頻信號中搜索兩個重復部分[t1,t2]和[t1+l,t2+l],其中l短于所述預定最大歌曲時長;如果部分[t1,t2+l]中的一個所述候選邊界在音樂分段內,則移除所述候選邊界;如果由兩個所述候選邊界限定的部分[t1,t2+l]中的話音分段具有小于第二閾值的長度,則將這兩個候選邊界識別為要移除的;以及移除所有所述要移除的候選邊界,或者,把一個或更多個對的限定音樂分段的兩個要移除的候選邊界改變為第二類型,并且移除其余的要移除的候選邊界。3.如權利要求1所述的方法,其中所述檢測還包括:計算圍繞每個所述候選邊界、長于所述第一窗口的兩個第二窗口之間的至少一個內容一致性距離,其中用于計算所述至少一個內容一致性距離的特征至少部分地互不相同;對于每個所述候選邊界,根據所述至少一個相應內容一致性距離計算所述候選邊界是歌曲的真實邊界的第一可能性;以及如果所述第一可能性指示所述候選邊界是假邊界,如果所述候選邊界在音樂分段內,則在僅包含所述候選邊界并且由兩個候選邊界限定的音樂分段具有小于所述預定最大歌曲時長的長度的情況下移除所述候選邊界;如果由所述候選邊界和另一個候選邊界限定的話音分段具有小于第三閾值的長度,則將這兩個候選邊界識別為要移除的;以及移除所有所述要移除的候選邊界,或者,把一個或更多個對的限定音樂分段的兩個要移除的候選邊界改變為第二類型,并且移除其余的要移除的候選邊界。4.如權利要求1所述的方法,其中通過下述操作導出所述至少一個組合中的每個:把由兩個連續候選邊界t1和t2限定并且長于所述預定最小歌曲時長的每個音樂分段檢測為所述候選歌曲;以及通過把所述候選歌曲[t1,t2]或其擴展包含為部分來形成所述組合,其中通過下述操作中的至少之一來獲得每個擴展:沿左方向把所述候選歌曲[t1,t2]的邊界t1延伸到音樂分段[t1-l1,t1-l2]的候選邊界t1-l1;以及沿右方向把所述候選歌曲[t1,t2]的邊界t2延伸到音樂分段[t2+l3,t2+t4]的候選邊界t2+l4。5.如權利要求1或4所述的方法,還包括:用基于歌曲時長、歌曲間間隔和歌曲概率中至少之一訓練的評估模型來評估所述至少一個組合的、分隔各部分的所有間隔代表真實歌曲劃分的第二可能性;以及選擇所述至少一個組合中具有最高第二可能性的組合。6.如權利要求5所述的方法,其中所述第二可能性被計算為用于分隔相應組合中一個或更多個部分的所有間隔[e,s]的置信度P([e,s])的平均值或乘積,其中如果一個間隔[e,s]分隔兩個相鄰部分[s1,e]和[s,e2],則置信度P([e,s])被計算為以及如果相應組合中僅存在一個部分[x,y],則置信度P([e,s])被計算為P([e,s])=Pdur([x,y])Psong([x,y]),其中Pdur()是預先訓練的歌曲時長模型,Pns()是預先訓練的非歌曲時長模型,其是作為伽瑪(Gamma)分布來估計的,Psong()是指示一個部分是真實歌曲的概率的歌曲概率模型,α和β是處理不同概率分布的不同尺度的平滑系數。7.如權利要求5所述的方法,其中所述分類還包括計算每個所述片段中的幀的幀級特征,并且其中所述選擇還包括:對于所選擇的組合的所述至少一個部分的每個邊界,根據基于貝葉斯信息準則(BIC)的方法,針對以所述邊界為中心的BIC窗口中的每個幀位置t,計算對數似然差ΔBIC(t);以及把所述邊界調整到對應于峰值ΔBIC(t)的幀位置t。8.如權利要求5所述的方法,其中所述分類還包括計算每個所述片段中的幀的幀級特征,并且其中所述選擇還包括:對于所選擇的組合中的所述至少一個部分的每個邊界,針對以所述邊界為中心的BIC窗口中的每個幀位置t計算一個值RΔBIC(t|b)=ΔBIC(t)·Pst(|t-b|),其中ΔBIC(t)是根據基于貝葉斯信息準則(BIC)的方法計算的對數似然差,Pst()是根據零均值高斯分布的偏移時長模型;以及把所述邊界調整到對應于最高峰值RΔBIC(t)的幀位置t。9.如權利要求1所述的方法,其中所述至少一個組合包含不止一個組合,并且其中所述導出還包括將所述組合分為不同的組,其中每個組中的每個組合包含相同的候選歌曲,并且所述組合中的每個部分與相同組的其它組合中的一個部分包含相同的候選歌曲,并且其中對于屬于不同組的每兩個組合,這兩個組合之一中的至少一個部分不與這兩個組合中另一個內的每個部分包含相同的候選歌曲。10.一種對音頻信號進行歌曲檢測的設備,包括:分類單元,其把音頻信號的片段分類為包括音樂的...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。