本發明專利技術涉及音頻處理領域,提供了一種歌曲處理方法,包括,對海量歌曲文件進行選優,選擇出較好版本的歌曲文件;對海量歌詞選優出歌詞文件,選擇對版完整的歌詞文件;格式化所述選擇出的歌詞文件為時間升序表;分析得出該歌曲快照區域時間;根據快照區域時間對所述歌曲文件進行切割,切割出快照文件。本發明專利技術還提供了一種歌曲處理系統。采用本發明專利技術的技術方案,自動對有歌詞的大量歌曲文件進行分布式系統批量處理,大大提高了處理效率;大大提高了能夠識別高潮區的歌曲量比例,同時在切中關鍵區以及其起止時間的準確度方面也大有改善,在切割的文件體驗上做了很好的改善,切合人的聽覺體驗。
【技術實現步驟摘要】
本專利技術涉及音頻處理領域,特別地涉及一種歌曲處理方法及系統。
技術介紹
隨著移動互聯網的迅猛發展,手機上網越來越多,而通過手機下載歌曲也就越來越多,但用戶面臨的問題是昂貴的流量費和慢的網速,無法滿足用戶需求。為用戶提供歌曲快照片段(高潮部分),能夠很好的代表這首歌曲,歌曲文件大大減小,對用戶來說能夠很少的花費就可以聽聽這首歌曲好聽不好聽,對版不對版,而且對于現在的很慢的移動網速來說大大節約了用戶時間。同時對移動運營商來說,能減少帶寬并減少服務器壓力,而且能提升用戶體驗。中國專利CN201010531964. O公開了一種音頻切割裝置及方法,其提供的歌曲音·頻切割方法包括獲取歌曲音頻文件的歌詞文本文件;分析該歌詞文本文件中的每句歌詞的重復程度,將該重復程度高于一特定閾值的重復歌詞加入一候選集合;針對該候選集合中的重復歌詞進行分析,獲取其分布位置,連續分布的多句重復歌詞組成段落;根據每句重復歌詞的重復程度以及在段落中的位置,確定一句重復歌詞作為切割起始歌詞,以該切割起始歌詞的開始時間點作為該歌曲音頻文件的切割起始點;利用歌曲切割工具從該切割起始點開始,切割該歌曲音頻文件。采用該方案還存在一些問題,無法精確進行歌詞與歌曲文件的精確匹配,對于歌曲高潮部分的處理準確度較低,并且體驗度無法滿足用戶需求,在處理效率上也有待提聞。因此,需要提供一種歌曲處理方案以更好地滿足用戶需求。
技術實現思路
本專利技術解決的技術問題在于提供了一種歌曲處理方法及系統,以解決現有技術中海量歌曲準確識別快照(歌曲關鍵片段)需要大量人力且低效、成本高問題。為解決上述問題,本專利技術提供了一種歌曲處理方法,包括,對海量歌曲文件進行選優,選擇出較好版本的歌曲文件;對海量歌詞選優出歌詞文件,選擇對版完整的歌詞文件;格式化所述選擇出的歌詞文件為時間升序表;分析得出該歌曲快照區域時間;根據快照區域時間對所述歌曲文件進行切割,切割出快照文件。進一步地,上述的方法,還包括,將所述切割出的快照文件存儲至存儲服務器。上述的方法,其中,對海量歌曲文件進行選優,選擇出較好版本的歌曲文件具體包括,將同名,同歌手的歌曲文件為同組,選擇大于特定時長的歌曲文件;同組的歌曲文件中,篩選出相同時長最多的文件為候選文件作為選擇出的較好版本的歌曲文件;如果選出的歌曲文件中有wma格式的,則優選wma格式的歌曲文件作為選擇出的較好版本的歌曲文件;如果有多個歌曲文件,則優選好的來源的歌曲文件作為選擇出的較好版本的歌曲文件。上述的方法,其中,所述對海量歌詞選優出歌詞文件,選擇對版完整的歌詞文件具體包括,將所述歌詞文件統一為相同的歌詞文件格式; 對所述歌詞文件進行去除噪音符;根據LRC格式將所述歌詞文件解析成“時間,歌詞”格式,按照時間進行排序列表;將不符合要求的歌詞文件按照特定時長規則進行排除;檢查歌曲文件跟歌詞是否對版,不對版則排除歌詞文件。所述將不符合要求的歌詞文件按照特定時長規則進行排除具體包括,如果最后一句歌詞開始時間小于70秒則排除該歌詞文件;如果最后兩行歌詞時間差大于等于60秒則去掉最后一行;如果歌詞最后一句時間減去篩選的歌曲時長小于-60或大于10,則排除歌詞文件。所述檢查歌曲文件跟歌詞是否對版,不對版則排除歌詞文件具體包括,在歌曲文件時長大于等于歌詞最后一句時間時,(歌曲文件時長X4)小于(歌詞最后一句時間X7)時,以及,在歌曲文件時長小于歌詞最后一句時間時,(歌曲文件時長X5)小于等于(歌詞最后一句時間X3)時,則對版;否則不對版。上述的方法,其中,所述格式化所述選擇出的歌詞文件為時間升序表具體包括,轉換歌詞為統一格式;替換所有\r、\n\n、\n為\n,替換所有
、多空格為單空格;對所述歌詞文件去噪,將噪符去除;解析歌詞為時間升序表。上述的方法,其中,所述分析得出該歌曲快照區域時間具體包括,初步計算出快照區開始、結束時間;對確定的快照區開始、結束時間進行修正;增加歌曲淡化時間;檢測快照區域時間是否異常。其中,所述初步計算出快照區開始、結束時間具體包括,按照片段計算快照時間;所述片段指連續幾行的歌詞且不能跨段或者根據歌名計算快照時間;或者根據重復句子計算快照時間;或者根據前、后綴計算快照時間;或者根據最后段落計算快照時間;或者根據最后30秒計算快照時間。其中,所述對確定的快照區開始、結束時間進行修正具體包括,增加最后一行時間以確定快照區結束時間;修正獲取的快照區開始、結束時間。其中,所述增加歌曲淡化時間具體包括,進行淡入處理包括獲取的快照片斷的開始時間向前延伸f 4秒作為起始時間;如果該起始時間到了歌頭,則以歌曲開始時間為開始時間;以及進行淡出處理包括獲取的快照結束時間向后延伸f 4秒作為結束時間;如果超越了歌曲文件的結尾時間,則直接取歌曲文件結束時間作為結束時間。其中,所述檢測快照區域時間是否異常具體包括,如果快照區停止時間小于等于歌曲文件時長則無需修正,否則快照區停 止時間需要采用歌曲文件結束時間。上述的方法,其中,所述根據快照區域時間對所述歌曲文件進行切割,切割出快照文件具體包括,對歌曲文件格式統一解壓為wav ;切割計算出快照區域時間的歌曲區域的歌曲文件;淡化切割的快照歌曲文件;統一輸出文件為MP3格式的文件并進行存儲,且清理臨時文件。本專利技術還提供了一種歌曲處理系統,包括,歌曲文件優選模塊,用于對海量歌曲文件進行選優,選擇出較好版本的歌曲文件;歌詞文件優選模塊,用于對海量歌詞選優出歌詞文件,選擇對版完整的歌詞文件;歌詞文件處理模塊,用于格式化所述選擇出的歌詞文件為時間升序表;歌曲快照分析模塊,用于分析得出該歌曲快照區域時間;歌曲文件切割模塊,用于根據快照區域時間對所述歌曲文件進行切割,切割出快照文件。進一步地,上述的系統,還包括,數據存儲模塊,用于將所述切割出的快照文件存儲在存儲服務器。采用本專利技術的技術方案,自動對有歌詞的大量歌曲文件進行分布式系統批量處理,大大提高了處理效率;相對現有的一些自動識別,大大提高了能夠識別高潮區的歌曲量比例,同時在準確度方面也大有改善,在切割的文件體驗上做了很好的改善,加入淡化處理,切合人的聽覺體驗。附圖說明此處所說明的附圖用來提供對本專利技術的進一步理解,構成本專利技術的一部分,本專利技術的示意性實施例及其說明用于解釋本專利技術,并不構成對本專利技術的不當限定。在附圖中圖I是本專利技術第一實施例流程圖;圖2是本專利技術第二實施例結構圖。具體實施方式為了使本專利技術所要解決的技術問題、技術方案及有益效果更加清楚、明白,以下結合附圖和實施例,對本專利技術進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本專利技術,并不用于限定本專利技術。如圖I所示,是本專利技術第一實施例流程圖,提供了一種歌曲處理方法,具體包括,步驟S101,對海量歌曲文件進行選優,選擇出較好版本的歌曲文件;由于在互聯網海量歌曲中,許多歌曲有不同版本,例如有不同人翻唱的、演唱會版、高潮版、現場版等等不同種情況,所以盡可能選出較好版本的歌曲文件,可以是原唱的、完整的、音質較好的歌曲文件。作為一個實施例,具體選取步驟如下 a,將同名,同歌手的歌曲文件為同組,選擇大于特定時長的歌曲文件,該特定時長根據經驗值可調,在7(Γ100秒內即可;b,同組的歌曲文件中,篩選出相同時長(誤差范圍近似一樣,經驗值4秒內本文檔來自技高網...
【技術保護點】
一種歌曲處理方法,其特征在于,包括,對海量歌曲文件進行選優,選擇出較好版本的歌曲文件;對海量歌詞選優出歌詞文件,選擇對版完整的歌詞文件;格式化所述選擇出的歌詞文件為時間升序表;分析得出該歌曲快照區域時間;根據快照區域時間對所述歌曲文件進行切割,切割出快照文件。
【技術特征摘要】
1.一種歌曲處理方法,其特征在于,包括, 對海量歌曲文件進行選優,選擇出較好版本的歌曲文件; 對海量歌詞選優出歌詞文件,選擇對版完整的歌詞文件; 格式化所述選擇出的歌詞文件為時間升序表; 分析得出該歌曲快照區域時間; 根據快照區域時間對所述歌曲文件進行切割,切割出快照文件。2.根據權利要求I所述的方法,其特征在于,還包括, 將所述切割出的快照文件存儲至存儲服務器。3.根據權利要求I或2所述的方法,其特征在于,對海量歌曲文件進行選優,選擇出較好版本的歌曲文件具體包括, 將同名,同歌手的歌曲文件為同組,選擇大于特定時長的歌曲文件; 同組的歌曲文件中,篩選出相同時長最多的文件為候選文件作為選擇出的較好版本的歌曲文件; 如果選出的歌曲文件中有wma格式的,則優選wma格式的歌曲文件作為選擇出的較好版本的歌曲文件; 如果有多個歌曲文件,則優選好的來源的歌曲文件作為選擇出的較好版本的歌曲文件。4.根據權利要求3所述的方法,其特征在于,所述對海量歌詞選優出歌詞文件,選擇對版完整的歌詞文件具體包括, 將所述歌詞文件統一為相同的歌詞文件格式; 對所述歌詞文件進行去除噪音符; 根據LRC格式將所述歌詞文件解析成“時間,歌詞”格式,按照時間進行排序列表; 將不符合要求的歌詞文件按照特定時長規則進行排除; 檢查歌曲文件跟歌詞是否對版,不對版則排除歌詞文件。5.根據權利要求4所述的方法,其特征在于,所述將不符合要求的歌詞文件按照特定時長規則進行排除具體包括, 如果最后一句歌詞開始時間小于70秒則排除該歌詞文件;如果最后兩行歌詞時間差大于等于60秒則去掉最后一行;如果歌詞最后一句時間減去篩選的歌曲時長小于-60或大于10,則排除歌詞文件。6.根據權利要求5所述的方法,其特征在于,所述檢查歌曲文件跟歌詞是否對版,不對版則排除歌詞文件具體包括, 在歌曲文件時長大于等于歌詞最后一句時間時,(歌曲文件時長X4)小于(歌詞最后一句時間X7)時,以及,在歌曲文件時長小于歌詞最后一句時間時,(歌曲文件時長X5)小于等于(歌詞最后一句時間X3)時,則對版;否則不對版。7.根據權利要求4至6任一所述的方法,其特征在于,所述格式化所述選擇出的歌詞文件為時間升序表具體包括, 轉換歌詞為統一格式; 替換所有\r、\n\n、\n為\n,替換所有\t、多空格為單空格; 對所述歌詞文件去噪,將噪符去除;解析歌詞為時間...
【專利技術屬性】
技術研發人員:張云飛,劉軍,陳偉,李錦根,黃興紅,
申請(專利權)人:北京宜搜天下科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。