【技術實現步驟摘要】
本專利技術本專利技術涉及音視頻智能分析,特別是指一種基于教學視頻字幕提取方法、裝置及計算機可讀取存儲介質。
技術介紹
1、隨著在線教育、數字化課程資源等領域蓬勃發展,教學視頻成為知識傳播的關鍵載體,字幕提取的精準度愈發關鍵。字幕提取技術歷經多階段演進,早期基于規則的方法,憑借預設語音模型、語法規則庫與詞典,解析音頻特征、匹配字詞生成字幕,卻因語言靈活多變、規則難窮盡,對復雜教學內容(含專業詞匯、口語化表述)適應性差,字幕錯誤頻出。
2、隨后,統計機器學習階段興起,利用隱馬爾可夫模型(hmm)、高斯混合模型(gmm)構建聲學模型,結合n—元語法語言模型,借大量語音數據訓練提升字幕準確性。但該法對數據量與質量依賴高,跨領域(不同學科教學視頻)泛化能力有限,面對新詞匯、專業術語學習慢。
3、當下,深度學習主導字幕提取領域,諸多開源及商業技術涌現。與本專利技術最相近似的便是whisper,它是openai開源力作,基于?transformer架構,編碼器將音頻轉為特征序列,解碼器依特征與預設起始符預測文本,經海量多語種語音數據預訓練,展現強大實力。像常見外語教學視頻,無論英式、美式英語口音,亦或含法語、德語講授內容,能精準轉錄多數語句;中文教學場景,對普通話規范表述識別準確率可觀,處理日常科普、基礎學科講解類視頻游刃有余。
4、然而,現有技術于教學視頻字幕提取仍存短板,面對教學場景多元復雜需求,難以全方位保障高準確度字幕輸出;特別地,對于專有詞匯、新興詞匯難以處理。
技術實
1、本專利技術提供了一種基于教學視頻字幕提取方法、裝置及計算機可讀取存儲介質,利用大模型對專有詞匯和/或熱詞的字幕提取方法,提高字幕與音頻內容的匹配度,從而提升教學視頻的可理解性和可用性,更好地服務于教育教學活動。
2、第一方面,提供了一種教學視頻字幕提取方法,包括:獲取所述教學視頻的語音數據,并根據對應時間片段的音頻特征進行預處理,將所述教學視頻分類為字幕視頻片段和無字幕視頻片段;對于字幕視頻片段的語音數據,生成并校正文本標簽,建立相應的含有文本標簽的語音數據集,對whisper模型進行優化;利用優化后的whisper模型將所述語音數據轉錄生成標注文件,使用prompt將相應的專有詞匯和/或熱詞與所述標注文件拼接,生成相應的字幕;根據所述時間片段的音頻特征,將所述字幕與相應的視頻相匹配,在字幕區域輸出所述字幕。
3、在一些實施例中,根據對應時間片段的音頻特征進行預處理,將所述教學視頻分類為字幕視頻片段和無字幕視頻片段,包括:將所述語音數據進行編碼轉換為詞向量序列;通過特征編碼器對詞向量序列進行編碼和特征提取;對所述語音數據和所述教學視頻進行檢測和聚類,將所述教學視頻分類為字幕視頻片段和無字幕視頻片段。
4、在一些實施例中,對于字幕視頻片段的語音數據,生成并校正文本標簽,建立相應的含有文本標簽的語音數據集,對whisper模型進行優化,包括:利用樣本視頻文本預訓練得到的語言信息提取網絡,生成并校正文本標簽,建立相應的含有文本標簽的語音數據集;通過文本標簽將所述語音數據集切割充足出多份樣本,將任一樣本輸入whisper模型,優化模型參數。
5、在一些實施例中,利用優化后的whisper模型將所述語音數據轉錄生成標注文件,使用prompt將相應的專有詞匯和/或熱詞與所述標注文件拼接,包括:以字為單元進行計算,并加以權重,以編輯距離/元素組成長度,作為相似度標準對詞中的每一個字與專有詞匯和/或熱詞中的每一個字按其元素組成進行相似度計算,過程中考慮不同元素對相似度的影響程度加以不同的加權比重;或者,以詞中的字為單元進行計算,且詞的相似度計算需要考慮詞中所有字的相似度的極差值,得到詞中每個字的相似度后求其均值和極差值,以均值加上乘以一定縮小系數后的極差值作為字的相似度;依據所述相似度生成token,利用prompt將相應的專有詞匯和/或熱詞與所述標注文件拼接。
6、在一些實施例中,根據所述時間片段的音頻特征,將所述字幕與相應的視頻相匹配,在字幕區域輸出所述字幕,包括:對字幕檢測和跟蹤,使得在所述時間片段內發生字幕的出現和消失;基于字幕區域坐標,輸出所述字幕并過濾誤判為字幕的背景區域和噪聲字幕。
7、在一些實施例中,通過文本標簽將所述語音數據集切割充足出多份樣本,將任一樣本輸入whisper模型,優化模型參數,包括:對whisper模型各層編碼器輸出的所述任一樣本進行時序平均池化;將所述時序平均池化后的任一樣本輸入時序transformer;將通過時序transformer處理后,再進行一次時序平均池化;拼接所有經過兩次時序平均池化處理后的樣本,將其輸入層次transformer,以優化模型參數。
8、在一些實施例中,對字幕檢測和跟蹤,包括:在所述字幕區域內,沿時間軸在所述時間片段的范圍內跟蹤,得到字幕的出現和消失時間點。
9、第二方面,提供了一種教學視頻字幕提取裝置,包括:數據模塊,用于獲取所述教學視頻的語音數據,并根據對應時間片段的音頻特征進行預處理,將所述教學視頻分類為字幕視頻片段和無字幕視頻片段;大模型模塊,用于對于字幕視頻片段的語音數據,生成并校正文本標簽,建立相應的含有文本標簽的語音數據集,對whisper模型進行優化;處理模塊,用于利用優化后的whisper模型將所述語音數據轉錄生成標注文件,使用prompt將相應的專有詞匯和/或熱詞與所述標注文件拼接,生成相應的字幕;顯示模塊,用于根據所述時間片段的音頻特征,將所述字幕與相應的視頻相匹配,在字幕區域輸出所述字幕。
10、第三方面,本專利技術提供了一種電子設備,所述電子設備包括:處理器;存儲器,所述存儲器上存儲有計算機可讀指令,所述計算機可讀指令被所述處理器執行時,實現上述教學視頻字幕提取方法。
11、第四方面,本專利技術還提供了一種計算機可讀取存儲介質,其特征在于,所述計算機可讀取存儲介質中存儲有程序代碼,所述程序代碼可被處理器調用執行上述的教學視頻字幕提取方法。
12、與現有技術相比,本專利技術至少可以實現如下有益效果之一:
13、第一、對于學生而言,準確的字幕能夠幫助他們更好地理解教學視頻中的內容,尤其是在涉及復雜專業知識和新詞匯較多的情況下。例如,在學習高等數學課程的教學視頻時,準確的字幕可以讓學生更清晰地理解數學公式的推導過程和相關術語的含義,提高學習效果。
14、第二、對于教師和教育機構來說,高質量的字幕有助于提高教學視頻的質量和專業性,增強教學資源的競爭力。
15、第三、相比傳統的人工校對和修正字幕的方式,可以大大減少人力投入;無需人工逐一檢查和糾正詞匯識別錯誤,節省了大量的時間和人力成本。
16、提供
技術實現思路
部分是為了以簡化的形式來介紹對概念的選擇,它們在下文的具體實施方式中將被進一步描述。
技術實現思路
部分無意標識本公開的重要特征或必要特征,也無意限制本公開的范圍。
【技術保護點】
1.一種教學視頻字幕提取方法,其特征在于,包括:
2.根據權利要求1所述的教學視頻字幕提取方法,其特征在于,根據對應時間片段的音頻特征進行預處理,將所述教學視頻分類為字幕視頻片段和無字幕視頻片段,包括:
3.根據權利要求1所述的教學視頻字幕提取方法,其特征在于,對于字幕視頻片段的語音數據,生成并校正文本標簽,建立相應的含有文本標簽的語音數據集,對whisper模型進行優化,包括:
4.根據權利要求1所述的教學視頻字幕提取方法,其特征在于,利用優化后的whisper模型將所述語音數據轉錄生成標注文件,使用Prompt將相應的專有詞匯和/或熱詞與所述標注文件拼接,包括:
5.根據權利要求1所述的教學視頻字幕提取方法,其特征在于,根據所述時間片段的音頻特征,將所述字幕與相應的視頻相匹配,在字幕區域輸出所述字幕,包括:
6.根據權利要求3所述的教學視頻字幕提取方法,其特征在于,通過文本標簽將所述語音數據集切割充足出多份樣本,將任一樣本輸入whisper模型,優化模型參數,包括:
7.根據權利要求5所述的教學視頻字幕提
8.一種教學視頻字幕提取裝置,其特征在于,包括:
9.一種電子設備,其特征在于,所述電子設備包括:
10.一種計算機可讀取存儲介質,其特征在于,所述計算機可讀取存儲介質中存儲有程序代碼,所述程序代碼可被處理器調用執行如權利要求1至7任一項所述的教學視頻字幕提取方法。
...【技術特征摘要】
1.一種教學視頻字幕提取方法,其特征在于,包括:
2.根據權利要求1所述的教學視頻字幕提取方法,其特征在于,根據對應時間片段的音頻特征進行預處理,將所述教學視頻分類為字幕視頻片段和無字幕視頻片段,包括:
3.根據權利要求1所述的教學視頻字幕提取方法,其特征在于,對于字幕視頻片段的語音數據,生成并校正文本標簽,建立相應的含有文本標簽的語音數據集,對whisper模型進行優化,包括:
4.根據權利要求1所述的教學視頻字幕提取方法,其特征在于,利用優化后的whisper模型將所述語音數據轉錄生成標注文件,使用prompt將相應的專有詞匯和/或熱詞與所述標注文件拼接,包括:
5.根據權利要求1所述的教學視頻字幕提取方法,其特...
【專利技術屬性】
技術研發人員:金善國,唐偉,
申請(專利權)人:北京文華在線教育科技股份有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。