本發(fā)明專利技術(shù)實(shí)現(xiàn)用于識(shí)別說話人的建模設(shè)備和方法、以及說話人識(shí)別系統(tǒng)。建模設(shè)備包括:前端,從各目標(biāo)說話人取得登記語音數(shù)據(jù);參考錨集合生成單元,基于錨空間使用登記語音數(shù)據(jù)生成參考錨集合;以及聲紋生成單元,基于參考錨集合和登記語音數(shù)據(jù)生成聲紋。在本公開中,通過考慮登記語音和說話人自適應(yīng)技術(shù),能夠生成尺寸更小的錨模型,因而能夠進(jìn)行具有尺寸更小的參考錨集合的、可靠性高的魯棒的說話人識(shí)別。這對(duì)于進(jìn)行計(jì)算速度的改善以及大幅度的存儲(chǔ)器削減是非常有利的。
【技術(shù)實(shí)現(xiàn)步驟摘要】
【國外來華專利技術(shù)】
本公開涉及語音(音頻)處理以及語音識(shí)別技術(shù),另外涉及說話人對(duì)比、電話會(huì)議、以及數(shù)字網(wǎng)絡(luò)視聽的技術(shù)。
技術(shù)介紹
說話人識(shí)別技術(shù)對(duì)于許多應(yīng)用,例如說話人跟蹤、語音索引(audio index)、以及分段是非常有用的。近年來,提出了使用多個(gè)錨(說話人)模型對(duì)說話人進(jìn)行建模的技術(shù)。將說話人語音投影到錨模型上,構(gòu)成表示說話人的聲學(xué)特性的向量。圖1表示用于進(jìn)行說話人識(shí)別的以往設(shè)備的方框圖。如圖1所示,通過學(xué)習(xí)來自多個(gè)普通說話人的語音,生成錨空間。在參考錨集合生成單元(reference anchor setgeneration unit)102中,從錨空間(anchor space)選擇作為集群(cluster)的重心的多個(gè)虛擬錨說話人(virtual anchor speakers)并形成參考錨集合(reference anchor set),或者選擇距各集群的重心最近的錨說話人并形成參考錨集合。前端101取得目標(biāo)說話人的登記語音,將該登 記語音轉(zhuǎn)換為特征參數(shù),并將這些特征參數(shù)發(fā)送至聲紋(voice print)生成單元103。聲紋生成單元103基于從前端101發(fā)送來的特征參數(shù)以及由參考錨集合生成單元102生成的參考錨集合,生成聲紋。接著,為了進(jìn)一步用于說話人識(shí)別,將生成的聲紋存儲(chǔ)到聲紋數(shù)據(jù)庫104中。
技術(shù)實(shí)現(xiàn)思路
專利技術(shù)要解決的問題根據(jù)圖1可知,由設(shè)備100生成的參考錨集合僅能夠反映錨空間自身的分布。因此,為了更好地表現(xiàn)目標(biāo)說話人,需要更多的錨,因此計(jì)算量增大,難以在嵌入型系統(tǒng)中使用。解決問題的方案在本公開的一個(gè)方式中,實(shí)現(xiàn)用于識(shí)別說話人的建模設(shè)備,該設(shè)備包括:前端,從目標(biāo)說話人取得登記語音;參考錨集合生成單元,基于錨空間使用登記語音生成參考錨集合;以及聲紋生成單元,基于參考錨集合和登記語音生成聲紋。在本公開的另一個(gè)方式中,提供用于識(shí)別說話人的建模方法,該方法包括:從目標(biāo)說話人取得登記語音的步驟;基于錨空間使用登記語音生成參考錨集合的步驟;以及基于參考錨集合和登記語音生成聲紋的步驟。在本公開的又一方式中,實(shí)現(xiàn)說話人識(shí)別系統(tǒng),該系統(tǒng)包括:前端,從目標(biāo)說話人取得登記語音及/或測試語音;參考錨集合生成單元,基于錨空間使用登記語音生成參考錨集合;聲紋生成單元,基于參考錨集合以及登記語音及/或測試語音生成聲紋;對(duì)比單元,將根據(jù)測試語音生成的聲紋與根據(jù)登記語音生成的聲紋進(jìn)行比較;以及判斷單元,基于比較結(jié)果識(shí)別目標(biāo)說話人的同一性。在本公開的再一方式中,實(shí)現(xiàn)說話人識(shí)別系統(tǒng),該系統(tǒng)包括建模設(shè)備以及識(shí)別設(shè)備,建模設(shè)備包括:第一前端,從目標(biāo)說話人取得登記語音;參考錨集合生成單元,基于錨空間使用登記語音生成參考錨集合;以及第一聲紋生成單元,基于參考錨集合和登記語音生成第一聲紋,識(shí)別設(shè)備包括:第二前端,從目標(biāo)說話人取得測試語音;第二聲紋生成單元,基于參考錨集合和測試語音生成第二聲紋;對(duì)比單元,將第一聲紋與第二聲紋進(jìn)行比較;以及判斷單元,基于比較結(jié)果識(shí)別目標(biāo)說話人的同一性。使用本公開的建模設(shè)備、方法、以及說話人識(shí)別系統(tǒng),考慮登記語音以及說話人自適應(yīng)技術(shù),從而能夠生成尺寸更小的錨模型,能夠進(jìn)行具有尺寸更小的參考錨集合的、可靠性高的魯棒的說話人識(shí)別。這對(duì)于進(jìn)行計(jì)算速度的改善以及大幅度的存儲(chǔ)器削減是非常有利的,因此計(jì)算量較少且參考錨集合較小,故更適于嵌入型應(yīng)用。上述為概要內(nèi)容,因此當(dāng)然進(jìn)行了簡化、一般化,并且省略了詳細(xì)情況,因此本領(lǐng)域技術(shù)人員可以理解,概要內(nèi)容僅為例示,并不意圖以任何形式進(jìn)行限制。本說明書中記載的設(shè)備及/或過程及/或其他主題的其他方式、特征、以及優(yōu)點(diǎn)將通過本說明書中描述的內(nèi)容而變得明確。本“
技術(shù)實(shí)現(xiàn)思路
”用于導(dǎo)入以下的“具體實(shí)施方式”中進(jìn)一步說明的簡化形式的概念的選擇。本“
技術(shù)實(shí)現(xiàn)思路
”并不意圖明示權(quán)利要求的主題的關(guān)鍵特征或本質(zhì)特征,也并不意圖用于輔助決定權(quán)利要求的主題的范圍。通過參考附圖,利用以下的說明以及附屬的權(quán)利要求可以使本公開的上述特征以及其他特征完全明確。這些附圖僅表示基于本公開的多個(gè)實(shí)施方式,因此應(yīng)當(dāng)理解,不應(yīng)將其認(rèn)為是限制本公開的范圍的內(nèi)容,并且,使用附圖更具體地、詳細(xì)地說明本公開。附圖說明圖1是用于說話人識(shí)別的以往設(shè)備的方框圖。圖2是基于本公開的一實(shí)施方式的用于說話人識(shí)別的建模設(shè)備的方框圖。圖3是基于本公開的一實(shí)施方式的參考錨集合生成單元的方框圖。圖4是基于本公開的一實(shí)施方式的錨空間的略圖。圖5是基于本公開的另一實(shí)施方式的參考錨集合生成單元的方框圖。圖6是基于本公開的又一實(shí)施方式的參考錨集合生成單元的方框圖。圖7是基于本公開的一實(shí)施方式的用于說話人識(shí)別的建模方法的流程圖。圖8是基于本公開的另一實(shí)施方式的用于生成參考錨集合的建模方法的流程圖。圖9是基于本公開的一實(shí)施方式的說話人識(shí)別系統(tǒng)的方框圖。圖10是表示關(guān)于與尺寸不同的參考錨集合的性能比較的實(shí)驗(yàn)數(shù)據(jù)的圖。具體實(shí)施例方式在下面的詳細(xì)說明中參考構(gòu)成詳細(xì)說明的一部分的附圖。圖中類似的標(biāo)號(hào)典型地標(biāo)識(shí)類似的成分,除非在上下文中另行說明。詳細(xì)的說明、附圖、以及權(quán)利要求中說明的例示的實(shí)施方式并不意圖進(jìn)行限定。也能夠利用其他實(shí)施方式,另外在不脫離本說明書提出的主題的精神和范圍的情況下,可以增加其他變形。容易理解的是,在本說明書中進(jìn)行一般性的說明并在圖中例示的本公開的方式可以通過各種不同結(jié)構(gòu)進(jìn)行配置、置換、組合以及設(shè)計(jì),它們均被明確地考察并 構(gòu)成本公開的一部分。下面介紹本公開中使用的主要用語。I)錨數(shù)據(jù)庫—般而言,學(xué)習(xí)體(corpus)中有來自數(shù)百或數(shù)千個(gè)說話人的語音數(shù)據(jù)。能夠?qū)W習(xí)表示各說話人的聲學(xué)特性的錨模型(例如高斯混合模型)。若匯總所有錨模型,則構(gòu)成錨數(shù)據(jù)庫。2)參考錨集合將參考錨集合定義為用于說話人鑒別/識(shí)別系統(tǒng)的、按照特定的生成規(guī)則從錨數(shù)據(jù)庫生成的集合。3)錨空間在各錨模型表示空間的一維的情況下,在使用錨數(shù)據(jù)庫內(nèi)的所有錨模型時(shí)可構(gòu)成錨空間。錨空間的維數(shù)等于錨數(shù)據(jù)庫內(nèi)的錨模型的總數(shù)。4)主錨模型(Principal anchor model)將主錨模型定義為相對(duì)于一個(gè)說話人的登記語音最近的模型。5)同伴錨模型(Associate anchor model)將除了主錨以外的、參考錨集合內(nèi)的剩余的錨定義為同伴錨模型。圖2表示基于本公開的一實(shí)施方式的用于說話人識(shí)別的建模設(shè)備的方框圖。如圖2所示,基于本公開的一實(shí)施方式的用于說話人識(shí)別的建模設(shè)備200包括前端201、參考錨集合生成單元202、聲紋生成單元203、以及聲紋數(shù)據(jù)庫204。例如,在上述結(jié)構(gòu)中,聲紋生成單元203連接于前端201、參考錨集合生成單元202、以及聲紋數(shù)據(jù)庫204。前端201也與參考錨集合生成單元20`2連接。根據(jù)本公開的一實(shí)施方式,在建模設(shè)備200中,前端201從目標(biāo)說話人取得登記語音,參考錨集合生成單元202基于錨空間使用登記語音生成參考錨集合,聲紋生成單元203基于參考錨集合以及登記語音生成聲紋。以下說明基于本公開的實(shí)施方式的建模設(shè)備200的上述各個(gè)單元的操作。最初,通過學(xué)習(xí)來自普通說話人的多個(gè)語音來生成錨空間,錨空間包含表示這些普通說話人的聲學(xué)特性的多個(gè)錨模型。錨空間能夠以錨數(shù)據(jù)庫的形式存儲(chǔ)在數(shù)據(jù)庫內(nèi)。前端201取得目標(biāo)說話人的登記語音,將該登記語音轉(zhuǎn)換為特征參數(shù),并將這些特征參數(shù)發(fā)送至參考錨集合本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
【技術(shù)特征摘要】
【國外來華專利技術(shù)】
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:沈海峰,馬龍,張丙奇,
申請(qǐng)(專利權(quán))人:松下電器產(chǎn)業(yè)株式會(huì)社,
類型:
國別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。