【技術(shù)實(shí)現(xiàn)步驟摘要】
聲音識(shí)別特征的優(yōu)化、動(dòng)態(tài)注冊(cè)方法、客戶端和服務(wù)器
本申請(qǐng)涉及計(jì)算機(jī)
,特別涉及一種聲音識(shí)別特征的優(yōu)化、動(dòng)態(tài)注冊(cè)方法、客戶端和服務(wù)器。
技術(shù)介紹
隨著人工智能技術(shù)的不斷發(fā)展,人臉識(shí)別、指紋識(shí)別技術(shù)等都得到了很大的發(fā)展。智能識(shí)別的應(yīng)用也越來越廣泛。聲紋識(shí)別作為一種新型的識(shí)別技術(shù)發(fā)展速度也越來越快,聲紋識(shí)別(voiceprintidentification)技術(shù)也可以稱為說話人識(shí)別(speakeridentification)。所謂的聲紋識(shí)別是從說話的人發(fā)出的語音中提取出語音特征,然后基于提取出的語音特征進(jìn)行身份驗(yàn)證的識(shí)別技術(shù)。聲紋識(shí)別所依賴的是人們的發(fā)聲器官是在成長的過程中逐漸形成的特征,每個(gè)人的聲紋都是不同的,可以是;音色、語調(diào)、語速等的不同,也可以是聲音所形成的聲譜的不同的。即使有意進(jìn)行模仿,不同人的聲紋也是不同的,類似于指紋,不同的人都有不同的指紋。然而,如果希望通過聲紋進(jìn)行識(shí)別,那么也需要建立一個(gè)進(jìn)行聲紋匹配的特征集合,從而實(shí)現(xiàn)聲紋識(shí)別。針對(duì)如何簡單高效地建立準(zhǔn)確的用于聲紋識(shí)別的特征庫,目前尚未提出有效的解決方案。
技術(shù)實(shí)現(xiàn)思路
本申請(qǐng)實(shí)施方式的目的是提供一種聲音識(shí)別特征的優(yōu)化、動(dòng)態(tài)注冊(cè)方法、客戶端和服務(wù)器,以達(dá)到簡單高效建立精度較高的聲音識(shí)別特征庫的目的。一種聲音識(shí)別特征的優(yōu)化方法,所述方法包括:獲取音頻數(shù)據(jù),并提取所述音頻數(shù)據(jù)的音頻特征;確定已關(guān)聯(lián)特征庫中是否存在與所述音頻特征之間的相似度達(dá)到預(yù)設(shè)匹配閾值的聲音識(shí)別特征,其中,所述已關(guān)聯(lián)特征庫用于存儲(chǔ)已關(guān)聯(lián)用戶信息的聲音識(shí)別特征;在確定存在的情況下,通過所述音頻特征更新匹配出的聲音識(shí)別特征;在確定 ...
【技術(shù)保護(hù)點(diǎn)】
1.一種聲音識(shí)別特征的優(yōu)化方法,其特征在于,所述方法包括:獲取音頻數(shù)據(jù),并提取所述音頻數(shù)據(jù)的音頻特征;確定已關(guān)聯(lián)特征庫中是否存在與所述音頻特征之間的相似度達(dá)到預(yù)設(shè)匹配閾值的聲音識(shí)別特征,其中,所述已關(guān)聯(lián)特征庫用于存儲(chǔ)已關(guān)聯(lián)用戶信息的聲音識(shí)別特征;在確定存在的情況下,通過所述音頻特征更新匹配出的聲音識(shí)別特征;在確定不存在的情況下,將所述音頻特征添加至未關(guān)聯(lián)特征庫中,其中,所述未關(guān)聯(lián)特征庫用于存儲(chǔ)未關(guān)聯(lián)用戶信息的聲音識(shí)別特征。
【技術(shù)特征摘要】
1.一種聲音識(shí)別特征的優(yōu)化方法,其特征在于,所述方法包括:獲取音頻數(shù)據(jù),并提取所述音頻數(shù)據(jù)的音頻特征;確定已關(guān)聯(lián)特征庫中是否存在與所述音頻特征之間的相似度達(dá)到預(yù)設(shè)匹配閾值的聲音識(shí)別特征,其中,所述已關(guān)聯(lián)特征庫用于存儲(chǔ)已關(guān)聯(lián)用戶信息的聲音識(shí)別特征;在確定存在的情況下,通過所述音頻特征更新匹配出的聲音識(shí)別特征;在確定不存在的情況下,將所述音頻特征添加至未關(guān)聯(lián)特征庫中,其中,所述未關(guān)聯(lián)特征庫用于存儲(chǔ)未關(guān)聯(lián)用戶信息的聲音識(shí)別特征。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,通過所述音頻特征更新匹配出的聲音識(shí)別特征,包括:獲取所述音頻特征和所述匹配出的聲音識(shí)別特征;根據(jù)所述音頻特征和所述匹配出的聲音識(shí)別特征生成第一識(shí)別特征;將所述第一識(shí)別特征取代所述匹配出的聲音識(shí)別特征存儲(chǔ)在所述已關(guān)聯(lián)特征庫中。3.根據(jù)權(quán)利要求1所述的方法,其特征在于,將所述音頻特征添加至所述未關(guān)聯(lián)特征庫中,包括:在所述未關(guān)聯(lián)特征庫中存在與所述音頻特征相似度達(dá)到預(yù)設(shè)匹配閾值的聲音識(shí)別特征的情況下,通過所述音頻特征更新匹配出的聲音識(shí)別特征,并更新用于更新該聲音識(shí)別特征的音頻數(shù)量;在所述未關(guān)聯(lián)特征庫中不存在與所述音頻特征相似度達(dá)到預(yù)設(shè)匹配閾值的聲音識(shí)別特征的情況下,將所述音頻特征作為聲音識(shí)別特征增加至所述未關(guān)聯(lián)特征庫中。4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述音頻數(shù)據(jù)包括:對(duì)用戶說出喚醒詞的聲音進(jìn)行錄制所得到的音頻文件。5.一種聲音識(shí)別特征的動(dòng)態(tài)注冊(cè)方法,其特征在于,所述方法包括:確定用于更新聲音識(shí)別特征的音頻數(shù)量是否達(dá)到預(yù)設(shè)閾值;在確定用于更新所述聲音識(shí)別特征的音頻數(shù)量達(dá)到所述預(yù)設(shè)閾值的情況下,為所述聲音識(shí)別特征關(guān)聯(lián)用戶信息。6.根據(jù)權(quán)利要求5所述的方法,其特征在于,在確定用于更新聲音識(shí)別特征的音頻數(shù)量是否達(dá)到預(yù)設(shè)閾值之前,所述方法還包括:獲取音頻數(shù)據(jù);提取所述音頻數(shù)據(jù)的音頻特征;確定是否存在與所述音頻特征之間的相似度達(dá)到預(yù)設(shè)匹配閾值的已關(guān)聯(lián)用戶信息的聲音識(shí)別特征;在確定存在的情況下,通過所述音頻特征更新匹配出的已關(guān)聯(lián)用戶信息的聲音識(shí)別特征。7.根據(jù)權(quán)利要求6所述的方法,其特征在于,在確定是否存在與所述音頻特征之間的相似度達(dá)到預(yù)設(shè)匹配閾值的已關(guān)聯(lián)用戶信息的聲音識(shí)別特征之后,確定用于更新聲音識(shí)別特征的音頻數(shù)量是否達(dá)到預(yù)設(shè)閾值,包括:在確定出不存在與所述音頻特征之間的相似度達(dá)到預(yù)設(shè)匹配閾值的已關(guān)聯(lián)用戶信息的聲音識(shí)別特征的情況下,確定是否存在與所述音頻特征相似度達(dá)到預(yù)設(shè)匹配閾值的未關(guān)聯(lián)用戶信息的聲音識(shí)別特征;在確定存在與所述音頻特征相似度達(dá)到預(yù)設(shè)匹配閾值的未關(guān)聯(lián)用戶信息的聲音識(shí)別特征的情況下,通過所述音頻特征更新匹配出的未關(guān)聯(lián)用戶信息的聲音識(shí)別特征;確定用于更新匹配出的未關(guān)聯(lián)用戶信息的聲音識(shí)別特征的音頻數(shù)量是否達(dá)到預(yù)設(shè)閾值。8.根據(jù)權(quán)利要求6所述的方法,其特征在于,在確定存在的情況下,通過所述音頻特征更新匹配出的已關(guān)聯(lián)用戶信息的聲音識(shí)別特征,包括:在確定出存在多個(gè)與所述音頻特征之間的相似度達(dá)到預(yù)設(shè)匹配閾值的已關(guān)聯(lián)用戶信息的聲音識(shí)別特征的情況下,通過所述音頻特征更新相似度最高的已關(guān)聯(lián)用戶信息的聲音識(shí)別特征。9.根據(jù)權(quán)利要求6所述的方法,其特征在于,還包括:監(jiān)測未關(guān)聯(lián)用戶信息的聲音識(shí)別特征的數(shù)量是否超出預(yù)設(shè)數(shù)量;在確定超出所述預(yù)設(shè)數(shù)量的情況下,刪除未關(guān)聯(lián)用戶信息的聲音識(shí)別特征中用于更新聲音識(shí)別特征的音頻數(shù)據(jù)的數(shù)量最少的一個(gè)或多個(gè)聲音識(shí)別特征。10.根據(jù)權(quán)利要求6所述的方法,其特征在于,還包括:監(jiān)測未關(guān)聯(lián)用戶信息的聲音識(shí)別特征的數(shù)量是否超出預(yù)設(shè)數(shù)量;在確定超出所述預(yù)設(shè)數(shù)量的情況下,刪除未關(guān)聯(lián)用戶信息的聲音識(shí)別特征中更新時(shí)間最早的一個(gè)或多個(gè)聲音識(shí)別特征。11.根據(jù)權(quán)利要求6所述的方法,其特征在于,為所述聲音識(shí)別特征添加與該聲音識(shí)別特征關(guān)聯(lián)的用戶信息,包括:生成用于請(qǐng)求用戶信息的請(qǐng)求;接收響應(yīng)于所述請(qǐng)求返回的用戶信息;將接收到的用戶信息與所述聲音識(shí)別特征進(jìn)行關(guān)聯(lián)。12.一種聲音識(shí)別特征的動(dòng)態(tài)注冊(cè)方法,其特征在于,所述方法包括:確定未關(guān)聯(lián)特征庫中是否存在更新次數(shù)達(dá)到預(yù)設(shè)閾值的聲音識(shí)別特征,其中,所述未關(guān)聯(lián)特征庫用于存儲(chǔ)未關(guān)聯(lián)用戶信息的聲音識(shí)別特征;在確定未關(guān)聯(lián)特征庫中存在更新次數(shù)達(dá)到預(yù)設(shè)閾值的聲音識(shí)別特征的情況下,為該聲音識(shí)別特征關(guān)聯(lián)用戶信息,并將該聲音識(shí)別特征添加至已關(guān)聯(lián)特征庫中,其中,所述已關(guān)聯(lián)特征庫用于存儲(chǔ)已關(guān)聯(lián)用戶信息的聲音識(shí)別特征。13.根據(jù)權(quán)利要求12所述的方法,其特征在于,所述已關(guān)聯(lián)特征庫中還存儲(chǔ)有已關(guān)聯(lián)用戶信息的聲音識(shí)別特征所關(guān)聯(lián)的用戶信息;和/或,所述未關(guān)聯(lián)特征庫中還存儲(chǔ)有用于更新各個(gè)未關(guān)聯(lián)用戶信息的聲音識(shí)別特征的音頻數(shù)量。14.根據(jù)權(quán)利要求12所述的方法,其特征在于,還包括:獲取音頻數(shù)據(jù),并提取所述音頻數(shù)據(jù)的音頻特征;在所述已關(guān)聯(lián)特征庫中存在與所述音頻特征相似度達(dá)到預(yù)設(shè)匹配閾值的聲音識(shí)別特征的情況下,通過所述音頻特征更新匹配出的聲音識(shí)別特征;在所述已關(guān)聯(lián)特征庫中不存在與所述音頻特征相似度達(dá)到預(yù)設(shè)匹配閾值的聲音識(shí)別特征的情況下,將所述音頻特征增加至所述未關(guān)聯(lián)特征庫中。15.根據(jù)權(quán)利要求14所述的方法,其特征在于,將所述音頻特征增加至所述未關(guān)聯(lián)特征庫中,包括:在所述未關(guān)聯(lián)特征庫中存在與所述音頻特征相似度達(dá)到預(yù)設(shè)匹配閾值的聲音識(shí)別特征的情況下,通過所述音頻特征更新匹配出的聲音識(shí)別特征,并更新用于更新該聲音識(shí)別特征的音頻數(shù)量;在所述未關(guān)聯(lián)特征庫中不存在與所述音頻特征相似度達(dá)到預(yù)設(shè)匹配閾值的聲音識(shí)別特征的情況下,將所述音頻特征作為聲音識(shí)別特征增加至所述未關(guān)聯(lián)特征庫中。16.根據(jù)權(quán)利要求12所述的方法,其特征在于,還包括:確定所述未關(guān)聯(lián)特征庫中的聲音識(shí)別特征是否超出預(yù)設(shè)數(shù)量;在所述關(guān)聯(lián)特征庫中的聲音識(shí)別特征超出預(yù)設(shè)數(shù)量的情況下,刪除所述未關(guān)聯(lián)特征庫中用于更新聲音識(shí)別特征的音頻數(shù)據(jù)的數(shù)量最少的一個(gè)或多個(gè)聲音識(shí)別特征。17.根據(jù)權(quán)利要求12所述的方法,其特征在于,還包括:確定所述未關(guān)聯(lián)特征庫中的聲音識(shí)別特征是否超出預(yù)設(shè)數(shù)量;在所述關(guān)聯(lián)特征庫中的聲音識(shí)別特征超出預(yù)設(shè)數(shù)量的情況下,刪除所述未關(guān)聯(lián)特征庫中更新時(shí)間最早的一個(gè)或多個(gè)聲音識(shí)別特征。18.根據(jù)權(quán)利要求12所述的方法,其特征在于,在確定所述未關(guān)聯(lián)特征庫中存在更新次數(shù)達(dá)到預(yù)設(shè)閾值的聲音識(shí)別特征的情況下,為該聲音識(shí)別特征關(guān)聯(lián)用戶信息,并將該聲音識(shí)別特征添加至所述已關(guān)聯(lián)特征庫中,包括:在確定所述未關(guān)聯(lián)特征庫中存在更新次數(shù)達(dá)到預(yù)設(shè)閾值的聲音識(shí)別特征的情況下,確定所述已關(guān)聯(lián)特征庫中是否存在與該達(dá)到預(yù)設(shè)閾值的聲音識(shí)別特征之間的相似度達(dá)到預(yù)設(shè)匹配閾值的已關(guān)聯(lián)用戶信息的聲音識(shí)別特征;在確定存在的情況下,通過該達(dá)到預(yù)設(shè)閾值的聲音識(shí)別特征更新匹配出的已關(guān)聯(lián)用戶信息的聲音識(shí)別特征。19.一種聲音識(shí)別特征的動(dòng)態(tài)注冊(cè)方法,其特征在于,所述方法包括:確定聲音識(shí)別特征是否滿足預(yù)設(shè)要求;在確定所述聲音識(shí)別特征滿足所述預(yù)設(shè)要求的情況下,為所述聲音識(shí)別特征關(guān)聯(lián)用戶信息。20.一種客戶端,其特征在于,包括:處理器和存儲(chǔ)器,其中:所述處理器用于獲取音頻數(shù)據(jù),并提取所述音頻數(shù)據(jù)的音頻特征;確定已關(guān)聯(lián)特征庫中是否存在與所述音頻特征之間的相似度達(dá)到預(yù)設(shè)匹配閾值的聲音識(shí)別特征,其中,所述已關(guān)聯(lián)特征庫用于存儲(chǔ)已關(guān)聯(lián)用戶信息的聲音識(shí)別特征;在確定存在的情況下,通過所述音頻特征更新匹配出的聲音識(shí)別特征;在確定不存在的情況下,將所述音頻特征添加至未關(guān)聯(lián)特征庫中,其中,所述未關(guān)聯(lián)特征庫用于存儲(chǔ)未關(guān)聯(lián)用戶信息的聲音識(shí)別特征;所述存儲(chǔ)器用于存儲(chǔ)所述已關(guān)聯(lián)特征庫和所述未關(guān)聯(lián)特征庫。21.根據(jù)權(quán)利要求20所述的客戶端,其特征在于,所述處理器具體用于獲取所述音頻特征和所述匹配出的聲音識(shí)別特征;根據(jù)所述音頻特征和所述匹配出的聲音識(shí)別特征生成第一識(shí)別特征;將所述第一識(shí)別特征取代所述匹配出的聲音識(shí)別特征存儲(chǔ)在所述已關(guān)聯(lián)特征庫中。22.根據(jù)權(quán)利要求20所述的客戶端,其特征在于,所述處理器具體用于在所述未關(guān)聯(lián)特征庫中存在與所述音頻特征相似度達(dá)到預(yù)設(shè)匹配閾值的聲音識(shí)別特征的情況下,通過所述音頻特征更新匹配出的聲音識(shí)別特征,并更新用于更新該聲音識(shí)別特征的音頻數(shù)量;在所述未關(guān)聯(lián)特征庫中不存在與所述音頻特征相似度達(dá)到預(yù)設(shè)匹配閾值的聲音識(shí)別特征的情況下,將所述音頻特征作為聲音識(shí)別特征增加至所述未關(guān)聯(lián)特征庫中。23.根據(jù)權(quán)利要求20所述的客戶端,其特征在于,所述音頻數(shù)據(jù)包括:對(duì)用戶說出喚醒詞的聲音進(jìn)行錄制所得到的音頻文件。24.一種服務(wù)器,其特征在于,包括:處理器和存儲(chǔ)器,其中:所述處理器用于獲取音頻數(shù)據(jù),并提取所述音頻數(shù)據(jù)的音頻特征;確定已關(guān)聯(lián)特征庫中是否存在與所述音頻特征之間的相似度達(dá)到預(yù)設(shè)匹配閾值的聲音識(shí)別特征,其中,所述已關(guān)聯(lián)特征庫用于存儲(chǔ)已關(guān)聯(lián)用戶信息的聲音識(shí)別特征;在確定存在的...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:劉剛,趙情恩,劉廣興,
申請(qǐng)(專利權(quán))人:阿里巴巴集團(tuán)控股有限公司,
類型:發(fā)明
國別省市:開曼群島,KY
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。