當(dāng)前位置: 首頁 > 專利查詢>阿里巴巴集團(tuán)控股有限公司專利>正文

聲音識(shí)別特征的優(yōu)化、動(dòng)態(tài)注冊(cè)方法、客戶端和服務(wù)器技術(shù)

技術(shù)編號(hào)：20007019 閱讀：41 留言：0更新日期：2019-01-05 18:39

本申請(qǐng)實(shí)施方式公開了一種聲音識(shí)別特征的優(yōu)化、動(dòng)態(tài)注冊(cè)方法、客戶端和服務(wù)器，其中，該聲音識(shí)別特征的優(yōu)化包括：獲取音頻數(shù)據(jù)，并提取所述音頻數(shù)據(jù)的音頻特征；確定已關(guān)聯(lián)特征庫中是否存在與所述音頻特征之間的相似度達(dá)到預(yù)設(shè)匹配閾值的聲音識(shí)別特征，其中，所述已關(guān)聯(lián)特征庫用于存儲(chǔ)已關(guān)聯(lián)用戶信息的聲音識(shí)別特征；在確定存在的情況下，通過所述音頻特征更新匹配出的聲音識(shí)別特征；在確定不存在的情況下，將所述音頻特征添加至未關(guān)聯(lián)特征庫中，其中，所述未關(guān)聯(lián)特征庫用于存儲(chǔ)未關(guān)聯(lián)用戶信息的聲音識(shí)別特征。本申請(qǐng)解決了現(xiàn)有技術(shù)中所存在的無法簡單高效地建立準(zhǔn)確的用于聲紋識(shí)別的特征庫，達(dá)到了簡單高效地建立準(zhǔn)確的用于聲紋識(shí)別的特征庫的技術(shù)效果。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】
聲音識(shí)別特征的優(yōu)化、動(dòng)態(tài)注冊(cè)方法、客戶端和服務(wù)器
本申請(qǐng)涉及計(jì)算機(jī)
，特別涉及一種聲音識(shí)別特征的優(yōu)化、動(dòng)態(tài)注冊(cè)方法、客戶端和服務(wù)器。
技術(shù)介紹
隨著人工智能技術(shù)的不斷發(fā)展，人臉識(shí)別、指紋識(shí)別技術(shù)等都得到了很大的發(fā)展。智能識(shí)別的應(yīng)用也越來越廣泛。聲紋識(shí)別作為一種新型的識(shí)別技術(shù)發(fā)展速度也越來越快，聲紋識(shí)別(voiceprintidentification)技術(shù)也可以稱為說話人識(shí)別(speakeridentification)。所謂的聲紋識(shí)別是從說話的人發(fā)出的語音中提取出語音特征，然后基于提取出的語音特征進(jìn)行身份驗(yàn)證的識(shí)別技術(shù)。聲紋識(shí)別所依賴的是人們的發(fā)聲器官是在成長的過程中逐漸形成的特征，每個(gè)人的聲紋都是不同的，可以是；音色、語調(diào)、語速等的不同，也可以是聲音所形成的聲譜的不同的。即使有意進(jìn)行模仿，不同人的聲紋也是不同的，類似于指紋，不同的人都有不同的指紋。然而，如果希望通過聲紋進(jìn)行識(shí)別，那么也需要建立一個(gè)進(jìn)行聲紋匹配的特征集合，從而實(shí)現(xiàn)聲紋識(shí)別。針對(duì)如何簡單高效地建立準(zhǔn)確的用于聲紋識(shí)別的特征庫，目前尚未提出有效的解決方案。
技術(shù)實(shí)現(xiàn)思路
本申請(qǐng)實(shí)施方式的目的是提供一種聲音識(shí)別特征的優(yōu)化、動(dòng)態(tài)注冊(cè)方法、客戶端和服務(wù)器，以達(dá)到簡單高效建立精度較高的聲音識(shí)別特征庫的目的。一種聲音識(shí)別特征的優(yōu)化方法，所述方法包括：獲取音頻數(shù)據(jù)，并提取所述音頻數(shù)據(jù)的音頻特征；確定已關(guān)聯(lián)特征庫中是否存在與所述音頻特征之間的相似度達(dá)到預(yù)設(shè)匹配閾值的聲音識(shí)別特征，其中，所述已關(guān)聯(lián)特征庫用于存儲(chǔ)已關(guān)聯(lián)用戶信息的聲音識(shí)別特征；在確定存在的情況下，通過所述音頻特征更新匹配出的聲音識(shí)別特征；在確定...

【技術(shù)保護(hù)點(diǎn)】
1.一種聲音識(shí)別特征的優(yōu)化方法，其特征在于，所述方法包括：獲取音頻數(shù)據(jù)，并提取所述音頻數(shù)據(jù)的音頻特征；確定已關(guān)聯(lián)特征庫中是否存在與所述音頻特征之間的相似度達(dá)到預(yù)設(shè)匹配閾值的聲音識(shí)別特征，其中，所述已關(guān)聯(lián)特征庫用于存儲(chǔ)已關(guān)聯(lián)用戶信息的聲音識(shí)別特征；在確定存在的情況下，通過所述音頻特征更新匹配出的聲音識(shí)別特征；在確定不存在的情況下，將所述音頻特征添加至未關(guān)聯(lián)特征庫中，其中，所述未關(guān)聯(lián)特征庫用于存儲(chǔ)未關(guān)聯(lián)用戶信息的聲音識(shí)別特征。

【技術(shù)特征摘要】
1.一種聲音識(shí)別特征的優(yōu)化方法，其特征在于，所述方法包括：獲取音頻數(shù)據(jù)，并提取所述音頻數(shù)據(jù)的音頻特征；確定已關(guān)聯(lián)特征庫中是否存在與所述音頻特征之間的相似度達(dá)到預(yù)設(shè)匹配閾值的聲音識(shí)別特征，其中，所述已關(guān)聯(lián)特征庫用于存儲(chǔ)已關(guān)聯(lián)用戶信息的聲音識(shí)別特征；在確定存在的情況下，通過所述音頻特征更新匹配出的聲音識(shí)別特征；在確定不存在的情況下，將所述音頻特征添加至未關(guān)聯(lián)特征庫中，其中，所述未關(guān)聯(lián)特征庫用于存儲(chǔ)未關(guān)聯(lián)用戶信息的聲音識(shí)別特征。2.根據(jù)權(quán)利要求1所述的方法，其特征在于，通過所述音頻特征更新匹配出的聲音識(shí)別特征，包括：獲取所述音頻特征和所述匹配出的聲音識(shí)別特征；根據(jù)所述音頻特征和所述匹配出的聲音識(shí)別特征生成第一識(shí)別特征；將所述第一識(shí)別特征取代所述匹配出的聲音識(shí)別特征存儲(chǔ)在所述已關(guān)聯(lián)特征庫中。3.根據(jù)權(quán)利要求1所述的方法，其特征在于，將所述音頻特征添加至所述未關(guān)聯(lián)特征庫中，包括：在所述未關(guān)聯(lián)特征庫中存在與所述音頻特征相似度達(dá)到預(yù)設(shè)匹配閾值的聲音識(shí)別特征的情況下，通過所述音頻特征更新匹配出的聲音識(shí)別特征，并更新用于更新該聲音識(shí)別特征的音頻數(shù)量；在所述未關(guān)聯(lián)特征庫中不存在與所述音頻特征相似度達(dá)到預(yù)設(shè)匹配閾值的聲音識(shí)別特征的情況下，將所述音頻特征作為聲音識(shí)別特征增加至所述未關(guān)聯(lián)特征庫中。4.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述音頻數(shù)據(jù)包括：對(duì)用戶說出喚醒詞的聲音進(jìn)行錄制所得到的音頻文件。5.一種聲音識(shí)別特征的動(dòng)態(tài)注冊(cè)方法，其特征在于，所述方法包括：確定用于更新聲音識(shí)別特征的音頻數(shù)量是否達(dá)到預(yù)設(shè)閾值；在確定用于更新所述聲音識(shí)別特征的音頻數(shù)量達(dá)到所述預(yù)設(shè)閾值的情況下，為所述聲音識(shí)別特征關(guān)聯(lián)用戶信息。6.根據(jù)權(quán)利要求5所述的方法，其特征在于，在確定用于更新聲音識(shí)別特征的音頻數(shù)量是否達(dá)到預(yù)設(shè)閾值之前，所述方法還包括：獲取音頻數(shù)據(jù)；提取所述音頻數(shù)據(jù)的音頻特征；確定是否存在與所述音頻特征之間的相似度達(dá)到預(yù)設(shè)匹配閾值的已關(guān)聯(lián)用戶信息的聲音識(shí)別特征；在確定存在的情況下，通過所述音頻特征更新匹配出的已關(guān)聯(lián)用戶信息的聲音識(shí)別特征。7.根據(jù)權(quán)利要求6所述的方法，其特征在于，在確定是否存在與所述音頻特征之間的相似度達(dá)到預(yù)設(shè)匹配閾值的已關(guān)聯(lián)用戶信息的聲音識(shí)別特征之后，確定用于更新聲音識(shí)別特征的音頻數(shù)量是否達(dá)到預(yù)設(shè)閾值，包括：在確定出不存在與所述音頻特征之間的相似度達(dá)到預(yù)設(shè)匹配閾值的已關(guān)聯(lián)用戶信息的聲音識(shí)別特征的情況下，確定是否存在與所述音頻特征相似度達(dá)到預(yù)設(shè)匹配閾值的未關(guān)聯(lián)用戶信息的聲音識(shí)別特征；在確定存在與所述音頻特征相似度達(dá)到預(yù)設(shè)匹配閾值的未關(guān)聯(lián)用戶信息的聲音識(shí)別特征的情況下，通過所述音頻特征更新匹配出的未關(guān)聯(lián)用戶信息的聲音識(shí)別特征；確定用于更新匹配出的未關(guān)聯(lián)用戶信息的聲音識(shí)別特征的音頻數(shù)量是否達(dá)到預(yù)設(shè)閾值。8.根據(jù)權(quán)利要求6所述的方法，其特征在于，在確定存在的情況下，通過所述音頻特征更新匹配出的已關(guān)聯(lián)用戶信息的聲音識(shí)別特征，包括：在確定出存在多個(gè)與所述音頻特征之間的相似度達(dá)到預(yù)設(shè)匹配閾值的已關(guān)聯(lián)用戶信息的聲音識(shí)別特征的情況下，通過所述音頻特征更新相似度最高的已關(guān)聯(lián)用戶信息的聲音識(shí)別特征。9.根據(jù)權(quán)利要求6所述的方法，其特征在于，還包括：監(jiān)測未關(guān)聯(lián)用戶信息的聲音識(shí)別特征的數(shù)量是否超出預(yù)設(shè)數(shù)量；在確定超出所述預(yù)設(shè)數(shù)量的情況下，刪除未關(guān)聯(lián)用戶信息的聲音識(shí)別特征中用于更新聲音識(shí)別特征的音頻數(shù)據(jù)的數(shù)量最少的一個(gè)或多個(gè)聲音識(shí)別特征。10.根據(jù)權(quán)利要求6所述的方法，其特征在于，還包括：監(jiān)測未關(guān)聯(lián)用戶信息的聲音識(shí)別特征的數(shù)量是否超出預(yù)設(shè)數(shù)量；在確定超出所述預(yù)設(shè)數(shù)量的情況下，刪除未關(guān)聯(lián)用戶信息的聲音識(shí)別特征中更新時(shí)間最早的一個(gè)或多個(gè)聲音識(shí)別特征。11.根據(jù)權(quán)利要求6所述的方法，其特征在于，為所述聲音識(shí)別特征添加與該聲音識(shí)別特征關(guān)聯(lián)的用戶信息，包括：生成用于請(qǐng)求用戶信息的請(qǐng)求；接收響應(yīng)于所述請(qǐng)求返回的用戶信息；將接收到的用戶信息與所述聲音識(shí)別特征進(jìn)行關(guān)聯(lián)。12.一種聲音識(shí)別特征的動(dòng)態(tài)注冊(cè)方法，其特征在于，所述方法包括：確定未關(guān)聯(lián)特征庫中是否存在更新次數(shù)達(dá)到預(yù)設(shè)閾值的聲音識(shí)別特征，其中，所述未關(guān)聯(lián)特征庫用于存儲(chǔ)未關(guān)聯(lián)用戶信息的聲音識(shí)別特征；在確定未關(guān)聯(lián)特征庫中存在更新次數(shù)達(dá)到預(yù)設(shè)閾值的聲音識(shí)別特征的情況下，為該聲音識(shí)別特征關(guān)聯(lián)用戶信息，并將該聲音識(shí)別特征添加至已關(guān)聯(lián)特征庫中，其中，所述已關(guān)聯(lián)特征庫用于存儲(chǔ)已關(guān)聯(lián)用戶信息的聲音識(shí)別特征。13.根據(jù)權(quán)利要求12所述的方法，其特征在于，所述已關(guān)聯(lián)特征庫中還存儲(chǔ)有已關(guān)聯(lián)用戶信息的聲音識(shí)別特征所關(guān)聯(lián)的用戶信息；和/或，所述未關(guān)聯(lián)特征庫中還存儲(chǔ)有用于更新各個(gè)未關(guān)聯(lián)用戶信息的聲音識(shí)別特征的音頻數(shù)量。14.根據(jù)權(quán)利要求12所述的方法，其特征在于，還包括：獲取音頻數(shù)據(jù)，并提取所述音頻數(shù)據(jù)的音頻特征；在所述已關(guān)聯(lián)特征庫中存在與所述音頻特征相似度達(dá)到預(yù)設(shè)匹配閾值的聲音識(shí)別特征的情況下，通過所述音頻特征更新匹配出的聲音識(shí)別特征；在所述已關(guān)聯(lián)特征庫中不存在與所述音頻特征相似度達(dá)到預(yù)設(shè)匹配閾值的聲音識(shí)別特征的情況下，將所述音頻特征增加至所述未關(guān)聯(lián)特征庫中。15.根據(jù)權(quán)利要求14所述的方法，其特征在于，將所述音頻特征增加至所述未關(guān)聯(lián)特征庫中，包括：在所述未關(guān)聯(lián)特征庫中存在與所述音頻特征相似度達(dá)到預(yù)設(shè)匹配閾值的聲音識(shí)別特征的情況下，通過所述音頻特征更新匹配出的聲音識(shí)別特征，并更新用于更新該聲音識(shí)別特征的音頻數(shù)量；在所述未關(guān)聯(lián)特征庫中不存在與所述音頻特征相似度達(dá)到預(yù)設(shè)匹配閾值的聲音識(shí)別特征的情況下，將所述音頻特征作為聲音識(shí)別特征增加至所述未關(guān)聯(lián)特征庫中。16.根據(jù)權(quán)利要求12所述的方法，其特征在于，還包括：確定所述未關(guān)聯(lián)特征庫中的聲音識(shí)別特征是否超出預(yù)設(shè)數(shù)量；在所述關(guān)聯(lián)特征庫中的聲音識(shí)別特征超出預(yù)設(shè)數(shù)量的情況下，刪除所述未關(guān)聯(lián)特征庫中用于更新聲音識(shí)別特征的音頻數(shù)據(jù)的數(shù)量最少的一個(gè)或多個(gè)聲音識(shí)別特征。17.根據(jù)權(quán)利要求12所述的方法，其特征在于，還包括：確定所述未關(guān)聯(lián)特征庫中的聲音識(shí)別特征是否超出預(yù)設(shè)數(shù)量；在所述關(guān)聯(lián)特征庫中的聲音識(shí)別特征超出預(yù)設(shè)數(shù)量的情況下，刪除所述未關(guān)聯(lián)特征庫中更新時(shí)間最早的一個(gè)或多個(gè)聲音識(shí)別特征。18.根據(jù)權(quán)利要求12所述的方法，其特征在于，在確定所述未關(guān)聯(lián)特征庫中存在更新次數(shù)達(dá)到預(yù)設(shè)閾值的聲音識(shí)別特征的情況下，為該聲音識(shí)別特征關(guān)聯(lián)用戶信息，并將該聲音識(shí)別特征添加至所述已關(guān)聯(lián)特征庫中，包括：在確定所述未關(guān)聯(lián)特征庫中存在更新次數(shù)達(dá)到預(yù)設(shè)閾值的聲音識(shí)別特征的情況下，確定所述已關(guān)聯(lián)特征庫中是否存在與該達(dá)到預(yù)設(shè)閾值的聲音識(shí)別特征之間的相似度達(dá)到預(yù)設(shè)匹配閾值的已關(guān)聯(lián)用戶信息的聲音識(shí)別特征；在確定存在的情況下，通過該達(dá)到預(yù)設(shè)閾值的聲音識(shí)別特征更新匹配出的已關(guān)聯(lián)用戶信息的聲音識(shí)別特征。19.一種聲音識(shí)別特征的動(dòng)態(tài)注冊(cè)方法，其特征在于，所述方法包括：確定聲音識(shí)別特征是否滿足預(yù)設(shè)要求；在確定所述聲音識(shí)別特征滿足所述預(yù)設(shè)要求的情況下，為所述聲音識(shí)別特征關(guān)聯(lián)用戶信息。20.一種客戶端，其特征在于，包括：處理器和存儲(chǔ)器，其中：所述處理器用于獲取音頻數(shù)據(jù)，并提取所述音頻數(shù)據(jù)的音頻特征；確定已關(guān)聯(lián)特征庫中是否存在與所述音頻特征之間的相似度達(dá)到預(yù)設(shè)匹配閾值的聲音識(shí)別特征，其中，所述已關(guān)聯(lián)特征庫用于存儲(chǔ)已關(guān)聯(lián)用戶信息的聲音識(shí)別特征；在確定存在的情況下，通過所述音頻特征更新匹配出的聲音識(shí)別特征；在確定不存在的情況下，將所述音頻特征添加至未關(guān)聯(lián)特征庫中，其中，所述未關(guān)聯(lián)特征庫用于存儲(chǔ)未關(guān)聯(lián)用戶信息的聲音識(shí)別特征；所述存儲(chǔ)器用于存儲(chǔ)所述已關(guān)聯(lián)特征庫和所述未關(guān)聯(lián)特征庫。21.根據(jù)權(quán)利要求20所述的客戶端，其特征在于，所述處理器具體用于獲取所述音頻特征和所述匹配出的聲音識(shí)別特征；根據(jù)所述音頻特征和所述匹配出的聲音識(shí)別特征生成第一識(shí)別特征；將所述第一識(shí)別特征取代所述匹配出的聲音識(shí)別特征存儲(chǔ)在所述已關(guān)聯(lián)特征庫中。22.根據(jù)權(quán)利要求20所述的客戶端，其特征在于，所述處理器具體用于在所述未關(guān)聯(lián)特征庫中存在與所述音頻特征相似度達(dá)到預(yù)設(shè)匹配閾值的聲音識(shí)別特征的情況下，通過所述音頻特征更新匹配出的聲音識(shí)別特征，并更新用于更新該聲音識(shí)別特征的音頻數(shù)量；在所述未關(guān)聯(lián)特征庫中不存在與所述音頻特征相似度達(dá)到預(yù)設(shè)匹配閾值的聲音識(shí)別特征的情況下，將所述音頻特征作為聲音識(shí)別特征增加至所述未關(guān)聯(lián)特征庫中。23.根據(jù)權(quán)利要求20所述的客戶端，其特征在于，所述音頻數(shù)據(jù)包括：對(duì)用戶說出喚醒詞的聲音進(jìn)行錄制所得到的音頻文件。24.一種服務(wù)器，其特征在于，包括：處理器和存儲(chǔ)器，其中：所述處理器用于獲取音頻數(shù)據(jù)，并提取所述音頻數(shù)據(jù)的音頻特征；確定已關(guān)聯(lián)特征庫中是否存在與所述音頻特征之間的相似度達(dá)到預(yù)設(shè)匹配閾值的聲音識(shí)別特征，其中，所述已關(guān)聯(lián)特征庫用于存儲(chǔ)已關(guān)聯(lián)用戶信息的聲音識(shí)別特征；在確定存在的...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：劉剛，趙情恩，劉廣興，
申請(qǐng)(專利權(quán))人：阿里巴巴集團(tuán)控股有限公司，
類型：發(fā)明
國別省市：開曼群島,KY

全部詳細(xì)技術(shù)資料下載我是這個(gè)專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評(píng)論

還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)