一種語音識別系統技術方案

技術編號：15331924 閱讀：208 留言：0更新日期：2017-05-16 15:05

本發明專利技術涉及一種語音識別系統，由基本的基于聲學模型到拼音映射網絡的基礎識別器和任意多個針對不同應用領域的基于拼音到詞語映射網絡的特定識別器以及一個綜合決策單元共同組成。語音首先通過基礎識別器映射為由多個候選拼音序列組織成的網絡，然后該拼音網絡再通過和一個對應特定應用目標的特定識別器進行組合，最后在組合后的網絡上進行最佳路徑的搜索，得到最終的識別結果。在這種架構下，拼音網絡可以和多個應用領域的單獨的拼音到詞語映射的特定識別器進行組合，最終根據聲學和語言模型評分以及其他應用相關的超級規則選擇最佳的識別結果。

A speech recognition system

The invention relates to a speech recognition system, the basic recognition and arbitrary acoustic model to phonetic mapping network for multiple different applications based on phonetic recognizer to specific words mapping network and a comprehensive decision-making unit composed based on. On the grounds of a plurality of candidate phonetic sequences into speech recognizer based network by first mapping, combination of specific recognition and the phonetic network through a corresponding application specific target, finally the optimal path search in the combination of the network, get the final recognition results. In this framework, the combination of specific phonetic recognizer network and multiple application fields to separate phonetic mapping words, according to the best recognition results of acoustic and language model scores and other applications related to super selection rules.

全部詳細技術資料下載

【技術實現步驟摘要】
一種語音識別系統
本專利技術涉及語音識別
，尤其涉及一種可以進行在線領域擴展的語音識別系統。
技術介紹
漢語不是拼讀語言，如果沒有上下文信息難以直接從音斷定對應的漢字。傳統的語音識別使用預先生成的靜態解碼網絡進行解碼，并且該解碼網絡通常是從音素直接映射為詞語。該解碼網絡融合了要識別的音頻內容的詞語的概率分布信息。這樣導致識別器從一個領域切換到另外一個領域時，性能會急劇下降，另外一些術語和新詞可能總是無法正確識別。為了支持多個領域的識別，通常用一個模型來同時建模多個領域的詞語的概率分布信息。這導致該模型概率分布比較平均(這意味著識別性能通常也比較平均)，并且模型比較龐大。為了支持新詞或者術語的識別，必須重新訓練模型和構造識別器。這是非常耗費時間和資源的。有鑒于上述的缺陷，本設計人，積極加以研究創新，以期創設一種可以進行在線領域擴展的語音識別系統，使其更具有產業上的利用價值。
技術實現思路
為解決上述技術問題，本專利技術的目的是提供一種可以進行在線領域擴展，從而可快速提高特定領域的識別性能的語音識別系統。本專利技術的語音識別系統，包括-基于聲學模型到拼音映射網絡的基礎識別器，用于將語音映射為由多個候選拼音序列組織成的網絡；-多個并列的針對不同應用領域的基于拼音到詞語映射網絡的特定識別器，用于分別與由多個候選拼音序列組織成的網絡進行組合，得到多個最佳詞序列及置信度；-綜合決策單元，用于接收多個最佳詞序列及置信度，然后根據置信度再加上預先給定的先驗知識和規則以及附加知識，進行決策，選擇最佳的詞序列輸出。進一步的，通過調整拼音到詞語映射網絡，添加新的識別內容到已有...
一種語音識別系統

【技術保護點】
一種語音識別系統，其特征在于：包括?基于聲學模型到拼音映射網絡的基礎識別器，用于將語音映射為由多個候選拼音序列組織成的網絡；?多個并列的針對不同應用領域的基于拼音到詞語映射網絡的特定識別器，用于分別與由多個候選拼音序列組織成的網絡進行組合，得到多個最佳詞序列及置信度；?綜合決策單元，用于接收多個最佳詞序列及置信度，然后根據置信度再加上預先給定的先驗知識和規則以及附加知識，進行決策，選擇最佳的詞序列輸出。

【技術特征摘要】
1.一種語音識別系統，其特征在于：包括-基于聲學模型到拼音映射網絡的基礎識別器，用于將語音映射為由多個候選拼音序列組織成的網絡；-多個并列的針對不同應用領域的基于拼音到詞語映射網絡的特定識別器，用于分別與由多個候選拼音序列組織成的網絡進行組合，得到多個最佳詞序列及置信度；-綜合決策單元，用于接收多個最佳詞序列及置信度，然后根據置信度再加上預先給定的先驗知識和規則以及附加知識，進行決策，選擇最佳的詞序列輸出。2.根據權利要求1所述的語音識別系統，其特征在于：通過調整拼音到詞語映射網絡，添加新的識別內容到已有領域的基于拼音到詞語映射網絡的特定識別器中，更新已有領域的識別內容；通過離線構造對應的基于拼音到詞語映射網絡的特定識別器，然后將擴展內容在線添加到基于拼音到詞語映射網絡的特定識別器中，創建新的應用領域的識別內容。3.根據權利要求1所述的語音識別系統，其特征在于：所述基于聲學模型到拼音映射網絡的基礎識別器根據輸入的音頻特征動態計算聲學得分，并在其網絡上保存有拼音序列的語言模型得分，采用動態規劃算法結合聲學得分和語言模型得分，搜索得分最高...

【專利技術屬性】
技術研發人員：沈小正，張光宇，朱孟旭，代大明，肖佳林，
申請(專利權)人：蘇州奇夢者網絡科技有限公司，
類型：發明
國別省市：江蘇,32