• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種可實時反饋用戶朗讀進度的語音跟蹤方法技術

    技術編號:8563600 閱讀:230 留言:0更新日期:2013-04-11 05:30
    一種可實時反饋用戶朗讀進度的語音跟蹤方法,(1)輸入待跟蹤的文本;(2)根據所述文本搭建跟蹤解碼網絡,并將跟蹤解碼網絡、聲學模型傳給解碼器;(3)實時提取聲學特征序列,并實時傳遞給解碼器;(4)解碼器實時判斷用戶朗讀的進度,同時檢測用戶是否朗讀了文本外的內容;(5)實時顯示跟蹤進度。本發明專利技術解決了用戶不按正常順序朗讀而無法正常跟蹤的問題,提高了系統的抗環境噪音干擾能力,使語音朗讀跟蹤功能真正達到實用的水平。

    【技術實現步驟摘要】

    本專利技術涉及一種連續語音識別跟蹤方法。本專利技術可實現在用戶朗讀固定文本時,實時獲知用戶朗讀的文本內容,從而實現自動跟蹤用戶朗讀文本的功能。
    技術介紹
    傳統的口語評測和學習全部依賴于人,隨著語音識別技術的發展和成熟,智能語音評測技術孕育而生,機器逐漸替代人進行口語評測和學習。智能語音評測技術涉及的知識領域包括語音技術、自然語言理解、人工智能、數據挖掘、機器學習等多學科知識,通過此技術可實現對發音人的口語水平進行評估,并根據評估結果指導發音人進行學習。例如一百易公司的互聯網學習系統包含的英文句子評分功能,科大訊飛公司的暢言網包含的中文字詞句的評分和音素檢錯功能以及英文文章的評分功能,目前的這些學習系統均能在朗讀完成后給出反饋,但是在朗讀過程中是沒有交互的。在學習者進行口語練習的過程中,增加一些人機交互的過程會提高用戶體驗,增強學習者的興趣。例如在用戶朗讀短文時,機器根據用戶朗讀內容實時高亮顯示朗讀文本的位置。傳統的實現方法只對用戶按文本順序正常朗讀的情況適用,而對用戶不按文本順序朗讀或存在環境噪音干擾時,傳統的實現方法無法正常進行朗讀跟蹤。本專利技術中介紹的方案能有效解決此類問題。現有的朗讀跟蹤技術是通過語音端點檢測(Voice Activity Detection, VAD)技術找到語音開始點,檢測到用戶開始朗讀后,勻速顯示用戶朗讀的文本位置,其具體流程如圖1所示,輸入用戶語音;VAD判斷用戶是否已經開始朗讀;檢測到開始位置;勻速告知用戶朗讀位置。現有技術在用戶規范、勻速朗讀的情況下,可以得到較好體驗,但是在實際使用中,用戶的行為是不可控制的,所以存在以下幾個缺點(I)用戶朗讀的速度同系統預設的顯示速度不一致時,體驗效果很差;(2)用戶沒有嚴格按照文本的正常順序朗讀時(例如回讀、漏讀文本內容)會導致跟蹤進度跟朗讀進度不一致;(3)用戶朗讀預定內容外內容(下面統稱為無關語音)時會導致跟蹤進度跟朗讀進度不一致;(4)用戶開始朗讀前存在環境噪音干擾時可能導致跟蹤進度跟朗讀進度不一致。綜上所述,現有方法的最大缺點在于沒有考慮到用戶的朗讀習慣,從而使用戶體驗效果較差。而本專利技術很好地解決了以上問題,它采用成熟的語音識別技術,可以使學習系統精確地識別出用戶當前朗讀的進度,并引入實時無關語音檢測機制,有效地解決了在用戶朗讀預期內容外的內容時,無法智能識別的問題。極大地提高了用戶的主觀體驗。
    技術實現思路
    本專利技術技術解決問題克服現有技術沒有考慮到用戶的朗讀習慣和應用環境的復雜性方面的不足,提供,既解決了用戶不按正常順序朗讀而無法正常跟蹤的問題,又提高了系統的抗環境噪音干擾能力,使語音朗讀跟蹤功能真正達到實用的水平。本專利技術技術解決方案,實現步驟下(I)輸入待跟蹤的文本,并進行文本處理;(2)根據所述文本搭建跟蹤解碼網絡,并將跟蹤解碼網絡、聲學模型傳給解碼器;所述聲學模型是語音識別的基礎數學模型,模型單元是基礎數學模型的組成部分,它是音素、音節或字,目前主流的建模方式是采用隱馬爾科夫建模。解碼器是語音識別系統的核心之一,其任務是對輸入的聲學特征序列,根據聲學模型、解碼網絡,尋找該聲學特征序列對應的概率最大的語言單元序列;解碼網絡又稱語法網絡,是解碼器的輸入之一,解碼網絡限定了解碼器輸出語言單元序列的范圍;(3)實時提取聲學特征序列,所述聲學特征序列是指聲學特征中多個單元,每一個單元稱為一幀,并實時傳遞給解碼器;所述聲學特征是描述短時語音本質特征的一組值,通常是一種固定維數的特征向量(如39維的MFCC特征向量);(4)解碼器基于步驟(3)中輸入的聲學特征序列,在跟蹤解碼網絡中對所有可能的網絡路徑進行搜索,每隔一定時間檢查當前的搜索路徑,并找出當前概率最優路徑,基于此最優路徑判斷用戶朗讀進度,獲取當前朗讀內容在文本中的位置和狀態;同時結合最大路徑中發音單元的概率信息檢測用戶是否朗讀了文本外的內容;(5)根據步驟(4)中反饋的當前朗讀內容在文本中的位置和狀態,實時顯示跟蹤進度;所述步驟(2)中搭建跟蹤解碼網絡的過程如下(21)獲取文本處理步驟中得到的朗讀文本模型單元序列,所述模型單元序列是指多個模型單元按順序排列在一起稱為模型單元序列;(22)計算節點和連接弧的數目,分配內存,即根據模型單元序列個數計算跟蹤解碼網絡中的空節點、朗讀文本模型單元節點、無關語音模型單元節點及連接弧個數,并為這些節點和弧分配存儲單元;(23)構造無關語音吸收網絡,即將無關語音吸收網絡中的關聯節點用弧進行連接;(24)將朗讀文本模型單元節點、空節點、無關語音吸收網絡通過弧連接。所述步驟(4)中找出當前概率最優路徑的過程為(41)取出解碼器上一次輸出的最優路徑,若模型單元中為字,則此處的路徑即為朗讀文本序列,若模型單元為音素或音節,則需要將其解析成朗讀文本序列;(42)獲取解碼器當前輸出的最優路徑,并解析成朗讀文本序列,將新的朗讀文本序列與上一次的朗讀文本序列進行差異比較;(43)根據步驟(42)中的文本序列差異,標記每個字的狀態,所述每個字的狀態包括UNREAD、CHECKING、HASREAD, UNREAD表明前面拋出過該字已朗讀,但是在后期的檢查中發現用戶沒有朗讀該字,需取消前面的判斷;CHECKING表明用戶正在朗讀該字,且尚未朗讀完整;HASREAD表明用戶已朗讀了該字;(44)得到最優路徑,并保存(42)中獲取的最優路徑供下一次差異比較。所述步驟(3)中聲學特征包括梅爾倒譜系數MFCC、倒譜系數CEP、線性預測系數LPC或感知線性預測系數PLP。所述步驟(4)中解碼器包括Viterbi解碼,或是基于動態時間規整(DTW)的解碼。所述步驟第(2)構建跟蹤解碼網絡時,根據應用需要構造不同結構的跟蹤解碼網絡,包括調整節點間跳轉的靈活性、連接弧的懲罰。本專利技術與現有技術相比的優點在于(I)本專利技術充分考慮了用戶的朗讀習慣,分析用戶在朗讀過程中可能出現的不按文本正常順序朗讀的情況,這些情況主要包括回讀對已經讀過的內容再重復朗讀一遍或多遍;漏讀跳過當前應該朗讀的內容而讀后面的內容;增讀額外朗讀一些文本內內容或文本外內容;本專利技術構建了靈活的跟蹤解碼網絡,任何文字間均可重復跳轉,用戶不按文本正常順序朗讀也能精確、實時地判斷出當前朗讀的位置,極大提高了系統的可用性。(2)用戶朗讀預定內容外內容不影響正常跟蹤進度。由于本專利技術構建的跟蹤解碼網絡中加入了無關語音吸收網絡,這種網絡包含靜音模型單元節點和無關語音模型單元節點,其中靜音模型單元節點能吸收非人聲語音,無關語音模型單元節點采用混合人聲語音訓練能吸收預定內容外內容,因此朗讀預定內容外內容時,系統能夠檢測出來。(3)抗環境噪音干擾能力更強。優點(2)中提到的跟蹤解碼網絡中加入了無關語音吸收網絡,由于無關語音模型的訓練數據中加入了各種實際應用場景的噪音數據,因此無關語音吸收網絡對環境噪音干擾具有一定的吸收作用,此優點可以保證用戶在存在環境噪音干擾的場所使用也能達到同樣的效果,提高了系統的魯棒性。(4)本專利技術采用解碼器智能判斷用戶朗讀進度,從根本上區別于現有技術采用的按固定時間顯示用戶朗讀進度的方法,因此本專利技術無需提前預設顯示速度。附圖說明圖1為現有技術的實現流程圖;圖2為本專利技術實現流程圖;圖3為本專利技術跟蹤網絡構建流本文檔來自技高網
    ...

    【技術保護點】
    一種可實時反饋用戶朗讀進度的語音跟蹤方法,其特征在于實現步驟如下:(1)輸入待跟蹤的文本,并進行文本處理;(2)根據所述文本搭建跟蹤解碼網絡,并將跟蹤解碼網絡、聲學模型傳給解碼器;所述聲學模型是語音識別的基礎數學模型,模型單元是基礎數學模型的組成部分,可以是音素、音節或字;(3)實時提取聲學特征序列,所述聲學特征序列是指聲學特征中多個單元,每一個單元稱為一幀,并實時傳遞給解碼器;所述聲學特征是描述短時語音本質特征的一組值;(4)解碼器基于步驟(3)中輸入的聲學特征序列,在跟蹤解碼網絡中對所有可能的網絡路徑進行搜索,每隔一定時間檢查當前的搜索路徑,并找出當前概率最優路徑,基于此最優路徑判斷用戶朗讀進度,獲取當前朗讀內容在文本中的位置和狀態;同時結合最大路徑中發音單元的概率信息檢測用戶是否朗讀了文本外的內容;(5)根據步驟(4)中反饋的當前朗讀內容在文本中的位置和狀態,實時顯示跟蹤進度;所述步驟(2)中搭建跟蹤解碼網絡的過程如下:(21)獲取文本處理步驟中得到的朗讀文本模型單元序列,所述模型單元序列是指多個模型單元按順序排列在一起稱為模型單元序列;(22)計算節點和連接弧的數目,分配內存,即根據模型單元序列個數計算跟蹤解碼網絡中的空節點、朗讀文本模型單元節點、無關語音模型單元節點及連接弧個數,并為這些節點和弧分配存儲單元;(23)構造無關語音吸收網絡,即將無關語音吸收網絡中的關聯節點用弧進行連接;(24)將朗讀文本模型單元節點、空節點、無關語音吸收網絡通過弧連接。...

    【技術特征摘要】
    1.一種可實時反饋用戶朗讀進度的語音跟蹤方法,其特征在于實現步驟如下 (1)輸入待跟蹤的文本,并進行文本處理; (2)根據所述文本搭建跟蹤解碼網絡,并將跟蹤解碼網絡、聲學模型傳給解碼器;所述聲學模型是語音識別的基礎數學模型,模型單元是基礎數學模型的組成部分,可以是音素、音節或字; (3)實時提取聲學特征序列,所述聲學特征序列是指聲學特征中多個單元,每一個單元稱為一幀,并實時傳遞給解碼器;所述聲學特征是描述短時語音本質特征的一組值; (4)解碼器基于步驟(3)中輸入的聲學特征序列,在跟蹤解碼網絡中對所有可能的網絡路徑進行搜索,每隔一定時間檢查當前的搜索路徑,并找出當前概率最優路徑,基于此最優路徑判斷用戶朗讀進度,獲取當前朗讀內容在文本中的位置和狀態;同時結合最大路徑中發音單元的概率信息檢測用戶是否朗讀了文本外的內容; (5)根據步驟(4)中反饋的當前朗讀內容在文本中的位置和狀態,實時顯示跟蹤進度; 所述步驟(2)中搭建跟蹤解碼網絡的過程如下 (21)獲取文本處理步驟中得到的朗讀文本模型單元序列,所述模型單元序列是指多個模型單元按順序排列在一起稱為模型單元序列; (22)計算節點和連接弧的數目,分配內存,即根據模型單元序列個數計算跟蹤解碼網絡中的空節點、朗讀文本模型單元節點、無關語音模型單元節點及連接弧個數,并為這些節點和弧分配存儲單元; (23)構造無關語音吸收網絡,即將無關語音吸收網絡中的關聯節點用弧進行連接; (24)將朗讀文本模型單元節點、空節點、無關語音吸收網絡通過弧連接...

    【專利技術屬性】
    技術研發人員:潘頌聲趙乾吳玲何春江王兵朱群
    申請(專利權)人:安徽科大訊飛信息科技股份有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲第一极品精品无码久久| 最新国产精品无码| 国产精品无码成人午夜电影| 超清纯白嫩大学生无码网站| 亚洲欧洲日产国码无码网站| 久久亚洲精品无码gv| 亚洲av永久无码制服河南实里| 99热门精品一区二区三区无码| 狠狠躁狠狠爱免费视频无码| 手机永久无码国产AV毛片| 国产精品亚洲一区二区无码| 亚洲av无码精品网站| 国产精品无码无卡无需播放器| 免费看成人AA片无码视频羞羞网 | 日韩AV片无码一区二区不卡| 亚洲乱亚洲乱妇无码麻豆| 无码中文字幕色专区| 亚洲色无码专区一区| 少妇无码一区二区二三区| 国产亚洲?V无码?V男人的天堂 | 亚洲午夜无码毛片av久久京东热| 狠狠躁天天躁无码中文字幕 | 亚洲AV色吊丝无码| 亚洲色中文字幕无码AV| 国产成年无码v片在线| 亚洲AV永久无码精品一福利| 欧洲人妻丰满av无码久久不卡| 国产丰满乱子伦无码专区| 无码一区二区三区在线| 无码办公室丝袜OL中文字幕 | 好爽毛片一区二区三区四无码三飞 | 亚洲中文久久精品无码| 波多野结衣AV无码| 亚洲无码在线播放| 国产成人无码AV一区二区 | 中文字幕无码高清晰| 国产av无码专区亚洲av桃花庵| 中文字幕丰满乱子无码视频| 国产乱子伦精品无码码专区 | 无码av天天av天天爽| 亚洲男人第一无码aⅴ网站|