一種無線通信系統,用遠端語音識別服務器系統翻譯從移動裝置接收的語音輸入為符號數據文件,如字符或控制符,這種文件可由移動裝置進行處理。翻譯處理是從接收的移動裝置與語音識別服務器間的語音通信信道建立開始。然后移動裝置用戶按一種可由語音識別服務器系統檢測的方式開始講話。當檢測到用戶語音時,語音識別服務器系統翻譯該語音為符號數據文件,該文件然后經分別的數據通信信道被傳送給用戶。當在移動裝置接收到該符號數據文件時,該用戶瀏覽和編輯其內容并按其需要進一步利用該文件。(*該技術在2020年保護過期,可自由使用*)
【技術實現步驟摘要】
【國外來華專利技術】一般來說,本專利技術涉及數據通信,具體地,是涉及利用基于網絡的語音識別資源來增強本機用戶界面(user interface)的雙向無線通信裝置。基于超文本技術的使用已經拓寬了無線通信系統的范疇。雙向無線裝置,本說明書中也稱為移動裝置,和無線網絡協議已經被設計得允許通過各種無線和有線網絡交互地訪問遠端信息服務(例如,商業數據庫、電子郵件、在線購物),這些網絡最明顯的是因特網和一些專用網。許多移動裝置(例如,蜂窩電話)是面向消費者大眾市場的裝置。因此,在不限制裝置功能的情況下,其用戶界面應當是簡單并容易使用的。當前,對于大多數移動裝置的主要數據輸入方法是鍵盤,但當用于輸入很長的字符串時,鍵盤輸入方法是相對低效率的。由于尺寸的限制和成本的考慮,對于起草需要大量用戶輸入的消息(例如,Email消息),這些移動裝置的鍵盤不是一種特別用戶友好的界面。這種類型裝置的鍵盤通常具有12至24個之間的鍵,對于數字輸入有足夠數量的鍵,但當涉及對于具有網絡功能裝置的字符數據輸入就顯得非常不夠。從因特網要求信息的用戶一般利用瀏覽器通過全球網(WWW)進行導航。例如,利用InfoseekTM作為搜索引擎對斯坦福大學要求信息的用戶將必需輸入以下字符串“http//www.Infoseek.com”后接“Stanford University”列在上面的搜索字符串包括40個字符。用戶利用標準臺式計算機鍵盤和瀏覽器(例如,Netscape或Explorer)輸入這種類型的字符串是沒有問題的。但是,同樣的用戶操作移動裝置的鍵盤通過緊湊的鍵盤和各個鍵之間密集的間隔輸入相同字符串就相當困難了。因特網的通常用途之一是電子郵件。希望發一個具有上述段落尺寸的電子郵件消息的用戶將必需輸入超過400個字符。利用臺式計算機的標準鍵盤,用戶可能用低于2分鐘(假設該用戶具有平均熟練程度的打字水平)輸入那些字符。然而,在移動裝置的鍵盤上輸入同樣數量的擊鍵可能要用相當長的時間并且變得非常冗長乏味以及容易出錯。近來,語音識別(VR)技術的進步和硬件能力的增加使得臺式系統的基于語音識別的用戶界面的開發成為商業可用的。VR技術提取講話的單詞并翻譯這些單詞為一種可以容易由數字系統操作和顯示的格式。這些開發成果已經試圖裝備具有VR技術的緊湊的移動裝置,但是,這些努力一般都要求昂貴的器件修改,諸如額外的部件(例如,DSP(數字信號處理)芯片)或增加處理和存儲能力。一部典型的蜂窩電話具有等效于低于一般臺式或便攜計算機的百分之一的計算資源。在不修改該裝置的部件的情況下,按比例縮小運行VR應用的電話可能僅僅能夠識別很少一組預定的講話單詞。近來,對于臺式和膝上計算機的語音識別軟件(例如,來自Dragonsystem,Inc.的Naturally Speaking;來自Apple Computer的PlainTalkTM,來自IBM的Viavoice 98TM和來自Philips Talk的FreeSpeech 98TM)每個許可證一般都在39美元到數百美元。這個數目代表了裝有可比的應用軟件的移動裝置價格的相當大一部分。在每個移動裝置中裝入語音識別應用軟件并修改其硬件部件以運行該應用程序對手機制造商在他們的裝置中加入VR功能起到一種在財務上的阻礙作用。這些修改可能要使該移動裝置的最后價格增加可觀的成本,可能使通常由大眾市場擁有的移動裝置的價格超出目標價格范圍(例如,150美元)。就硬件資源而言,這些應用程序可以要求對于每種支持的語言的高達60兆字節的存儲器。另外,大多數商用語音識別應用軟件被設計為針對相對快速的處理器(例如,133MHz奔騰處理器)。因此,對能以最有效的方式使移動裝置與數字計算機網進行交互通信的設備和方法存在著很大的需求。在不需要顯著改動硬件資源或提高成本的情況下,結合標準移動裝置用戶界面(例如,電話鍵盤)的利用語音識別的能力可以極大地改善利用有限資源的具有網絡能力的移動裝置的可用性和商業生存性。本專利技術涉及一種利用遙控語音識別服務器系統的無線通信系統,該服務器系統翻譯從移動裝置接收的語音輸入到一種可以由移動裝置處理的符號數據文件(例如,字符數字或控制字符)。這種翻譯處理是通過移動裝置與語音識別服務器之間建立的語音通信信道開始的。然后,移動裝置的用戶以一種用可由語音識別服務器系統檢測的方式開始講話。當檢測到該用戶的話音時,語音識別服務器系統翻譯該話音為符號數據文件,然后該文件通過另外的數據通信信道轉移給用戶。當在移動裝置接收到符號數據文件時,該用戶檢查并編輯該符號數據文件,并且按需要進一步利用該文件。例如,用戶可以利用該符號數據文件填充一個電子郵件中的各個字段或者一個瀏覽器請求字段。本專利技術可以按各種方式實現,包括按照一種方法、一種設備或一種裝置、一種用戶界面、一種計算機可讀的存儲器和一種系統。下面討論本專利技術的若干實施例。按照一個實施例,本專利技術是一種用于在不具有執行語音識別本地處理的資源和/或軟件的移動裝置中獲得語音識別服務的方法。該方法包括駐留在該移動裝置中的本地應用程序建立和協調該目標移動裝置與運行語音識別應用程序的遠端服務器系統(在本說明書稱為語音識別服務器系統)之間的語音信道。當建立了語音信道后,該目標移動裝置的用戶排隊(queuing)開始對該移動裝置(例如,蜂窩電話)的麥克風講話。作為這個交互的結果,在語音識別服務器系統接收到的語音輸入被變換為符號數據文件。這個處理可以利用以前存儲的用戶專用數據文件幫助進行。然后,該符號數據文件被傳送回始發的移動裝置或者通過另外建立和協調的數據通信信道轉移到一個指定的第三方裝置。符號數據文件可以被用于與該移動裝置上本地應用程序進行交互通信,或者與網絡資源(例如,因特網的服務器或專用網)進行交互。連同前面的描述,下面的描述和附圖,可以說明本專利技術的其它目的和優點。通過結合附圖的下面的詳細描述本專利技術將會獲得很容易的理解,其中各標記是表示各個結構部件,和其中附圖說明圖1表示可以實施本專利技術的示意性結構;圖2A表示典型的有語音能力的移動裝置的顯示器和用戶界面部件;圖2B表示一種示例性有語音能力的移動裝置功能性方框圖;圖3表示按照本專利技術的一個優選實施例的鏈路服務器裝置的功能性方框圖4是表示按照本專利技術的一個實施例的語音識別服務器的示例性的各個處理級的示意性圖;圖5表示說明關于移動裝置與語音識別服務器系統之間的各種操作的各個屏幕顯示。圖6表示根據按本專利技術的一個實施例的移動裝置方面的處理流程圖;圖7表示根據按本專利技術的一個實施例的語音識別服務器方面的處理流程圖。在下面的本專利技術的詳細描述中,描述了許多具體細節以便對本專利技術有全面的理解。但是,對于本專業的技術人員而言不用這些具體的細節也可以實施本專利技術。在另外的情況下,沒有詳細地描述各公知的方法、程序、部件和電路,這樣作是為了避免不必要地混淆了本專利技術的主要方面。在下面的本專利技術的詳細描述是很大方面體現在關于程序、步驟、邏輯方框、處理、和耦合到網絡上的類似數據處理裝置的其它符號表示。這些處理描述和表示是本專業的技術人員有效傳達他們的工作成果給本專業的其他技術人員所使用的手段。本專利技術涉及使一個移動裝置能根據聯網的語音識別服務器系統接入(access)語音識別服務的各種系統和方法。按照本專利技術的一個實本文檔來自技高網...
【技術保護點】
一種用于對具有顯示屏幕和用戶界面的無線通信裝置提供語音識別服務的方法,包括:在運行語音識別應用程序的服務器裝置接收從無線通信裝置發出的對語音識別服務的請求;檢索與來自第一通信路徑的請求相關的語音輸入信號;利用語音識別應用程序變換 該語音輸入信號為符號數據文件;和利用第二通信路徑發送符號數據文件到無線通信裝置。
【技術特征摘要】
【國外來華專利技術】...
【專利技術屬性】
技術研發人員:彼得F金,
申請(專利權)人:電話通有限公司,
類型:發明
國別省市:US[美國]
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。