在聲音數(shù)據(jù)檢索系統(tǒng)中,使得能夠容易地進(jìn)行檢索結(jié)果的正解/非正解的判斷。在聲音數(shù)據(jù)檢索系統(tǒng)中,具備:輸入裝置(112),輸入關(guān)鍵字;音素變換部(106),將輸入的上述關(guān)鍵字變換為音素標(biāo)音;聲音數(shù)據(jù)搜索部(105),基于音素標(biāo)音的關(guān)鍵字,在聲音數(shù)據(jù)中檢索講出該關(guān)鍵字的部分;對(duì)照關(guān)鍵字生成部(107),基于音素標(biāo)音的關(guān)鍵字,生成用戶有可能聽(tīng)取混淆的與該關(guān)鍵字不同的對(duì)照關(guān)鍵字的集合;以及檢索結(jié)果提示部(110),向用戶提示來(lái)自上述聲音數(shù)據(jù)搜索部(105)的檢索結(jié)果及來(lái)自上述對(duì)照關(guān)鍵字生成部(107)的上述對(duì)照關(guān)鍵字。
【技術(shù)實(shí)現(xiàn)步驟摘要】
聲音數(shù)據(jù)檢索系統(tǒng)及用于該系統(tǒng)的程序
本專(zhuān)利技術(shù)涉及檢索聲音數(shù)據(jù)的系統(tǒng)。
技術(shù)介紹
隨著近年來(lái)的存儲(chǔ)設(shè)備的大容量化,能夠儲(chǔ)存大量的聲音數(shù)據(jù)。在以往的許多聲音數(shù)據(jù)庫(kù)中,為了管理聲音數(shù)據(jù)而賦予對(duì)聲音進(jìn)行錄音的時(shí)刻的信息,并基于該信息檢索希望的聲音數(shù)據(jù)。但是,在基于時(shí)刻信息的檢索中,需要預(yù)先知道講出希望的聲音的時(shí)刻,不適合于檢索講話中包含指定的關(guān)鍵字的聲音的用途。在檢索講話中包含指定的關(guān)鍵字的聲音的情況下,需要將聲音從頭到尾進(jìn)行聽(tīng)取。所以,開(kāi)發(fā)了自動(dòng)地檢測(cè)講出聲音數(shù)據(jù)庫(kù)中的指定的關(guān)鍵字的時(shí)刻的技術(shù)。在作為代表性的方法之一的子字檢索法中,首先通過(guò)子字識(shí)別(Sub-wordrecognition)處理將聲音數(shù)據(jù)變換為子字串。這里,所謂子字,是指音素(Phoneme)或音節(jié)(Syllable)等比單詞更小的單位的名稱。如果輸入關(guān)鍵字,則將該關(guān)鍵字的子字表現(xiàn)與聲音數(shù)據(jù)的子字識(shí)別結(jié)果進(jìn)行比較,檢測(cè)子字的一致度高的部分,由此在聲音數(shù)據(jù)中檢測(cè)講出該關(guān)鍵字的時(shí)刻(專(zhuān)利文獻(xiàn)1、非專(zhuān)利文獻(xiàn)1)。此外,在非專(zhuān)利文獻(xiàn)2所示出的字定位(wordspotting)法中,通過(guò)將音素單位的聲學(xué)模型(Acousticmodel)組合而生成該關(guān)鍵字的聲學(xué)模型,通過(guò)進(jìn)行該關(guān)鍵字聲學(xué)模型與聲音數(shù)據(jù)的對(duì)照,在聲音數(shù)據(jù)中檢測(cè)講出該關(guān)鍵字的時(shí)刻。但是,哪種技術(shù)都受到講話的變動(dòng)(方言或說(shuō)話者不同等)或噪聲的影響,檢索結(jié)果中包含錯(cuò)誤,有時(shí)實(shí)際上沒(méi)有講出該關(guān)鍵字的時(shí)刻會(huì)出現(xiàn)在檢索結(jié)果中。因此,用戶為了將錯(cuò)誤的檢索結(jié)果去除,需要從通過(guò)檢索得到的關(guān)鍵字的講話時(shí)刻起將聲音數(shù)據(jù)再現(xiàn)、通過(guò)聽(tīng)取來(lái)判斷該關(guān)鍵字是否真正被講出。還提出了用來(lái)輔助如上所述的正解/非正解判斷的技術(shù)。在專(zhuān)利文獻(xiàn)2中公開(kāi)了為了通過(guò)聽(tīng)取來(lái)判斷該關(guān)鍵字是否真正被講出而強(qiáng)調(diào)該關(guān)鍵字的檢測(cè)時(shí)刻來(lái)進(jìn)行再現(xiàn)的技術(shù)。專(zhuān)利文獻(xiàn)1:特開(kāi)2002-221984號(hào)公報(bào)專(zhuān)利文獻(xiàn)2:特開(kāi)2005-38014號(hào)公報(bào)非專(zhuān)利文獻(xiàn)1:巖田耕平等,“語(yǔ)彙フリー音聲文書(shū)検索手法における新しいサブワードモデルとサブワード音響距離の有効性の検証(無(wú)詞匯約束的聲音文件檢索方法中的新子字模型和子字聲學(xué)距離的有效性的驗(yàn)證)”信息處理學(xué)會(huì)論文雜志,Vol.48,No.5,2007非專(zhuān)利文獻(xiàn)2:河原達(dá)也,宗續(xù)敏彥,堂下修司,“ヒューリスティックな言語(yǔ)モデルを用いた會(huì)話音聲中の単語(yǔ)スポッティング(使用啟發(fā)式語(yǔ)言模型的會(huì)話聲音中的單詞定位)”,信學(xué)論.D-II,信息系統(tǒng),II-信息處理,vol.78,no.7,pp.1013-1020,1995.在專(zhuān)利文獻(xiàn)2中公開(kāi)了為了通過(guò)聽(tīng)取來(lái)判斷該關(guān)鍵字是否真正被講出而強(qiáng)調(diào)該關(guān)鍵字的檢測(cè)時(shí)刻來(lái)進(jìn)行再現(xiàn)的技術(shù)。但是,在用戶不能充分理解作為檢索對(duì)象的聲音數(shù)據(jù)的語(yǔ)言的狀況下,經(jīng)常有難以通過(guò)聽(tīng)取來(lái)進(jìn)行如上所述的正解/非正解的判斷的問(wèn)題。例如,用戶用“play”這樣的關(guān)鍵字進(jìn)行檢索的結(jié)果,有時(shí)會(huì)檢測(cè)出實(shí)際上講出“pray”的時(shí)刻。在此情況下,不充分理解英語(yǔ)的日本人用戶有可能將其判斷為說(shuō)了“play”。通過(guò)如專(zhuān)利文獻(xiàn)2提出的將該關(guān)鍵字的檢測(cè)位置強(qiáng)調(diào)再現(xiàn)的技術(shù)不能解決上述問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
本專(zhuān)利技術(shù)的目的是解決這樣的問(wèn)題,使得在聲音數(shù)據(jù)檢索系統(tǒng)中能夠容易地進(jìn)行檢索結(jié)果的正解/非正解的判斷。本專(zhuān)利技術(shù)為了解決上述問(wèn)題,例如采用技術(shù)方案中所記載的結(jié)構(gòu)。如果舉出本專(zhuān)利技術(shù)的聲音數(shù)據(jù)檢索系統(tǒng)的一例,則是一種聲音數(shù)據(jù)檢索系統(tǒng),具備:輸入裝置,輸入關(guān)鍵字;音素變換部,將輸入的上述關(guān)鍵字變換為音素標(biāo)音;聲音數(shù)據(jù)搜索部,基于音素標(biāo)音的關(guān)鍵字,在聲音數(shù)據(jù)中檢索講出該關(guān)鍵字的部分;對(duì)照關(guān)鍵字生成部,基于音素標(biāo)音的關(guān)鍵字,生成用戶有可能聽(tīng)取混淆的與該關(guān)鍵字不同的對(duì)照關(guān)鍵字的集合;以及檢索結(jié)果提示部,向用戶提示來(lái)自上述聲音數(shù)據(jù)搜索部的檢索結(jié)果及來(lái)自上述對(duì)照關(guān)鍵字生成部的上述對(duì)照關(guān)鍵字。此外,如果舉出本專(zhuān)利技術(shù)的程序的一例,則是一種用來(lái)使計(jì)算機(jī)作為聲音數(shù)據(jù)檢索系統(tǒng)發(fā)揮功能的程序,所述聲音數(shù)據(jù)檢索系統(tǒng)具備:音素變換部,將輸入的上述關(guān)鍵字變換為音素標(biāo)音;聲音數(shù)據(jù)搜索部,基于音素標(biāo)音的關(guān)鍵字,在聲音數(shù)據(jù)中檢索講出該關(guān)鍵字的部分;對(duì)照關(guān)鍵字生成部,基于音素標(biāo)音的關(guān)鍵字,生成用戶有可能聽(tīng)取混淆的與該關(guān)鍵字不同的對(duì)照關(guān)鍵字的集合;以及檢索結(jié)果提示部,向用戶提示來(lái)自上述聲音數(shù)據(jù)搜索部的檢索結(jié)果及來(lái)自上述對(duì)照關(guān)鍵字生成部的上述對(duì)照關(guān)鍵字。根據(jù)本專(zhuān)利技術(shù),在聲音數(shù)據(jù)檢索系統(tǒng)中,基于用戶輸入的關(guān)鍵字,生成用戶有可能聽(tīng)取混淆的對(duì)照關(guān)鍵字集合并向用戶提示,由此能夠容易地進(jìn)行檢索結(jié)果的正解/非正解的判斷。附圖說(shuō)明圖1是表示采用本專(zhuān)利技術(shù)的計(jì)算機(jī)系統(tǒng)的結(jié)構(gòu)的模塊圖。圖2是將本專(zhuān)利技術(shù)的構(gòu)成要素按照處理的流程配置的圖。圖3是表示本專(zhuān)利技術(shù)的處理的流程的流程圖。圖4是表示生成對(duì)照關(guān)鍵字候選的處理的流程的流程圖。圖5是表示單詞辭典的一例的圖。圖6是表示音素混淆矩陣的一例的圖。圖7是表示對(duì)照關(guān)鍵字候選的檢查的處理的流程的流程圖。圖8是表示向用戶提示信息的畫(huà)面的一例的圖。圖9是表示音素混淆矩陣的其他例的圖。圖10是表示編輯距離的計(jì)算過(guò)程的一例的圖。圖11是表示編輯距離的計(jì)算過(guò)程的其他例的圖。圖12是表示用戶能夠理解多種語(yǔ)言的情況下的音素混淆矩陣的一例的圖。圖13是表示編輯距離計(jì)算的偽代碼的圖。附圖標(biāo)記說(shuō)明101計(jì)算機(jī)102聲音數(shù)據(jù)儲(chǔ)存裝置103音素混淆矩陣104單詞辭典105聲音數(shù)據(jù)搜索部106音素變換部107對(duì)照關(guān)鍵字生成部108對(duì)照關(guān)鍵字檢查部109聲音合成部110檢索結(jié)果提示部111顯示裝置112輸入裝置113聲音輸出裝置114語(yǔ)言信息輸入部115音素混淆矩陣生成部具體實(shí)施方式以下,基于附圖說(shuō)明本專(zhuān)利技術(shù)的實(shí)施方式。[實(shí)施例1]圖1表示第1實(shí)施方式,是表示采用本專(zhuān)利技術(shù)的計(jì)算機(jī)系統(tǒng)的結(jié)構(gòu)的模塊圖。此外,圖2是將圖1的構(gòu)成要素按照處理的流程配置的圖。本實(shí)施方式的計(jì)算機(jī)系統(tǒng)包括計(jì)算機(jī)101、顯示裝置111、輸入裝置112及聲音輸出裝置113。在計(jì)算機(jī)101的內(nèi)部中具有聲音數(shù)據(jù)儲(chǔ)存裝置102、音素混淆矩陣(phonemeconfusionmatrix)103、單詞辭典104,此外,具有聲音數(shù)據(jù)搜索部105、音素變換部106、對(duì)照關(guān)鍵字(comparisonkeyword)生成部107、對(duì)照關(guān)鍵字檢查部108、聲音合成部109、檢索結(jié)果提示部110、語(yǔ)言信息輸入部114及音素混淆矩陣生成部115。聲音數(shù)據(jù)檢索系統(tǒng)可以通過(guò)在計(jì)算機(jī)(computer)中由CPU將規(guī)定的程序裝載到存儲(chǔ)器上、并且由CPU執(zhí)行裝載到存儲(chǔ)器上的規(guī)定的程序來(lái)實(shí)現(xiàn)。該規(guī)定的程序雖然沒(méi)有圖示,但只要經(jīng)由讀取裝置從存儲(chǔ)該程序的存儲(chǔ)介質(zhì)、或者經(jīng)由通信裝置從網(wǎng)絡(luò)輸入而直接裝載到存儲(chǔ)器上、或者先保存到外部存儲(chǔ)裝置中后裝載到存儲(chǔ)器上就可以。本專(zhuān)利技術(shù)的程序的專(zhuān)利技術(shù)是如此裝入到計(jì)算機(jī)中并使計(jì)算機(jī)作為聲音數(shù)據(jù)檢索系統(tǒng)動(dòng)作的程序。通過(guò)將本專(zhuān)利技術(shù)的程序裝入到計(jì)算機(jī)中,構(gòu)成圖1及圖2的模塊圖所示的聲音數(shù)據(jù)檢索系統(tǒng)。以下,對(duì)各構(gòu)成要素的處理的流程進(jìn)行記述。在圖3中表示處理的流程圖。[關(guān)鍵字輸入及向音素表現(xiàn)的變換]如果用戶從輸入裝置112以文本輸入關(guān)鍵字(處理301),則首先音素變換部106將該關(guān)鍵字變換為音素表現(xiàn)(處理302)。例如,在用戶作為輸入而輸入了關(guān)鍵字“p本文檔來(lái)自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】
一種聲音數(shù)據(jù)檢索系統(tǒng),其特征在于,具備:輸入裝置,輸入關(guān)鍵字;音素變換部,將輸入的上述關(guān)鍵字變換為音素標(biāo)音;聲音數(shù)據(jù)搜索部,基于音素標(biāo)音的關(guān)鍵字,在聲音數(shù)據(jù)中檢索講出該關(guān)鍵字的部分;對(duì)照關(guān)鍵字生成部,基于音素標(biāo)音的關(guān)鍵字,生成用戶有可能聽(tīng)取混淆的與該關(guān)鍵字不同的對(duì)照關(guān)鍵字的集合;以及檢索結(jié)果提示部,向用戶提示來(lái)自上述聲音數(shù)據(jù)搜索部的檢索結(jié)果及來(lái)自上述對(duì)照關(guān)鍵字生成部的上述對(duì)照關(guān)鍵字。
【技術(shù)特征摘要】
2011.11.18 JP 2011-2524251.一種聲音數(shù)據(jù)檢索系統(tǒng),其特征在于,具備:輸入裝置,輸入關(guān)鍵字;音素變換部,將輸入的上述關(guān)鍵字變換為音素標(biāo)音;聲音數(shù)據(jù)搜索部,基于音素標(biāo)音的關(guān)鍵字,在聲音數(shù)據(jù)中檢索講出該關(guān)鍵字的部分;對(duì)照關(guān)鍵字生成部,基于音素標(biāo)音的關(guān)鍵字,生成用戶有可能聽(tīng)取混淆的與該關(guān)鍵字不同的對(duì)照關(guān)鍵字的集合;檢索結(jié)果提示部,向用戶提示來(lái)自上述聲音數(shù)據(jù)搜索部的檢索結(jié)果及來(lái)自上述對(duì)照關(guān)鍵字生成部的上述對(duì)照關(guān)鍵字,以供用戶參考上述對(duì)照關(guān)鍵字來(lái)判斷上述檢索結(jié)果是否正確;以及對(duì)照關(guān)鍵字檢查部,將由上述對(duì)照關(guān)鍵字生成部生成的對(duì)照關(guān)鍵字與上述聲音數(shù)據(jù)搜索部的檢索結(jié)果進(jìn)行比較,并將不需要的對(duì)照關(guān)鍵字除去。2.如權(quán)利要求1所述的聲音數(shù)據(jù)檢索系統(tǒng),其特征在于,具備每個(gè)用戶的音素混淆矩陣;上述對(duì)照關(guān)鍵字生成部基于上述音素混淆矩陣進(jìn)行對(duì)照關(guān)鍵字生成。3.如權(quán)利要求2所述的聲音數(shù)據(jù)檢索系統(tǒng),其特征在于,具備:語(yǔ)言信息輸入部,輸入關(guān)于用戶能夠理解的語(yǔ)言的信息;以及音素混淆矩陣生成部,基于從語(yǔ)言信息輸入部得到的信息,生成上述音素混淆矩陣。4.如權(quán)利要求1所述的聲音數(shù)據(jù)檢索系統(tǒng),其特征在于,上述對(duì)照關(guān)鍵字生成部計(jì)算被進(jìn)行上述音素標(biāo)音后的關(guān)鍵字與登錄在單詞辭典中的單詞的音素標(biāo)音之間的編輯距離,將編輯距離為閾值以下的單詞作為對(duì)照關(guān)鍵字。5.如權(quán)利要求1所述的聲音數(shù)據(jù)檢索系統(tǒng),其特征在于,具備聲音合成部,該聲音合成部將用戶輸入的上述關(guān)鍵字和由上述對(duì)照關(guān)鍵字生成部生成的上述對(duì)照關(guān)鍵字的某一方或雙方進(jìn)行聲音合成;上述檢索結(jié)果提示部向用戶提示來(lái)自上述聲音合成部的合成聲音。6.如權(quán)利要求1所述的聲音數(shù)據(jù)檢索系統(tǒng),其特征在于,上述對(duì)照關(guān)鍵字檢查部將由上述對(duì)照關(guān)鍵字生成部生成的上述對(duì)照關(guān)鍵字與上述聲音數(shù)據(jù)搜索部的檢索結(jié)果進(jìn)行比較,并將不需要的聲音數(shù)據(jù)檢索結(jié)果除去。7.一種聲音...
【專(zhuān)利技術(shù)屬性】
技術(shù)研發(fā)人員:神田直之,
申請(qǐng)(專(zhuān)利權(quán))人:株式會(huì)社日立制作所,
類(lèi)型:發(fā)明
國(guó)別省市:
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。