• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當(dāng)前位置: 首頁 > 專利查詢>上海交通大學(xué)專利>正文

    用于語音欺騙檢測的基于卷積長短期記憶端對端深度神經(jīng)網(wǎng)絡(luò)制造技術(shù)

    技術(shù)編號:15691600 閱讀:372 留言:0更新日期:2017-06-24 04:56
    一種用于語音欺騙檢測的基于卷積長短期記憶端對端深度神經(jīng)網(wǎng)絡(luò),包括:一個(gè)具備長短期記憶序列映射的卷積神經(jīng)網(wǎng)絡(luò)前端和一個(gè)神經(jīng)網(wǎng)絡(luò)直接分類器,卷積神經(jīng)網(wǎng)絡(luò)前端包括:至少兩個(gè)用于標(biāo)準(zhǔn)特征提取的CNN和至少一個(gè)用于標(biāo)簽預(yù)測的CNN,該用于標(biāo)簽預(yù)測的CNN標(biāo)準(zhǔn)特征以長短期記憶的序列方式進(jìn)行標(biāo)簽預(yù)測。本發(fā)明專利技術(shù)通過對現(xiàn)有各種特征的綜合能力進(jìn)行考量,規(guī)避了特征提取的過程,并提高了方法架構(gòu)針對不同任務(wù)的適應(yīng)性。

    End to end depth memory neural network based on convolutional long term memory for speech deception detection

    A voice for the detection of deception long short term memory including the convolution end end of the depth of the neural network, based on a convolutional neural network front with long short term memory mapping and a neural network classifier, the front-end convolutional neural network includes at least two standard for feature extraction of CNN and at least one label for prediction CNN, for the prediction of the CNN standard features to label sequence long short term memory label prediction. By considering the comprehensive capability of existing features, the invention avoids the process of feature extraction, and improves the adaptability of the method architecture to different tasks.

    【技術(shù)實(shí)現(xiàn)步驟摘要】
    用于語音欺騙檢測的基于卷積長短期記憶端對端深度神經(jīng)網(wǎng)絡(luò)
    本專利技術(shù)涉及一種語音處理領(lǐng)域的技術(shù),具體涉及一種原波輸入的用于語音欺騙檢測的基于卷積長短期記憶端對端深度神經(jīng)網(wǎng)絡(luò)(CLDNN)。
    技術(shù)介紹
    欺騙檢測是說話人確認(rèn)領(lǐng)域中的一個(gè)分支,用于區(qū)分真實(shí)(人)的與人造(欺騙性)的口頭話語。欺騙檢測的主要目的是計(jì)算每個(gè)話語的評分,并用評分區(qū)分這兩種(欺騙性的,人的)話語種類。評分用于計(jì)算出一個(gè)閾值,通過這個(gè)閾值一個(gè)話語可被劃分為真實(shí)的(如果其評分大于定義的閾值)或者欺騙性的(其評分低于閾值)。檢測欺騙性語音需要特征:人工向量,目的在于在一個(gè)較低的維度空間內(nèi)表示一個(gè)給定的話語,唯一性是首要的。在傳統(tǒng)的語音相關(guān)任務(wù)中,原波話語擁有高維度,因而對真實(shí)世界里的任務(wù)不可行。特征一般在固定大小的幀窗中從給定的原波話語中提取出來。另外,相鄰幀窗的重疊用于合并上下文信息。在說話人-反欺騙社區(qū)內(nèi),大多數(shù)研究工作著重于偽造人工特征,這樣能夠成功區(qū)分前述兩個(gè)話語種類。對于后端分類器,如支持向量機(jī)(SupportVectorMachine,SVM)和高斯混合模型(GaussianMixtureModel,GMM)的研究,僅產(chǎn)生些微的改進(jìn),強(qiáng)化了專注特征改進(jìn)的地位。在這里我們嘗試了不同的方向:采用深度神經(jīng)網(wǎng)絡(luò)作為前端特征提取和后端分類的統(tǒng)一模型。深度神經(jīng)網(wǎng)絡(luò)(DeepNeuralNetwork,DNN)作為人工智能網(wǎng)絡(luò),在現(xiàn)有技術(shù)中用于機(jī)器學(xué)習(xí)任務(wù),如圖像、語音和說話人識別。在大多數(shù)機(jī)器學(xué)習(xí)任務(wù)中發(fā)現(xiàn),深度神經(jīng)網(wǎng)絡(luò)遠(yuǎn)勝于現(xiàn)有的神經(jīng)網(wǎng)絡(luò)方法。神經(jīng)網(wǎng)絡(luò)可視作一個(gè)廣義的非線性功能擬合器,根據(jù)特征進(jìn)行學(xué)習(xí),而特征通常為一組多向量,代表一組標(biāo)簽的有限集(如在說話人欺騙中,輸入可以是一個(gè)貼有指示人的語音或欺騙語音的標(biāo)簽的語段)。與DNN相比,卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionNeuralNetwork,CNN)在二維輸入上進(jìn)行卷積操作,以獲得不變的信號表示。因而卷積是深度神經(jīng)網(wǎng)絡(luò)的二維加強(qiáng)版。在語音識別行業(yè)中,CNN可用作強(qiáng)化的特征提取器,開發(fā)特征的功能以從單輸入產(chǎn)生不變的輸出。原波特征(Rawwavefeatures)曾被語音識別行業(yè)廣泛忽視,主要因其維數(shù)通常較大,并且有模糊不清之處。特征提取是一個(gè)逐漸減少給定的原波輸入的維數(shù),同時(shí)旨在使特征盡可能唯一的過程。然而,這種情況隨著深度神經(jīng)網(wǎng)絡(luò),特別是CNN的引入得到改變。CNN可以用于評估特征提取過程,其與傳統(tǒng)特征提取的主要區(qū)別在于參數(shù)并不固定,而是為了適應(yīng)當(dāng)前任務(wù)進(jìn)行動態(tài)調(diào)整。長短期記憶(LongandShortTermMemory,LSTM)在現(xiàn)有的序列上增加設(shè)定,從而加強(qiáng)上述DNN和CNN模型,其中DNN和CNN只作局部處理且只僅采用(通常是獨(dú)立的)特征向量作為輸入,但這樣的處理方式對于一個(gè)有序的自然體,如語音的數(shù)據(jù)而言是不常見的。
    技術(shù)實(shí)現(xiàn)思路
    本專利技術(shù)針對現(xiàn)有技術(shù)中的特征僅可在任務(wù)外提取,并且不是能夠反映欺騙任務(wù)的最優(yōu)特征以及終端分類器與所檢測的特征間的匹配度不高等缺陷,提出一種用于語音欺騙檢測的基于卷積長短期記憶端對端深度神經(jīng)網(wǎng)絡(luò),通過對現(xiàn)有各種特征的綜合能力進(jìn)行考量,規(guī)避了特征提取的過程,并提高了方法架構(gòu)針對不同任務(wù)的適應(yīng)性。本專利技術(shù)是通過以下技術(shù)方案實(shí)現(xiàn)的:本專利技術(shù)涉及一種卷積長短期記憶深度神經(jīng)網(wǎng)絡(luò)(ConvolutionalLSTMDNN,CLDNN),包括:一個(gè)具備長短期記憶序列映射的卷積神經(jīng)網(wǎng)絡(luò)前端和一個(gè)神經(jīng)網(wǎng)絡(luò)直接分類器。所述的卷積神經(jīng)網(wǎng)絡(luò)前端包括:至少兩個(gè)用于標(biāo)準(zhǔn)特征提取的CNN和至少一個(gè)用于標(biāo)簽預(yù)測的CNN,該用于標(biāo)簽預(yù)測的CNN標(biāo)準(zhǔn)特征以長短期記憶的序列方式進(jìn)行標(biāo)簽預(yù)測。所述的用于標(biāo)準(zhǔn)特征提取的CNN采用時(shí)序卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行標(biāo)準(zhǔn)特征提取,其中:第一個(gè)CNN將導(dǎo)入的原波輸入縮小為固定大小的向量,第二個(gè)CNN則對縮小后的特征信號進(jìn)行不變性轉(zhuǎn)化,其中:所述的向量的大小與常量特征39維相似;所述的不變性轉(zhuǎn)化是指:包括256個(gè)特征映射,在每個(gè)時(shí)間步長內(nèi)一個(gè)樣本產(chǎn)生一個(gè)256維的輸入特征。所述的長短期記憶的序列方式為每個(gè)時(shí)間步長作一個(gè)向量的輸出,并采用輸出序列中的最后一個(gè)作為代表輸出。所述的神經(jīng)網(wǎng)絡(luò)直接分類器優(yōu)選為包含有兩層標(biāo)準(zhǔn)前饋的深度神經(jīng)網(wǎng)絡(luò),通過插入原波話語得到的相關(guān)分類的評分進(jìn)行設(shè)計(jì),并采用標(biāo)準(zhǔn)反傳算法逐層訓(xùn)練得以實(shí)現(xiàn)。本專利技術(shù)中的原波語音優(yōu)選根據(jù)目標(biāo)幀大小(如25ms)被分為同等大小的向量,幀的大小由波形文件的采樣率決定,大多數(shù)數(shù)據(jù)集是16000Hz。并且,在標(biāo)準(zhǔn)特征提取過程中,采用重疊以在單個(gè)幀內(nèi)包含一個(gè)上下文信息。本專利技術(shù)中上述重疊率優(yōu)選為50%。技術(shù)效果與現(xiàn)有技術(shù)相比,本專利技術(shù)采用的卷積長時(shí)深度神經(jīng)網(wǎng)絡(luò)能夠直接優(yōu)化特征提取和分類根據(jù)當(dāng)前任務(wù)。因此,給定的輸入可表示得更有魯棒性和有效,從而使檢測結(jié)果得到全面提高;通過結(jié)合分類器訓(xùn)練直接評估合適的特征,使得模型能夠適應(yīng)任何的相關(guān)任務(wù);由于去除了前端程序,使得本專利技術(shù)模型大大簡化了流水線,尤其是API調(diào)用;通過在單個(gè)模型內(nèi)聯(lián)合分類與最優(yōu)化,使得本專利技術(shù)無需為單獨(dú)的分類器和特征提取方法調(diào)用多參數(shù)。附圖說明圖1為本專利技術(shù)結(jié)構(gòu)示意圖;圖2為第一層卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)示意圖;圖3為第二層卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)示意圖。具體實(shí)施方式如圖1所示,本實(shí)施例涉及一種基于卷積長短時(shí)記憶的端對端語音欺騙檢測系統(tǒng),包括作為聯(lián)合特征提取器和分類器的CLDNN,該CLDNN包括:CNN、LSTM和DNN。本實(shí)施例中采用原波對分類器進(jìn)行訓(xùn)練,Torch作為本模型的深度學(xué)習(xí)庫,需要安裝RNN包以完成LSTM模型。每一個(gè)輸入的原波文件首先被分割為相同大小的560幀,即相當(dāng)于一個(gè)35ms的幀窗。相鄰幀之間有17.5ms的重疊(即50%重疊率)。本實(shí)施例中的CLDNN包括:用于標(biāo)準(zhǔn)特征提取的使用64張?zhí)卣鲌D的第一層CNN和使用128張?zhí)卣鲌D的第二層CNN、用于標(biāo)簽預(yù)測的第三第四層LSTM使用128個(gè)節(jié)點(diǎn)以及作為神經(jīng)網(wǎng)絡(luò)直接分類器的DNN層。本實(shí)施例通過以下方式進(jìn)行工作:①首先以固定尺寸的連續(xù)幀對上述網(wǎng)絡(luò)進(jìn)行訓(xùn)練,同時(shí)通過使得序列幀的權(quán)值共享,作為CNN的序列輸入;從而實(shí)現(xiàn)CNN在每個(gè)時(shí)間步長內(nèi)對應(yīng)每個(gè)輸入產(chǎn)生一個(gè)輸出,該輸出將進(jìn)一步輸送至LSTM。②由于LSTM在每個(gè)時(shí)間步長內(nèi)的輸出對應(yīng)的一個(gè)向量,我們只采用最后一個(gè)時(shí)間步長的向量作為代表。這有助于提高模型的效果并降低計(jì)算的復(fù)雜性。③將上述得到的向量進(jìn)一步由一個(gè)單層256神經(jīng)元DNN進(jìn)行分類。總體而言,由于該任務(wù)為二分式,因此本實(shí)施例中的兩個(gè)輸出神經(jīng)元即可滿足對模型的訓(xùn)練需求。如圖2所示,本實(shí)施CLDNN的第一層卷積神經(jīng)網(wǎng)絡(luò)的輸入是原始波形wav,利用一層卷積提取39維的頻率特征。如圖3所示,本實(shí)施CLDNN的第三層卷積神經(jīng)網(wǎng)絡(luò)的的輸入是圖2的輸出的39維特征。利用再一層的卷積操作,精細(xì)化的局部提取特征語譜信息。上述具體實(shí)施可由本領(lǐng)域技術(shù)人員在不背離本專利技術(shù)原理和宗旨的前提下以不同的方式對其進(jìn)行局部調(diào)整,本專利技術(shù)的保護(hù)范圍以權(quán)利要求書為準(zhǔn)且不由上述具體實(shí)施所限,在其范圍內(nèi)的各個(gè)實(shí)現(xiàn)方案均受本專利技術(shù)之約束。本文檔來自技高網(wǎng)
    ...
    用于語音欺騙檢測的基于卷積長短期記憶端對端深度神經(jīng)網(wǎng)絡(luò)

    【技術(shù)保護(hù)點(diǎn)】
    一種用于端對端原波語音欺騙檢測的卷積長短期記憶深度神經(jīng)網(wǎng)絡(luò),其特征在于,包括:一個(gè)具備長短期記憶序列映射的卷積神經(jīng)網(wǎng)絡(luò)前端和一個(gè)神經(jīng)網(wǎng)絡(luò)直接分類器,其中:所述的卷積神經(jīng)網(wǎng)絡(luò)前端包括:至少兩個(gè)用于標(biāo)準(zhǔn)特征提取的CNN和至少一個(gè)用于標(biāo)簽預(yù)測的CNN,該用于標(biāo)簽預(yù)測的CNN標(biāo)準(zhǔn)特征以長短期記憶的序列方式進(jìn)行標(biāo)簽預(yù)測。

    【技術(shù)特征摘要】
    1.一種用于端對端原波語音欺騙檢測的卷積長短期記憶深度神經(jīng)網(wǎng)絡(luò),其特征在于,包括:一個(gè)具備長短期記憶序列映射的卷積神經(jīng)網(wǎng)絡(luò)前端和一個(gè)神經(jīng)網(wǎng)絡(luò)直接分類器,其中:所述的卷積神經(jīng)網(wǎng)絡(luò)前端包括:至少兩個(gè)用于標(biāo)準(zhǔn)特征提取的CNN和至少一個(gè)用于標(biāo)簽預(yù)測的CNN,該用于標(biāo)簽預(yù)測的CNN標(biāo)準(zhǔn)特征以長短期記憶的序列方式進(jìn)行標(biāo)簽預(yù)測。2.根據(jù)權(quán)利要求1所述的卷積長短期記憶深度神經(jīng)網(wǎng)絡(luò),其特征是,所述的用于標(biāo)準(zhǔn)特征提取的CNN采用時(shí)序卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行標(biāo)準(zhǔn)特征提取,其中:第一個(gè)CNN將導(dǎo)入的原波輸入縮小為固定大小的向量,第二個(gè)CNN則對縮小后的特征信號進(jìn)行不變性轉(zhuǎn)化。3.根據(jù)權(quán)利要求2所述的卷積長短期記憶深度神經(jīng)網(wǎng)絡(luò),其特征是,所述的向量的大小與常量特征39維相似。4.根據(jù)權(quán)利要求2所述的卷積長短期記憶深度神經(jīng)網(wǎng)絡(luò),其特征是,所述的...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:錢彥旻俞凱D·海因里希
    申請(專利權(quán))人:上海交通大學(xué)蘇州思必馳信息科技有限公司
    類型:發(fā)明
    國別省市:上海,31

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲精品无码不卡在线播放| 色欲狠狠躁天天躁无码中文字幕| 亚洲AV无码男人的天堂| 国产丰满乱子伦无码专| 国产av无码专区亚洲av果冻传媒| 日韩乱码人妻无码中文字幕久久 | 亚洲中文无码a∨在线观看| 精品久久久久久无码专区| 国产日韩精品无码区免费专区国产| 中文字幕无码乱人伦| 久久亚洲精品无码gv| 亚洲av专区无码观看精品天堂| 久久无码AV中文出轨人妻 | 亚洲成a∨人片在无码2023| 久久久久琪琪去精品色无码| 日韩精品无码人成视频手机 | 国产精品亚洲专区无码牛牛| 无码AV波多野结衣久久| 亚洲一区二区三区AV无码| heyzo高无码国产精品| 在线精品免费视频无码的| 孕妇特级毛片WW无码内射| 人妻无码一区二区不卡无码av| 中文有码vs无码人妻| 国产成人无码免费网站| 亚洲无码视频在线| 亚洲Av无码乱码在线znlu| 国产午夜激无码av毛片| 国产成人亚洲精品无码AV大片 | 国模无码视频一区| 无码人妻aⅴ一区二区三区| 亚洲AV无码男人的天堂| 九九在线中文字幕无码| 深夜a级毛片免费无码| 亚洲精品无码专区久久同性男| 一级电影在线播放无码| 国产精品无码免费专区午夜| 无码国产亚洲日韩国精品视频一区二区三区| 精品少妇人妻AV无码专区不卡| 亚洲AV无码专区国产乱码不卡| 无码喷水一区二区浪潮AV|