本發(fā)明專(zhuān)利技術(shù)屬于計(jì)算機(jī)視覺(jué)、人工智能技術(shù)領(lǐng)域,具體為一種基于深度卷積神經(jīng)網(wǎng)絡(luò)模型的大規(guī)模人臉識(shí)別方法。本發(fā)明專(zhuān)利技術(shù)首先提出面向大規(guī)模人臉識(shí)別的殘差學(xué)習(xí)深度網(wǎng)絡(luò)模型,該模型由卷積層、下采樣層、殘差層以及全連接層組成,其中殘差層由兩路數(shù)據(jù)(一路是若干個(gè)卷積層級(jí)聯(lián)的數(shù)據(jù)和一路原始數(shù)據(jù))相加求和構(gòu)成,并且模型中每一個(gè)卷積層之后都做批量歸一化操作。本發(fā)明專(zhuān)利技術(shù)利用深度卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)能力強(qiáng)和殘差學(xué)習(xí)收斂好的特性,在網(wǎng)絡(luò)模型層數(shù)方面,把模型的層數(shù)增加;在殘差層結(jié)構(gòu)方面,本發(fā)明專(zhuān)利技術(shù)提出一個(gè)高效的殘差層結(jié)構(gòu)。在面向大規(guī)模人臉識(shí)別領(lǐng)域,本發(fā)明專(zhuān)利技術(shù)較之基線(xiàn)模型在準(zhǔn)確率方面得到了極大提升,在百萬(wàn)級(jí)人臉數(shù)據(jù)庫(kù)中人臉檢索的準(zhǔn)確率達(dá)到了74.25%。
Large scale face recognition method based on depth convolution neural network model
The invention belongs to the technical field of computer vision and artificial intelligence, in particular to a large-scale face recognition method based on a deep convolution neural network model. The present invention first proposed residuals for face recognition large-scale learning depth network model, the model is composed of coil layers, sampling layer, residual layer and connection layer, wherein the residual layer consists of two data (a road is a plurality of cascaded convolutional layer and one channel of original data) the sum of the sum, and model each volume layer do after batch normalization operation. The invention uses deep convolutional neural network has strong learning ability and good convergence characteristics of residual learning in the network model, the model number, the number increased; in the residual layer structure, the invention proposes an efficient residual layer structure. In the face of large-scale face recognition, the proposed method has greatly improved the accuracy rate compared with the baseline model, and the accuracy of face retrieval has reached 74.25% in a million face database.
【技術(shù)實(shí)現(xiàn)步驟摘要】
基于深度卷積神經(jīng)網(wǎng)絡(luò)模型的大規(guī)模人臉識(shí)別方法
本專(zhuān)利技術(shù)屬于計(jì)算機(jī)視覺(jué)、人工智能
,具體涉及大規(guī)模人臉識(shí)別方法。
技術(shù)介紹
在當(dāng)前機(jī)器學(xué)習(xí)技術(shù)及計(jì)算機(jī)硬件性能高速提升的情況下,近年來(lái)計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理和語(yǔ)音識(shí)別等應(yīng)用領(lǐng)域取得了突破性進(jìn)展。人臉識(shí)別作為計(jì)算機(jī)視覺(jué)領(lǐng)域一項(xiàng)基礎(chǔ)的任務(wù),其精度也得到了大幅提升。在過(guò)去的幾年當(dāng)中,許多大型科技公司以及著名的研究機(jī)構(gòu)提出了許多高效的人臉識(shí)別的方法,在行業(yè)內(nèi)最著名的人臉評(píng)測(cè)集LFW上的準(zhǔn)確率超過(guò)了99%。這樣顯著的成績(jī)主要?dú)w功與兩個(gè)方面:深度學(xué)習(xí)和海量數(shù)據(jù)。深度學(xué)習(xí)解決了人臉識(shí)別當(dāng)中的特征表達(dá)的問(wèn)題,相比傳統(tǒng)的方法,能夠更加全面地學(xué)習(xí)人臉的特征。海量的訓(xùn)練數(shù)據(jù)直接提升了人臉識(shí)別的精度。在實(shí)際運(yùn)用場(chǎng)景中,當(dāng)需要識(shí)別的對(duì)象在百萬(wàn)量級(jí)的數(shù)據(jù)庫(kù)當(dāng)中,LFW評(píng)測(cè)集上表現(xiàn)接近完美的模型性能也大打折扣。MegaFace評(píng)測(cè)集是第一個(gè)百萬(wàn)級(jí)別的人臉評(píng)測(cè)數(shù)據(jù)集,更加接近現(xiàn)實(shí)生活。目前提升人臉識(shí)別性能的方法主要有三種:(1)增加訓(xùn)練數(shù)據(jù);(2)通過(guò)多任務(wù)學(xué)習(xí)的方式訓(xùn)練模型;(3)利用度量學(xué)習(xí)找到更加合適的學(xué)習(xí)方法。通過(guò)海量的數(shù)據(jù)訓(xùn)練能夠提升人臉識(shí)別模型的性能,然而收集大量的人臉數(shù)據(jù)是一件極其困難的工作;訓(xùn)練多個(gè)模型,然后進(jìn)行模型混合的方法會(huì)讓人臉識(shí)別的過(guò)程變得過(guò)于復(fù)雜,不利于實(shí)際場(chǎng)景中的運(yùn)用;度量學(xué)習(xí)對(duì)訓(xùn)練模型的技巧要求太高,而且模型的泛化能力不強(qiáng)。因此通過(guò)一種高效的深度卷積神經(jīng)網(wǎng)絡(luò)模型來(lái)提升人臉識(shí)別精度成為了一種新的有效的途徑。
技術(shù)實(shí)現(xiàn)思路
本專(zhuān)利技術(shù)的目的在于提供一種基于深度卷積神經(jīng)網(wǎng)絡(luò)模型的大規(guī)模人臉識(shí)別方法,來(lái)提升人臉識(shí)別精度,以解決當(dāng)前實(shí)際運(yùn)用場(chǎng)景下大規(guī)模人臉識(shí)別困難的問(wèn)題。本專(zhuān)利技術(shù)首先提出一個(gè)全新的基于殘差學(xué)習(xí)的深度卷積神經(jīng)網(wǎng)絡(luò)模型,此模型能夠?qū)W習(xí)到更多的特征,更好地進(jìn)行特征表達(dá),更加適合大規(guī)模的人臉識(shí)別任務(wù)。本專(zhuān)利技術(shù)提出的大規(guī)模人臉識(shí)別方法,采用上述基于殘差學(xué)習(xí)的深度卷積神經(jīng)網(wǎng)絡(luò)模型,實(shí)現(xiàn)的硬件平臺(tái)需要一張NVIDIATITANX顯卡。本專(zhuān)利技術(shù)首先對(duì)數(shù)據(jù)集圖片進(jìn)行預(yù)處理,然后訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò)模型,最后通過(guò)深度卷積神經(jīng)網(wǎng)絡(luò)模型提取特征,利用特征向量計(jì)算相似度,實(shí)現(xiàn)人臉識(shí)別。具體包括3個(gè)過(guò)程:預(yù)處理圖片、訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò)模型、面向大規(guī)模人臉識(shí)別:步驟1、預(yù)處理圖片(1)檢測(cè)圖片中的人臉;(2)檢測(cè)人臉中的5個(gè)關(guān)鍵點(diǎn)(兩眼、鼻尖、兩邊嘴角);(3)進(jìn)行人臉對(duì)齊操作;(4)將人臉圖片大小歸一化,例如把人臉圖片大小歸一化至112×96。步驟2、訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò)模型(1)搭建基于殘差學(xué)習(xí)的深度卷積神經(jīng)網(wǎng)絡(luò)模型;(2)前向傳播計(jì)算損失誤差(SoftMaxLoss);(3)反向傳播損失誤差(SoftMaxLoss)更新模型參數(shù);(4)獲得訓(xùn)練好的深度卷積神經(jīng)網(wǎng)絡(luò)模型。步驟3、大規(guī)模人臉識(shí)別(1)測(cè)試圖片通過(guò)深度卷積神經(jīng)網(wǎng)絡(luò)模型;(2)提取特征向量;(3)利用特征向量進(jìn)行相似度計(jì)算;(4)輸出識(shí)別結(jié)果。步驟2訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò)模型,具體介紹如下:(1)搭建本專(zhuān)利技術(shù)提出的基于殘差學(xué)習(xí)的深度卷積神經(jīng)網(wǎng)絡(luò)模型:本專(zhuān)利技術(shù)提出的模型由卷積層、下采樣層、殘差層以及全連接層組成,其中殘差層由兩路數(shù)據(jù)(一路是若干個(gè)卷積層級(jí)聯(lián)的數(shù)據(jù)和一路原始數(shù)據(jù))相加求和構(gòu)成,并且網(wǎng)絡(luò)結(jié)構(gòu)中每一個(gè)卷積層之后都做批量歸一化(BatchNormalization)操作;具體的網(wǎng)絡(luò)模型從輸入層I開(kāi)始,依次經(jīng)過(guò)卷積層C1,卷積層C2,下采樣層P1,殘差層R1_1,殘差層R1_2,殘差層R1_3,卷積層C3,下采樣層P2,殘差層R2_1,殘差層R2_2,殘差層R2_3,殘差層R2_4,卷積層C4,下采樣層P3,殘差層R3_1,殘差層R3_2,殘差層R3_3,殘差層R3_4,殘差層R3_5,殘差層R3_6,卷積層C5,下采樣層P4,殘差層R4_1,殘差層R4_2,殘差層R4_3,最后到全連接層F1;(2)用10575個(gè)人的49萬(wàn)張圖片作為訓(xùn)練數(shù)據(jù),分批次輸入搭建好的網(wǎng)絡(luò)模型;(3)訓(xùn)練集圖片通過(guò)模型,前向傳播用全連接層參數(shù)計(jì)算損失誤差(SoftMaxLoss);(4)將損失誤差(SoftMaxLoss)反向傳播更新模型參數(shù);(5)獲得訓(xùn)練好的深度卷積神經(jīng)網(wǎng)絡(luò)模型。步驟3面向大規(guī)模人臉識(shí)別,具體介紹如下:(1)將一百萬(wàn)張人臉圖片作為測(cè)試數(shù)據(jù),依次輸入訓(xùn)練好的網(wǎng)絡(luò)模型;(2)取網(wǎng)絡(luò)模型中全連接層的1024個(gè)參數(shù)作為人臉圖片的特征向量;(3)利用特征向量進(jìn)行相似度計(jì)算;(4)輸出識(shí)別結(jié)果。本專(zhuān)利技術(shù)方法的主要特點(diǎn)有:(1)利用此模型在百萬(wàn)級(jí)別的人臉識(shí)別任務(wù)中取得了極好的效果;(2)模型訓(xùn)練數(shù)據(jù)量少,僅使用不到50萬(wàn)張人臉圖片作為訓(xùn)練數(shù)據(jù);(3)模型結(jié)構(gòu)簡(jiǎn)單,不需要使用模型混合、多任務(wù)訓(xùn)練以及度量學(xué)習(xí)等方法。本專(zhuān)利技術(shù)方法利用了深度卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)能力強(qiáng)和殘差學(xué)習(xí)收斂好的特性,在百萬(wàn)級(jí)人臉數(shù)據(jù)庫(kù)中檢索人臉這項(xiàng)高難度的任務(wù)中取得很高的準(zhǔn)確率。相比于傳統(tǒng)的計(jì)算機(jī)視覺(jué)方法,本專(zhuān)利技術(shù)方法利用深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),充分學(xué)習(xí)輸入圖片特征,更加完整地進(jìn)行圖片特征表達(dá),大幅提升了人臉識(shí)別的精度,尤其是在百萬(wàn)級(jí)人臉識(shí)別任務(wù)中取得了優(yōu)秀的成績(jī)。并且不同于目前廣泛運(yùn)用的度量學(xué)習(xí)、模型混合和多任務(wù)學(xué)習(xí)的方法,本專(zhuān)利技術(shù)方法提出的深度卷積神經(jīng)網(wǎng)絡(luò)模型簡(jiǎn)單高效,有效解決了百萬(wàn)級(jí)人臉識(shí)別任務(wù)中準(zhǔn)確率不高以及模型搭建復(fù)雜的問(wèn)題。在面向大規(guī)模人臉識(shí)別領(lǐng)域,本專(zhuān)利技術(shù)較之基線(xiàn)模型在準(zhǔn)確率方面得到了極大提升,在百萬(wàn)級(jí)人臉數(shù)據(jù)庫(kù)中人臉檢索的準(zhǔn)確率達(dá)到了74.25%。附圖說(shuō)明圖1一種面向大規(guī)模人臉識(shí)別的殘差學(xué)習(xí)深度網(wǎng)絡(luò)模型流程圖。圖2本專(zhuān)利技術(shù)提出的基于殘差學(xué)習(xí)的深度卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)圖。圖3殘差層網(wǎng)絡(luò)結(jié)構(gòu)圖。具體實(shí)施方式以下結(jié)合附圖解釋運(yùn)用了本專(zhuān)利技術(shù),基于殘差學(xué)習(xí)的深度卷積神經(jīng)網(wǎng)絡(luò)模型在百萬(wàn)級(jí)別的人臉識(shí)別任務(wù)中的具體實(shí)施,實(shí)現(xiàn)的具體運(yùn)算步驟如附圖1所示。1、預(yù)處理圖片首先利用圖片處理工具M(jìn)TCNN[19]檢測(cè)圖片中的人臉,然后利用MTCNN檢測(cè)人臉中的5個(gè)關(guān)鍵點(diǎn)(兩眼、鼻尖、兩邊嘴角),然后人臉對(duì)齊方法[20]進(jìn)行人臉對(duì)齊操作,最后將處理過(guò)的圖片大小歸一化至112×96。2、搭建本專(zhuān)利技術(shù)提出的基于殘差學(xué)習(xí)的深度卷積神經(jīng)網(wǎng)絡(luò)模型利用深度學(xué)習(xí)框架Caffe,搭建本專(zhuān)利技術(shù)提出的基于殘差學(xué)習(xí)的深度卷積神經(jīng)網(wǎng)絡(luò)模型,如附圖2所示。此模型由卷積層,下采樣層,殘差層以及全連接層組成,其中殘差層由兩路數(shù)據(jù)(一路是若干個(gè)卷積層級(jí)聯(lián)的數(shù)據(jù)和一路原始數(shù)據(jù))相加求和構(gòu)成,如附圖3所示,并且網(wǎng)絡(luò)結(jié)構(gòu)中每一個(gè)卷積層之后都做批量歸一化(BatchNormalization)操作;其中,輸入層I大小為112×96×3,卷積層C1(卷積核大小為3×3,滑動(dòng)步長(zhǎng)為1,填充為0,輸出為32),卷積層C2(卷積核大小為3×3,滑動(dòng)步長(zhǎng)為1,填充為0,輸出為64),下采樣層P1(最大池化,大小為2×2,滑動(dòng)步長(zhǎng)為2,輸出為64),殘差層R1_1(一路由3個(gè)卷積層(卷積核大小為3×3,滑動(dòng)步長(zhǎng)為1,填充為0,輸出為64)級(jí)聯(lián)的數(shù)據(jù)和一路原始數(shù)據(jù)相加),殘差層R1_2(一路由3個(gè)卷積層(卷積核大小為3×3,滑動(dòng)步長(zhǎng)為1,填充為0,輸出為64)級(jí)聯(lián)的數(shù)據(jù)和一路原始數(shù)據(jù)相加),殘差層R1_3(一路由3個(gè)卷積層(卷積核大小為3×3,滑動(dòng)步本文檔來(lái)自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】
基于深度卷積神經(jīng)網(wǎng)絡(luò)模型的大規(guī)模人臉識(shí)別方法,其特征在于,采用基于殘差學(xué)習(xí)的深度卷積神經(jīng)網(wǎng)絡(luò)模型,具體包括3個(gè)步驟:預(yù)處理圖片、訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò)模型、面向大規(guī)模人臉識(shí)別:步驟1、預(yù)處理圖片(1)檢測(cè)圖片中的人臉;(2)檢測(cè)人臉中的5個(gè)關(guān)鍵點(diǎn):兩眼、鼻尖、兩邊嘴角;(3)進(jìn)行人臉對(duì)齊操作;(4)將人臉圖片大小歸一化;步驟2、訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò)模型(1)搭建基于殘差學(xué)習(xí)的深度卷積神經(jīng)網(wǎng)絡(luò)模型;(2)前向傳播計(jì)算損失誤差;(3)反向傳播損失誤差更新模型參數(shù);(4)獲得訓(xùn)練好的深度卷積神經(jīng)網(wǎng)絡(luò)模型;步驟3、大規(guī)模人臉識(shí)別(1)測(cè)試圖片通過(guò)深度卷積神經(jīng)網(wǎng)絡(luò)模型;(2)提取特征向量;(3)利用特征向量進(jìn)行相似度計(jì)算;(4)輸出識(shí)別結(jié)果。
【技術(shù)特征摘要】
1.基于深度卷積神經(jīng)網(wǎng)絡(luò)模型的大規(guī)模人臉識(shí)別方法,其特征在于,采用基于殘差學(xué)習(xí)的深度卷積神經(jīng)網(wǎng)絡(luò)模型,具體包括3個(gè)步驟:預(yù)處理圖片、訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò)模型、面向大規(guī)模人臉識(shí)別:步驟1、預(yù)處理圖片(1)檢測(cè)圖片中的人臉;(2)檢測(cè)人臉中的5個(gè)關(guān)鍵點(diǎn):兩眼、鼻尖、兩邊嘴角;(3)進(jìn)行人臉對(duì)齊操作;(4)將人臉圖片大小歸一化;步驟2、訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò)模型(1)搭建基于殘差學(xué)習(xí)的深度卷積神經(jīng)網(wǎng)絡(luò)模型;(2)前向傳播計(jì)算損失誤差;(3)反向傳播損失誤差更新模型參數(shù);(4)獲得訓(xùn)練好的深度卷積神經(jīng)網(wǎng)絡(luò)模型;步驟3、大規(guī)模人臉識(shí)別(1)測(cè)試圖片通過(guò)深度卷積神經(jīng)網(wǎng)絡(luò)模型;(2)提取特征向量;(3)利用特征向量進(jìn)行相似度計(jì)算;(4)輸出識(shí)別結(jié)果。2.根據(jù)權(quán)利要求1所述的大規(guī)模人臉識(shí)別方法,其特征在于,步驟2中所述基于殘差學(xué)習(xí)的深度卷積神經(jīng)網(wǎng)絡(luò)模型,具體如下:模型由卷積層、下采樣層、殘差層以及全連接層組成,其中,殘差層由兩路數(shù)據(jù):一路是若干個(gè)卷積層級(jí)聯(lián)的數(shù)據(jù)和一路...
【專(zhuān)利技術(shù)屬性】
技術(shù)研發(fā)人員:王展雄,邵蔚元,馮瑞,
申請(qǐng)(專(zhuān)利權(quán))人:復(fù)旦大學(xué),
類(lèi)型:發(fā)明
國(guó)別省市:上海,31
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。