【技術(shù)實(shí)現(xiàn)步驟摘要】
一種面向BERT模型的剪枝可視分析方法
[0001]本專利技術(shù)涉及計(jì)算機(jī)數(shù)據(jù)可視化
,具體指一種面向BERT模型的剪枝可視分析方法。
技術(shù)介紹
[0002]2017年,Google團(tuán)隊(duì)提出了Transformer模型,摒棄了以往基于RNN結(jié)構(gòu)的序列依賴特性,通過(guò)只利用注意力機(jī)制完成模型編碼器和解碼器的構(gòu)建,增強(qiáng)了數(shù)據(jù)特征的提取能力,讓處于輸入序列中的任意單元都能看到輸入序列的全局信息。2018年底,基于Transformer架構(gòu)的編碼器堆棧,提出了全新的模型BERT,成功在11項(xiàng)自然語(yǔ)言處理任務(wù)上取得最先進(jìn)的結(jié)果。與其他語(yǔ)言表示模型不同,BERT旨在通過(guò)聯(lián)合調(diào)節(jié)所有層中的上下文來(lái)預(yù)先訓(xùn)練深度雙向表示。針對(duì)具體任務(wù),例如問(wèn)答任務(wù)、語(yǔ)言推理和語(yǔ)言翻譯,不需要對(duì)訓(xùn)練模型做大幅架構(gòu)修改,僅需要連接一個(gè)額外的輸出層進(jìn)行微調(diào),就可以達(dá)到優(yōu)秀的模型結(jié)果。
[0003]BERT模型在多種下游任務(wù)表現(xiàn)優(yōu)異,但龐大的模型參數(shù)也帶來(lái)了訓(xùn)練及推理速度過(guò)慢的問(wèn)題,難以滿足對(duì)實(shí)時(shí)響應(yīng)速度要求高的場(chǎng)景,模型壓縮就顯得非常重要。
技術(shù)實(shí)現(xiàn)思路
[0004]本專利技術(shù)針對(duì)現(xiàn)有技術(shù)的不足,提出一種面向BERT模型的剪枝可視分析方法,可以通過(guò)損失值(loss)和準(zhǔn)確度(accuracy)可視化揭示訓(xùn)練過(guò)程中模型的優(yōu)化收斂情況;自注意力頭的可視化幫助用戶了解模型整體的自注意力頭的重要性分?jǐn)?shù),可作為用戶剪枝模型的依據(jù);模型剪枝歷史可視化以迭代回溯圖的方式整合用戶剪枝歷史,方便用戶對(duì)剪枝歷史的回溯以及調(diào)整剪枝方案。
[00 ...
【技術(shù)保護(hù)點(diǎn)】
【技術(shù)特征摘要】
1.一種面向BERT模型的剪枝可視分析方法,其特征在于,包括如下步驟:S1、訓(xùn)練模型BERT,提取BERT模型結(jié)構(gòu)圖,并保存訓(xùn)練結(jié)果,所述訓(xùn)練結(jié)果包括模型訓(xùn)練損失值、準(zhǔn)確度、訓(xùn)練樣本原始標(biāo)簽及預(yù)測(cè)標(biāo)簽、訓(xùn)練樣本自注意力值和模型結(jié)構(gòu)圖信息;S2、訓(xùn)練結(jié)果可視化顯示利用流程圖可視化模型結(jié)構(gòu)圖,利用數(shù)據(jù)集信息表與降維散點(diǎn)圖可視化訓(xùn)練數(shù)據(jù)集信息,利用折線圖可視化模型訓(xùn)練損失值和準(zhǔn)確度,利用矩陣圖可視化訓(xùn)練樣本自注意力值,利用樹形層次圖可視化模型剪枝歷史;S3、利用剪枝可視分析系統(tǒng)組件分析模型剪枝可能性,設(shè)置剪枝參數(shù),利用模型剪枝算法精簡(jiǎn)模型,再進(jìn)行訓(xùn)練,觀察模型各項(xiàng)評(píng)估指標(biāo);S4、保存剪枝后模型及模型參數(shù),當(dāng)剪枝模型達(dá)到性能指標(biāo)以及模型參數(shù)量達(dá)到要求水平,保存剪枝模型及模型參數(shù)。2.根據(jù)權(quán)利要求1所述的面向BERT模型的剪枝可視分析方法,其特征在于,所述步驟S1中提取BERT模型結(jié)構(gòu)圖的方法為:S1
?
1、通過(guò)深度學(xué)習(xí)框架提供的動(dòng)態(tài)圖提取api獲取動(dòng)態(tài)圖graph;S1
?
2、通過(guò)graph.inputs()和graph.nodes()獲取動(dòng)態(tài)圖節(jié)點(diǎn)信息,構(gòu)建計(jì)算圖;S1
?
3、確定需要展示的結(jié)構(gòu)圖層級(jí)名稱,記為NamedSet;S1
?
4、進(jìn)行過(guò)濾操作,獲取計(jì)算圖節(jié)點(diǎn)信息uid,如果包含在NamedSet中,保留節(jié)點(diǎn);否則刪除節(jié)點(diǎn),并刪除與之連接的邊,更新結(jié)構(gòu)圖信息;S1
?
5、迭代更新完成后,獲得最終的模型結(jié)構(gòu)圖。3.根據(jù)權(quán)利要求1所述的面向BERT模型的剪枝可視分析方法,其特征在于,所述步驟S2中利用流程圖可視化模型結(jié)構(gòu)圖的方法為:獲取模型結(jié)構(gòu)圖后,解析結(jié)構(gòu)圖樹形數(shù)據(jù),以節(jié)點(diǎn)流程圖方式展示模型內(nèi)部結(jié)構(gòu),通過(guò)給不同類型的節(jié)點(diǎn)設(shè)置不同的顏色標(biāo)識(shí)不同的神經(jīng)網(wǎng)絡(luò)層。4.根據(jù)權(quán)利要求1所述的面向BERT模型的剪枝可視分析方法,其特征在于,所述步驟S2中利用數(shù)據(jù)集信息表與降維散點(diǎn)圖可視化訓(xùn)練數(shù)據(jù)集信息的方法為:訓(xùn)練數(shù)據(jù)集信息表包含文本實(shí)例信息、原始標(biāo)簽和預(yù)測(cè)標(biāo)簽,可滾動(dòng)查看信息表中的各個(gè)實(shí)例信息,進(jìn)而觀察原始標(biāo)簽與預(yù)測(cè)標(biāo)簽的一致性,若出現(xiàn)大量不一致標(biāo)簽,表明模型訓(xùn)練準(zhǔn)確度較低,模型未達(dá)到收斂狀態(tài),需要調(diào)整模型結(jié)構(gòu)或參數(shù)進(jìn)行再訓(xùn)練;同時(shí),訓(xùn)練數(shù)據(jù)集中降維散點(diǎn)圖通過(guò)將文本實(shí)例降維到二維平面上,以數(shù)據(jù)點(diǎn)的方式表示實(shí)例,以不同顏色標(biāo)識(shí)預(yù)測(cè)結(jié)果,通過(guò)降維可視化,用戶首先觀察降維實(shí)例的聚類結(jié)果,越相近的數(shù)據(jù)點(diǎn)表明在二維空間越相似,二維空間的相似性體現(xiàn)了文本實(shí)例在高維數(shù)據(jù)空間的相似性,進(jìn)而可重點(diǎn)觀察不同聚類鄰近區(qū)域,借此發(fā)現(xiàn)預(yù)測(cè)錯(cuò)誤的實(shí)例,觀察預(yù)測(cè)錯(cuò)誤實(shí)例的自注意力分布情況,探索預(yù)測(cè)錯(cuò)誤的可能原因,利用UMAP降維算法進(jìn)行數(shù)據(jù)降維,將高維流形特征降維到二維平面,達(dá)到聚類特征的目的。5.根據(jù)權(quán)利要求4所述的面向BERT模型的剪枝可視分析方法,其特征在于,所述UMAP降維算法流程如下:設(shè)定n_neighbors=15,規(guī)定流形結(jié)構(gòu)局部逼近中相鄰點(diǎn)的個(gè)數(shù),保留高維空間中數(shù)據(jù)的全局信息和局部信息;
構(gòu)建高維連接圖,設(shè)定local_connectivity=1,保證至少有每個(gè)點(diǎn)至少有一條邊相連,每個(gè)點(diǎn)通過(guò)與其他點(diǎn)的距離計(jì)算連接確定性,距離越遠(yuǎn),連接確定性越小;由于使用了不同距離的方法,會(huì)遇到邊緣權(quán)重不對(duì)齊的情況,取兩條邊的并集進(jìn)行合并,得到高維連接圖;將高維連接圖投影到二維平面,設(shè)定min_distance=0.1,表示兩點(diǎn)之間的最小距離,避免重疊帶來(lái)的視覺(jué)混亂;通過(guò)優(yōu)化函數(shù)其中e表示單條邊,E表示邊集合,c
h
(e)表示高維空間中邊的連接確定性,c
l
(e)表示低維空間中邊的連接確定性,利用交叉熵優(yōu)化函數(shù),配合隨機(jī)梯度下降法找到低維空間中的...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:劉真,孫海波,洪鑫宇,徐崗,吳向陽(yáng),徐景勝,顏菁,吳兆國(guó),
申請(qǐng)(專利權(quán))人:杭州電子科技大學(xué),
類型:發(fā)明
國(guó)別省市:
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。