• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于自然語義處理和深度學(xué)習(xí)的敏感信息提取方法技術(shù)

    技術(shù)編號(hào):36702570 閱讀:50 留言:0更新日期:2023-03-01 09:20
    本發(fā)明專利技術(shù)公開了一種基于自然語義處理和深度學(xué)習(xí)技術(shù)的敏感信息提取方法,可對(duì)大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)中的敏感信息進(jìn)行提取。首先,從互聯(lián)網(wǎng)中下載多個(gè)是文本文件,對(duì)不同格式的富文本文件使用開源工具進(jìn)行解析;之后,對(duì)解析后的文本文件,使用正則匹配算法對(duì)具有可預(yù)測(cè)模式的敏感信息進(jìn)行提取;其次,使用自然語義處理模型

    【技術(shù)實(shí)現(xiàn)步驟摘要】
    一種基于自然語義處理和深度學(xué)習(xí)的敏感信息提取方法


    本專利技術(shù)涉及信息安全
    ,更具體地,本專利技術(shù)考慮了網(wǎng)絡(luò)中敏感信息的智能提取方法,及文本文件的處理過程,提出一種基于自然語義處理方法如正則匹配和BERT,及改進(jìn)長(zhǎng)短期記憶網(wǎng)絡(luò)的網(wǎng)絡(luò)敏感信息提取方法。

    技術(shù)介紹

    信息泄漏一直是信息安全領(lǐng)域的一個(gè)重要問題,敏感信息一旦泄漏,會(huì)導(dǎo)致嚴(yán)重后果。而大多數(shù)敏感信息都儲(chǔ)存在非結(jié)構(gòu)化數(shù)據(jù)中,如何提取來自大量非結(jié)構(gòu)化數(shù)據(jù)中的敏感信息已成為最重要的信息之一挑戰(zhàn)。針對(duì)網(wǎng)絡(luò)中敏感信息提取的研究就是在這種背景下產(chǎn)生。敏感信息提取的目的是通過自然語義處理方法從文本文件中提取出敏感信息,通過判斷敏感信息的存在對(duì)其加以保護(hù),而網(wǎng)絡(luò)中存在的文本文件大多存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù)中,單純使用基于正則匹配的方法識(shí)別提取文件中的敏感信息存在提取不完整,提取準(zhǔn)確度不高等問題。因此,有必要對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理,進(jìn)而采用現(xiàn)存的智能方法對(duì)敏感信息提取,實(shí)現(xiàn)敏感信息提取的高度完整性、精準(zhǔn)性。非結(jié)構(gòu)化數(shù)據(jù)文件格式種類多,不同格式的文件需要特定的工具或軟件對(duì)其進(jìn)行解析。目前對(duì)于敏感信息提取的研究主要可分為基于正則匹配的方法和基于機(jī)器學(xué)習(xí)算法的方法。前者更加關(guān)注敏感信息模式的定義,通過定義提取模板進(jìn)行信息提取,該種方法的準(zhǔn)確率強(qiáng)依賴定義的提取模板,受主觀影響較大?;跈C(jī)器學(xué)習(xí)的信息提取方法主要基于統(tǒng)計(jì)模型,如隱馬爾科夫模型、最大熵模型、支持向量機(jī)等,但這些方法易受預(yù)料庫(kù)本身問題造成的數(shù)據(jù)稀疏的問題,實(shí)際中經(jīng)常出現(xiàn)把非敏感信息錯(cuò)當(dāng)成敏感信息提取出來,誤報(bào)率較高,而近些年流行的深度學(xué)習(xí)方法能夠?qū)⑽谋緝?nèi)容以序列的方式輸入進(jìn)行模型訓(xùn)練,可學(xué)習(xí)文本序列內(nèi)容的詞向量間關(guān)系。為了將文本內(nèi)容轉(zhuǎn)化為詞向量以實(shí)現(xiàn)智能化提取,現(xiàn)存的Word2Vector屬于靜態(tài)模型無法處理文本文件中的多義詞,因此有必要使用動(dòng)態(tài)模型對(duì)文本內(nèi)容進(jìn)行處理。同時(shí),長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為一種高效的深度學(xué)習(xí)算法,可一次性輸入文本序列內(nèi)容學(xué)習(xí)序列內(nèi)詞向量間的關(guān)系,這無疑加大了識(shí)別敏感信息的準(zhǔn)確性,本專利技術(shù)通過改進(jìn)LSTM形成具有注意力機(jī)制的雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(ABi
    ?
    LSTM)以實(shí)現(xiàn)敏感信息的精準(zhǔn)識(shí)別。針對(duì)具有可預(yù)測(cè)模型的文本,本專利技術(shù)采用傳統(tǒng)的正則匹配方法對(duì)敏感信息進(jìn)行提取,為了提高敏感信息識(shí)別效果,本專利技術(shù)采用BERT模型對(duì)文本內(nèi)容進(jìn)行向量化實(shí)現(xiàn)相同詞語在不同句子中具有的不同意義的向量轉(zhuǎn)換,進(jìn)而生成文本序列并對(duì)ABi
    ?
    LSTM進(jìn)行訓(xùn)練以實(shí)現(xiàn)敏感信息的二次提取。

    技術(shù)實(shí)現(xiàn)思路

    本專利技術(shù)的目的在于一種基于自然語義處理和深度學(xué)習(xí)的敏感信息提取方法,該方法可以應(yīng)用于信息安全、信息檢索等領(lǐng)域方面的敏感信息提取工作中。
    一種基于自然語義處理和深度學(xué)習(xí)的敏感信息提取方法,包括如下步驟:步驟S1:文本文件采集,根據(jù)格式將文本文件分為純文本文件集P和富文本文件集R,其中富文本文件格式包括HTML,XML,pdf,doc,pst,rtf;步驟S2:富文本文件解析,使用開源工具HTMLParser,Pugixml,PDFLib,python
    ?
    docx,libpst,win32com不同格式的富文本文件進(jìn)行解析;步驟S3:可預(yù)測(cè)模型的敏感信息提取,使用正則匹配方法對(duì)具有可預(yù)測(cè)模型文本進(jìn)行敏感信息提取,如IP地址、MAC地址、郵箱、AIP關(guān)鍵字、證書、證書請(qǐng)求、私鑰內(nèi)容;步驟S4:文本序列生成,對(duì)解析后的文本文件進(jìn)行文本清洗,文本文本分割,以及文本替換;步驟S5:詞向量嵌入,使用動(dòng)態(tài)詞嵌入算法BERT對(duì)文本序列中的詞進(jìn)行向量轉(zhuǎn)化;步驟S6:訓(xùn)練、驗(yàn)證、測(cè)試數(shù)據(jù)集劃分,按比例將詞向量劃分為訓(xùn)練數(shù)據(jù)集,驗(yàn)證數(shù)據(jù)集和測(cè)試數(shù)據(jù)集;步驟S7:模型訓(xùn)練,將測(cè)試詞向量數(shù)據(jù)集輸入雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Bi
    ?
    LSTM)中,并向訓(xùn)練模型增加注意力機(jī)制形成雙向注意力長(zhǎng)短期記憶網(wǎng)絡(luò)模型(ABi
    ?
    LSTM);步驟S8:模型有效性測(cè)試,使用測(cè)試集測(cè)試ABi
    ?
    LSTM模型。上述技術(shù)方案中,在步驟S2中,解析富文本文件的具體步驟為:步驟S201:針對(duì)HTML文件,使用HTMLParser中的Parser類創(chuàng)建解釋器,創(chuàng)建Filter過濾或Visitor訪客規(guī)則,根據(jù)Filter或Visitor使用解釋器獲取符合條件文本節(jié)點(diǎn),對(duì)文本節(jié)點(diǎn)解析;步驟S202:針對(duì)XML文件,根據(jù)文件內(nèi)標(biāo)簽將原始XML文件轉(zhuǎn)為對(duì)象模型集合,使用DOM樹存儲(chǔ)轉(zhuǎn)換后的數(shù)據(jù)結(jié)構(gòu),通過DOM接口隨機(jī)訪問存儲(chǔ)數(shù)據(jù)實(shí)現(xiàn)文本文件解析;步驟S203:針對(duì)pdf文件,解析文件尾獲取交叉應(yīng)用表和根對(duì)象編號(hào),使用PDFLib庫(kù)根據(jù)交叉引用表以及根對(duì)象編號(hào)逐層解析文檔;步驟S204:針對(duì)doc、docx文檔,獲取要解析的文檔對(duì)象,輸出文檔中每一段內(nèi)容,輸出段落編號(hào)及段落內(nèi)容完成解析;步驟S205:針對(duì)pst文件,使用libpst直接解析文件,抽取郵件正文和附件等進(jìn)行解析;針對(duì)rtf文件,使用win32com抽取文件正文等進(jìn)行解析。上述技術(shù)方案中,在步驟S3中提取具有可預(yù)測(cè)模型特征的敏感信息,提取可預(yù)測(cè)模型文本中的敏感信息具體可表示為:步驟S301:定義具有可預(yù)測(cè)模型特征的敏感信息,如IP地址,email地址,API關(guān)鍵字,私鑰和證書文本;步驟S302:使用Python中re模塊中的sub()函數(shù)提取步驟S301中定義的具有可預(yù)測(cè)模型特征的敏感信息;步驟S303:保存敏感信息。上述技術(shù)方案中,在步驟S4中對(duì)解析后文本生成文本序列生成,具體可表示為:步驟S401:文本清洗,移除文本中每行的開始和結(jié)束的非ASCII字符和空格字符,將大寫字符轉(zhuǎn)化為對(duì)應(yīng)的小寫字符;步驟S402:文本分割,對(duì)文本進(jìn)行切割成多行,對(duì)每行文本作為句子并使用“WordPiece”進(jìn)行分詞;
    步驟S403:文本替換,對(duì)文本內(nèi)容URL、email進(jìn)行格式替換,替換后格式為:email username domain和http domain letters。上述技術(shù)方案中,在步驟S5中對(duì)文本序列中的詞進(jìn)行向量轉(zhuǎn)化,具體可表示為:步驟S501:定義步驟S4中生成的文本序列為X={x1,x2,x3,...,x
    n
    },x
    n
    為文本序列中第n個(gè)單詞;步驟S502:使用BERT算法計(jì)算文本序列X對(duì)應(yīng)的詞向量序列E={e1,e2,e3,...,e
    n
    },其中e
    n
    為第n個(gè)單詞x
    n
    對(duì)應(yīng)的詞向量。上述技術(shù)方案中,在步驟S6中對(duì)經(jīng)步驟S5生成的詞向量序列劃分為訓(xùn)練數(shù)據(jù)集,驗(yàn)證數(shù)據(jù)集和測(cè)試數(shù)據(jù)集,具體可表示為:步驟S601:對(duì)文本序列進(jìn)行打標(biāo)簽操作,打標(biāo)簽操作采用“BIO”策略;步驟S602:按一定比例將詞向量序列集分為訓(xùn)練數(shù)據(jù)集、驗(yàn)證數(shù)據(jù)集和測(cè)試數(shù)據(jù)集,三者數(shù)據(jù)量比例為7:1:2。上述技術(shù)方案中,在步驟S7中使用步驟S6生成的訓(xùn)練數(shù)據(jù)集,驗(yàn)證數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練及調(diào)整ABi
    ?
    LSTM模型,具體可表示為:步驟S701:更新長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)的門結(jié)構(gòu),具體步驟如本文檔來自技高網(wǎng)
    ...

    【技術(shù)保護(hù)點(diǎn)】

    【技術(shù)特征摘要】
    1.一種基于自然語義處理和深度學(xué)習(xí)的敏感信息提取方法,其特征在于,包括如下步驟:步驟S1:文本文件采集,根據(jù)格式將文本文件分為純文本文件集P和富文本文件集R,其中富文本文件格式包括HTML,XML,pdf,doc,pst,rtf;步驟S2:富文本文件解析,使用開源工具HTMLParser,Pugixml,PDFLib,python
    ?
    docx,libpst,win32com不同格式的富文本文件進(jìn)行解析;步驟S3:可預(yù)測(cè)模型的敏感信息提取,使用正則匹配方法對(duì)具有可預(yù)測(cè)模型文本進(jìn)行敏感信息提取,如IP地址、MAC地址、郵箱、AIP關(guān)鍵字、證書、證書請(qǐng)求、私鑰內(nèi)容;步驟S4:文本序列生成,對(duì)解析后的文本文件進(jìn)行文本清洗,文本文本分割,以及文本替換;步驟S5:詞向量嵌入,使用動(dòng)態(tài)詞嵌入算法BERT對(duì)文本序列中的詞進(jìn)行向量轉(zhuǎn)化;步驟S6:訓(xùn)練、驗(yàn)證、測(cè)試數(shù)據(jù)集劃分,按比例將詞向量劃分為訓(xùn)練數(shù)據(jù)集,驗(yàn)證數(shù)據(jù)集和測(cè)試數(shù)據(jù)集;步驟S7:模型訓(xùn)練,將測(cè)試詞向量數(shù)據(jù)集輸入雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Bi
    ?
    LSTM)中,并向訓(xùn)練模型增加注意力機(jī)制形成雙向注意力長(zhǎng)短期記憶網(wǎng)絡(luò)模型(ABi
    ?
    LSTM);步驟S8:模型有效性測(cè)試,使用測(cè)試集測(cè)試ABi
    ?
    LSTM模型。2.根據(jù)權(quán)利要求1中所述的一種基于自然語義處理和深度學(xué)習(xí)的敏感信息提取方法,其特征在于,在步驟S2中,解析富文本文件的具體步驟為:步驟S201:針對(duì)HTML文件,使用HTMLParser中的Parser類創(chuàng)建解釋器,創(chuàng)建Filter過濾或Visitor訪客規(guī)則,根據(jù)Filter或Visitor使用解釋器獲取符合條件文本節(jié)點(diǎn),對(duì)文本節(jié)點(diǎn)解析;步驟S202:針對(duì)XML文件,根據(jù)文件內(nèi)標(biāo)簽將原始XML文件轉(zhuǎn)為對(duì)象模型集合,使用DOM樹存儲(chǔ)轉(zhuǎn)換后的數(shù)據(jù)結(jié)構(gòu),通過DOM接口隨機(jī)訪問存儲(chǔ)數(shù)據(jù)實(shí)現(xiàn)文本文件解析;步驟S203:針對(duì)pdf文件,解析文件尾獲取交叉應(yīng)用表和根對(duì)象編號(hào),使用PDFLib庫(kù)根據(jù)交叉引用表以及根對(duì)象編號(hào)逐層解析文檔;步驟S204:針對(duì)doc、docx文檔,獲取要解析的文檔對(duì)象,輸出文檔中每一段內(nèi)容,輸出段落編號(hào)及段落內(nèi)容完成解析;步驟S205:針對(duì)pst文件,使用libpst直接解析文件,抽取郵件正文和附件等進(jìn)行解析;針對(duì)rtf文件,使用win32com抽取文件正文等進(jìn)行解析。3.根據(jù)權(quán)利要求2中所述的一種基于自然語義處理和深度學(xué)習(xí)的敏感信息提取方法,其特征在于,步驟S3提取具有可預(yù)測(cè)模型特征的敏感信息,提取可預(yù)測(cè)模型文本中的敏感信息具體可表示為:步驟S301:定義具有可預(yù)測(cè)模型特征的敏感信息,如IP地址,email地址,API關(guān)鍵字,私鑰和證書文本;步驟S302:使用Python中re模塊中的sub( )函數(shù)提取步驟S301中定義的具有可預(yù)測(cè)模型特征的敏感信息;步驟S303:保存敏感信息。4.根據(jù)權(quán)利要求2所述的一種基于自然語義處理和深度學(xué)習(xí)的敏感信息提取方法,其特征在于,在步驟S4中對(duì)解析后文本生成文本序列生成,具體可表示為:
    步驟S401:文本清洗,移除文本中每行的開始和結(jié)束的非ASCII字符和空格字符,將大寫字符轉(zhuǎn)化為對(duì)應(yīng)的小寫字符;步驟S402:文本分割,對(duì)文本進(jìn)行切割成多行,對(duì)每行文本作為句子并使用“WordPiece”進(jìn)行分詞;步驟S403:文本替換,對(duì)文本內(nèi)容URL、email進(jìn)行格式替換,替換后格式為:email username domain和http domain letters。5.根據(jù)權(quán)利要求4所述的一種基于自然語義處理和深度學(xué)習(xí)的敏感信息提取方法,其特征在于,在步驟S5中對(duì)文本序列中的詞進(jìn)行向量轉(zhuǎn)化,具體可表示為:步驟S501:定義步驟S4中生成的文本序列為X={x1,x2,x3,...,x
    n
    },x
    n
    為文本序列中第n個(gè)單詞;步驟S502:使用BERT算法計(jì)算文本序列X對(duì)應(yīng)的詞向量序列E={e1,e2,e3,...,e
    n
    },其中e
    n
    為第n個(gè)單詞x
    n
    對(duì)應(yīng)的詞向量。6.根據(jù)權(quán)利要求5所述的一種基于自然語義處理和深度學(xué)習(xí)的敏感信息提取方法,其特征在于,在步驟S6中對(duì)經(jīng)步驟S5生成的詞向量序列劃分為訓(xùn)練數(shù)據(jù)集,驗(yàn)證數(shù)據(jù)集和測(cè)試數(shù)據(jù)集,具體可表示為:步驟S601:對(duì)文本序列進(jìn)行打標(biāo)簽操作,打標(biāo)簽操作采用“BIO”策略;步驟S602:按一定比例將詞向量序列集分為訓(xùn)練數(shù)據(jù)集、驗(yàn)證數(shù)據(jù)集和測(cè)試數(shù)據(jù)集,三者數(shù)據(jù)量比例為7:1:2。7.根據(jù)權(quán)利要求6所述的一種基于自然語義處理和深度學(xué)習(xí)的敏感信息提取方法,其特征在于,在步驟S7中使用步驟S6生成的訓(xùn)練數(shù)據(jù)集,驗(yàn)證數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練及調(diào)整ABi
    ?
    LSTM模型,具體可表示為:步驟S701:更新長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)的門結(jié)構(gòu),具體步驟如下:

    更新LSTM的忘記門:f
    t
    =σ(W
    f
    e
    t
    +U
    f
    h
    ...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:程興防陳劍飛,王云霄,徐明偉,趙麗娜
    申請(qǐng)(專利權(quán))人:國(guó)網(wǎng)山東省電力公司信息通信公司,
    類型:發(fā)明
    國(guó)別省市:

    網(wǎng)友詢問留言 已有0條評(píng)論
    • 還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 国产精品无码成人午夜电影| 无码精品黑人一区二区三区 | 欧洲Av无码放荡人妇网站| 日韩精品中文字幕无码专区 | 亚洲中文无码永久免| 国产成人无码A区在线观看导航| 亚洲中文字幕无码一久久区| 亚洲中文无码亚洲人成影院| 国产成人无码久久久精品一| 无码被窝影院午夜看片爽爽jk| 国产午夜精品无码| 亚洲国产综合无码一区二区二三区 | 在线观看无码的免费网站| 亚洲av激情无码专区在线播放| 国产av无码专区亚洲av毛片搜| 久久午夜福利无码1000合集| 国产又爽又黄无码无遮挡在线观看| 亚洲av永久无码一区二区三区| 无码人妻精品一区二区三区夜夜嗨| 国产成人亚洲精品无码AV大片| 少妇久久久久久人妻无码| 欧洲无码一区二区三区在线观看| 亚洲人成无码久久电影网站| 亚洲精品无码久久久久秋霞 | 亚洲另类无码一区二区三区| 无码视频在线观看| 亚洲va无码专区国产乱码| 久久久91人妻无码精品蜜桃HD| 亚洲国产AV无码一区二区三区 | 国产精品亚洲а∨无码播放不卡| 精品久久无码中文字幕| 精品无码AV一区二区三区不卡| 亚洲国产精品无码中文字| 国模GOGO无码人体啪啪| 中文字幕AV中文字无码亚 | 无码AV岛国片在线播放| 亚洲精品~无码抽插| 亚洲精品无码不卡在线播HE| 伊人久久精品无码av一区| 成在人线av无码免费高潮喷水| 亚洲一区二区三区AV无码|