本發(fā)明專利技術(shù)是一種基于網(wǎng)絡(luò)群挖掘的釣魚網(wǎng)站檢測方法。對于一個給定的可疑網(wǎng)頁,利用爬蟲構(gòu)造與其相關(guān)的相關(guān)網(wǎng)頁集,進而獲取可疑網(wǎng)站和它的潛在目標網(wǎng)站,再計算網(wǎng)站的特征簽名,通過網(wǎng)站特征簽名的相似度計算,判斷可疑網(wǎng)站是否為釣魚網(wǎng)站,如果是,則返回它的目標網(wǎng)站。本發(fā)明專利技術(shù)的目的就是通過檢測可疑網(wǎng)頁所在的網(wǎng)站是否為釣魚,檢測結(jié)束的同時也找到了釣魚網(wǎng)站的目標網(wǎng)站。釣魚檢測的過程即是目標發(fā)現(xiàn)的過程,可疑網(wǎng)站只和與它相關(guān)的潛在目標網(wǎng)站做相似性計算,減少了和因特網(wǎng)中與它無關(guān)的合法網(wǎng)站之間的比較,提高了釣魚檢測的效率,有效地節(jié)約了資源,提高了工作效率。
【技術(shù)實現(xiàn)步驟摘要】
本專利技術(shù)涉及一種釣魚網(wǎng)站檢測的方法,主要從網(wǎng)站的相似性檢測角度利用網(wǎng)絡(luò)群挖掘可疑網(wǎng)站的相關(guān)網(wǎng)站,對釣魚網(wǎng)站進行分析識別。屬于信息安全與數(shù)據(jù)挖掘的交叉領(lǐng)域。
技術(shù)介紹
“釣魚網(wǎng)站”是伴隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)上購物的日益成熟而出現(xiàn)的一種網(wǎng)絡(luò)詐騙行為。犯罪分子模仿合法網(wǎng)站做出與之視覺上幾乎一樣的“釣魚網(wǎng)站”,用戶一旦登陸該“釣魚網(wǎng)站”就會泄露自己的敏感信息(如用戶名、口令、帳號ID、ATM PIN碼或信用卡詳細信息等)。因為“釣魚網(wǎng)站”通常模仿的是銀行或其他知名網(wǎng)站,用戶一旦受到釣魚攻擊,就會遭受經(jīng)濟損失。釣魚攻擊一般分為三個階段首先,向潛在的受害者發(fā)送釣魚郵件,將郵件接受者弓丨誘到一個精心設(shè)計的“釣魚網(wǎng)站”;然后,獲取用戶的個人敏感信息,如銀行賬號、密碼等;最后,犯罪分子用這些敏感信息進行謀利。利用被盜取的個人信息,罪犯可能盜取銀行證書,直接謀利;也有可能偷取如在線游戲或社交網(wǎng)絡(luò)的證書,將受害人用戶的虛擬金幣轉(zhuǎn)移到他們的合伙人賬戶,然后轉(zhuǎn)賣給其他玩家,間接謀利。由于大多數(shù)人在不同網(wǎng)站會使用同樣的用戶名和密碼,一旦受到某個釣魚攻擊,有可能遭受一系列的經(jīng)濟損失。防止釣魚網(wǎng)頁攻擊,從終端用戶的角度,首先要讓所有東西不可見。阻止釣魚攻擊觸及到終端用戶是第一道防線,包括過濾釣魚郵件信息,阻止假冒的網(wǎng)站,以及關(guān)閉假冒網(wǎng)站。其次是為用戶提供更好的界面,即要么給用戶更好的環(huán)境要么提供更好的保護,如瀏覽器會在用戶瀏覽釣魚網(wǎng)頁時彈出警告窗口。最后,還可以訓(xùn)練用戶主動識別和避免釣魚攻擊。目前釣魚網(wǎng)頁的識別主要分為人工識別和機器識別。人工識別主要是用黑名單機制,將可疑網(wǎng)頁與黑名單庫中的網(wǎng)頁比較,若找到相同的則為釣魚網(wǎng)頁,否則為合法網(wǎng)頁。機器識別主要是基于相似性計算,抽取可疑網(wǎng)頁的視覺特征,計算其與合法網(wǎng)頁的相似度,進而判斷其是否為釣魚網(wǎng)頁。K Komiyama等人分析了造成檢測釣魚網(wǎng)頁錯誤的原因,以及對于非英文網(wǎng)站CBD方法的效率,如日語,中文等語言的網(wǎng)頁。CBD方法是按照一定的標準從可疑網(wǎng)頁中抽取n關(guān)鍵字,按照抽取的關(guān)鍵字在搜索引擎中搜索,并假設(shè)合法網(wǎng)頁包含在返回的前m個搜索結(jié)果中,如果可疑網(wǎng)頁與前m個結(jié)果中的任一個匹配,就認為是合法網(wǎng)頁,否則為釣魚。Maher等人采用模糊數(shù)據(jù)挖掘?qū)﹄娮鱼y行釣魚進行智能檢測。他們提出了一種克服電子銀行釣魚網(wǎng)頁評估的“模糊”方法,從而構(gòu)建了一個檢測電子銀行釣魚檢測模型?;谀:壿?、數(shù)據(jù)挖掘算法,來描繪電子銀行釣魚網(wǎng)頁因素,通過釣魚方法的分類調(diào)查技術(shù),用一種層結(jié)構(gòu)定義了六種電子銀行釣魚網(wǎng)頁攻擊標準。Crain J等人針對新一代的魚叉式釣魚,用郵件用戶插件結(jié)合自動和透明郵件的簽名方法檢測釣魚。要求每個用戶用給定的代理系統(tǒng)重定向郵件用戶。主要思想是金融機構(gòu)給用戶發(fā)送一個公共鑰匙,那么今后該機構(gòu)收到的郵件都會用這個私人鑰匙標記。現(xiàn)有的方法主要是針對釣魚網(wǎng)頁的檢測,且無論特征庫是黑名單還是白名單,每次檢測都要計算很多與可疑網(wǎng)頁關(guān)聯(lián)性不大的網(wǎng)頁之間的相似性,浪費很多資源,導(dǎo)致檢測效率低。因此,我們提出了。本方法通過挖掘可疑網(wǎng)頁相關(guān)的網(wǎng)頁,找到其可能的目標網(wǎng)站,從而減少相似度計算的比較對象。抽取網(wǎng)站的特征簽名,計算可疑網(wǎng)站與其可能的目標網(wǎng)站之間的相似性,最終找到可疑網(wǎng)站的目標網(wǎng)站。
技術(shù)實現(xiàn)思路
專利技術(shù)目的本專利技術(shù)的目的是提供一種。該方法能夠挖掘與可疑網(wǎng)頁相關(guān)的關(guān)聯(lián)網(wǎng)頁,從而找到可疑網(wǎng)站潛在的目標網(wǎng)站,縮小目標網(wǎng)站的比較范圍,提高釣魚網(wǎng)站的檢測效率,并且最終找到釣魚網(wǎng)站的目標網(wǎng)站。技術(shù)方案本專利技術(shù)實現(xiàn)方法,其特征在于該方法所包含的步驟為 步驟I)獲取可疑網(wǎng)頁的潛在目標網(wǎng)站 步驟1.1)輸入可疑網(wǎng)頁; 步驟1. 2)獲取可疑網(wǎng)頁所在的網(wǎng)站; 步驟1. 3)獲取可疑網(wǎng)頁的相關(guān)網(wǎng)頁群 步驟1. 3.1)輸入可疑網(wǎng)頁中的所有鏈接; 步驟1. 3. 2)生成種子網(wǎng)頁集; 步驟1. 3. 3)初始化迭代次數(shù)為0 ; 步驟1. 3. 4)生成有向圖,迭代次數(shù)加1: 步驟1.3. 4.1)根據(jù)種子網(wǎng)頁集,生成初始有向 步驟1. 3. 4. 2)獲取種子網(wǎng)頁集中所有網(wǎng)頁的后向鏈接網(wǎng)頁; 步驟1.3. 4. 3)把步驟1.3. 4.2)中找到的新網(wǎng)頁加入有向圖,更新有向 步驟1. 3. 4. 4)獲取新網(wǎng)頁的前向鏈接網(wǎng)頁; 步驟1.3. 4. 5)把步驟1.3. 4.4)中找到的新網(wǎng)頁加入有向圖,更新有向 步驟1. 3. 5)判斷有向圖中是否包含可疑網(wǎng)頁,如果包含,轉(zhuǎn)步驟4.1),否則,轉(zhuǎn)步驟1.3. 6); 步驟1. 3. 6)用最大流最小切算法切割有向 步驟1. 3. 7)獲取可疑網(wǎng)頁的相關(guān)網(wǎng)頁群; 步驟1. 3. 8)判斷迭代次數(shù)是否小于N次,N是常數(shù),如果不小于,轉(zhuǎn)步驟1. 3. 9),否則,轉(zhuǎn)步驟1. 4); 步驟1. 3. 9)更新種子網(wǎng)頁集 步驟1. 3. 9.1)將屬于相關(guān)網(wǎng)頁群,但是不屬于種子網(wǎng)頁集,且到它的出度或入度最高的網(wǎng)頁加入集合種子網(wǎng)頁集; 步驟1. 3. 9. 2)將屬于種子網(wǎng)頁集,但是不屬于相關(guān)網(wǎng)頁群,且到它的出度與入度之和小于m的網(wǎng)頁從種子網(wǎng)頁集中去除; 步驟1. 3. 10)判斷種子網(wǎng)頁集是否有改變,如果有改變,則轉(zhuǎn)步驟1. 3. 4),否則,轉(zhuǎn)步驟1. 4); 步驟1. 4)獲取可疑網(wǎng)頁的潛在目標網(wǎng)頁群 步驟1. 4.1)獲取相關(guān)網(wǎng)頁群的鄰接矩陣; 步驟1. 4. 2)計算鄰接矩陣的轉(zhuǎn)置與鄰接矩陣的乘積矩陣; 步驟1. 4. 3)計算鄰接矩陣與其轉(zhuǎn)置矩陣的乘積矩陣; 步驟1. 4. 4)計算乘積矩陣的特征值; 步驟1. 4. 5)計算乘積矩陣的特征向量; 步驟1. 4. 6)歸一化特征值、特征向量; 步驟1. 4. 7)獲取歸一化絕對值最大的元素; 步驟1. 4. 8)計算鄰接矩陣與其轉(zhuǎn)置矩陣的乘積矩陣; 步驟1. 5)獲取潛在目標網(wǎng)頁群; 步驟2)獲取網(wǎng)站的網(wǎng)站特征簽名 步驟2.1)將網(wǎng)站內(nèi)的網(wǎng)頁以圖片的形式保存下來; 步驟2. 2)提取網(wǎng)頁全局特征,內(nèi)容形式是六維向量〈網(wǎng)頁標題,網(wǎng)頁文件的大小,網(wǎng)頁中包含的圖片個數(shù),網(wǎng)頁全局圖片的面積,網(wǎng)頁全局圖片的顏色直方圖,網(wǎng)頁全局圖片的二維哈爾小波變換> 步驟2. 3)計算網(wǎng)頁的感知哈希特征,內(nèi)容形式是三維向量〈離散余弦變換,馬爾算子,徑向方差〉; 步驟2. 4)獲取網(wǎng)站的網(wǎng)站特征簽名; 步驟3)網(wǎng)站特征簽名的相似性計算 步驟3.1)輸入兩個網(wǎng)站的特征簽名; 步驟3. 2)獲取兩個簽名的第一對節(jié)點; 步驟3. 3)利用節(jié)點間相似性計算方法計算兩節(jié)點之間的相似度; 步驟3. 4)判斷相似度是否大于O,如果不大于,轉(zhuǎn)步驟3. 7),否則,轉(zhuǎn)步驟3. 5); 步驟3. 5)在節(jié)點之間添加一條權(quán)值為相似度的邊; 步驟3. 6)判斷簽名的節(jié)點是否遍歷全部遍歷,如果全部遍歷,轉(zhuǎn)步驟3. 8),否則,轉(zhuǎn)步驟 3. 7); 步驟3. 7)獲取特征簽名的下一對節(jié)點; 步驟3. 8)獲取網(wǎng)站特征簽名的二分 步驟3. 9)判斷兩個網(wǎng)站的特征簽名的長度是否相等,如果相等,則轉(zhuǎn)步驟3. 11),否則,轉(zhuǎn)步驟3. 10); 步驟3. 10)獲取二分圖的擴展二分完全 步驟3.本文檔來自技高網(wǎng)...
【技術(shù)保護點】
一種基于網(wǎng)絡(luò)群挖掘的釣魚網(wǎng)站檢測方法,其特征在于該檢測方法所包含的步驟為:步驟1)?獲取可疑網(wǎng)頁的潛在目標網(wǎng)站:步驟1.1)輸入可疑網(wǎng)頁;步驟1.2)獲取可疑網(wǎng)頁所在的網(wǎng)站;步驟1.3)獲取可疑網(wǎng)頁的相關(guān)網(wǎng)頁群:步驟1.3.1)輸入可疑網(wǎng)頁中的所有鏈接;步驟1.3.2)生成種子網(wǎng)頁集;步驟1.3.3)初始化迭代次數(shù)為0;步驟1.3.4)生成有向圖,迭代次數(shù)加1:步驟1.3.4.1)根據(jù)種子網(wǎng)頁集,生成初始有向圖;步驟1.3.4.2)獲取種子網(wǎng)頁集中所有網(wǎng)頁的后向鏈接網(wǎng)頁;步驟1.3.4.3)把步驟1.3.4.2)中找到的新網(wǎng)頁加入有向圖,更新有向圖;步驟1.3.4.4)獲取新網(wǎng)頁的前向鏈接網(wǎng)頁;步驟1.3.4.5)把步驟1.3.4.4)中找到的新網(wǎng)頁加入有向圖,更新有向圖;步驟1.3.5)判斷有向圖中是否包含可疑網(wǎng)頁,如果包含,轉(zhuǎn)步驟4.1),否則,轉(zhuǎn)步驟1.3.6);步驟1.3.6)用最大流最小切算法切割有向圖;步驟1.3.7)獲取可疑網(wǎng)頁的相關(guān)網(wǎng)頁群;步驟1.3.8)判斷迭代次數(shù)是否小于N次,N是設(shè)定的常數(shù),如果不小于,轉(zhuǎn)步驟1.3.9),否則,轉(zhuǎn)步驟1.4);?步驟1.3.9)更新種子網(wǎng)頁集:步驟1.3.9.1)將屬于相關(guān)網(wǎng)頁群,但是不屬于種子網(wǎng)頁集,且到它的出度或入度最高的網(wǎng)頁加入集合種子網(wǎng)頁集;步驟1.3.9.2)將屬于種子網(wǎng)頁集,但是不屬于相關(guān)網(wǎng)頁群,且到它的出度與入度之和小于m的網(wǎng)頁從種子網(wǎng)頁集中去除;步驟1.3.10)判斷種子網(wǎng)頁集是否有改變,如果有改變,則轉(zhuǎn)步驟1.3.4),否則,轉(zhuǎn)步驟1.4);步驟1.4)獲取可疑網(wǎng)頁的潛在目標網(wǎng)頁群:步驟1.4.1)獲取相關(guān)網(wǎng)頁群的鄰接矩陣;步驟1.4.2)計算鄰接矩陣的轉(zhuǎn)置與鄰接矩陣的乘積矩陣;步驟1.4.3)計算鄰接矩陣與其轉(zhuǎn)置矩陣的乘積矩陣;步驟1.4.4)計算乘積矩陣的特征值;步驟1.4.5)計算乘積矩陣的特征向量;步驟1.4.6)歸一化特征值、特征向量;步驟1.4.7)獲取歸一化絕對值最大的元素;步驟1.4.8)計算鄰接矩陣與其轉(zhuǎn)置矩陣的乘積矩陣;步驟1.5)獲取潛在目標網(wǎng)頁群;步驟2)獲取網(wǎng)站的網(wǎng)站特征簽名:步驟2.1)將網(wǎng)站內(nèi)的網(wǎng)頁以圖片的形式保存下來;步驟2.2)提取網(wǎng)頁全局特征,內(nèi)容形式是六維向量:;?步驟2.3)計算網(wǎng)頁的感知哈希特征,內(nèi)容形式是三維向量:;步驟2.4)獲取網(wǎng)站的網(wǎng)站特征簽名;步驟3)網(wǎng)站特征簽名的相似性計算:步驟3.1)輸入兩個網(wǎng)站的特征簽名;步驟3.2)獲取兩個簽名的第一對節(jié)點;步驟3.3)利用節(jié)點間相似性計算方法計算兩節(jié)點之間的相似度;步驟3.4)判斷相似度是否大于0,如果不大于,轉(zhuǎn)步驟3.7),否則,轉(zhuǎn)步驟3.5);步驟3.5)在節(jié)點之間添加一條權(quán)值為相似度的邊;步驟3.6)判斷簽名的節(jié)點是否遍歷全部遍歷,如果全部遍歷,轉(zhuǎn)步驟3.8),否則,轉(zhuǎn)步驟3.7);步驟3.7)獲取特征簽名的下一對節(jié)點;步驟3.8)獲取網(wǎng)站特征簽名的二分圖;步驟3.9)判斷兩個網(wǎng)站的特征簽名的長度是否相等,如果相等,則轉(zhuǎn)步驟3.11),否則,轉(zhuǎn)步驟3.10);步驟3.10)獲取二分圖的擴展二分完全圖;步驟3.11)利用二分圖的最佳匹配算法獲取二分圖的最佳匹配;步驟3.12)計算二分圖最佳匹配中的邊的加權(quán)平均值;步驟3.13)獲取網(wǎng)站簽名的相似度;步驟4)輸出釣魚檢測的結(jié)果:步驟4.1)判斷相似度是否大于閾值,如果大于,則可疑網(wǎng)站為釣魚網(wǎng)站,并輸出其目標網(wǎng)站,否則,輸出:“可疑網(wǎng)站是合法網(wǎng)站”。...
【技術(shù)特征摘要】
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:張衛(wèi)豐,滕雯靜,張迎周,周國強,王子元,周國富,錢小燕,許碧歡,陸柳敏,
申請(專利權(quán))人:南京郵電大學(xué),
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。