本發明專利技術公開了一種網絡可信性行為管理中URL快速定位、分類和過濾方法,步驟一、搜索互聯網網頁,提取URL并進行分類存儲,步驟二、對URL進行編碼,得到每一個URL的ID并進行分類標識,步驟三、構建URL快速定位的標準,步驟四、URL匹配,步驟五、URL類別定位,步驟六、URL過濾。本發明專利技術設計新穎合理,實現方便,與其他方法相比,在匹配時間上有所提高,同時充分的利用數據庫技術進行分析,并且可以對匹配分析結果進行主動的過濾,從而達到URL的快速定位、分類與過濾,性能良好,運行穩定,并且有很高的實時效率,應用范圍廣,使用效果好,便于推廣使用。
【技術實現步驟摘要】
【技術保護點】
一種網絡可信性行為管理中URL快速定位、分類和過濾方法,其特征在于該方法包括以下步驟:步驟一、搜索互聯網網頁,提取URL并進行分類存儲,其具體過程如下:步驟101、采用搜素引擎工具在整個網絡中大規模搜索互聯網網頁,提取搜索到的各個互聯網網頁中所包含的URL;步驟102、設定網絡分類規則并根據設定好的網絡分類規則對提取到的所有URL進行分類,得到各個URL的分類類型;步驟103、根據URL的語法格式,從URL的原始地址“scheme://host:port/path”中提取“host”字段,以“host”字段中第一個字符n為數據存儲表的行標簽,以“host”字段中第二個字符m為數據存儲表的列標簽,建立N×M張數據存儲表,將各個URL和各個URL所對應的分類類型存儲到數據存儲表中,構建起數據存儲數據庫;其中,n和M均取A~Z的26個字母和0~9的10個數字中的任意一個,N為n的取值總數且取值為36,M為m的取值總數且取值為36;步驟二、對URL進行編碼,得到每一個URL的ID并進行分類標識,其具體過程如下:步驟201、計算“host”字段的長度“len”,將“host”字段、“len”和設定的閥值c作為哈希算法的三個參數,采用哈希算法對步驟101中提取到的所有URL進行統一的編碼,得到每一個URL對應的唯一的參數“keyvalue”,并將得到的每一個URL對應的唯一的參數“keyvalue”作為URL的ID;其中,c為自然數且取值范圍為0≤c≤23;步驟202、將URL的ID與步驟102中得到的各個URL的分類類型進行對應,將URL的ID劃分到相應的URL的分類類型內,進行分類標識并更新步驟103中構建起的數據存儲數據庫;步驟三、構建URL快速定位的標準,其具體過程為:步驟301、將步驟201中得到的URL的ID作為關鍵值節點,并將其對應的分類標識作為關鍵值“idata”;步驟302、以關鍵值節點和關鍵值“idata”建立二叉鏈表,生成二叉樹,同時,將關鍵值節點和關鍵值“idata”一起生成數據文件,所生成的數據文件即為URL快速定位的標準;步驟四、URL匹配,其具體過程為:步驟401、對用戶瀏覽網頁時打開的互聯網網頁中包含的URL進行分析,從URL的原始地址“scheme://host:port/path”中提取“host”字段,并計算“host”字段的長度“len”;步驟402、將“host”字段、“len”和步驟201中設定的閥值c作為哈希算法的三個參數,采用哈希算法對步驟401中URL進行統一的編碼,得到URL對應的唯一的參數“keyvalue”,并將得到的URL對應的唯一的參數“keyvalue”作為URL的ID;步驟五、URL類別定位:將步驟402中URL的ID作為關鍵值節點,在步驟302中生成的二叉樹中進行查找,當在二叉樹中查找到所述關鍵值節點時,將查找到的關鍵值節點所對應的關鍵值“idata”作為所述URL的ID所屬類別“kind”;步驟六、URL過濾,其具體過程為:步驟601、設定過濾策略并將設定好的過濾策略以一張表的形式進行存儲,存儲為過濾策略表“policygroup”;步驟602、將步驟五中得到的所述URL的ID所屬類別“kind”與過濾策略表“policygroup”中的數據進行對比,當所述URL的ID所屬類別“kind”與過濾策略表“policygroup”中的數據相似程度達到70%~100%時就阻斷,否則就放行。...
【技術特征摘要】
【專利技術屬性】
技術研發人員:賈嘉,高上,成鑫,穆慧琳,
申請(專利權)人:陜西通信信息技術有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。