本發明專利技術公開了一種基于均勻采樣的網絡冗余流量識別方法,通過特征指紋均勻采樣:按固定大小的窗口連續滑動,選取窗口內最大的特征指紋作為采樣特征指紋存入特征指紋庫;以及采樣特征指紋動態跟蹤:查找特征指紋庫識別冗余數據塊的過程中,更新特征指紋庫中匹配的特征指紋指向(映射于)緩沖區中匹配的數據包負載,以防止緩沖區刷新過程清除特征指紋庫中高頻冗余數據包負載映射的特征指紋,保持冗余流量識別的可持續性。
【技術實現步驟摘要】
一種基于均勻采樣的網絡冗余流量識別方法
本專利技術屬于網絡流量管理
,更為具體地講,涉及一種基于均勻采樣的網絡冗余流量識別方法,用于識別網絡流量中的冗余部分。
技術介紹
受用戶興趣模型驅動,邊緣網絡中具有相同興趣的用戶訪問相似或相同主題的網絡資源必然造成大量重復數據傳輸,形成特定鏈路相關的冗余流量。冗余流量的存在不僅損耗鏈路帶寬資源利用率,而且影響用戶訪問網絡資源的體驗感,在一定程度上打擊用戶積極性。有效識別網絡中的冗余流量是研究冗余流量成因和其帶來的一系列并發問題的關鍵。傳統的WEB緩存技術基于對象層識別冗余流量,但是不同應用需要重新設計對應的緩存細節,缺乏應用的靈活性。近年來,基于數據包層的MODP、MAXP、SAMPBYTE和DYNABYTE方法陸續被提出,而且也取得了較好的識別效率。其中MODP基于Rabin多項式方法計算連續數據分塊指紋并按指紋值取模為0的策略采樣特征指紋,存在采樣不均勻和零采樣缺陷。MAXP基于固定大小的窗口均勻分塊選擇最大值作為采樣特征指紋,克服了MODP采樣不均勻問題,但是不能很好地跟蹤真實流量中高頻冗余數據塊的動態特征。SAMPBYTE和DYNABYTE從統計學角度出發,通過訓練樣本選擇冗余塊的典型代表首字符作為采樣特征。DYNABYTE的實現細節較SAMPBYTE增加了采樣特征的動態調整功能,在一定程度上實現了對真實流量中高頻冗余塊的動態跟蹤能力。但是,SAMPBYTE和DYNABYTE基于樣本訓練選擇特征指紋的方案受樣本數據選擇的影響較大,部署的靈活性受限。以上方法在均勻采樣和高頻冗余塊動態跟蹤兩方面都沒能很好地同時兼顧。
技術實現思路
本專利技術的目的在于克服現有技術的不足,提供一種基于均勻采樣的網絡冗余流量識別方法,在解決真實網絡環境中冗余流量的識別問題的同時,兼顧特征指紋的均勻采樣和高頻冗余塊動態跟蹤的能力,以提高冗余流量識別的有效性和識別率。為實現上述目的,本專利技術基于均勻采樣的網絡冗余流量識別方法,其特征在于,包括以下步驟:(1)、特征指紋均勻采樣1.1)、對接收的第一個數據包負載t1,t2,t3...tn,按Ω大小的滑動窗口,從起始位置滑動,一個字節為步進,對該數據包負載進行劃分,得到連續的大小為Ω的n-Ω+1個數據塊t1,t2,t3,...,tΩ、t2,t3,t4,...,tΩ+1、…、tn-Ω+1,tn-Ω+2,tn-Ω+3,...,tn,其中,n為數據包負載字節數;1.2)、對n-Ω+1個Ω大小的數據塊,按Rabin多項式,計算數據塊映射的特征指紋,數據塊與特征指紋映射關系依次為:H1=RF(t1,t2,t3,...,tΩ)=(t1pΩ-1+t2pΩ-2+...+tΩ-1p1+tΩp0)modMH2=RF(t2,t3,t4,...,tΩ+1)=((RF(t1,t2,t3...tΩ)-t1pΩ-1)*p+tΩ+1p0)modM(1)……Hn-Ω+1=RF(tn-Ω+1,tn-Ω+2,tn-Ω+3,...,tn)=((RF(tn-Ω,tn-Ω+1,tn-Ω+2,...,tn-1)-tn-ΩpΩ-1)*p+tnp0)modM其中,H1、H2、…、Hn-Ω+1為n-Ω+1個數據塊對應的特征指紋,mod為求余數運算,M為常數,根據具體情況確定,RF表示映射運算;首先按公式(1)計算數據塊t1,t2,t3,...,tΩ映射的特征指紋H1,然后根據查找表T,以單字節ti元素值作為查找索引,得到tipΩ-1的值,i=1,2,…,n-Ω;最后按照公式(1),計算出數據塊t2,t3,t4,...,tΩ+1、…、tn-Ω+1,tn-Ω+2,tn-Ω+3,...,tn的特征指紋H2,…,Hn-Ω+1,其中,查找表T包括0~255的查找索引,每個查找索引對應的輸出值為該查找索引與pΩ-1的乘積;1.3)、步驟1.2)得到的特征指紋進行順序排列,形成特征指紋序列H1,H2,…,Hn-Ω+1;按w大小的滑動窗口,從起始位置滑動,一個特征指紋為步進,對特征指紋序列H1,H2,…,Hn-Ω+1進行劃分,每次滑動都選取滑動窗口內最大值作為采樣特征指紋存入特征指紋庫中,至最后一個滑動窗口,完成輸入數據包的特征指紋采樣;不同滑動窗口因重疊部分選中同一采樣特征指紋時,只存入第一次選中的采樣特征指紋;(2)、采樣特征指紋動態跟蹤2.1)、建立一個緩沖區,將輸入的第一個數據包負載存入,并將特征指紋庫中的采樣特征指紋映射于第一個數據包負載;2.2)、對接收的第二個數據包負載,首先存入緩沖區,然后按照步驟(1)中的方法提取到采樣特征指紋,并逐個在特征指紋庫中進行匹配,并進行動態跟蹤:如果匹配到采樣特征指紋,則將特征指紋庫中匹配到的采樣特征指紋映射于第二個數據包負載,如果沒有匹配到,則將提取的采樣特征指紋存入特征指紋庫中,并映射于第二個數據包負載;2.3)、對隨后接收的數據包負載,按照步驟2.2)方法進行處理;當緩沖區中數據包負載存滿后,采用先進先出(FirstInFirstOut,FIFO)的老化機制刷新緩沖區,以便存儲后續達到的數據包負載,刷新時,特征指紋庫中映射于被移出數據包負載的采樣特征指紋被清除;(3)、冗余流量識別對于步驟(2)中提取的采樣特征指紋,如果在特征指紋中匹配成功,則采用最大內容匹配法,依據采樣特征指紋對應的數據塊,對接收的數據包負載與映射于緩存區中的數據包負載進行匹配,并輸出匹配字節數即冗余數據塊大小;統計出單位時間各個冗余數據塊大小之和,得到冗余流量大小即識別出冗余流量。本專利技術的專利技術目的是這樣實現的:本專利技術基于均勻采樣的網絡冗余流量識別方法,通過特征指紋均勻采樣:按固定大小的窗口連續滑動,選取窗口內最大的特征指紋作為采樣特征指紋存入特征指紋庫;以及采樣特征指紋動態跟蹤:查找特征指紋庫識別冗余數據塊的過程中,更新特征指紋庫中匹配的特征指紋指向(映射于)緩沖區中匹配的數據包負載,以防止緩沖區刷新過程清除特征指紋庫中高頻冗余數據包負載映射的特征指紋,保持冗余流量識別的可持續性。與現有技術相比,本專利技術具有以下四個方面的有益效果:(1)、本專利技術基于連續滑動窗口的特征指紋均勻采樣具有較強的區間代表性,保障本專利技術對冗余流量識別的有效性;(2)、本專利技術采樣特征指紋動態跟蹤解決了緩沖區老化(刷新)帶來的采樣特征指紋失效問題,有效保障對高頻冗余數據塊的動態跟蹤和可持續性識別,進一步提高冗余流量識別率;(3)、本專利技術面向數據包層處理對象,不受應用層協議限制,具有較高的應用靈活性;(4)、本專利技術無需樣本訓練,采用的特征指紋均勻采樣和動態跟蹤方法可以自適應任意網絡節點環境,部署靈活。附圖說明圖1是本專利技術基于均勻采樣的網絡冗余流量識別方法一種具體實施方式流程圖;圖2是數據包負載劃分數據塊及特征指紋映射示意圖;圖3是特征指紋均勻采樣示意圖;圖4是最大內容匹配流程圖;圖5是冗余流量識別輸出的記錄格式圖;圖6是特征指紋動態跟蹤示意圖。具體實施方式下面結合附圖對本專利技術的具體實施方式進行描述,以便本領域的技術人員更好地理解本專利技術。需要特別提醒注意的是,在以下的描述中,當已知功能和設計的詳細描述也許會淡化本專利技術的主要內容時,這些描述在這里將被忽略。圖1是本專利技術基于均勻采樣的網絡冗余流量識別方法一種具體實施本文檔來自技高網...

【技術保護點】
一種基于均勻采樣的網絡冗余流量識別方法,其特征在于,包括以下步驟:(1)、特征指紋均勻采樣1.1)、對接收的第一個數據包負載t1,t2,t3...tn,按Ω大小的滑動窗口,從起始位置滑動,一個字節為步進,對該數據包負載進行劃分,得到連續的大小為Ω的n?Ω+1個數據塊t1,t2,t3,...,tΩ、t2,t3,t4,...,tΩ+1、…、tn?Ω+1,tn?Ω+2,tn?Ω+3,...,tn,其中,n為數據包負載字節數;1.2)、對n?Ω+1個數據塊的數據塊,按Rabin多項式,計算數據塊映射的特征指紋,數據塊與特征指紋映射關系依次為:H1=RF(t1,t2,t3,...,tΩ)=(t1pΩ?1+t2pΩ?2+...+tΩ?1p1+tΩp0)mod?MH2=RF(t2,t3,t4,...,tΩ+1)=((RF(t1,t2,t3...tΩ)?t1pΩ?1)*p+tΩ+1p0)mod?M?????????(1)……Hn?Ω+1=RF(tn?Ω+1,tn?Ω+2,tn?Ω+3,...,tn)=((RF(tn?Ω,tn?Ω+1,tn?Ω+2,...,tn?1)?tn?ΩpΩ?1)*p+tnp0)mod?M其中,H1、H2、…、Hn?Ω+1為n?Ω+1個數據塊對應的特征指紋;首先按公式(1)計算數據塊t1,t2,t3,...,tΩ映射的特征指紋H1,然后根據查找表T,以單字節ti元素值作為查找索引,得到tipΩ?1的值,i=1,2,…,n?Ω;最后按照公式(1),計算出數據塊t2,t3,t4,...,tΩ+1、…、tn?Ω+1,tn?Ω+2,tn?Ω+3,...,tn的特征指紋H2,…,Hn?Ω+1,其中,查找表T包括0~255的查找索引,每個查找索引對應的輸出值為該查找索引與pΩ?1的乘積;1.3)、步驟1.2)得到的特征指紋進行順序排列,形成特征指紋序列H1,H2,…,Hn?Ω+1;按w大小的滑動窗口,從起始位置滑動,一個特征指紋為步進,對特征指紋序列H1,H2,…,Hn?Ω+1進行劃分,每次滑動都選取滑動窗口內最大值作為采樣特征指紋存入特征指紋庫中,至最后一個滑動窗口,完成輸入數據包的特征指紋采樣;不同滑動窗口因重疊部分選中同一采樣特征指紋時,只存入第一次選中的采樣特征指紋;(2)、采樣特征指紋動態跟蹤2.1)、建立一個緩沖區,將輸入的第一個數據包負載存入,并將特征指紋庫中的采樣特征指紋映射于第一個數據包負載;2.2)、對接收的第二個數據包負載,首先存入緩沖區,然后按照步驟(1)中的方法提取到采樣特征指紋,并逐個在特征指紋庫中進行匹配,并進行動態跟蹤:如果匹配到采樣特征指紋,則將特征指紋庫中匹配到的采樣特征指紋映射于第二個數據包負載,如果沒有匹配到,則將提取的采樣特征指紋存入特征指紋庫中,并映射于第二個數據包負載;2.3)、對隨后接收的數據包負載,按照步驟2.2)方法進行處理;當緩沖區中數據包負載存滿后,采用先進先出(First?In?First?Out,FIFO)的老化機制刷新緩沖區,以便存儲后續達到的數據包負載,刷新時,特征指紋庫中映射于被移出數據包負載的采樣特征指紋被清除;(3)、冗余流量識別對于步驟(2)中提取的采樣特征指紋,如果在特征指紋中匹配成功,則采樣最大內容匹配法,依據采樣特征指紋對應的數據塊,對接收的數據包負載與映射于緩存區中的數據包負載進行匹配,并輸出匹配字節數即冗余數據塊大小;統計出單位時間各個冗余數據塊大小之和,得到冗余流量大小即識別出冗余流量。...
【技術特征摘要】
1.一種基于均勻采樣的網絡冗余流量識別方法,其特征在于,包括以下步驟:(1)、特征指紋均勻采樣1.1)、對接收的第一個數據包負載t1,t2,t3...tn,按Ω大小的滑動窗口,從起始位置滑動,一個字節為步進,對該數據包負載進行劃分,得到連續的大小為Ω的n-Ω+1個數據塊t1,t2,t3,...,tΩ、t2,t3,t4,...,tΩ+1、…、tn-Ω+1,tn-Ω+2,tn-Ω+3,...,tn,其中,n為數據包負載字節數;1.2)、對n-Ω+1個數據塊的數據塊,按Rabin多項式,計算數據塊映射的特征指紋,數據塊與特征指紋映射關系依次為:其中,H1、H2、…、Hn-Ω+1為n-Ω+1個數據塊對應的特征指紋,mod為求余數運算,M為常數,根據具體情況確定,RF表示映射運算;首先按公式(1)計算數據塊t1,t2,t3,...,tΩ映射的特征指紋H1,然后根據查找表T,以單字節ti元素值作為查找索引,得到tipΩ-1的值,i=1,2,…,n-Ω;最后按照公式(1),計算出數據塊t2,t3,t4,...,tΩ+1、…、tn-Ω+1,tn-Ω+2,tn-Ω+3,...,tn的特征指紋H2,…,Hn-Ω+1,其中,查找表T包括0~255的查找索引,每個查找索引對應的輸出值為該查找索引與pΩ-1的乘積;1.3)、步驟1.2)得到的特征指紋進行順序排列,形成特征指紋序列H1,H2,…,Hn-Ω+1;按w大小的滑動窗口,從起始位置滑動,一個特征指紋為步進,對特征指紋序列H1,H2,…,Hn-Ω...
【專利技術屬性】
技術研發人員:邢玲,何燕玲,馬強,楊國海,
申請(專利權)人:西南科技大學,
類型:發明
國別省市:四川;51
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。