本發明專利技術公開了一種數據過濾方法及裝置。其中,該方法包括:確定數據的類型,其中,數據的類型包括數據保持不變的靜態數據和數據會在不同條件下發生變化的動態數據;在數據為動態數據的情況下,根據動態數據生成第一臨時過濾規則;根據第一臨時過濾規則,對動態數據進行過濾。本發明專利技術解決了相關技術中的過濾方式,效率低下,嚴重依賴人工的技術問題。
Data filtering method and device
【技術實現步驟摘要】
數據過濾方法及裝置
本專利技術涉及數據處理領域,具體而言,涉及一種數據過濾方法及裝置。
技術介紹
網絡爬蟲是一種按照設定的規則,自動抓取網絡內容的程序,目前已廣泛地應用于互聯網領域。根據使用場景的不同,網絡爬蟲可分為通用爬蟲和聚焦爬蟲。通用爬蟲主要用于通用搜索引擎中,從互聯網中搜集網頁,采集信息,并將這些信息用于為搜索引擎建立索引并提供支持。其追求的是盡可能大的網絡覆蓋率,一次爬取的URL往往數以億計,其技術難點是如何將這些URL有效地壓縮存儲與快速檢索,過濾掉重復連接,從而避免重復爬取造成網絡資源的浪費,常用的技術有基于Hash算法、MD5壓縮映射以及布隆過濾器的存儲技術。聚焦爬蟲則是針對特定網絡資源的爬蟲,與通用爬蟲最大的區別在于:聚焦爬蟲在實施網頁抓取時會對內容進行處理和篩選,盡量保證只抓取與需求相關的信息。以漏掃爬蟲為例,它聚焦的網絡資源主要是頁面上的URL信息。如果像通用爬蟲那樣對URL的直接去重,不僅僅會浪費爬蟲資源,也會浪費后續的檢測資源。因而需要對URL進行更深層次的邏輯去重。相關技術主要是人工檢查站點連接,設定匹配的過濾條件。該方法效率低下,且過濾規則的有效性嚴重依賴檢查者的從業經驗。針對上述的問題,目前業界尚未提出有效的解決方案。
技術實現思路
本專利技術實施例提供了一種數據過濾方法及裝置,以至少解決相關技術中的過濾方式,效率低下,嚴重依賴人工的技術問題。根據本專利技術實施例的一個方面,提供了一種數據過濾方法,包括:確定數據的類型,其中,所述數據的類型包括數據保持不變的靜態數據和數據會在不同條件下發生變化的動態數據;在所述數據為動態數據的情況下,根據所述動態數據生成第一臨時過濾規則;根據所述第一臨時過濾規則,對所述動態數據進行過濾。可選的,根據所述動態數據生成第一臨時過濾規則包括:提取所述動態數據中的動態部分信息,其中,所述動態數據包括保持不變的靜態部分和發生變化的動態部分;識別所述動態部分信息的參數特征,劃分參數類型;對不同參數類型的動態數據進行不同的處理,以確定所述參數類型對應的第一臨時過濾規則。可選的,所述動態數據的參數類型包括控制型參數和數據型參數,其中,所述控制型參數是能夠對代碼邏輯造成影響的數據,數據型參數是作為數據使用,不影響代碼邏輯的操作數;對不同參數類型的動態數據進行不同的處理,以確定所述參數類型對應的第一臨時過濾規則包括:根據所述控制型參數,確定所述控制型參數對應的第一臨時過濾規則;對所述數據型參數進行泛化處理,確定所述數據型參數對應的第一臨時過濾規則。可選的,在所述數據為動態數據的情況下,根據所述動態數據生成第一臨時過濾規則之后,還包括:將所述第一臨時過濾規則存儲在臨時過濾規則庫中;在對所述數據進行篩選的過程中,記錄所述第一臨時過濾規則的命中次數;在所述第一臨時過濾規則的命中次數超過預設值的情況下,將所述第一臨時過濾規則作為正式過濾規則。可選的,在所述數據為靜態數據的情況下,判斷所述靜態數據是否為具有歷史過濾數據中出現預設頻率以上的數據結構的常規數據,在所述靜態數據為常規數據的情況下,調用正式過濾規則對所述常規數據進行過濾;在所述靜態數據為非常規數據的情況下,根據所述非常規數據生成第二臨時過濾規則;根據所述第二臨時過濾規則對所述非常規數據進行過濾。可選的,根據所述非常規數據生成第二臨時過濾規則包括:提取所述靜態數據的文件名;識別所述文件名中的文件名特征;根據所述文件名特征,確定所述第二臨時過濾規則。可選的,在所述靜態數據為常規數據的情況下,調用正式過濾規則對所述常規數據進行過濾,在所述正式過濾規則對所述常規數據進行過濾失敗的情況下,根據所述常規數據提取第三臨時過濾規則;根據所述第三臨時過濾規則對所述常規數據進行過濾。根據本專利技術實施例的另一方面,還提供了一種數據過濾裝置,包括:確定模塊,用于確定數據的類型,其中,所述數據的類型包括靜態數據和動態數據;生成模塊,用于在所述數據為動態數據的情況下,根據所述動態數據生成第一臨時過濾規則;過濾模塊,用于根據所述第一臨時過濾規則,對所述動態數據進行過濾。根據本專利技術實施例的另一方面,還提供了一種存儲介質,所述存儲介質包括存儲的程序,其中,在所述程序運行時控制所述存儲介質所在設備執行上述中任意一項所述數據過濾方法。根據本專利技術實施例的另一方面,還提供了一種處理器,所述處理器用于運行程序,其中,所述程序運行時執行上述中任意一項數據過濾方法。在本專利技術實施例中,采用確定數據的類型,其中,數據的類型包括數據保持不變的靜態數據和數據會在不同條件下發生變化的動態數據;在數據為動態數據的情況下,根據動態數據生成第一臨時過濾規則;根據第一臨時過濾規則,對動態數據進行過濾的方式,通過對不同數據類型的數據進行不同的過濾方式,對動態數據生成臨時過濾規則進行過濾,達到了有效對各種數據類型的數據進行有效過濾的目的,從而實現了提高了過濾效率的技術效果,進而解決了相關技術中的過濾方式,效率低下,嚴重依賴人工技術問題。附圖說明此處所說明的附圖用來提供對本專利技術的進一步理解,構成本申請的一部分,本專利技術的示意性實施例及其說明用于解釋本專利技術,并不構成對本專利技術的不當限定。在附圖中:圖1是根據本專利技術實施例的一種數據過濾方法的流程圖;圖2是根據本專利技術實施方式的動態URL臨時過濾規則提取的流程圖;圖3是根據本專利技術實施方式的靜態URL臨時過濾規則提取的流程圖;圖4是根據本專利技術實施方式的臨時過濾規則過濾的流程圖;圖5是根據本專利技術實施方式的正式過濾規則過濾的流程圖;圖6是根據本專利技術實施方式的過濾裝置的示意圖;圖7是根據本專利技術實施例的一種數據過濾裝置的示意圖。具體實施方式為了使本
的人員更好地理解本專利技術方案,下面將結合本專利技術實施例中的附圖,對本專利技術實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本專利技術一部分的實施例,而不是全部的實施例。基于本專利技術中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都應當屬于本專利技術保護的范圍。需要說明的是,本專利技術的說明書和權利要求書及上述附圖中的術語“第一”、“第二”等是用于區別類似的對象,而不必用于描述特定的順序或先后次序。應該理解這樣使用的數據在適當情況下可以互換,以便這里描述的本專利技術的實施例能夠以除了在這里圖示或描述的那些以外的順序實施。此外,術語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統、產品或設備不必限于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或對于這些過程、方法、產品或設備固有的其它步驟或單元。根據本專利技術實施例,提供了一種數據過濾方法的方法實施例,需要說明的是,在附圖的流程圖示出的步驟可以在諸如一組計算機可執行指令的計算機系統中執行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同本文檔來自技高網...
【技術保護點】
1.一種數據過濾方法,其特征在于,包括:/n確定數據的類型,其中,所述數據的類型包括數據保持不變的靜態數據和數據會在不同條件下發生變化的動態數據;/n在所述數據為動態數據的情況下,根據所述動態數據生成第一臨時過濾規則;/n根據所述第一臨時過濾規則,對所述動態數據進行過濾。/n
【技術特征摘要】
1.一種數據過濾方法,其特征在于,包括:
確定數據的類型,其中,所述數據的類型包括數據保持不變的靜態數據和數據會在不同條件下發生變化的動態數據;
在所述數據為動態數據的情況下,根據所述動態數據生成第一臨時過濾規則;
根據所述第一臨時過濾規則,對所述動態數據進行過濾。
2.根據權利要求1所述的方法,其特征在于,根據所述動態數據生成第一臨時過濾規則包括:
提取所述動態數據中的動態部分信息,其中,所述動態數據包括保持不變的靜態部分和發生變化的動態部分;
識別所述動態部分信息的參數特征,劃分參數類型;
對不同參數類型的動態數據進行不同的處理,以確定所述參數類型對應的第一臨時過濾規則。
3.根據權利要求2所述的方法,其特征在于,所述動態數據的參數類型包括控制型參數和數據型參數,其中,所述控制型參數是能夠對代碼邏輯造成影響的數據,數據型參數是為數據使用,不影響代碼邏輯的操作數;
對不同參數類型的動態數據進行不同的處理,以確定所述參數類型對應的第一臨時過濾規則包括:
根據所述控制型參數,確定所述控制型參數對應的第一臨時過濾規則;
對所述數據型參數進行泛化處理,確定所述數據型參數對應的第一臨時過濾規則。
4.根據權利要求1所述的方法,其特征在于,在所述數據為動態數據的情況下,根據所述動態數據生成第一臨時過濾規則之后,還包括:
將所述第一臨時過濾規則存儲在臨時過濾規則庫中;
在對所述數據進行篩選的過程中,記錄所述第一臨時過濾規則的命中次數;
在所述第一臨時過濾規則的命中次數超過預設值的情況下,將所述第一臨時過濾規則作為正式過濾規則。
5.根據權利要求...
【專利技術屬性】
技術研發人員:蔣自立,賀志強,許勇,
申請(專利權)人:山石網科通信技術股份有限公司,
類型:發明
國別省市:江蘇;32
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。