本申請實施例提供一種補丁文件收集方法、裝置及設備,該方法中,獲取公告頁面中記錄有補丁的發布信息的指定格式文件,以此生成名單庫,并通過預設的數據命中條件對各個客戶端上傳的日志庫進行過濾,基于篩選出的疑似補丁文件生成待匹配名單,進而基于相同的預設屬性字段作為匹配條件,對待匹配名單中的文件和白名單進行匹配,將待匹配名單中匹配成功的文件視為補丁文件,記錄入目標白名單中。這樣,可以實現補丁文件的自動收集,降低人力成本,而且,由于目標白名單中的數據是通過交叉比對辨識出來的,準確性較高,同時,其可以覆蓋大量不同版本的操作系統,具有更好的數據收集效果。具有更好的數據收集效果。具有更好的數據收集效果。
【技術實現步驟摘要】
一種補丁文件收集方法、裝置及設備
[0001]本申請涉及安全防護
,具體而言,涉及一種補丁文件收集方法、微軟補丁文件裝置以及電子設備。
技術介紹
[0002]微軟補丁文件,對于Windows操作系統是十分重要的。對于部署了殺毒軟件的終端來說,為了防止補丁文件被殺毒軟件“誤殺”,通常采取白名單的形式對微軟補丁文件進行收集。
[0003]微軟補丁文件一般是以特殊格式壓縮包發布的,壓縮包內壓縮大量升級文件,而收集微軟補丁文件的傳統方式是對該壓縮包進行解壓,計算釋放出的升級文件的Hash值,將Hash值收集起來即可。由于該壓縮包內的升級信息是利用本地操作系統已有的版本文件信息進行現場計算合并而成的,因此,在收集微軟補丁文件時,需要部署大量不同版本操作系統進行環境準備,否則容易導致基于升級信息解壓釋放的升級文件存在缺失。相關技術中一般采取的是人工處理方式,然而,這一過程需要耗費較多人力,且依舊難以全面覆蓋。
技術實現思路
[0004]本申請實施例的目的在于提供一種補丁文件收集方法、裝置及設備,旨在解決相關技術中存在的收集補丁文件時需要耗費較多人力,且依舊難以全面覆蓋的問題。
[0005]第一方面,本申請實施例提供的一種補丁文件收集方法,包括:
[0006]獲取公告頁面中的指定格式文件,并基于所述指定格式文件生成名單庫;所述指定格式文件中記錄有補丁的發布信息;
[0007]對各個客戶端上傳的日志庫進行過濾,基于所述日志庫中滿足預設的數據命中條件的文件生成待匹配名單;
[0008]基于相同的預設屬性字段作為匹配條件,對所述待匹配名單中的文件和所述名單庫進行匹配,將所述待匹配名單中匹配成功的文件記錄入目標白名單中。
[0009]在上述實現過程中,獲取公告頁面中記錄有補丁的發布信息的指定格式文件,以此生成名單庫,并通過預設的數據命中條件對各個客戶端上傳的日志庫進行過濾,基于篩選出的疑似補丁文件生成待匹配名單,進而基于相同的預設屬性字段作為匹配條件,對待匹配名單中的文件和白名單進行匹配,將待匹配名單中匹配成功的文件視為補丁文件,記錄入目標白名單中。這樣,可以實現補丁文件的自動收集,降低人力成本,而且,由于目標白名單中的數據是通過交叉比對辨識出來的,準確性較高,同時,其可以覆蓋大量不同版本的操作系統,具有更好的數據收集效果。
[0010]進一步地,在一些實施例中,所述獲取公告頁面中的指定格式文件,包括:
[0011]檢測公告頁面的爬蟲協議,在所述爬蟲協議是支持爬取的情況下,通過爬蟲技術從所述公告頁面中獲取指定格式文件。
[0012]在上述實現過程中,通過爬蟲技術獲取補丁發布信息,可以降低人力成本。
[0013]進一步地,在一些實施例中,所述指定格式文件是對應知識庫文章的CSV文件;所述通過爬蟲技術從所述公告頁面中獲取指定格式文件,包括:
[0014]通過爬蟲技術捕獲所述公告頁面中所有的CSV文件;
[0015]從捕獲的CSV文件中提取出對應知識庫文章的CSV文件。
[0016]在上述實現過程中,通過對爬取到的所有的CSV文件進行過濾,可以準確地獲取到記錄有補丁發布信息的指定格式文件。
[0017]進一步地,在一些實施例中,所述通過爬蟲技術捕獲所述公告頁面中所有的CSV文件,包括:
[0018]根據預先設定的爬取規則,對所述公告頁面中的CSV文件進行遍歷爬取,所述爬取規則包括根頁面地址、爬取層次及頁面類型解析方式。
[0019]在上述實現過程中,通過設定根頁面地址、爬取層次及頁面類型解析方式這些爬取規則,可以獲取需要的CSV文件,這樣,若后續的公告頁面發生變更,只需要對爬取規則進行修改即可。
[0020]進一步地,在一些實施例中,所述預設的數據命中條件是基于補丁文件和所述日志庫中的文件之間相同的字段來確定的。
[0021]在上述實現過程中,通過交叉比對的方式,確定出可用于篩選出疑似補丁文件的數據命中條件。
[0022]進一步地,在一些實施例中,所述預設的數據命中條件包括以下至少一項:
[0023]指示公司名稱的字段為預設公司名稱,指示產品名稱的字段為預設操作系統名稱,指示產品版本號的字段不為空。
[0024]在上述實現過程中,通過合理設置預設的數據命中條件,可以有效篩選出疑似補丁文件。
[0025]進一步地,在一些實施例中,所述從各個客戶端上傳的日志庫過濾出滿足預設的數據命中條件的文件,基于所述文件生成待匹配名單,包括:
[0026]若所述日志庫中任一文件滿足預設的數據命中條件,將所述文件進行存儲;所述文件是以所述文件的hash值為主鍵,并附帶所述文件的字段進行存儲的;
[0027]遍歷各日志庫中所有文件后,基于存儲的各文件生成待匹配名單。
[0028]在上述實現過程中,以滿足預設的數據命中條件的文件的hash值為主鍵,附帶具體字段,對該文件進行存儲,可以方便后續步驟中目標白名單的生成。
[0029]進一步地,在一些實施例中,所述預設屬性字段包括:指示文件大小的字段,指示產品版本的字段,以及指示文件名的字段。
[0030]在上述實現過程中,通過合理設置預設屬性字段,可以正確辨識出補丁文件。
[0031]進一步地,在一些實施例中,所述預設屬性字段還包括:指示文件路徑的字段。
[0032]在上述實現過程中,補充路徑信息作為參考,提高辨識出補丁文件的準確率。
[0033]進一步地,在一些實施例中,所述方法還包括:
[0034]將所述目標白名單發送給各個客戶端,以使所述客戶端基于所述目標白名單對進入所述客戶端所在終端的文件進行檢測。
[0035]在上述實現過程中,通過將目標白名單下發給各個客戶端,可以有效減少各客戶端對補丁文件的“誤殺”。
[0036]進一步地,在一些實施例中,所述方法還包括:
[0037]從所述名單庫中,獲取所述待匹配名單中匹配成功的文件對應的指定格式文件的KB號,并根據所述KB號對所述文件進行標記。
[0038]在上述實現過程中,通過KB號對辨識出的補丁文件進行標記,便于運營查詢與管理,使得服務端的管理者可以通過該KB號,知曉該文件的來源,且在進行系統文件替換等其他調用時可以明確數據目標,保證兼容性。
[0039]第二方面,本申請實施例提供的一種補丁文件收集裝置,包括:
[0040]獲取模塊,用于獲取公告頁面中的指定格式文件,并基于所述指定格式文件生成名單庫;所述指定格式文件中記錄有微軟補丁的發布信息;
[0041]篩選模塊,用于從各個客戶端上傳的日志庫過濾出滿足預設的數據命中條件的文件,基于所述文件生成待匹配名單;
[0042]匹配模塊,用于基于相同的預設屬性字段作為匹配條件,對所述待匹配名單中的文件和所述名單庫進行匹配,將所述待匹配名單中匹配成功的文件記錄入目標白名單中。
[0043]第三方面,本申請實施例提供的一種電子本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.一種補丁文件收集方法,其特征在于,包括:獲取公告頁面中的指定格式文件,并基于所述指定格式文件生成名單庫;所述指定格式文件中記錄有補丁的發布信息;從各個客戶端上傳的日志庫過濾出滿足預設的數據命中條件的文件,基于所述文件生成待匹配名單;基于相同的預設屬性字段作為匹配條件,對所述待匹配名單中的文件和所述名單庫進行匹配,將所述待匹配名單中匹配成功的文件記錄入目標白名單中。2.根據權利要求1所述的方法,其特征在于,所述獲取公告頁面中的指定格式文件,包括:檢測公告頁面的爬蟲協議,在所述爬蟲協議是支持爬取的情況下,通過爬蟲技術從所述公告頁面中獲取指定格式文件。3.根據權利要求2所述的方法,其特征在于,所述指定格式文件是對應知識庫文章的CSV文件;所述通過爬蟲技術從所述公告頁面中獲取指定格式文件,包括:通過爬蟲技術捕獲所述公告頁面中所有的CSV文件;從捕獲的CSV文件中提取出對應知識庫文章的CSV文件。4.根據權利要求3所述的方法,其特征在于,所述通過爬蟲技術捕獲所述公告頁面中所有的CSV文件,包括:根據預先設定的爬取規則,對所述公告頁面中的CSV文件進行遍歷爬取,所述爬取規則包括根頁面地址、爬取層次及頁面類型解析方式。5.根據權利要求1所述的方法,其特征在于,所述預設的數據命中條件是基于補丁文件和所述日志庫中的文件之間相同的字段來確定的。6.根據權利要求5所述的方法,其特征在于,所述預設的數據命中條件包括以下至少一項:指示公司名稱的字段為預設公司名稱,指示產品名稱的字段為預設操作系統名稱,指示產品版本號的字段不為空。7.根據權利要求1所述的方法,其特征在于,所述從各個客戶端上傳的日志庫過濾出滿足預設的數據...
【專利技術屬性】
技術研發人員:紀威,張曉宇,王文俊,彭力揚,安衛鳳,
申請(專利權)人:奇安信科技集團股份有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。