本發明專利技術屬于文件存儲管理技術領域,具體公開了一種根據文件特征碼為文件自動添加文件標簽的方法及系統。本發明專利技術方法是根據第一文件的內容信息獲得與所述第一文件內容一一對應的文件特征碼信息,再根據第一文件的屬性信息生成第一文件標簽集合,在文件特征碼數據存儲系統中查找是否已經存在與所述第一文件相同的文件特征碼信息,若已存在,則將存在于所述第一文件標簽集合中且不存在于第二文件標簽集合中的文件標簽信息添加到第二文件標簽集合中;若不存在,則將所述第一文件的文件特征碼信息、文件內容和文件標簽集合分別存儲至所述文件特征碼數據存儲系統中。本發明專利技術方法和系統可實現文件的多重信息存儲管理,提高文件的分類管理和查找效率。
【技術實現步驟摘要】
本專利技術屬于文件存儲管理
,具體涉及一種根據文件特征碼為文件自動添加文件標簽的方法及系統。
技術介紹
文件管理是操作系統的五大職能之一,主要涉及文件的邏輯組織和物理組織,目錄的結構和管理。所謂文件管理,就是操作系統中實現文件統一管理的一組軟件、被管理的文件以及為實施文件管理所需要的一些數據結構的總稱(是操作系統中負責存取和管理文件信息的機構)從系統角度來看,文件系統是對文件存儲器的存儲空間進行組織,分配和回收,負責文件的存儲,檢索,共享和保護。現有的文件存儲管理技術是以文件路徑和文件名作為條件去判斷文件的唯一性,進而實現文件的存儲,同時需要手動為文件添加標簽,未能實現文件多重信息的標簽歸類,不利于文件的分類管理和查找。比如A文件夾中存儲有第一季度的財務報告、第一季度的生產報告、第一季度的安全報告等等,在B文件夾中存儲有第二季度的財務報告、第二季度的生產報告、第二季度的安全報告等等,如果用戶要查看財務報告,就需要到每個文件夾去查找出來再集合到一塊供用戶使用。這種依靠文件路徑和文件名的方式,使得文件查找和管理效率低下,尤其是數據龐大的時候,比如調取十年的財務報告。
技術實現思路
為了解決上述問題,本專利技術的目的在于提供一種根據文件特征碼為文件自動添加文件標簽的方法及系統,以優化文件分類管理和查找。為了實現上述專利技術目的,本專利技術所采取的技術方案如下一種根據文件特征碼為文件自動添加文件標簽的方法,包括以下步驟根據第一文件的內容信息獲得與所述第一文件內容一一對應的文件特征碼信息;根據第一文件的屬性信息生成第一文件標簽集合,所述第一文件標簽集合中包括有多個文件標簽;在文件特征碼數據存儲系統中查找是否已經存在與所述第一文件相同的文件特征碼信息,所述文件特征碼數據存儲系統包括一存儲文件內容的文件內容存儲單元、一存儲文件特征碼信息的文件特征碼信息存儲單元、以及一存儲文件標簽集合的文件標簽集合存儲單元,在所述文件特征碼數據存儲系統中同一文件的文件特征碼信息、文件內容和文件標簽集合具有一一對應綁定關系;若已存在,則根據所述文件特征碼信息在所述文件特征碼數據存儲系統中查找出與該文件特征碼信息一一對應的第二文件標簽集合,比對所述第一文件標簽集合與第二文件標簽集合,并將存在于所述第一文件標簽集合中且不存在于第二文件標簽集合中的文件標簽信息添加到第二文件標簽集合中;若不存在,則將所述第一文件的文件特征碼信息、文件內容和文件標簽集合分別存儲至所述文件特征碼數據存儲系統的文件特征碼信息存儲單元、文件內容存儲單元和文件標簽集合存儲單元中。進一步的,所述根據第一文件的內容信息獲得與所述第一文件內容--對應的文件特征碼信息,具體是根據第一文件內容信息采用散列算法計算獲得與所述第一文件內容一一對應的文件特征碼信息。進一步的,所述散列算法為MD5算法或者SHAl算法。進一步的,所述文件特征碼數據存儲系統為數組與鏈表的集合、或者數據庫。一種根據文件特征碼為文件自動添加文件標簽的系統,包括以下模塊文件特征碼信息生成模塊,用于根據第一文件的內容信息獲得與所述第一文件內 容一一對應的文件特征碼信息;文件標簽集合生成模塊,用于根據第一文件的屬性信息生成第一文件標簽集合,所述第一文件標簽集合中包括有多個文件標簽;相同文件特征碼查詢模塊,用于在文件特征碼數據存儲系統中查找是否已經存在與所述第一文件相同的文件特征碼信息;若已存在,則執行文件標簽集合更新模塊;若不存在,則執行文件添加模塊;所述文件特征碼數據存儲系統包括一存儲文件內容的文件內容存儲單元、一存儲文件特征碼信息的文件特征碼信息存儲單元、以及一存儲文件標簽集合的文件標簽集合存儲單元,在所述文件特征碼數據存儲系統中同一文件的文件特征碼信息、文件內容和文件標簽集合具有對應綁定關系;文件標簽集合更新模塊,用于根據所述文件特征碼信息在所述文件特征碼數據存儲系統中查找出與該文件特征碼信息一一對應的第二文件標簽集合,比對所述第一文件標簽集合與第二文件標簽集合,并將存在于所述第一文件標簽集合中且不存在于第二文件標簽集合中的文件標簽信息添加到第二文件標簽集合中;文件添加模塊,用于將所述第一文件的文件特征碼信息、文件內容和文件標簽集合分別存儲至所述文件特征碼數據存儲系統的文件特征碼信息存儲單元、文件內容存儲單元和文件標簽集合存儲單元中。進一步的,所述文件特征碼信息生成模塊根據第一文件的內容信息獲得與所述第一文件內容一一對應的文件特征碼信息,具體是根據第一文件內容信息采用散列算法計算獲得與所述第一文件內容一一對應的文件特征碼信息。進一步的,所述散列算法為MD5算法或者SHAl算法。進一步的,所述文件特征碼數據存儲系統為數組與鏈表的集合、或者數據庫。本專利技術利用文件特征碼算法為每一文件根據文件內容計算特征碼,確定文件的唯一性,在此基礎上為文件自動添加文件標簽,實現文件、文件特征碼、文件標簽的綁定存儲。進而利用同一文件的文件特征碼信息、文件內容和文件標簽集合具有一一對應綁定關系,實現文件的多重信息存儲管理,可讓使用者根據自己對文檔文件已知的文件標簽信息快速查找目標文件。因此,采用本專利技術方法和系統,可實現文件的多重信息存儲管理,提高文件的分類管理和查找效率。附圖說明此附圖說明所提供的圖片用來輔助對本專利技術的進一步理解,構成本申請的一部分,并不構成對本專利技術的不當限定,在附圖中圖1是本專利技術方法的流程圖;圖2是本專利技術系統對應的框圖。具體實施例方式如圖1所示,本實施例公開了一種根據文件特征碼為文件自動添加文件標簽的方法,包括以下步驟(I)根據第一文件的內容信息獲得與所述第一文件內容一一對應的文件特征碼信息;本步驟的目的在于獲取與文件內容唯一對應的文件特征碼,文件特征碼的計算方法可以采用現有散列算法,如MD5算法或者SHAl算法,兩種算法都是根據文件內容計算獲得所述文件特征碼;本步驟所述的第一文件即是需要添加文件標簽的文件,所述第一文件的內容信息是指存儲在外部介質上的數據的集合,比如一個word文件,其中記錄I萬字的故事,那么這一萬字就是文件內容信息;因為文件特征碼具有唯一性,可以通過本步驟獲得文件特征碼唯一標識和查找文件,比如兩個不同名稱的文件,其文件內容是完全相同的,如果采用了文件特征碼來標識它,就不會混亂,在管理時也可以避免同一文件放在不同目錄或者應用不同名稱重復存儲占用存儲空間,進而有利于優化文件存儲管理;(2)根據第一文件的屬性信息生成第一文件標簽集合,所述第一文件標簽集合中包括有多個文件標簽;所述第一文件的屬性信息包括文件名、文件大小、文件創建時間、查看時間、文字數量、全文摘要等等,包括文件固有的屬性信息和用戶自定義的屬性信息兩部分,固有屬性信息如頁數、作者、標題、文件大小、文字數量、可自動總結的全文摘要等,自定義屬性信息主要是指外界為文件添加的其他屬性信息如操作系統記錄的文件創建時間、操作系統記錄的文件修改時間、操作系統記錄的文件查看時間、操作系統記錄的文件名、手動添加的作者名、手動添加的摘要、手動指定的關鍵詞、手動標明的用途等;文件標簽,就是與某個文件屬性相對應的、用以表針文件特性的標簽,比如文件頁碼數為A、文件作者為B的屬性信息就對應生成“A”與“B”的文件標簽;需要說明的是,文件標簽與文件屬性不是完全一一對應的本文檔來自技高網...
【技術保護點】
一種根據文件特征碼為文件自動添加文件標簽的方法,其特征在于包括以下步驟:根據第一文件的內容信息獲得與所述第一文件內容一一對應的文件特征碼信息;根據第一文件的屬性信息生成第一文件標簽集合,所述第一文件標簽集合中包括有多個文件標簽;在文件特征碼數據存儲系統中查找是否已經存在與所述第一文件相同的文件特征碼信息,所述文件特征碼數據存儲系統包括一存儲文件內容的文件內容存儲單元、一存儲文件特征碼信息的文件特征碼信息存儲單元、以及一存儲文件標簽集合的文件標簽集合存儲單元,在所述文件特征碼數據存儲系統中同一文件的文件特征碼信息、文件內容和文件標簽集合具有一一對應綁定關系;若已存在,則根據所述文件特征碼信息在所述文件特征碼數據存儲系統中查找出與該文件特征碼信息一一對應的第二文件標簽集合,比對所述第一文件標簽集合與第二文件標簽集合,并將存在于所述第一文件標簽集合中且不存在于第二文件標簽集合中的文件標簽信息添加到第二文件標簽集合中;若不存在,則將所述第一文件的文件特征碼信息、文件內容和文件標簽集合分別存儲至所述文件特征碼數據存儲系統的文件特征碼信息存儲單元、文件內容存儲單元和文件標簽集合存儲單元中。
【技術特征摘要】
【專利技術屬性】
技術研發人員:王暉,黃祖瑩,
申請(專利權)人:珠海金山辦公軟件有限公司,北京金山辦公軟件有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。