描述用于高效處理電子存儲信息(ESI)的系統和方法。系統和方法描述在準備訴訟或者與訴訟關聯時處理ESI。本發明專利技術在處理和為數據編索引時保留在文檔之間的上下文關系,從而允許在數據分析期間增加查準率與查全率。
【技術實現步驟摘要】
【國外來華專利技術】
本專利技術涉及處理數據的領域;更具體地涉及對電子存儲信息的獲取、處理、組織和分析。
技術介紹
作為法律發現的部分,訴訟方必須產生大量信息。參見Fed.R.Civ.P.45(d)(需要響應于傳票產生文檔)。文檔審查是訴訟的關鍵、耗時部分并且越來越多地變成訴訟過程的最昂貴部分。KIKER, Dennis R.' How to Manage ESI to Rein In RunawayCosts '。在 Law.com 的 Corporate Counsel 。2011 年 7 月 18 日 ο 從以下因特網網址獲取:<URL:http://law.com/ jsp/cc/PubAr t i c I eCC.jsp id = 1202503308698&src = EMC-EmaiI&et = editoral&bu = Corporate %20Counsel&pt = Corporate % 20Counsel % 20In-House % 20Tech % 20Alert&cn = In_House_Tech_20110719&kw = How% 20to % 20Manage % 20ESI % 20to % 20Rein% 20In%20Runaway% 20Costs>。每方通常提出廣泛請求讓它的對手產生它認為包含與它的主張和辯護相關的信息的文檔。電子存儲和傳輸的電子存儲信息(“EST”)量的迅速攀升造成許多問題、比如存儲、搜索、查全率、查準率等問題。C0RTESE,Alfred ff.,Jr.' SkyrocketingElectronic Discovery Costs Require New Rules'。在 ALEC (美國立法交流委員會,American Legislative Exchange Council)Policy Forum。 2009 年 3 月 ο 從以下因特網網址獲取:<URL:http://www.alec, org/am/pdf/apf/electronicdiscovery.pdf>。雖然計算機可以處置大批搜索雜務,但是涉及到大量人力仍然必要。因此,往往發現的成本經常很高并且不斷增加。由于在涉及到ESI的任何法律程序一這代表所有民事和刑事訴訟中的多數,皇見 PASSARELLA, Gina, " E-Discovery Evolution':Costs of Electronic DiscoveryAre Growing ' , In post-gazette, com(Pittsburgh Post-Gazette) ,2011 年 8月15日,從以下因特網網址獲取:〈URL:http:post-gazette.com/pg/11227/1166927-499-0.stm>——中涉及到的高成本,所以訴訟人更可能參加早期案情評估(“ECA”)。ECA允許訴訟人在更廣泛的實質審查發生之前確定在它們的ESI中包含什么° SILVA, Oliver, ' Early Case Assessment (ECA) -1ncorporating ECA intoYour Discovery Strategy '。在 e-LegalTechnology.0rg。2010 年。從以下因特網網址獲取:<URL:http://www.e-legal techno logy, org/member-articles/article-detai1.php id = 39>。這在確定是否提出潛在訴訟或者如何針對潛在訴訟進行辯護而又都使高成本人力審查最少時特別重要。當前可用ECA處理工具反映一種傳統的、幾乎基于紙件的文檔再現方式。在典型紙件檔案柜中,可以基于特定方法將所有文檔組織成序列或者線性文件。如果用戶尋找特定文檔,則用戶可以找到相關文件、然后需要按照序列順序瀏覽每個文檔以便找到特定文檔。典型ECA處理工具將相同概念方式、即序列或者線性方法用于再現和獲取電子信息。例如電子郵件數據庫代表紙件檔案柜。每個電子郵件文件,并且將在文件中包括附到該電子郵件的任何文檔(“附件”)。ECA處理工具將每個電子郵件存儲為記錄,并且按照序列順序再現電子郵件正文和任何附件,這與將針對紙件文件所做的相同。遺憾的是,電子消息不再限于這樣的線性或者序列存儲方法。個別電子文檔可以不僅存儲于其它電子文檔之后而且通過對象鏈接和嵌入(“OLE”)嵌入于其它電子文檔內和鏈接到其它電子文檔,OLE是Microsoft 開發的允許向文檔和其它對象嵌入和鏈接的技術。不僅必須審查每個電子郵件或者文檔,而且必須保留文檔的上下文和關系。在不知道創建文檔的上下文的情況下,經常丟失它的完整含義。甚至也必須仔細保留文檔內的信息的上下文,從而高級語義和語言分析工具可以在文檔之間恰當評價并且準確比較概念。因此,文檔的任何恰當獲取需要精確和準確地獲取文檔中的信息和關于文檔的信息。因此存在對開發可以用如下方式組織和搜索數據的方法和系統的增長需要,該方式保留信息的上下文并且允許審查嵌入對象,而又仍然維持恰當上下文中的文本(或者內容(substantive))以及概念 信息。本專利技術提供這樣的方法和系統,該方法和系統用于從包含多個嵌入對象的文檔提取信息或者數據。該方法和系統保留在文檔及其嵌入對象之間的總體關系并且允許針對大量數據、即兆兆字節到千兆字節的迅速和高效數據提取和分析。
技術實現思路
本專利技術提出一種用于為一個或者多個文檔Cli編索引的方法并且包括以下步驟:(a)確定一個或者多個文檔Cli中的每個文檔的文件類型fi ; (b)執行從一個或者多個文檔Cli對數據Clai的提取ei ; (C)針對一個或者多個嵌入對象dk測試從文檔Cli的提取ei恢復的數據Clai,并且如果檢測到一個或者多個嵌入對象dk,則向緩沖器追加來自一個或者多個嵌入對象dk的數據Clai,其中數據存在于一個或者多個文檔Cli中,以及(d)針對一個或者多個文檔Cli遞歸地重復步驟(a)到(C)直至在一個或者多個文檔Cli中未檢測到附加的嵌入對象dk ;其中(I)在一個或者多個文檔Cli中可視地表示數據Clai ; (2)數據(Iai包括文本、可視信息或者圖形信息;(3)嵌入對象dk包含附加嵌入文檔dk+n,其中η是代表在dk中相繼嵌入的對象級數I的從I到η的整數;并且(4) 一個或者多個文檔Cli的文件類型可由文件類型確定器標識;并且還包括生成索引i,其中索引表示在文檔Cli與嵌入對象dk之中的至少一個關系集合,并且其中文檔Cli和嵌入對象dk具有與文檔Cli與嵌入對象dk中的每個文檔和嵌入對象關聯的至少一個個別標識符idi或者idk;關于在文檔Cli中的文本在內容和位置上保留Cli內的dk的可視表示的文本tk ;并且針對每個文件類型A存在個體的對應提取ei。上文描述的方法還包括:針對所有嵌入對象dk遞歸地重復步驟(a)到(d),并且如果在dk中檢測到至少一個附加嵌入對象,則執行提取附加嵌入對象直至在dk中未檢測到附加的嵌入對象;并且其中用分級關系嵌入文檔,分級關系由在Cli本文檔來自技高網...
【技術保護點】
【技術特征摘要】
【國外來華專利技術】...
【專利技術屬性】
技術研發人員:M·韋德,R·納爾遜,
申請(專利權)人:星匯數據解決方案公司,
類型:
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。