【技術實現步驟摘要】
一種從文檔中提取表格的方法、系統和計算機設備
[0001]本專利技術涉及到智能文本處理領域,特別涉及到一種從文檔中提取表格的方法、系統和計算機設備。
技術介紹
[0002]表格是一種重要的信息承載及展現方式,具有結構清晰、信息量大等特點,在日常辦公、資料文件等各種文件中得到大量使用,常見的例如人員信息表、產品屬性表及財務報表等。
[0003]在實際中,表格數據很少單獨呈現,而是和段落、標題、圖片等其他文檔元素混合起來以文檔資料形式呈現。常見的文檔格式包括Word、PDF、圖片等格式。對于Word中的表格,如果是電子表格協議,可以直接讀出,但word中也有可能插入圖像形式的表格。而對于PDF、圖片等格式,其中的表格都是以圖像的形式存儲,處理起來較為困難。由于圖像表格錄入環境復雜、紙張平整度、打印清晰度等問題,導致錄入系統的圖像表格存在扭曲、透視、清晰度等問題,對圖像表格的后續使用造成很大困難。如何從不同類型文檔中自動提取所有類型的表格結構及內容,在實際生產工作中需求很大,挑戰很大。由于文檔中電子表格指的是可以直接編輯表格結構和內容的表格,例如word中表格對象可直接使用office或wps軟件進行編輯。而圖像表格指的是以圖像形式存儲的表格,不能編輯,例如pdf文檔中的表格、圖片文件中的表格等,而且word中也能以圖片的方式插入表格,導致自動提取表格結構及內容造成困難,影響實際工作效率。
[0004]由于實際使用的表格樣式本身比較復雜,按照線條的完整情況,一般可以劃分為全線表格、少線表格和無線表格。其中, ...
【技術保護點】
【技術特征摘要】
1.一種從文檔中提取表格的方法,其特征在于,該方法包括離線處理環節和在線處理環節,其中:所述離線處理環節通過標注表格圖像數據,訓練機器學習模型,以檢測圖像表格區域、圖像表格類型和圖像表格線條,輸出檢測模型至在線處理環節應用;所述在線處理環節用以實時提取文檔中所有類型的表格,包括電子表格和圖像表格,電子表格可以根據指定文檔的格式協議編碼進行解析,圖像表格需要利用離線處理環節所訓練的模型,業務上進行串聯后進行提取,得到結構還原和內容填充后的電子表格文件。2.根據權利要求1所述的一種從文檔中提取表格的方法,其特征在于,所述離線處理環節包括如下步驟:S11. 訓練出圖像表格區域檢測模型,基于目標檢測技術檢測圖像表格區域,標注圖像中表格區域的位置信息,將原始圖像和位置信息作為訓練數據,訓練出能夠檢測表格區域的目標檢測模型,表格區域用左上角xy坐標和右下角xy坐標來表示;S12. 訓練出圖像表格類型檢測模型,基于圖像分類技術將表格區域圖像進行數據標注,將表格類型劃分為有線表格、少線表格和無線表格,將原始圖像和表格類型信息作為訓練數據,訓練出能夠檢測圖像中表格類型的模型;S13. 訓練出圖像表格線條檢測模型,基于圖像實例分割技術,將表格線用有序像素點集合表示,橫線排列順序從左到右,豎線排列順序由上到下,每個像素點由xy坐標表示,根據表格類型設計不同的分開訓練線條檢測模型,表格線按照是否可以觀測到為標準劃分為物理線條和虛擬線條,表格線條檢測模型需要出訓練物理線條檢測和虛擬線條檢測兩個模型。3.根據權利要求1或2所述的一種從文檔中提取表格的方法,其特征在于,所述在線處理環節包括如下步驟:S14.文檔預處理,進行文檔類型判斷和表格類型判斷,將文檔中的表格分為電子表格和圖像表格兩大類,電子表格出現的文件包括Word和WPS中,而圖像表格可以出現在任何類型文檔中,根據文檔類型進行不同的預處理,再根據預處理結果進行不同類型的表格提取,若為電子表格執行S15,若為圖像表格則執行S16;S15.提取電子表格,所述電子表格使用對應文件協議解析庫提取文檔中的表格對象,對于微軟Word 文檔的.docx格式和金山WPS文檔的.wps格式,使用 OpenXML 格式協議解析其中的電子表格,直接拿出表格結構和內容;S16.提取圖像表格,先檢測與識別圖像表格中的文字內容;再利用訓練好的圖像表格區域檢測模型判斷表格區域,輸出圖像中所有表格的區域,每個區域包括左上角xy坐標和右下角xy坐標;再利用訓練好的圖像表格類型檢測模型對表格區域進行類型劃分,得到有線表格、無線表格及半線表格,并將類型輸出;再將表格區域內的圖像和類型送入圖像表格線條檢測模型中,輸出相關的表格線,其中有線表格使用物理表格線檢測模型,無線表格使用虛擬表格線檢測模型,半線表格同時使用物理表格線及虛擬表格線模型;最后針對每一個表格區域內的表格線檢測結果,根據橫豎線條的多個交點得到每個單元格四角的xy坐標,將得到的所有單元格按照四角坐標按照從左到右從上到下的順序排列,得到整個表格的結構;S17.導出表格至電子表格文件,將文檔中所有檢測到的表格進行結構還原和內容填
充,使用表格儲存程序代碼將每個表格依次保存為電子表格文件。4.根據權利要求2所述的一種從文檔中提取表格的方法,其特征在于,在S11中,所述的目標檢測技術包括有YOLO、Faster RCNN在內的算法,使用機器學習的方法來訓練能夠檢測表格區域的目標檢測模型,其流程包括有:輸入原始圖像數據集;對表格區域進行數據標注;標注數據生成模型訓練數據;表格目標檢測模型訓練;輸出表格區域檢測模型。5.根據權利要求2所述的一種從文檔中提取表格的方法,其特征在于,在S12中,所述的圖像分類技術包括有SVM、ResNet在內的網絡算法,使用機器學習的方法來訓練能夠檢測圖像中表格類型的模型,其流程包括有:集合表格區域圖像;表格類型數據標注;標注數據生成模型訓練數據;表格類型檢測模型訓練;輸出表格類型檢測模型。6.根據權利要求2所述的一種從文檔中提取表格的方法,其特征在于,在S13中,所述的圖像實例分割技術包括有UNet、Spatial CNN在內的算法,表格線條檢測模型需要訓練物理線條檢測和虛擬線條檢測兩個模型,其流程包括有:表格區域圖像集合;判讀表格類型為有線表格、半線表格或者無線表格;有線表格進行物理表格線標注后,進行物理表格線檢測模型訓練,得到物理表格線檢測模型;無線表格進行虛擬表格線標注后,進行虛擬表格線檢測模型訓練,得到虛擬表格線檢測模型;半線表格中的物理表格線作為物理表格線標注,并組合進入物理表格線檢測模型進行訓練并輸出,半線表格中的虛擬表格線作為虛擬表格線進行標準,并組合進入虛擬表格線檢測模型進行訓練并輸出;訓練完成的物理表格線檢測模型作為表格線檢測模型進行輸出,訓練完成的虛擬表格線檢測模型也作為表格線檢測模型進行輸出。7.根據權利要求3所述的一種從文檔中提取表格的方法,其特征在于,在...
【專利技術屬性】
技術研發人員:高翔,李瀚清,楊慧宇,朱耀邦,曾丹夢,李巍豪,趙業輝,岳小龍,紀達麒,陳運文,
申請(專利權)人:達而觀信息科技上海有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。