• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種從文檔中提取表格的方法、系統和計算機設備技術方案

    技術編號:36695929 閱讀:121 留言:0更新日期:2023-02-27 20:07
    本發明專利技術涉及到一種從文檔中提取表格的方法,該方法包括離線處理環節和在線處理環節,所述離線處理環節通過標注數據并訓練機器學習模型,以檢測圖像表格區域、圖像表格類型和圖像表格線條,輸出對應檢測模型至在線處理環節應用;所述在線處理環節用以實時提取文檔中表格包括電子表格和圖像表格,電子表格可以根據指定文檔的格式協議編碼進行解析,圖像表格需要利用離線處理環節所訓練的模型,業務上進行串聯后進行提取,得到結構還原和內容填充后的電子表格文件;還包括提取表格的系統和計算機設備。本發明專利技術的方法、系統和設備將常見文檔類型中的表格提取方式統一提供一站式提取文檔中所有表格內容,對實際辦公場景有很大的意義。義。義。

    【技術實現步驟摘要】
    一種從文檔中提取表格的方法、系統和計算機設備


    [0001]本專利技術涉及到智能文本處理領域,特別涉及到一種從文檔中提取表格的方法、系統和計算機設備。

    技術介紹

    [0002]表格是一種重要的信息承載及展現方式,具有結構清晰、信息量大等特點,在日常辦公、資料文件等各種文件中得到大量使用,常見的例如人員信息表、產品屬性表及財務報表等。
    [0003]在實際中,表格數據很少單獨呈現,而是和段落、標題、圖片等其他文檔元素混合起來以文檔資料形式呈現。常見的文檔格式包括Word、PDF、圖片等格式。對于Word中的表格,如果是電子表格協議,可以直接讀出,但word中也有可能插入圖像形式的表格。而對于PDF、圖片等格式,其中的表格都是以圖像的形式存儲,處理起來較為困難。由于圖像表格錄入環境復雜、紙張平整度、打印清晰度等問題,導致錄入系統的圖像表格存在扭曲、透視、清晰度等問題,對圖像表格的后續使用造成很大困難。如何從不同類型文檔中自動提取所有類型的表格結構及內容,在實際生產工作中需求很大,挑戰很大。由于文檔中電子表格指的是可以直接編輯表格結構和內容的表格,例如word中表格對象可直接使用office或wps軟件進行編輯。而圖像表格指的是以圖像形式存儲的表格,不能編輯,例如pdf文檔中的表格、圖片文件中的表格等,而且word中也能以圖片的方式插入表格,導致自動提取表格結構及內容造成困難,影響實際工作效率。
    [0004]由于實際使用的表格樣式本身比較復雜,按照線條的完整情況,一般可以劃分為全線表格、少線表格和無線表格。其中,全線表格是最常見的表格,每個單元格四周都有線條環繞,表格結構清晰。而少線表格一般只有橫線或者豎線劃分大致結構,單元格劃分需要配合文本對齊信息才能正確理解。而無線表格是沒有任何線條的表格,智能通過文本對齊信息才能正確理解表格結構。
    [0005]除了上述表格類型造成的困難外,圖像表格在采集時由于打印質量、拍攝設備、紙張平整度等問題,造成采集的圖像表格質量參差不齊,例如出現陰影、透視、線條扭曲、線條顏色過于暗淡等。本專利技術提出一種從文檔中提取表格的方法和裝置,目的是能夠支持多種類型圖像表格的解析,并將圖像表格存儲為xlsx、csv等獨立的電子表格文件形式。

    技術實現思路

    [0006]本專利技術的目的在于克服上述現有技術存在的不足,提供一種從文檔中提取表格的方法、系統和計算機設備。本專利技術的方法、系統和計算機設備要能夠針對文檔中所有表格的結構及內容解析提取,從文檔中自動提取所有表格,自動找到文檔中所有的表格結構和文字內容,并導出為xlsx、csv等電子形式表格,方便后續人工處理或系統自動化處理。
    [0007]為了達到上述專利技術目的,本專利技術專利提供的技術方案如下:本專利技術的方法主要分為離線系統和在線系統兩部分。離線系統主要包括:1,圖像
    表格區域檢測模型訓練;2,圖像表格類型劃分模型訓練;3,圖像表格線線檢測模型訓練。在線系統主要包括1,文檔類型判斷;2,表格類型判斷;3,圖像表格中文字內容檢測與識別;2,圖像表格區域檢測;3,圖像表格類型劃分;4,圖像表格線條檢測;5,圖像單元格構建;6,導出表格至電子表格文件。
    [0008]所述離線系統通過標注一定量的相關數據,訓練相關機器學習模型,用來檢測圖像表格區域、圖像表格類型和圖像表格線條,輸出相關模型供在線系統使用。
    [0009]圖像表格區域檢測模型訓練。圖像表格區域檢測基于目標檢測技術,通過標注圖像中表格區域的位置信息,將原始圖像和位置信息作為訓練數據,使用機器學習的方法訓練一個能夠檢測表格區域的目標檢測模型,常用的目標檢測算法包括YOLO、Faster RCNN等經典算法。表格區域用左上角xy坐標和右下角xy坐標來表示。
    [0010]圖像表格類型檢測模型訓練。圖像表格類型檢測基于圖像分類技術,通過將表格區域圖像進行數據標注,將表格類型劃分為有線表格、少線表格和無線表格。將原始圖像和表格類型信息作為訓練數據,使用機器學習的方法訓練能夠檢測圖像中表格類型的模型,常用的圖像分類算法包括SVM、ResNet等網絡算法。
    [0011]圖像表格線條檢測模型訓練。圖像表格線條檢測模型用來檢測表格中的所有線條,常見的線條檢測模型基于圖像實例分割技術,例如UNet、Spatial CNN等。表格線用有序像素點集合表示,橫線排列順序從左到右,豎線排列順序由上到下,每個像素點由xy坐標表示。表格類型有全線、少線、無線三種類型,因此要根據表格類型設計不同的線條檢測模型并分開訓練提高準確率。表格線按照是否可以觀測到,劃分為物理線條和虛擬線條。按此標準,全線表格中所有表格線是物理線條,無線表格中表格線是虛擬線條,而少線表格中表格線是物理線條和虛擬線條的組合。因此表格線條檢測模型需要訓練物理線條檢測和虛擬線條檢測兩個模型。
    [0012]在線系統中,執行如下操作:文檔預處理。文檔中的表格分為電子表格和圖像表格兩大類。電子表格通常出現在Word中,而圖像表格可能出現在任何類型文檔中,因此需要根據文檔類型進行不同的預處理,再根據預處理結果進行不同類型的表格提取。例如將Word中電子表格對象拿出后直接提取,而將圖像對象導出為圖像文件進行圖像表格提取。而PDF文件需要將每頁內容轉換為圖像文件進行圖像表格提取處理。
    [0013]電子表格提取。電子表格主要使用相關文件協議解析庫提取文檔中的表格對象。word可以使用官方提供的sdk讀取所有的表格對象,直接拿出表格結構和內容。
    [0014]圖像表格提取。圖像表格中文字內容檢測與識別。完整的表格內容應包括表格結構和單元格文字,因此首先需要將圖像中的所有文字信息識別出來,并標記每個字的位置。如某些文字坐標在后續識別出的某個單元格區域范圍內,則這些文字為此單元格文字內容。識別圖像中的文字使用成熟的光學字符識別(Optical Character Recognition,OCR)技術,但需要OCR系統輸出文字內容和區域坐標。文字區域坐標由文字左上角xy坐標和右下角xy坐標表示。
    [0015]表格區域檢測。表格區域檢測使用離線系統訓練好的區域檢測模型進行表格區域的判斷。輸入原始的圖像,輸出圖像中所有表格的區域,每個區域包括左上角xy坐標和右下角xy坐標。
    [0016]表格類型劃分。將表格區域內的圖像送入表格類型劃分模塊,根據離線訓練好的類型模型對表格區域進行類型劃分,得到有線表格、無線表格及半線表格,并將類型進行輸出。
    [0017]表格線條檢測。將表格區域內的圖像和類型送入表格線條檢測模塊,根據表格類型使用離線訓練好的不同類型的表格線檢測模型輸出相關的表格線。有線表格使用物理表格線檢測模型,無線表格使用虛擬表格線檢測模型,半線表格同時使用物理表格線及虛擬表格線模型。
    [0018]單元格構建。針對每一個表格區域內的表格線檢測結果,根據橫豎線條一系列的交點可以得到每個單元格四角xy坐標。將得到的所有單元格按照四角坐標按照從左到右從上到下的順序排列,就可以得到整個表格的結構。得到表格結構后,根據O本文檔來自技高網
    ...

    【技術保護點】

    【技術特征摘要】
    1.一種從文檔中提取表格的方法,其特征在于,該方法包括離線處理環節和在線處理環節,其中:所述離線處理環節通過標注表格圖像數據,訓練機器學習模型,以檢測圖像表格區域、圖像表格類型和圖像表格線條,輸出檢測模型至在線處理環節應用;所述在線處理環節用以實時提取文檔中所有類型的表格,包括電子表格和圖像表格,電子表格可以根據指定文檔的格式協議編碼進行解析,圖像表格需要利用離線處理環節所訓練的模型,業務上進行串聯后進行提取,得到結構還原和內容填充后的電子表格文件。2.根據權利要求1所述的一種從文檔中提取表格的方法,其特征在于,所述離線處理環節包括如下步驟:S11. 訓練出圖像表格區域檢測模型,基于目標檢測技術檢測圖像表格區域,標注圖像中表格區域的位置信息,將原始圖像和位置信息作為訓練數據,訓練出能夠檢測表格區域的目標檢測模型,表格區域用左上角xy坐標和右下角xy坐標來表示;S12. 訓練出圖像表格類型檢測模型,基于圖像分類技術將表格區域圖像進行數據標注,將表格類型劃分為有線表格、少線表格和無線表格,將原始圖像和表格類型信息作為訓練數據,訓練出能夠檢測圖像中表格類型的模型;S13. 訓練出圖像表格線條檢測模型,基于圖像實例分割技術,將表格線用有序像素點集合表示,橫線排列順序從左到右,豎線排列順序由上到下,每個像素點由xy坐標表示,根據表格類型設計不同的分開訓練線條檢測模型,表格線按照是否可以觀測到為標準劃分為物理線條和虛擬線條,表格線條檢測模型需要出訓練物理線條檢測和虛擬線條檢測兩個模型。3.根據權利要求1或2所述的一種從文檔中提取表格的方法,其特征在于,所述在線處理環節包括如下步驟:S14.文檔預處理,進行文檔類型判斷和表格類型判斷,將文檔中的表格分為電子表格和圖像表格兩大類,電子表格出現的文件包括Word和WPS中,而圖像表格可以出現在任何類型文檔中,根據文檔類型進行不同的預處理,再根據預處理結果進行不同類型的表格提取,若為電子表格執行S15,若為圖像表格則執行S16;S15.提取電子表格,所述電子表格使用對應文件協議解析庫提取文檔中的表格對象,對于微軟Word 文檔的.docx格式和金山WPS文檔的.wps格式,使用 OpenXML 格式協議解析其中的電子表格,直接拿出表格結構和內容;S16.提取圖像表格,先檢測與識別圖像表格中的文字內容;再利用訓練好的圖像表格區域檢測模型判斷表格區域,輸出圖像中所有表格的區域,每個區域包括左上角xy坐標和右下角xy坐標;再利用訓練好的圖像表格類型檢測模型對表格區域進行類型劃分,得到有線表格、無線表格及半線表格,并將類型輸出;再將表格區域內的圖像和類型送入圖像表格線條檢測模型中,輸出相關的表格線,其中有線表格使用物理表格線檢測模型,無線表格使用虛擬表格線檢測模型,半線表格同時使用物理表格線及虛擬表格線模型;最后針對每一個表格區域內的表格線檢測結果,根據橫豎線條的多個交點得到每個單元格四角的xy坐標,將得到的所有單元格按照四角坐標按照從左到右從上到下的順序排列,得到整個表格的結構;S17.導出表格至電子表格文件,將文檔中所有檢測到的表格進行結構還原和內容填
    充,使用表格儲存程序代碼將每個表格依次保存為電子表格文件。4.根據權利要求2所述的一種從文檔中提取表格的方法,其特征在于,在S11中,所述的目標檢測技術包括有YOLO、Faster RCNN在內的算法,使用機器學習的方法來訓練能夠檢測表格區域的目標檢測模型,其流程包括有:輸入原始圖像數據集;對表格區域進行數據標注;標注數據生成模型訓練數據;表格目標檢測模型訓練;輸出表格區域檢測模型。5.根據權利要求2所述的一種從文檔中提取表格的方法,其特征在于,在S12中,所述的圖像分類技術包括有SVM、ResNet在內的網絡算法,使用機器學習的方法來訓練能夠檢測圖像中表格類型的模型,其流程包括有:集合表格區域圖像;表格類型數據標注;標注數據生成模型訓練數據;表格類型檢測模型訓練;輸出表格類型檢測模型。6.根據權利要求2所述的一種從文檔中提取表格的方法,其特征在于,在S13中,所述的圖像實例分割技術包括有UNet、Spatial CNN在內的算法,表格線條檢測模型需要訓練物理線條檢測和虛擬線條檢測兩個模型,其流程包括有:表格區域圖像集合;判讀表格類型為有線表格、半線表格或者無線表格;有線表格進行物理表格線標注后,進行物理表格線檢測模型訓練,得到物理表格線檢測模型;無線表格進行虛擬表格線標注后,進行虛擬表格線檢測模型訓練,得到虛擬表格線檢測模型;半線表格中的物理表格線作為物理表格線標注,并組合進入物理表格線檢測模型進行訓練并輸出,半線表格中的虛擬表格線作為虛擬表格線進行標準,并組合進入虛擬表格線檢測模型進行訓練并輸出;訓練完成的物理表格線檢測模型作為表格線檢測模型進行輸出,訓練完成的虛擬表格線檢測模型也作為表格線檢測模型進行輸出。7.根據權利要求3所述的一種從文檔中提取表格的方法,其特征在于,在...

    【專利技術屬性】
    技術研發人員:高翔,李瀚清,楊慧宇,朱耀邦曾丹夢,李巍豪趙業輝岳小龍紀達麒,陳運文,
    申請(專利權)人:達而觀信息科技上海有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 毛片无码一区二区三区a片视频| 国产精品无码午夜福利| 精品久久久无码人妻字幂 | 精品少妇人妻av无码专区| 国产福利电影一区二区三区久久老子无码午夜伦不 | 日韩乱码人妻无码中文字幕视频| 欧日韩国产无码专区| 久久久久亚洲av无码专区| 免费人妻av无码专区| 在线观看成人无码中文av天堂 | 亚洲日韩精品A∨片无码| 黄色成人网站免费无码av | 亚洲熟妇无码久久精品| 亚洲中文字幕无码爆乳av中文| 少妇无码一区二区二三区| 无码精品人妻一区二区三区免费 | 日韩av无码成人无码免费| 久久久无码一区二区三区| 亚洲人成人无码网www电影首页| 无码人妻一区二区三区兔费| 无码乱人伦一区二区亚洲一 | 久久久久亚洲精品无码系列| 日韩综合无码一区二区| 免费A级毛片无码A| 国产成人无码精品久久久露脸| 日韩免费无码一区二区三区| 亚洲AV无码成人网站久久精品大| 国产午夜无码片免费| 精品久久久无码中文字幕| 国产aⅴ激情无码久久久无码| 精品亚洲av无码一区二区柚蜜| 69堂人成无码免费视频果冻传媒| 无码精品人妻一区二区三区人妻斩| 狠狠躁夜夜躁无码中文字幕| 无码精品人妻一区二区三区免费| 日韩精品无码人妻免费视频| 国产精品亚洲а∨无码播放不卡| 精品无码久久久久久久久| 狠狠躁天天躁无码中文字幕| 中文无码伦av中文字幕| 麻豆aⅴ精品无码一区二区|