一種自然場景下文檔類財務報告識別方法及裝置制造方法及圖紙

技術編號：43661423 閱讀：12 留言：0更新日期：2024-12-13 12:52

本發明專利技術提供一種自然場景下文檔類財務報告識別方法及裝置，包括：接收待識別的財務報告文件，將其轉換為圖像格式，得到財報圖像；對財報圖像進行方向矯正，并擦除覆蓋在財報圖像上的遮蓋物；采用第一預設深度學習算法檢測財務圖像上的表格的位置，并裁剪出表格區域；在表格區域中，采用第二預設深度學習算法檢測表結構的單元線，根據所述單元線劃分單元格；對每個單元格進行中心化處理，以提取每個單元格的信息；對提取得到的信息按照科目類別進行標準化，以統一描述形式，得到識別結果；根據業務場景，將識別結果進行結構化輸出。本發明專利技術提供的方法能夠在復雜環境下準確檢測并識別財務報告文檔中的關鍵信息，實現自動化地文檔管理和處理。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及圖像處理、信息提取，尤其涉及一種自然場景下文檔類財務報告識別方法及裝置。

技術介紹

1、隨著信息技術的快速發展，企業對于文檔的管理和處理需求日益增長。尤其是對于財務報告這類重要文檔，如何快速、準確地識別和提取關鍵信息，成為了企業信息管理的核心問題。然而，在自然場景下，由于光線、角度、遮擋、密集型表格等因素的影響，文檔圖像的質量往往較差，給文檔識別帶來了很大的挑戰。

2、傳統的文檔識別方法主要依賴于人工參與，需要耗費大量的人力和時間。同時，由于人工識別的局限性，識別的準確率和效率也難以滿足企業的需求。因此，研究一種能夠在自然場景下自動識別文檔類財報的技術具有重要的現實意義。

3、近年來，深度學習技術的快速發展為文檔識別提供了新的可能性。深度學習模型能夠通過學習大量的樣本數據，自動提取特征并進行分類，因此在圖像識別、自然語言處理等領域取得了顯著的成果。然而，將深度學習應用于自然場景下的文檔識別仍面臨一些挑戰，如如何處理光線、角度、遮擋密集型表格內容等影響，如何提高識別的準確率和效率等。

4、總的來說，現有不管基于深度學習的表格識別算法，如：微軟的detr、百度的ppstructure、mastertable等深度學習算法，還是基于傳統機器學習的表格識別算法，如camelot、pymupdf等算法，均存在對自然場景、密集型、靠近表格線等的表格識別效果不佳，存在識別內容錯位、識別科目信息不全及錯誤等泛化能力不強問題。

技術實現思路

1、鑒于

2、一方面，本專利技術提供了一種自然場景下文檔類財務報告識別方法，所述方法包括以下步驟：

3、接收待識別的財務報告文件，將其轉換為圖像格式，得到財報圖像；

4、對所述財報圖像進行方向矯正，并擦除覆蓋在所述財報圖像上的遮蓋物；

5、采用第一預設深度學習算法檢測所述財務圖像上的表格的位置，并裁剪出表格區域；在所述表格區域中，采用第二預設深度學習算法檢測表結構的單元線，根據所述單元線劃分單元格；對每個單元格進行中心化處理，以提取每個單元格的信息；

6、對提取得到的信息按照科目類別進行標準化，以統一描述形式，得到識別結果；

7、根據業務場景，將所述識別結果進行結構化輸出。

8、在本專利技術的一些實施例中，接收待識別的財務報告文件，將其轉換為圖像格式，得到財報圖像，還包括：

9、對所述財報圖像進行預處理，以增強圖像質量；所述預處理包括提高亮度、增加對比度、提高分辨率中的一種或多種操作。

10、在本專利技術的一些實施例中，對所述財報圖像進行方向矯正，包括：

11、將所述財報圖像輸入預訓練得到的多角度分類模型，以得到所述財報圖像的傾斜角度，根據得到的傾斜角度對所述財報圖像進行粗粒度矯正；

12、結合使用透視變換和幾何變換方法，對所述財報圖像進行細粒度矯正。

13、在本專利技術的一些實施例中，擦除覆蓋在所述財報圖像上的遮蓋物，包括：

14、將所述財報圖像輸入基于深度學習訓練得到的印章檢測模型，得到遮蓋物的位置；

15、使用基于生成對抗網絡訓練得到的印章擦除模型擦除所述遮蓋物。

16、在本專利技術的一些實施例中，對每個單元格進行中心化處理，包括：

17、對所述單元格進行放大，并在所述單元格上、下、左、右側進行補白，以提高識別準確率。

18、在本專利技術的一些實施例中，在所述表格區域中，采用第二預設深度學習算法檢測表結構的單元線，根據所述單元線劃分單元格，還包括：

19、計算各單元格中心點之間的平面角度，確定相對方向；計算各單元格中心點之間的距離，確定相對位置；使用中心點之間的角度衡量各單元格在平面上的相對方向，以定位、劃分單元格。

20、在本專利技術的一些實施例中，對提取得到的信息按照科目類別進行標準化，以統一描述形式，包括：

21、采用預設文本分類算法，對提取得到的信息進行分類和映射，將不同科目描述標準化為統一描述形式。

22、在本專利技術的一些實施例中，根據業務場景，將所述識別結果進行結構化輸出，包括：

23、從所述識別結果中提取關鍵信息，并確定數據類型；其中，所述關鍵信息至少包括科目名稱、金額和日期；所述數據類型至少包括文本、數字和日期；

24、將所述關鍵信息映射至預定義的數據模型，并進行標準化；所述預定義的數據模型為根據業務需求設計的數據結構，預先定義各數據項之間的關系；

25、經驗證無誤后，根據業務需求選擇輸出格式輸出結構化數據報告。

26、另一方面，本專利技術還提供一種自然場景下文檔類財務報告識別裝置，所述裝置被執行時實現如上文中提及的任意一項所述方法的步驟，所述裝置包括：

27、文件處理模塊，用于接收待識別的財務報告文件，將其轉換為圖像格式，得到財報圖像；

28、矯正擦除模塊，用于對所述財報圖像進行方向矯正，并擦除覆蓋在所述財報圖像上的遮蓋物；

29、表格處理模塊，用于采用第一預設深度學習算法檢測所述財務圖像上的表格的位置，并裁剪出表格區域；在所述表格區域中，采用第二預設深度學習算法檢測表結構的單元線，根據所述單元線劃分單元格；對每個單元格進行中心化處理，以提取每個單元格的信息；

30、信息標準化模塊，用于對提取得到的信息按照科目類別進行標準化，以統一描述形式，得到識別結果；

31、結構化輸出模塊，用于根據業務場景，將所述識別結果進行結構化輸出。

32、另一方面，本專利技術還提供一種計算機可讀存儲介質，其上存儲有計算機程序，該程序被處理器執行時實現如上文中提及的任意一項所述方法的步驟。

33、本專利技術的有益效果至少是：

34、本專利技術提供一種自然場景下文檔類財務報告識別方法及裝置，包括：接收待識別的財務報告文件，將其轉換為圖像格式，得到財報圖像；對財報圖像進行方向矯正，并擦除覆蓋在財報圖像上的遮蓋物；采用第一預設深度學習算法檢測財務圖像上的表格的位置，并裁剪出表格區域；在表格區域中，采用第二預設深度學習算法檢測表結構的單元線，根據所述單元線劃分單元格；對每個單元格進行中心化處理，以提取每個單元格的信息；對提取得到的信息按照科目類別進行標準化，以統一描述形式，得到識別結果；根據業務場景，將識別結果進行結構化輸出。相較現有技術，本專利技術提供的方法能夠更好地處理光線、角度、遮擋等問題對財務報告識別的影響，即，能夠在復雜環境下檢測并識別財務報告文檔中的關鍵信息，實現自動化地文檔管理和處理，提高了識別的準確率和效率，極大降低人工成本，提高業務上下游效率。本文檔來自技高網...

【技術保護點】

1.一種自然場景下文檔類財務報告識別方法，其特征在于，所述方法包括以下步驟：

2.根據權利要求1所述的自然場景下文檔類財務報告識別方法，其特征在于，接收待識別的財務報告文件，將其轉換為圖像格式，得到財報圖像，還包括：

3.根據權利要求1所述的自然場景下文檔類財務報告識別方法，其特征在于，對所述財報圖像進行方向矯正，包括：

4.根據權利要求1所述的自然場景下文檔類財務報告識別方法，其特征在于，擦除覆蓋在所述財報圖像上的遮蓋物，包括：

5.根據權利要求1所述的自然場景下文檔類財務報告識別方法，其特征在于，對每個單元格進行中心化處理，包括：

6.根據權利要求1所述的自然場景下文檔類財務報告識別方法，其特征在于，在所述表格區域中，采用第二預設深度學習算法檢測表結構的單元線，根據所述單元線劃分單元格，還包括：

7.根據權利要求1所述的自然場景下文檔類財務報告識別方法，其特征在于，對提取得到的信息按照科目類別進行標準化，以統一描述形式，包括：

8.根據權利要求1所述的自然場景下文檔類財務報告識別方法，其特征在

9.一種自然場景下文檔類財務報告識別裝置，其特征在于，所述裝置被執行時實現如權利要求1至8中任一項所述方法的步驟，所述裝置包括：

10.一種計算機可讀存儲介質，其上存儲有計算機程序，其特征在于，該程序被處理器執行時實現如權利要求1至8中任一項所述方法的步驟。

...

【技術特征摘要】

1.一種自然場景下文檔類財務報告識別方法，其特征在于，所述方法包括以下步驟：

3.根據權利要求1所述的自然場景下文檔類財務報告識別方法，其特征在于，對所述財報圖像進行方向矯正，包括：

4.根據權利要求1所述的自然場景下文檔類財務報告識別方法，其特征在于，擦除覆蓋在所述財報圖像上的遮蓋物，包括：

5.根據權利要求1所述的自然場景下文檔類財務報告識別方法，其特征在于，對每個單元格進行中心化處理，包括：

6.根據權利要求1所述的自然場景下文檔類財務報告識別方法，其特征...

【專利技術屬性】
技術研發人員：姜勇，楊雷，李印，崔健，羅衍潮，
申請(專利權)人：中企云鏈股份有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術