System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 中文午夜乱理片无码,日韩人妻无码一区二区三区,亚洲不卡中文字幕无码
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    富文本的結構化信息提取方法、設備及存儲介質技術

    技術編號:44531676 閱讀:6 留言:0更新日期:2025-03-07 13:21
    本申請公開了一種富文本的結構化信息提取方法、設備及存儲介質,該富文本的結構化信息提取方法包括:獲取當前節點與文本結構圖中的其他節點之間的連接緊密度和/或當前節點對應的文本內容的文本復雜度,基于連接緊密度和/或文本復雜度計算當前節點對應的特征融合權重;利用特征融合權重融合當前節點對應的文本特征和圖結構特征,得到當前節點對應的融合特征;基于融合特征預測當前節點適配的結構化數據轉換格式,采用結構化數據轉換格式將當前節點對應的文本內容轉換為結構化信息,可以準確靈活設定每個節點對應的特征融合權重,以提高每個不同節點最終得到的融合特征的特征表達能力,從而提升原始富文本的結構化信息提取的準確性和適用性。

    【技術實現步驟摘要】

    本申請涉及文本處理,特別是涉及一種富文本的結構化信息提取方法、設備及存儲介質


    技術介紹

    1、隨著網絡信息時代的發展和普及,富文本通常是獲取文本數據源的重要來源,例如,富文本包括基于超文本標記語言(hyper?text?markup?language,html)的網頁文檔、基于可擴展標記語言?(extensible?markup?language,xml)的辦公(office)文件、或者基于輕量級標記語言(markdown)的筆記(notebook)文件等。

    2、但是,富文本往往格式多樣、包含過多的無用信息,導致無法直接使用,因此,如何對富文本中的有效信息進行提取,是本領域技術人員亟待解決的技術文本。


    技術實現思路

    1、為了解決上述技術問題,本申請至少提供一種富文本的結構化信息提取方法、設備及存儲介質。

    2、本申請第一方面提供了一種富文本的結構化信息提取方法,方法包括:將原始富文本中的各個文本內容分別作為節點,各個文本內容之間的文檔結構關系作為邊,構建得到文本結構圖;對當前節點對應的文本內容進行編碼,得到當前節點對應的文本特征,以及,對當前節點在文本結構圖中的結構信息進行編碼,得到當前節點對應的圖結構特征;獲取當前節點與文本結構圖中的其他節點之間的連接緊密度和/或當前節點對應的文本內容的文本復雜度,基于連接緊密度和/或文本復雜度計算當前節點對應的特征融合權重;利用特征融合權重融合當前節點對應的文本特征和圖結構特征,得到當前節點對應的融合特征;基于融合特征預測當前節點適配的結構化數據轉換格式,采用結構化數據轉換格式將當前節點對應的文本內容轉換為對應的結構化信息。

    3、在一實施例中,獲取當前節點與文本結構圖中的其他節點之間的連接緊密度,包括:統計在文本結構圖中當前節點連接的邊的數量、和/或統計當前節點與根節點之間的邊的數量、和/或統計當前節點與根節點之間的路徑的數量,得到當前節點對應的圖結構統計結果;基于當前節點對應的圖結構統計結果,計算得到當前節點對應的連接緊密度。

    4、在一實施例中,獲取當前節點對應的文本內容的文本復雜度,包括:統計當前節點對應的文本內容的字符數量、和/或統計當前節點對應的文本內容的語句數量、和/或統計當前節點對應的文本內容的段落數量,得到當前節點對應的文本統計結果;基于當前節點對應的文本統計結果,計算得到當前節點對應的文本復雜度。

    5、在一實施例中,利用特征融合權重融合當前節點對應的文本特征和圖結構特征,得到當前節點對應的融合特征,包括:利用注意力機制對當前節點對應的文本特征和圖結構特征進行分析,得到注意力權重;結合特征融合權重和注意力權重,對當前節點對應的文本特征和圖結構特征進行加權融合,得到當前節點對應的融合特征。

    6、在一實施例中,對當前節點在文本結構圖中的結構信息進行編碼,得到當前節點對應的圖結構特征,包括:提取當前節點的結構信息,對結構信息進行編碼得到當前節點的節點嵌入表示;確定當前節點對應的鄰近節點,獲取鄰近節點的節點嵌入表示;融合鄰近節點的節點嵌入表示和當前節點的節點嵌入表示,得到當前節點對應的圖結構特征。

    7、在一實施例中,融合鄰近節點的節點嵌入表示和當前節點的節點嵌入表示,得到當前節點對應的圖結構特征,包括:基于當前節點的節點嵌入表示與鄰近節點的節點嵌入表示之間的向量距離,計算權重當前節點與鄰近節點之間的融合權重;基于當前節點與鄰近節點之間的融合權重,對鄰近節點的節點嵌入表示和當前節點的節點嵌入表示進行加權融合,得到當前節點對應的圖結構特征。

    8、在一實施例中,結構化數據轉換格式包括鍵值對,鍵值對由鍵參數和值參數組成,不同結構化數據轉換格式對應不同的鍵參數;基于融合特征預測當前節點適配的結構化數據轉換格式,采用結構化數據轉換格式將當前節點對應的文本內容轉換為對應的結構化信息,包括:基于融合特征預測當前節點適配的結構化數據轉換格式,獲取適配的結構化數據格式對應的鍵參數;將當前節點對應的文本內容作為值參數,結合當前節點對應的鍵參數和值參數,得到當前節點對應的結構化信息。

    9、在一實施例中,方法還包括:獲取篩選規則;選取出鍵參數滿足篩選規則的節點,得到信息輸出節點;獲取各個信息輸出節點對應的結構化信息,得到最終輸出信息。

    10、本申請第二方面提供了一種富文本的結構化信息提取裝置,裝置包括:圖構建模塊,用于將原始富文本中的各個文本內容分別作為節點,各個文本內容之間的文檔結構關系作為邊,構建得到文本結構圖;編碼模塊,用于對當前節點對應的文本內容進行編碼,得到當前節點對應的文本特征,以及,對當前節點在文本結構圖中的結構信息進行編碼,得到當前節點對應的圖結構特征;權重計算模塊,用于獲取當前節點與文本結構圖中的其他節點之間的連接緊密度和/或當前節點對應的文本內容的文本復雜度,基于連接緊密度和/或文本復雜度計算當前節點對應的特征融合權重;特征融合模塊,用于利用特征融合權重融合當前節點對應的文本特征和圖結構特征,得到當前節點對應的融合特征;信息提取模塊,用于基于融合特征預測當前節點適配的結構化數據轉換格式,采用結構化數據轉換格式將當前節點對應的文本內容轉換為對應的結構化信息。

    11、本申請第三方面提供了一種電子設備,包括存儲器和處理器,處理器用于執行存儲器中存儲的程序指令,以實現上述富文本的結構化信息提取方法。

    12、本申請第四方面提供了一種計算機可讀存儲介質,其上存儲有程序指令,程序指令被處理器執行時實現上述富文本的結構化信息提取方法。

    13、上述方案,通過將原始富文本中的各個文本內容分別作為節點,各個文本內容之間的文檔結構關系作為邊,構建得到文本結構圖;對當前節點對應的文本內容進行編碼,得到當前節點對應的文本特征,以及,對當前節點在文本結構圖中的結構信息進行編碼,得到當前節點對應的圖結構特征;獲取當前節點與文本結構圖中的其他節點之間的連接緊密度和/或當前節點對應的文本內容的文本復雜度,基于連接緊密度和/或文本復雜度計算當前節點對應的特征融合權重;利用特征融合權重融合當前節點對應的文本特征和圖結構特征,得到當前節點對應的融合特征;基于融合特征預測當前節點適配的結構化數據轉換格式,采用結構化數據轉換格式將當前節點對應的文本內容轉換為對應的結構化信息,可以準確靈活設定每個節點對應的特征融合權重,以提高每個不同節點最終得到的融合特征的特征表達能力,從而提升原始富文本的結構化信息提取的準確性和適用性。

    14、應當理解的是,以上的一般描述和后文的細節描述僅是示例性和解釋性的,而非限制本申請。

    本文檔來自技高網...

    【技術保護點】

    1.一種富文本的結構化信息提取方法,其特征在于,所述方法包括:

    2.根據權利要求1所述的方法,其特征在于,獲取所述當前節點與所述文本結構圖中的其他節點之間的連接緊密度,包括:

    3.根據權利要求1所述的方法,其特征在于,獲取所述當前節點對應的文本內容的文本復雜度,包括:

    4.根據權利要求1所述的方法,其特征在于,所述利用所述特征融合權重融合所述當前節點對應的文本特征和圖結構特征,得到所述當前節點對應的融合特征,包括:

    5.根據權利要求1所述的方法,其特征在于,所述對所述當前節點在所述文本結構圖中的結構信息進行編碼,得到所述當前節點對應的圖結構特征,包括:

    6.根據權利要求5所述的方法,其特征在于,所述融合所述鄰近節點的節點嵌入表示和所述當前節點的節點嵌入表示,得到所述當前節點對應的圖結構特征,包括:

    7.根據權利要求1所述的方法,其特征在于,所述結構化數據轉換格式包括鍵值對,所述鍵值對由鍵參數和值參數組成,不同結構化數據轉換格式對應不同的鍵參數;所述基于所述融合特征預測所述當前節點適配的結構化數據轉換格式,采用所述結構化數據轉換格式將所述當前節點對應的文本內容轉換為對應的結構化信息,包括:

    8.根據權利要求7所述的方法,其特征在于,所述方法還包括:

    9.一種電子設備,其特征在于,所述電子設備包括存儲器和處理器,處理器用于執行存儲器中存儲的程序指令,以實現如權利要求1-8任一項所述方法中的步驟。

    10.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質存儲有程序指令,所述程序指令能夠被處理器執行以實現如權利要求1-8任一項所述方法中的步驟。

    ...

    【技術特征摘要】

    1.一種富文本的結構化信息提取方法,其特征在于,所述方法包括:

    2.根據權利要求1所述的方法,其特征在于,獲取所述當前節點與所述文本結構圖中的其他節點之間的連接緊密度,包括:

    3.根據權利要求1所述的方法,其特征在于,獲取所述當前節點對應的文本內容的文本復雜度,包括:

    4.根據權利要求1所述的方法,其特征在于,所述利用所述特征融合權重融合所述當前節點對應的文本特征和圖結構特征,得到所述當前節點對應的融合特征,包括:

    5.根據權利要求1所述的方法,其特征在于,所述對所述當前節點在所述文本結構圖中的結構信息進行編碼,得到所述當前節點對應的圖結構特征,包括:

    6.根據權利要求5所述的方法,其特征在于,所述融合所述鄰近節點的節點嵌入表示和所述當前節點的節點嵌入表示,得到所述當前...

    【專利技術屬性】
    技術研發人員:陳浩陳媛媛巫笠平曹瑩范非凡熊劍平
    申請(專利權)人:浙江大華技術股份有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 日韩av无码中文字幕| 在线看无码的免费网站| 久久久久精品国产亚洲AV无码| 亚洲ⅴ国产v天堂a无码二区| 无码国产精品久久一区免费| 中文字幕av无码不卡| 一本久道综合在线无码人妻| 国产av无码专区亚洲国产精品| 久久久久亚洲AV片无码| 亚洲a无码综合a国产av中文| 亚洲AV日韩AV永久无码绿巨人| 国产aⅴ激情无码久久久无码| 色欲A∨无码蜜臀AV免费播| 亚洲Av无码乱码在线播放| 亚洲人成人无码.www石榴| 无码人妻一区二区三区在线| 东京热无码av一区二区| 无码aⅴ精品一区二区三区| 久久无码中文字幕东京热| 亚洲精品无码午夜福利中文字幕 | 中文午夜人妻无码看片| 国产成人无码A区在线观看视频| 人妻少妇看A偷人无码电影| 亚洲成AV人片天堂网无码| 无码任你躁久久久久久老妇| 毛片亚洲AV无码精品国产午夜| 久久青青草原亚洲av无码app| 丰满熟妇人妻Av无码区| 国产乱子伦精品无码专区| 国产午夜无码视频免费网站| 蜜芽亚洲av无码一区二区三区 | 亚洲av成人无码网站…| 亚洲av永久无码精品国产精品 | 精品亚洲成A人无码成A在线观看| 国产综合无码一区二区辣椒| 国产aⅴ无码专区亚洲av麻豆| 日韩久久无码免费毛片软件| 亚洲区日韩区无码区| 日韩精品无码一区二区视频| 日韩精品无码人成视频手机| 国产av无码专区亚洲av果冻传媒 |