• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    大模型驅動的樹索引結構在RAG內容解析中的應用方法技術

    技術編號:45091330 閱讀:25 留言:0更新日期:2025-04-25 18:27
    本發明專利技術提供了大模型驅動的樹索引結構在RAG內容解析中的應用方法,所述方法根據原始文本的長度和預設文本長度獲取初始文本;根據初始文本對應的中間文本列表,獲取中間文本列表對應的樹狀存儲數據,其中,中間文本包括中間段落文本和中間段落文本對應的中間標題路徑,中間標題路徑中包括若干個標題級別不同的標題文本;獲取樹狀存儲數據中的每一個節點對應的屬性信息,并將節點對應的屬性信息存儲到節點中,以使得對樹狀存儲數據進行更新并給樹狀存儲數據分配一個唯一的ID;將樹狀存儲數據和樹狀存儲數據的ID上傳到RAG對應的數據庫中,能夠保證文本的整體結構和初始文本之間的語義聯系不被破壞,能夠提高RAG的檢索效率和生成質量。

    【技術實現步驟摘要】

    本專利技術涉及文本處理,特別是涉及大模型驅動的樹索引結構在rag內容解析中的應用方法。


    技術介紹

    1、rag(檢索增強生成,retrieval?augmented?generation)是一種結合了信息檢索和自然語言生成的技術,旨在為大語言模型提供從外部數據源檢索信息的能力,并以此為基礎生成更準確、相關性更高的回答,在rag的工作流程中,當用戶提出一個問題或請求時,系統首先會從其對應的數據庫中檢索相關的文檔或片段。然后,這些檢索到的信息會被整合到大語言模型的輸入提示中,作為額外的上下文信息,幫助模型生成更加精確和相關的回答,因此,為了使rag能夠有效地檢索和利用外部信息,需要將文本上傳到rag對應的數據庫中,簡稱文本入庫,以便rag能夠快速且有效地進行檢索。現有的文本入庫方法包括:按照語句、段落、固定字符數量、語義或摘要對文本進行切分以獲取若干個文本片段,將每一個文本片段作為一個獨立的存儲單元上傳到數據庫中。

    2、但是上述方法也存在以下技術問題:

    3、按照上述方法對文本進行切分,可能會破壞文本的整體結構和不同的文本片段之間的語義聯系,從而導致上下文缺失。這也可能導致某些文本片段因缺乏必要的上下文而丟失原有的意義,從而影響rag的檢索效率和生成質量。


    技術實現思路

    1、針對上述技術問題,本專利技術采用的技術方案為:

    2、大模型驅動的樹索引結構在rag內容解析中的應用方法,方法包括如下步驟:

    3、s1、若原始文本的長度小于預設文本長度,則將原始文本作為初始文本,若原始文本的長度不小于預設文本長度,則按照預設文本長度對原始文本進行劃分,以獲取若干個初始文本,初始文本的長度與預設文本長度相同。

    4、s2、獲取初始文本對應的中間文本列表a={a1,a2,……,ai,……,am},ai為初始文本對應的第i個中間文本,i的取值為1到m,m為初始文本對應的中間文本的數量,中間文本包括中間段落文本和中間段落文本對應的中間標題路徑,其中,中間標題路徑中包括若干個標題級別不同的標題文本,若干個標題文本按照標題級別從高到低的順序通過預設連接字符依次連接,中間段落文本和中間段落文本對應的中間標題路徑通過預設連接字符連接。

    5、s3、基于樹結構生成規則、ai中的中間標題路徑和中間段落文本,生成一個樹結構的存儲數據作為ai對應的樹狀存儲數據。

    6、s4、根據節點合并規則對a1,a2,……,ai,……,am對應的樹狀存儲數據進行合并,以獲取a對應的樹狀存儲數據。

    7、s5、獲取a對應的樹狀存儲數據中的每一個節點對應的屬性信息,并將節點對應的屬性信息存儲到節點中,以使得對a對應的樹狀存儲數據進行更新并給樹狀存儲數據分配一個唯一的id,節點對應的屬性信息包括節點文本對應的關鍵詞列表,關鍵詞列表中包括若干個關鍵詞,節點文本對應的主題標簽,節點文本對應的文本位置信息和節點對應的綜合向量,其中,當節點中存儲的數據為標題文本時,將標題文本作為節點文本,當節點中存儲的數據為段落文本中,將段落文本作為節點文本,節點文本對應的文本位置信息為表示節點文本在原始文本中的具體位置的信息。

    8、s6、將a對應的樹狀存儲數據和樹狀存儲數據的id上傳到rag對應的數據庫中。

    9、本專利技術至少具有以下有益效果:

    10、本專利技術提供了大模型驅動的樹索引結構在rag內容解析中的應用方法,所述方法能夠根據原始文本的長度和預設文本長度獲取初始文本;根據初始文本對應的中間文本列表,其中,中間文本包括中間段落文本和中間段落文本對應的中間標題路徑,中間標題路徑中包括若干個標題級別不同的標題文本,若干個標題文本按照標題級別從高到低的順序通過預設連接字符依次連接,中間段落文本和中間段落文本對應的中間標題路徑通過預設連接字符連接;根據中間文本,獲取中間文本列表對應的樹狀存儲數據;獲取樹狀存儲數據中的每一個節點對應的屬性信息,并將節點對應的屬性信息存儲到節點中,以使得對樹狀存儲數據進行更新并給樹狀存儲數據分配一個唯一的id;將樹狀存儲數據和樹狀存儲數據的id上傳到rag對應的數據庫中。可知,本專利技術將文本中的標題和段落按照層次關系存儲在樹形結構中,以獲取樹狀存儲數據,能夠保證文本的整體結構和初始文本之間的語義聯系不被破壞,將樹狀存儲數據和樹狀存儲數據的id上傳到rag對應的數據庫中,有利于提高rag的檢索效率和生成質量。

    本文檔來自技高網...

    【技術保護點】

    1.大模型驅動的樹索引結構在RAG內容解析中的應用方法,其特征在于,所述方法包括如下步驟:

    2.根據權利要求1所述的大模型驅動的樹索引結構在RAG內容解析中的應用方法,其特征在于,在步驟S1之前,還通過如下步驟對待處理文本進行數據清洗以獲取原始文本,待處理文本為需要上傳到RAG系統對應的數據庫中的文本:

    3.根據權利要求1所述的大模型驅動的樹索引結構在RAG內容解析中的應用方法,其特征在于,在步驟S2中包括如下步驟S21-S25:

    4.根據權利要求1所述的大模型驅動的樹索引結構在RAG內容解析中的應用方法,其特征在于,樹結構生成規則為:將中間標題路徑中按照標題級別從高到低的順序通過預設連接字符依次連接的若干個標題文本依次作為樹結構的存儲數據中的根節點和子節點存儲的數據,將中間段落文本作為樹結構的存儲數據中的葉子節點存儲的數據。

    5.根據權利要求1所述的大模型驅動的樹索引結構在RAG內容解析中的應用方法,其特征在于,節點合并規則為:當A1,A2,……,Ai,……,Am對應的樹狀存儲數據中存在若干個存儲的數據相同的節點,則將若干個存儲的數據相同的節點合并為同一個節點,并將若干個存儲的數據相同的節點的子節點也進行合并。

    6.根據權利要求1所述的大模型驅動的樹索引結構在RAG內容解析中的應用方法,其特征在于,在步驟S5中包括如下步驟:

    7.根據權利要求6所述的大模型驅動的樹索引結構在RAG內容解析中的應用方法,其特征在于,綜合向量中包括4個向量值,分別與節點文本、節點文本對應的關鍵詞列表,節點文本對應的主題標簽和節點文本對應的文本位置信息一一對應。

    8.根據權利要求1所述的大模型驅動的樹索引結構在RAG內容解析中的應用方法,其特征在于,在步驟S5之后,步驟S6之前,還包括如下步驟:

    ...

    【技術特征摘要】

    1.大模型驅動的樹索引結構在rag內容解析中的應用方法,其特征在于,所述方法包括如下步驟:

    2.根據權利要求1所述的大模型驅動的樹索引結構在rag內容解析中的應用方法,其特征在于,在步驟s1之前,還通過如下步驟對待處理文本進行數據清洗以獲取原始文本,待處理文本為需要上傳到rag系統對應的數據庫中的文本:

    3.根據權利要求1所述的大模型驅動的樹索引結構在rag內容解析中的應用方法,其特征在于,在步驟s2中包括如下步驟s21-s25:

    4.根據權利要求1所述的大模型驅動的樹索引結構在rag內容解析中的應用方法,其特征在于,樹結構生成規則為:將中間標題路徑中按照標題級別從高到低的順序通過預設連接字符依次連接的若干個標題文本依次作為樹結構的存儲數據中的根節點和子節點存儲的數據,將中間段落文本作為樹結構的存儲數據中的葉子節點存儲的數據。

    5.根...

    【專利技術屬性】
    技術研發人員:李瑞群孫雷徐楠李軍鋒曹家羅引王磊
    申請(專利權)人:北京中科聞歌科技股份有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲熟妇无码八AV在线播放| 亚洲精品无码mⅴ在线观看| heyzo专区无码综合| 国产精品三级在线观看无码| 乱人伦中文无码视频在线观看| 色欲香天天综合网无码| 久久亚洲精品无码aⅴ大香| 国产福利电影一区二区三区久久老子无码午夜伦不 | 国模无码视频一区| 免费A级毛片无码视频| 少妇无码太爽了不卡在线观看 | 国产精品无码一本二本三本色 | 一本色道无码道DVD在线观看| 国产Av激情久久无码天堂| 亚洲无码精品浪潮| 国产成人精品无码专区| 无码国产精品一区二区免费I6| 秋霞鲁丝片Av无码少妇| 久久无码无码久久综合综合| 亚洲日韩欧洲无码av夜夜摸| 久久精品无码av| 成人免费无码H在线观看不卡 | 无码中文人妻在线一区二区三区| 亚洲成AV人片天堂网无码| 惠民福利中文字幕人妻无码乱精品 | 在线高清无码A.| 亚洲午夜无码片在线观看影院猛| 国产av无码专区亚洲av毛片搜| 在线观看成人无码中文av天堂| 亚洲av中文无码乱人伦在线r▽ | 亚洲αⅴ无码乱码在线观看性色| 久久精品国产亚洲AV无码麻豆| 777爽死你无码免费看一二区| 久久国产加勒比精品无码| 日韩AV无码精品人妻系列| 无码精品视频一区二区三区| 精品久久久无码21p发布| 亚洲精品无码永久在线观看男男| 人妻丰满熟妇AV无码区免| 丰满爆乳无码一区二区三区| 国产成人无码aa精品一区|