【技術實現步驟摘要】
本專利技術涉及文本處理,特別是涉及大模型驅動的樹索引結構在rag內容解析中的應用方法。
技術介紹
1、rag(檢索增強生成,retrieval?augmented?generation)是一種結合了信息檢索和自然語言生成的技術,旨在為大語言模型提供從外部數據源檢索信息的能力,并以此為基礎生成更準確、相關性更高的回答,在rag的工作流程中,當用戶提出一個問題或請求時,系統首先會從其對應的數據庫中檢索相關的文檔或片段。然后,這些檢索到的信息會被整合到大語言模型的輸入提示中,作為額外的上下文信息,幫助模型生成更加精確和相關的回答,因此,為了使rag能夠有效地檢索和利用外部信息,需要將文本上傳到rag對應的數據庫中,簡稱文本入庫,以便rag能夠快速且有效地進行檢索。現有的文本入庫方法包括:按照語句、段落、固定字符數量、語義或摘要對文本進行切分以獲取若干個文本片段,將每一個文本片段作為一個獨立的存儲單元上傳到數據庫中。
2、但是上述方法也存在以下技術問題:
3、按照上述方法對文本進行切分,可能會破壞文本的整體結構和不同的文本片段之間的語義聯系,從而導致上下文缺失。這也可能導致某些文本片段因缺乏必要的上下文而丟失原有的意義,從而影響rag的檢索效率和生成質量。
技術實現思路
1、針對上述技術問題,本專利技術采用的技術方案為:
2、大模型驅動的樹索引結構在rag內容解析中的應用方法,方法包括如下步驟:
3、s1、若原始文本的長度小于預設文本長度,則
4、s2、獲取初始文本對應的中間文本列表a={a1,a2,……,ai,……,am},ai為初始文本對應的第i個中間文本,i的取值為1到m,m為初始文本對應的中間文本的數量,中間文本包括中間段落文本和中間段落文本對應的中間標題路徑,其中,中間標題路徑中包括若干個標題級別不同的標題文本,若干個標題文本按照標題級別從高到低的順序通過預設連接字符依次連接,中間段落文本和中間段落文本對應的中間標題路徑通過預設連接字符連接。
5、s3、基于樹結構生成規則、ai中的中間標題路徑和中間段落文本,生成一個樹結構的存儲數據作為ai對應的樹狀存儲數據。
6、s4、根據節點合并規則對a1,a2,……,ai,……,am對應的樹狀存儲數據進行合并,以獲取a對應的樹狀存儲數據。
7、s5、獲取a對應的樹狀存儲數據中的每一個節點對應的屬性信息,并將節點對應的屬性信息存儲到節點中,以使得對a對應的樹狀存儲數據進行更新并給樹狀存儲數據分配一個唯一的id,節點對應的屬性信息包括節點文本對應的關鍵詞列表,關鍵詞列表中包括若干個關鍵詞,節點文本對應的主題標簽,節點文本對應的文本位置信息和節點對應的綜合向量,其中,當節點中存儲的數據為標題文本時,將標題文本作為節點文本,當節點中存儲的數據為段落文本中,將段落文本作為節點文本,節點文本對應的文本位置信息為表示節點文本在原始文本中的具體位置的信息。
8、s6、將a對應的樹狀存儲數據和樹狀存儲數據的id上傳到rag對應的數據庫中。
9、本專利技術至少具有以下有益效果:
10、本專利技術提供了大模型驅動的樹索引結構在rag內容解析中的應用方法,所述方法能夠根據原始文本的長度和預設文本長度獲取初始文本;根據初始文本對應的中間文本列表,其中,中間文本包括中間段落文本和中間段落文本對應的中間標題路徑,中間標題路徑中包括若干個標題級別不同的標題文本,若干個標題文本按照標題級別從高到低的順序通過預設連接字符依次連接,中間段落文本和中間段落文本對應的中間標題路徑通過預設連接字符連接;根據中間文本,獲取中間文本列表對應的樹狀存儲數據;獲取樹狀存儲數據中的每一個節點對應的屬性信息,并將節點對應的屬性信息存儲到節點中,以使得對樹狀存儲數據進行更新并給樹狀存儲數據分配一個唯一的id;將樹狀存儲數據和樹狀存儲數據的id上傳到rag對應的數據庫中。可知,本專利技術將文本中的標題和段落按照層次關系存儲在樹形結構中,以獲取樹狀存儲數據,能夠保證文本的整體結構和初始文本之間的語義聯系不被破壞,將樹狀存儲數據和樹狀存儲數據的id上傳到rag對應的數據庫中,有利于提高rag的檢索效率和生成質量。
本文檔來自技高網...【技術保護點】
1.大模型驅動的樹索引結構在RAG內容解析中的應用方法,其特征在于,所述方法包括如下步驟:
2.根據權利要求1所述的大模型驅動的樹索引結構在RAG內容解析中的應用方法,其特征在于,在步驟S1之前,還通過如下步驟對待處理文本進行數據清洗以獲取原始文本,待處理文本為需要上傳到RAG系統對應的數據庫中的文本:
3.根據權利要求1所述的大模型驅動的樹索引結構在RAG內容解析中的應用方法,其特征在于,在步驟S2中包括如下步驟S21-S25:
4.根據權利要求1所述的大模型驅動的樹索引結構在RAG內容解析中的應用方法,其特征在于,樹結構生成規則為:將中間標題路徑中按照標題級別從高到低的順序通過預設連接字符依次連接的若干個標題文本依次作為樹結構的存儲數據中的根節點和子節點存儲的數據,將中間段落文本作為樹結構的存儲數據中的葉子節點存儲的數據。
5.根據權利要求1所述的大模型驅動的樹索引結構在RAG內容解析中的應用方法,其特征在于,節點合并規則為:當A1,A2,……,Ai,……,Am對應的樹狀存儲數據中存在若干個存儲的數據相同的節點,則將若干個存儲的
6.根據權利要求1所述的大模型驅動的樹索引結構在RAG內容解析中的應用方法,其特征在于,在步驟S5中包括如下步驟:
7.根據權利要求6所述的大模型驅動的樹索引結構在RAG內容解析中的應用方法,其特征在于,綜合向量中包括4個向量值,分別與節點文本、節點文本對應的關鍵詞列表,節點文本對應的主題標簽和節點文本對應的文本位置信息一一對應。
8.根據權利要求1所述的大模型驅動的樹索引結構在RAG內容解析中的應用方法,其特征在于,在步驟S5之后,步驟S6之前,還包括如下步驟:
...【技術特征摘要】
1.大模型驅動的樹索引結構在rag內容解析中的應用方法,其特征在于,所述方法包括如下步驟:
2.根據權利要求1所述的大模型驅動的樹索引結構在rag內容解析中的應用方法,其特征在于,在步驟s1之前,還通過如下步驟對待處理文本進行數據清洗以獲取原始文本,待處理文本為需要上傳到rag系統對應的數據庫中的文本:
3.根據權利要求1所述的大模型驅動的樹索引結構在rag內容解析中的應用方法,其特征在于,在步驟s2中包括如下步驟s21-s25:
4.根據權利要求1所述的大模型驅動的樹索引結構在rag內容解析中的應用方法,其特征在于,樹結構生成規則為:將中間標題路徑中按照標題級別從高到低的順序通過預設連接字符依次連接的若干個標題文本依次作為樹結構的存儲數據中的根節點和子節點存儲的數據,將中間段落文本作為樹結構的存儲數據中的葉子節點存儲的數據。
5.根...
【專利技術屬性】
技術研發人員:李瑞群,孫雷,徐楠,李軍鋒,曹家,羅引,王磊,
申請(專利權)人:北京中科聞歌科技股份有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。