【技術實現步驟摘要】
本專利技術涉及本角色扮演大模型領域,尤其涉及一種基于歷史人物作品與生平的大模型構建方法及裝置。
技術介紹
1、隨著人工智能(ai)和自然語言處理(nlp)技術的快速發展,基于大規模預訓練語言模型(如gpt、bert等)的技術已經在多個領域取得了顯著成果。這些模型在生成與理解現代語言方面展現出了強大的能力,廣泛應用于智能助手、自動翻譯、內容生成等領域。
2、隨著人工智能技術的進步,特別是在自然語言處理和大模型方面的突破,如何通過技術手段再現或模擬歷史人物人格特質、文學風格及思想深度,成為一個具有重大意義的研究課題。
3、現有的大模型雖然在模擬現代語言和行為方面取得了一定的成果,但在再現歷史人物,尤其文化深厚、個性鮮明的人物時,仍然面臨巨大挑戰。例如,如何讓模型理解并再現歷史人物的思維方式、表達習慣,以及如何在對話中融入特定歷史人物的歷史背景、典故和思想體系,這些問題在現有技術中尚未得到有效解決。
4、此外,現有的大語言模型由于在預訓練過程中學習了大量的現代知識和信息,這些知識涵蓋了從科學技術到當代社會文化的廣泛領域。然而,對于諸多歷史人物而言,這些現代知識是他們所不應知曉和理解的。因此,當大模型在模擬歷史人物時,如果生成包含現代知識的內容,就會違背歷史真實感,導致模型無法準確再現歷史人物的認知水平和思想深度,從而影響模型的逼真度和可信度。現有的方法是在提示語句中提醒模型遺忘相關的知識,但是這樣的方法會陷入兩個缺點,第一:提示語句的添加并不能完全阻止模型輸出相關知識,第二點則是在用戶提出相關知識時
技術實現思路
1、本專利技術目的在于針對現有技術的不足,提出一種基于歷史人物作品與生平的大模型構建方法。
2、本專利技術的目的是通過以下技術方案來實現的:一種基于歷史人物作品與生平的大模型構建方法,該方法包括如下步驟:
3、s1、采集所需要生成的歷史人物對應的作品數據和生平數據并進行文本清洗,得到歷史人物信息數據;
4、s2、將歷史人物信息數據作為知識庫,構建歷史人物對話數據場景與對話內容,構建對話段落得到對話數據;
5、s3、根據大模型的tokenizer將對話數據中的輸入文本進行向量化處理,并對訓練數據添加掩碼mask標記,得到訓練數據,使用所述訓練數據對大模型進行微調;
6、s4、將文本清洗后的歷史人物作品數據和生平數據輸入文檔解析器進行解析生成文本塊,并使用預訓練的大語言模型將每個文本塊轉換為高維編碼,將高維編碼儲存在向量數據庫中用于增強大語言模型輸出。
7、進一步地,所述作品數據和生平數據在采集時進行去重、構建標題和內容以及對同標題的不同內容進行編號處理。
8、進一步地,所述構建歷史人物對話數據場景與對話內容包括:構建prompt,利用知識庫和prompt通過gpt-4的api接口,使用gpt-4生成歷史人物與不同行業的人對話背景與對話內容。
9、進一步地,所述對話內容包括不同行業的任務對歷史人物的個人信息詢問、作品討論和人物討論。
10、進一步地,所述根據大模型的tokenizer將對話數據中的輸入文本進行向量化處理,具體步驟如下:
11、為每一條數據之前添加段落開頭[gmask]<sop>,作為一段新數據的開頭提示模型生成這些被掩蓋的部分,在數據結尾添加<|endoftext|>作為該段落的文本結束標記;
12、針對于每條數據中的指令和問答對,在每條數據的指令前添加<|system|>來指代該部分數據作為指令,在用戶提問前添加<|user|>來指代該部分數據作為用戶輸入數據,在期望模型輸出的數據前添加<|assistant|>作為模型輸出;
13、添加完標記以后,通過選定的大模型對應的tokenizer對數據進行編碼,將文本轉換為向量的形式;
14、根據添加的標記,對<|assistant|>的內容進行損失mask構建,即在模型優化過程中只計算<|assistant|>的內容的損失值,將mask的部分添加對應的向量值作為后續模型計算損失的依據,對非mask部分以-100代表不計算損失。
15、進一步地,在訓練過程中如果模型生成的結果在非mask部分出現遺忘詞,則該部分的損失將受到懲罰,根據懲罰系數增大懲罰,具體計算公式如下:
16、根據原始的padding_mask獲取非mask部分
17、
18、獲取模型第i維的輸出outputi
19、
20、其中,n代表詞表的長度,zi代表預測為模型輸出第i維的值,代表模型預測的詞;
21、根據的值來評估是否需要懲罰,計算懲罰系數α,公式如下
22、
23、其中vall代表模型的完整詞表,v代表可保留詞匯表;
24、懲罰值為penalty=eα;
25、根據penalty和padding_mask得到最后的mask,具體公式為
26、penalty_mask=penalty×padding_mask。
27、進一步地,在模型訓練過程中根據penalty_mask來放縮mask以達到模型遺忘非vocab中的詞匯。
28、進一步地,所述生成文本塊的具體步驟如下:
29、根據處理的數據的存儲格式,選定對應的文檔分類器;
30、使用對應的分類器解析文檔并除去干擾項,并保留文檔原始的數據結構和關聯關系;
31、根據數據的存儲格式以及解析提取的內容,對文檔進行分塊得到文檔塊,保留原始文件的語義結構。
32、進一步地,所述將每個文本塊轉換為高維編碼的具體操作為:得到文本塊后,將文本塊進行向量化,并使用選定的大模型的embedding層對輸出進行embedding轉成高維向量并存入向量知識庫。
33、進一步地,所述增強大語言模型輸出具體為對用戶輸入問題在向量庫中進行檢索,具體過程為:
34、對于用戶輸入的問題t,轉換為嵌入向量表示為e(t)=embeddingmodel(t),其中embeddingmodel是3.3中選擇的大模型的embbeding部分
35、根據得到的嵌入向量和存儲的向量數據庫,根據余弦相似度計算公式:其中q是問題的向量表示,d是文檔的向量表示,計算相似度;
36、根據得到的輸入問題和文檔的相似度,選擇前k個或大于相似度閾值的文檔作為提示一起輸入給模型。
37、另一方面,本專利技術還提供了一種基于歷史人物作品與生平的大模型構建裝置,包括存儲器和一個或多個處理器,所述本文檔來自技高網...
【技術保護點】
1.一種基于歷史人物作品與生平的大模型構建方法,其特征在于,該方法包括如下步驟:
2.根據權利要求1所述的一種基于歷史人物作品與生平的大模型構建方法,其特征在于,所述構建歷史人物對話數據場景與對話內容包括:構建Prompt,利用知識庫和Prompt通過GPT-4的API接口,使用GPT-4生成歷史人物與不同行業的人對話背景與對話內容。
3.根據權利要求1所述的一種基于歷史人物作品與生平的大模型構建方法,其特征在于,所述對話內容包括不同行業的任務對歷史人物的個人信息詢問、作品討論和人物討論。
4.根據權利要求3所述的一種基于歷史人物作品與生平的大模型構建方法,其特征在于,所述根據大模型的tokenizer將對話數據中的輸入文本進行向量化處理,具體步驟如下:
5.根據權利要求1所述的一種基于歷史人物作品與生平的大模型構建方法,其特征在于,
6.根據權利要求1所述的一種基于歷史人物作品與生平的大模型構建方法,其特征在于,所述生成文本塊的具體步驟如下:
7.根據權利要求1所述的一種基于歷史人物作品與生平的大模型構建方
8.根據權利要求1所述的一種基于歷史人物作品與生平的大模型構建方法,其特征在于,所述增強大語言模型輸出具體為對用戶輸入問題在向量庫中進行檢索,具體過程為:
9.一種基于歷史人物作品與生平的大模型構建裝置,包括存儲器和一個或多個處理器,所述存儲器中存儲有可執行代碼,其特征在于,所述處理器執行所述可執行代碼時,實現如權利要求1-8中任一項所述的一種基于歷史人物作品與生平的大模型構建方法。
10.一種計算機可讀存儲介質,其上存儲有程序,其特征在于,所述程序被處理器執行時,實現如權利要求1-8中任一項所述的一種基于歷史人物作品與生平的大模型構建方法。
...【技術特征摘要】
1.一種基于歷史人物作品與生平的大模型構建方法,其特征在于,該方法包括如下步驟:
2.根據權利要求1所述的一種基于歷史人物作品與生平的大模型構建方法,其特征在于,所述構建歷史人物對話數據場景與對話內容包括:構建prompt,利用知識庫和prompt通過gpt-4的api接口,使用gpt-4生成歷史人物與不同行業的人對話背景與對話內容。
3.根據權利要求1所述的一種基于歷史人物作品與生平的大模型構建方法,其特征在于,所述對話內容包括不同行業的任務對歷史人物的個人信息詢問、作品討論和人物討論。
4.根據權利要求3所述的一種基于歷史人物作品與生平的大模型構建方法,其特征在于,所述根據大模型的tokenizer將對話數據中的輸入文本進行向量化處理,具體步驟如下:
5.根據權利要求1所述的一種基于歷史人物作品與生平的大模型構建方法,其特征在于,
6.根據權利要求1所述的一種基于歷史人物作品與生平的大模型構建方法,其特征在于,...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。