• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當前位置: 首頁 > 專利查詢>浙江大學專利>正文

    一種基于歷史人物作品與生平的大模型構建方法及裝置制造方法及圖紙

    技術編號:44186395 閱讀:13 留言:0更新日期:2025-02-06 18:27
    本發明專利技術公開了,本發明專利技術提出了一種基于歷史人物作品與生平的大模型構建方法及裝置,專門用于扮演歷史人物的大模型構建。通過這一方法,模型不僅能夠生成符合蘇軾風格的文本,還能在多輪對話中動態展現蘇軾的思想深度和個性特征,對于超出歷史人物的知識,模型也能還原出歷史人物的無知與迷惑。本發明專利技術利用歷史人物的文學作品和生平事跡,構建了具有文化深度的蘇軾對話數據集,對大語言模型進行微調,并通過構建歷史人物作品和生平的知識庫,突破了現有技術在語言生成和知識推理方面的局限性,成功實現了對蘇軾這一歷史人物的言行舉止、思想觀點和文學風格的高度逼真模擬。

    【技術實現步驟摘要】

    本專利技術涉及本角色扮演大模型領域,尤其涉及一種基于歷史人物作品與生平的大模型構建方法及裝置


    技術介紹

    1、隨著人工智能(ai)和自然語言處理(nlp)技術的快速發展,基于大規模預訓練語言模型(如gpt、bert等)的技術已經在多個領域取得了顯著成果。這些模型在生成與理解現代語言方面展現出了強大的能力,廣泛應用于智能助手、自動翻譯、內容生成等領域。

    2、隨著人工智能技術的進步,特別是在自然語言處理和大模型方面的突破,如何通過技術手段再現或模擬歷史人物人格特質、文學風格及思想深度,成為一個具有重大意義的研究課題。

    3、現有的大模型雖然在模擬現代語言和行為方面取得了一定的成果,但在再現歷史人物,尤其文化深厚、個性鮮明的人物時,仍然面臨巨大挑戰。例如,如何讓模型理解并再現歷史人物的思維方式、表達習慣,以及如何在對話中融入特定歷史人物的歷史背景、典故和思想體系,這些問題在現有技術中尚未得到有效解決。

    4、此外,現有的大語言模型由于在預訓練過程中學習了大量的現代知識和信息,這些知識涵蓋了從科學技術到當代社會文化的廣泛領域。然而,對于諸多歷史人物而言,這些現代知識是他們所不應知曉和理解的。因此,當大模型在模擬歷史人物時,如果生成包含現代知識的內容,就會違背歷史真實感,導致模型無法準確再現歷史人物的認知水平和思想深度,從而影響模型的逼真度和可信度。現有的方法是在提示語句中提醒模型遺忘相關的知識,但是這樣的方法會陷入兩個缺點,第一:提示語句的添加并不能完全阻止模型輸出相關知識,第二點則是在用戶提出相關知識時,作為歷史人物的扮演模型應該是能夠復述的,因此如何在大語言模型中有效隔離現代知識,確保模型只生成符合歷史人物時代背景的內容但又可經教學輸出非時代背景的結果成為了一項技術難題。


    技術實現思路

    1、本專利技術目的在于針對現有技術的不足,提出一種基于歷史人物作品與生平的大模型構建方法。

    2、本專利技術的目的是通過以下技術方案來實現的:一種基于歷史人物作品與生平的大模型構建方法,該方法包括如下步驟:

    3、s1、采集所需要生成的歷史人物對應的作品數據和生平數據并進行文本清洗,得到歷史人物信息數據;

    4、s2、將歷史人物信息數據作為知識庫,構建歷史人物對話數據場景與對話內容,構建對話段落得到對話數據;

    5、s3、根據大模型的tokenizer將對話數據中的輸入文本進行向量化處理,并對訓練數據添加掩碼mask標記,得到訓練數據,使用所述訓練數據對大模型進行微調;

    6、s4、將文本清洗后的歷史人物作品數據和生平數據輸入文檔解析器進行解析生成文本塊,并使用預訓練的大語言模型將每個文本塊轉換為高維編碼,將高維編碼儲存在向量數據庫中用于增強大語言模型輸出。

    7、進一步地,所述作品數據和生平數據在采集時進行去重、構建標題和內容以及對同標題的不同內容進行編號處理。

    8、進一步地,所述構建歷史人物對話數據場景與對話內容包括:構建prompt,利用知識庫和prompt通過gpt-4的api接口,使用gpt-4生成歷史人物與不同行業的人對話背景與對話內容。

    9、進一步地,所述對話內容包括不同行業的任務對歷史人物的個人信息詢問、作品討論和人物討論。

    10、進一步地,所述根據大模型的tokenizer將對話數據中的輸入文本進行向量化處理,具體步驟如下:

    11、為每一條數據之前添加段落開頭[gmask]<sop>,作為一段新數據的開頭提示模型生成這些被掩蓋的部分,在數據結尾添加<|endoftext|>作為該段落的文本結束標記;

    12、針對于每條數據中的指令和問答對,在每條數據的指令前添加<|system|>來指代該部分數據作為指令,在用戶提問前添加<|user|>來指代該部分數據作為用戶輸入數據,在期望模型輸出的數據前添加<|assistant|>作為模型輸出;

    13、添加完標記以后,通過選定的大模型對應的tokenizer對數據進行編碼,將文本轉換為向量的形式;

    14、根據添加的標記,對<|assistant|>的內容進行損失mask構建,即在模型優化過程中只計算<|assistant|>的內容的損失值,將mask的部分添加對應的向量值作為后續模型計算損失的依據,對非mask部分以-100代表不計算損失。

    15、進一步地,在訓練過程中如果模型生成的結果在非mask部分出現遺忘詞,則該部分的損失將受到懲罰,根據懲罰系數增大懲罰,具體計算公式如下:

    16、根據原始的padding_mask獲取非mask部分

    17、

    18、獲取模型第i維的輸出outputi

    19、

    20、其中,n代表詞表的長度,zi代表預測為模型輸出第i維的值,代表模型預測的詞;

    21、根據的值來評估是否需要懲罰,計算懲罰系數α,公式如下

    22、

    23、其中vall代表模型的完整詞表,v代表可保留詞匯表;

    24、懲罰值為penalty=eα;

    25、根據penalty和padding_mask得到最后的mask,具體公式為

    26、penalty_mask=penalty×padding_mask。

    27、進一步地,在模型訓練過程中根據penalty_mask來放縮mask以達到模型遺忘非vocab中的詞匯。

    28、進一步地,所述生成文本塊的具體步驟如下:

    29、根據處理的數據的存儲格式,選定對應的文檔分類器;

    30、使用對應的分類器解析文檔并除去干擾項,并保留文檔原始的數據結構和關聯關系;

    31、根據數據的存儲格式以及解析提取的內容,對文檔進行分塊得到文檔塊,保留原始文件的語義結構。

    32、進一步地,所述將每個文本塊轉換為高維編碼的具體操作為:得到文本塊后,將文本塊進行向量化,并使用選定的大模型的embedding層對輸出進行embedding轉成高維向量并存入向量知識庫。

    33、進一步地,所述增強大語言模型輸出具體為對用戶輸入問題在向量庫中進行檢索,具體過程為:

    34、對于用戶輸入的問題t,轉換為嵌入向量表示為e(t)=embeddingmodel(t),其中embeddingmodel是3.3中選擇的大模型的embbeding部分

    35、根據得到的嵌入向量和存儲的向量數據庫,根據余弦相似度計算公式:其中q是問題的向量表示,d是文檔的向量表示,計算相似度;

    36、根據得到的輸入問題和文檔的相似度,選擇前k個或大于相似度閾值的文檔作為提示一起輸入給模型。

    37、另一方面,本專利技術還提供了一種基于歷史人物作品與生平的大模型構建裝置,包括存儲器和一個或多個處理器,所述本文檔來自技高網...

    【技術保護點】

    1.一種基于歷史人物作品與生平的大模型構建方法,其特征在于,該方法包括如下步驟:

    2.根據權利要求1所述的一種基于歷史人物作品與生平的大模型構建方法,其特征在于,所述構建歷史人物對話數據場景與對話內容包括:構建Prompt,利用知識庫和Prompt通過GPT-4的API接口,使用GPT-4生成歷史人物與不同行業的人對話背景與對話內容。

    3.根據權利要求1所述的一種基于歷史人物作品與生平的大模型構建方法,其特征在于,所述對話內容包括不同行業的任務對歷史人物的個人信息詢問、作品討論和人物討論。

    4.根據權利要求3所述的一種基于歷史人物作品與生平的大模型構建方法,其特征在于,所述根據大模型的tokenizer將對話數據中的輸入文本進行向量化處理,具體步驟如下:

    5.根據權利要求1所述的一種基于歷史人物作品與生平的大模型構建方法,其特征在于,

    6.根據權利要求1所述的一種基于歷史人物作品與生平的大模型構建方法,其特征在于,所述生成文本塊的具體步驟如下:

    7.根據權利要求1所述的一種基于歷史人物作品與生平的大模型構建方法,其特征在于,所述將每個文本塊轉換為高維編碼的具體操作為:得到文本塊后,將文本塊進行向量化,并使用選定的大模型的embedding層對輸出進行embedding轉成高維向量并存入向量知識庫。

    8.根據權利要求1所述的一種基于歷史人物作品與生平的大模型構建方法,其特征在于,所述增強大語言模型輸出具體為對用戶輸入問題在向量庫中進行檢索,具體過程為:

    9.一種基于歷史人物作品與生平的大模型構建裝置,包括存儲器和一個或多個處理器,所述存儲器中存儲有可執行代碼,其特征在于,所述處理器執行所述可執行代碼時,實現如權利要求1-8中任一項所述的一種基于歷史人物作品與生平的大模型構建方法。

    10.一種計算機可讀存儲介質,其上存儲有程序,其特征在于,所述程序被處理器執行時,實現如權利要求1-8中任一項所述的一種基于歷史人物作品與生平的大模型構建方法。

    ...

    【技術特征摘要】

    1.一種基于歷史人物作品與生平的大模型構建方法,其特征在于,該方法包括如下步驟:

    2.根據權利要求1所述的一種基于歷史人物作品與生平的大模型構建方法,其特征在于,所述構建歷史人物對話數據場景與對話內容包括:構建prompt,利用知識庫和prompt通過gpt-4的api接口,使用gpt-4生成歷史人物與不同行業的人對話背景與對話內容。

    3.根據權利要求1所述的一種基于歷史人物作品與生平的大模型構建方法,其特征在于,所述對話內容包括不同行業的任務對歷史人物的個人信息詢問、作品討論和人物討論。

    4.根據權利要求3所述的一種基于歷史人物作品與生平的大模型構建方法,其特征在于,所述根據大模型的tokenizer將對話數據中的輸入文本進行向量化處理,具體步驟如下:

    5.根據權利要求1所述的一種基于歷史人物作品與生平的大模型構建方法,其特征在于,

    6.根據權利要求1所述的一種基于歷史人物作品與生平的大模型構建方法,其特征在于,...

    【專利技術屬性】
    技術研發人員:張金山肖涵文夏鑫尹建偉
    申請(專利權)人:浙江大學
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码区日韩特区永久免费系列| AAA级久久久精品无码片| heyzo高无码国产精品| 熟妇人妻系列aⅴ无码专区友真希| 国模无码人体一区二区| 亚洲性无码AV中文字幕| 亚洲一区爱区精品无码| 免费无码AV电影在线观看| 中文字幕精品无码久久久久久3D日动漫| 日韩人妻无码一区二区三区99 | 69ZXX少妇内射无码| 国产网红主播无码精品 | 亚洲看片无码在线视频| 亚洲精品中文字幕无码蜜桃| 无码国内精品久久综合88| 国产亚洲3p无码一区二区| 无码喷水一区二区浪潮AV| 亚洲国产成人精品无码一区二区| 精品无人区无码乱码毛片国产| 久久亚洲AV成人无码国产最大 | 蜜桃臀无码内射一区二区三区| 亚洲精品无码久久久| 精品韩国亚洲av无码不卡区| 性色AV蜜臀AV人妻无码| 久久国产亚洲精品无码| 日韩精品少妇无码受不了| 国产热の有码热の无码视频| 久久人妻少妇嫩草AV无码蜜桃| 18禁超污无遮挡无码免费网站国产 | 亚洲日韩欧洲无码av夜夜摸| 用舌头去添高潮无码视频| 好爽毛片一区二区三区四无码三飞| 99久久无码一区人妻a黑| 色窝窝无码一区二区三区色欲| 亚洲av无码潮喷在线观看| 久久久久无码精品国产| 精品无码av一区二区三区 | 亚洲成a人片在线观看天堂无码 | 中文人妻无码一区二区三区 | 中文字幕无码中文字幕有码| 亚洲AV成人噜噜无码网站|