【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及系統(tǒng)錯誤檢測,尤其涉及一種基于大語言模型的it系統(tǒng)故障診斷方法以及一種基于大語言模型的it系統(tǒng)故障診斷系統(tǒng)。
技術(shù)介紹
1、分布式微服務(wù)應(yīng)用架構(gòu)、云原生技術(shù)讓it架構(gòu)規(guī)模變得非常龐大、組成及運(yùn)行邏輯也巨復(fù)雜,極大加劇了故障發(fā)生時(shí)診斷分析的難度。
2、首先,it系統(tǒng)可能出現(xiàn)故障的環(huán)節(jié)比較多,從底層網(wǎng)絡(luò)系統(tǒng)到服務(wù)器、數(shù)據(jù)庫、中間件、應(yīng)用程序均有可能發(fā)生故障,并且會產(chǎn)生故障傳播。其次,分布式架構(gòu)用戶訪問路徑比較長,其中任何一個(gè)環(huán)節(jié)都有可能出現(xiàn)問題。生產(chǎn)環(huán)境的故障因?yàn)椴渴鸺軜?gòu)和配置差異、數(shù)據(jù)量、并發(fā)量、數(shù)據(jù)敏感性、偶然性等原因,難以在測試環(huán)境通過模擬調(diào)試方式定位故障。
3、當(dāng)前it系統(tǒng)一般會部署多種監(jiān)控系統(tǒng),持續(xù)對it系統(tǒng)各個(gè)層面的監(jiān)控指標(biāo)數(shù)據(jù)、調(diào)用鏈數(shù)據(jù)、日志數(shù)據(jù)進(jìn)行監(jiān)控,通過靜態(tài)或者動態(tài)指標(biāo)閾值、ai機(jī)器學(xué)習(xí)算法對系統(tǒng)異常行為進(jìn)行判斷產(chǎn)生告警事件,結(jié)合it系統(tǒng)組件之間的拓?fù)潢P(guān)系,在系統(tǒng)異常時(shí)間點(diǎn)前后時(shí)間窗內(nèi)產(chǎn)生的眾多告警事件中確定根因事件。根據(jù)根因事件找到預(yù)設(shè)的故障排查方案,手工排查造成業(yè)務(wù)訪問異常的原因并恢復(fù)系統(tǒng)。
4、分布式架構(gòu)的it系統(tǒng)規(guī)模龐大、it系統(tǒng)組件之間關(guān)系復(fù)雜,受限于監(jiān)控技術(shù),指標(biāo)數(shù)據(jù)、日志、調(diào)用鏈三個(gè)維度只能獨(dú)立進(jìn)行故障檢測,并且會出現(xiàn)遺漏或者誤判的情況。輔助故障定位分析的it拓?fù)鋱D一般也只能到it系統(tǒng)組件層,所以很多情況下只能確定一個(gè)故障類型和大概故障范圍,一線運(yùn)維工程師據(jù)此在眾多排障指導(dǎo)手冊中尋找合適的,按手冊指南進(jìn)行排障。如果根因事件判斷不準(zhǔn)確,或者故障范圍過
技術(shù)實(shí)現(xiàn)思路
1、針對上述問題,本專利技術(shù)提供了一種基于大語言模型的it系統(tǒng)故障診斷方法及系統(tǒng),利用先驗(yàn)知識構(gòu)建排障指南tsg及其自動化排障流程,將告警事件信息利用llm技術(shù)與tsg向量進(jìn)行相似性匹配后確定相似故障tsg,通過執(zhí)行對應(yīng)的自動化排障流程得到的診斷信息,得到故障根因、生成故障診斷報(bào)告,能夠充分利用多種模態(tài)告警事件信息和故障庫先驗(yàn)知識,精確快速定位故障根因,將排障過程的診斷信息以一線運(yùn)維人員容易理解的方式呈現(xiàn),實(shí)現(xiàn)了故障自動化診斷,提高了故障處置效率。
2、為實(shí)現(xiàn)上述目的,本專利技術(shù)提供了一種基于大語言模型的it系統(tǒng)故障診斷方法,包括:
3、利用大語言模型llm技術(shù)對排障指南tsg進(jìn)行向量化,生成對應(yīng)的tsg向量存儲至tsg向量庫中,并根據(jù)所述tsg定義自動化排障流程;
4、根據(jù)接收到的告警事件信息,利用it拓?fù)鋱D確定相關(guān)聯(lián)的it組件,并確定發(fā)生在所述it組件上的告警事件;
5、利用llm技術(shù)對所述告警事件進(jìn)行向量化生成告警事件向量,并將所述告警事件向量與所述tsg向量庫中的tsg向量進(jìn)行相似性對比,確定相似故障tsg;
6、自動執(zhí)行所述相似故障tsg對應(yīng)的自動化排障流程,根據(jù)所得到的診斷信息確定故障根因,并利用llm技術(shù)生成故障診斷報(bào)告。
7、在上述技術(shù)方案中,優(yōu)選地,所述利用大語言模型llm技術(shù)對排障指南tsg進(jìn)行向量化,生成對應(yīng)的tsg向量,具體過程包括:
8、利用llm技術(shù)為每個(gè)排障指南生成對應(yīng)的向量表示,作為對應(yīng)排障指南的tsg向量;
9、當(dāng)排障指南的文字長度小于預(yù)設(shè)值時(shí),直接將該排障指南的內(nèi)容輸入llm生成對應(yīng)的向量;
10、當(dāng)排障指南的文字長度大于或等于預(yù)設(shè)值時(shí),對該排障指南按照章節(jié)或固定長度進(jìn)行分割,為每個(gè)分割部分生成摘要,并將所述摘要進(jìn)行合并后進(jìn)行向量化。
11、在上述技術(shù)方案中,優(yōu)選地,所述根據(jù)接收到的告警事件信息,利用it拓?fù)鋱D確定相關(guān)聯(lián)的it組件,并確定發(fā)生在所述it組件上的告警事件,具體過程包括:
12、根據(jù)系統(tǒng)接收到的所述告警事件信息,提取出告警時(shí)間、告警級別、告警類別、產(chǎn)生告警的it資源、告警詳細(xì)內(nèi)容以及對應(yīng)的指標(biāo)和值;
13、若系統(tǒng)接收到業(yè)務(wù)系統(tǒng)指標(biāo)告警或業(yè)務(wù)系統(tǒng)日志告警事件,由it拓?fù)鋱D中檢索到該業(yè)務(wù)系統(tǒng)所依賴的所有基礎(chǔ)設(shè)施it組件,其中,所述it組件包括數(shù)據(jù)庫、中間件、操作系統(tǒng)、存儲、網(wǎng)絡(luò)和云環(huán)境;
14、確定所述it組件在所述業(yè)務(wù)告警事件發(fā)生前后預(yù)設(shè)時(shí)間窗口內(nèi)的告警事件。
15、在上述技術(shù)方案中,優(yōu)選地,將所述告警事件向量與所述tsg向量庫中的tsg向量進(jìn)行相似性對比,確定相似故障tsg,具體過程包括:
16、利用所述告警事件向量與所述tsg向量庫中的tsg向量分別進(jìn)行相似性對比;
17、按照相似度對所述tsg向量庫中的tsg向量進(jìn)行由高到低排序;
18、選擇相似度最高的前預(yù)設(shè)數(shù)量個(gè)tsg向量,作為與所述告警事件向量相對應(yīng)的相似故障tsg。
19、在上述技術(shù)方案中,優(yōu)選地,自動執(zhí)行所述相似故障tsg對應(yīng)的自動化排障流程,根據(jù)所得到的診斷信息確定故障根因,并利用llm技術(shù)生成故障診斷報(bào)告,具體過程包括:
20、按照所述相似故障tsg對應(yīng)的自動化排障流程,利用自動化技術(shù)進(jìn)行自動執(zhí)行;
21、將得到的診斷信息作為上下文,通過預(yù)設(shè)prompt模板輸入至llm,利用llm技術(shù)的語言綜合能力生成故障根因分析和診斷報(bào)告。
22、本專利技術(shù)還提出一種基于大語言模型的it系統(tǒng)故障診斷系統(tǒng),應(yīng)用如上述技術(shù)方案中任一項(xiàng)公開的基于大語言模型的it系統(tǒng)故障診斷方法,包括:
23、tsg向量化模塊,用于利用大語言模型llm技術(shù)對排障指南tsg進(jìn)行向量化,生成對應(yīng)的tsg向量存儲至tsg向量庫中,并根據(jù)所述tsg定義自動化排障流程;
24、告警事件確定模塊,用于根據(jù)接收到的告警事件信息,利用it拓?fù)鋱D確定相關(guān)聯(lián)的it組件,并確定發(fā)生在所述it組件上的告警事件;
25、相似故障確定模塊,用于利用llm技術(shù)對所述告警事件進(jìn)行向量化生成告警事件向量,并將所述告警事件向量與所述tsg向量庫中的tsg向量進(jìn)行相似性對比,確定相似故障tsg;
26、自動排障分析模塊,用于自動執(zhí)行所述相似故障tsg對應(yīng)的自動化排障流程,根據(jù)所得到的診斷信息確定故障根因,并利用llm技術(shù)生成故障診斷報(bào)告。
27、在上述技術(shù)方案中,優(yōu)選地,所述tsg向量化模塊具體用于:
28、利用llm技術(shù)為每個(gè)排障指南生成對應(yīng)的向量表示,作為對應(yīng)排障指南的tsg向量;
29、當(dāng)排障指南的文字長度小于預(yù)設(shè)值時(shí),直接將該排障指南的內(nèi)容輸入llm生成對應(yīng)的向量;
30、當(dāng)排障指南的文字長度大于或等于預(yù)設(shè)值時(shí),對該排障指南按照章節(jié)或固定長度進(jìn)行分割,為每個(gè)分割部分生成摘要,并將所述摘要進(jìn)行合并后進(jìn)行向量化。
31、在上述技術(shù)方案中,優(yōu)選地,所述告警事件確定模塊具體用于:
32、根據(jù)系統(tǒng)接收到的所述告警事件信息,提取出告警時(shí)間、告警級別、告警類別、產(chǎn)生告警的it資源、告警詳細(xì)內(nèi)容以及對應(yīng)的指標(biāo)和值;<本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種基于大語言模型的IT系統(tǒng)故障診斷方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的基于大語言模型的IT系統(tǒng)故障診斷方法,其特征在于,所述利用大語言模型LLM技術(shù)對排障指南TSG進(jìn)行向量化,生成對應(yīng)的TSG向量,具體過程包括:
3.根據(jù)權(quán)利要求1所述的基于大語言模型的IT系統(tǒng)故障診斷方法,其特征在于,所述根據(jù)接收到的告警事件信息,利用IT拓?fù)鋱D確定相關(guān)聯(lián)的IT組件,并確定發(fā)生在所述IT組件上的告警事件,具體過程包括:
4.根據(jù)權(quán)利要求1所述的基于大語言模型的IT系統(tǒng)故障診斷方法,其特征在于,所述將所述告警事件向量與所述TSG向量庫中的TSG向量進(jìn)行相似性對比,確定相似故障TSG,具體過程包括:
5.根據(jù)權(quán)利要求1所述的基于大語言模型的IT系統(tǒng)故障診斷方法,其特征在于,所述執(zhí)行所述相似故障TSG的自動化排障流程,根據(jù)所得到的診斷信息確定故障根因,并利用LLM技術(shù)生成故障診斷報(bào)告,具體過程包括:
6.一種基于大語言模型的IT系統(tǒng)故障診斷系統(tǒng),其特征在于,應(yīng)用如權(quán)利要求1至5中任一項(xiàng)所述的基于大語言模型的IT系統(tǒng)故障診斷
7.根據(jù)權(quán)利要求6所述的基于大語言模型的IT系統(tǒng)故障診斷系統(tǒng),其特征在于,所述TSG向量化模塊具體用于:
8.根據(jù)權(quán)利要求6所述的基于大語言模型的IT系統(tǒng)故障診斷系統(tǒng),其特征在于,所述告警事件確定模塊具體用于:
9.根據(jù)權(quán)利要求6所述的基于大語言模型的IT系統(tǒng)故障診斷系統(tǒng),其特征在于,所述相似故障確定模塊具體用于:
10.根據(jù)權(quán)利要求6所述的基于大語言模型的IT系統(tǒng)故障診斷系統(tǒng),其特征在于,所述自動排障分析模塊具體用于:
...【技術(shù)特征摘要】
1.一種基于大語言模型的it系統(tǒng)故障診斷方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的基于大語言模型的it系統(tǒng)故障診斷方法,其特征在于,所述利用大語言模型llm技術(shù)對排障指南tsg進(jìn)行向量化,生成對應(yīng)的tsg向量,具體過程包括:
3.根據(jù)權(quán)利要求1所述的基于大語言模型的it系統(tǒng)故障診斷方法,其特征在于,所述根據(jù)接收到的告警事件信息,利用it拓?fù)鋱D確定相關(guān)聯(lián)的it組件,并確定發(fā)生在所述it組件上的告警事件,具體過程包括:
4.根據(jù)權(quán)利要求1所述的基于大語言模型的it系統(tǒng)故障診斷方法,其特征在于,所述將所述告警事件向量與所述tsg向量庫中的tsg向量進(jìn)行相似性對比,確定相似故障tsg,具體過程包括:
5.根據(jù)權(quán)利要求1所述的基于大語言模型的it系統(tǒng)故障診斷方法,其特征在于,所述執(zhí)行所...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:方宇煒,王東,
申請(專利權(quán))人:神州數(shù)碼系統(tǒng)集成服務(wù)有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。