一種收集用于診斷計算機硬件設備的故障的方法和系統。在接收到導致全系統崩潰導致的計算機硬件設備的故障的指示之后,收集計算機硬件設備的中央處理單元(CPU)的地址轉換表。檢索計算機硬件設備的操作系統(OS)映像的調用棧幀的格式。基于收集的地址轉換表和檢索的多個調用棧幀的格式,檢索調用棧幀并且將其輸出到計算機文件。
【技術實現步驟摘要】
本專利技術涉及一種增強數據處理系統響應不期望硬件故障的能力的方法和系統,并且更具體地涉及一種收集診斷硬件故障的數據的技術。
技術介紹
許多中到大規模計算機處理系統包含一種類型的控制處理器、以及一個或多個能夠在多操作系統下提供虛擬計算機處理系統的虛擬處理器。可以將硬件故障檢測和終止機制建立在處理器、微代碼(即,固件)和操作系統中。可以由硬件、微代碼、固件或基于軟件的代碼流、事件或任務來引起系統范圍(system-wide)的硬件級終止(例如,從物理硬件故障或邏輯設計問題)。可以收集并且存儲故障數據,并且可以將其轉發回處理器的提供商用于分析和恢復動作。
技術實現思路
在第一實施例中,本專利技術提供了一種用于診斷計算機硬件設備的故障的收集數據的方法。所述方法包括計算機接收導致全系統崩潰(crash)的計算機硬件設備的故障的指示。所述方法還包括計算機收集計算機硬件設備的中央處理單元(CPU)的地址轉換表。所述方法還包括計算機檢索計算機硬件設備的操作系統(OS)映像的調用棧(call stack)的多個調用棧幀的格式。所述方法還包括,基于收集的地址轉換表和檢索的多個調用棧幀的格式,計算機檢索多個調用棧幀。所述方法還包括計算機將檢索的多個調用棧幀輸出到計算機文件。在第二實施例中,本專利技術提供了一種計算機系統,包括中央處理單元(CPU),耦接到CPU的存儲器,以及耦接到CPU的計算機可讀、有形存儲設備。所述存儲設備包含指令,該指令當經由存儲器通過CPU執行時,實施收集用于診斷計算機硬件設備的故障的數據的方法。所述方法包括計算機系統接收導致全系統崩潰的計算機硬件設備的故障的指示。所述方法還包括計算機系統收集計算機硬件設備的CPU的地址轉換表。所述方法還包括計算機系統檢索計算機硬件設備的操作系統(OS)映像的調用棧的多個調用棧幀的格式。所述方法還包括,基于收集的地址轉換表和檢索的多個調用棧幀的格式,計算機系統檢索多個調用棧幀。所述方法還包括計算機系統將多個調用棧幀輸出到計算機文件。在第三實施例中,本專利技術提供了一種計算機程序產品,包括具有計算機可讀程序指令存儲其中的計算機可讀、有形存儲設備,計算機可讀程序指令當通過計算機系統的中央處理單元(CPU)執行時,實施收集用于診斷計算機硬件設備的故障的數據的方法。所述方法包括計算機系統接收導致全系統崩潰的計算機硬件設備的故障的指示。所述方法還包括計算機系統收集計算機硬件設備的中央處理單元(CPU)的地址轉換表。所述方法還包括計算機系統檢索計算機硬件設備的操作系統(OS)映像的調用棧的多個調用棧幀的格式。所述方法還包括,基于收集的地址轉換表和檢索的多個調用棧幀的格式,計算機系統檢索多個調用棧幀。所述方法還包括計算機系統將檢索的多個調用棧幀輸出到計算機文件。在第四實施例中,本專利技術提供了一種用于支持計算基礎結構的過程。所述過程包括在包括處理器的計算機中提供用于創建、集成、主管(host)、維護、和部署計算機可讀代碼中至少一個的至少一個支持服務。所述處理器執行代碼中包含的指令,使計算機進行收集用于診斷計算機硬件設備的故障的數據的方法。所述方法包括計算機接收導致全系統崩潰的計算機硬件設備的故障的指示。所述方法還包括計算機收集計算機硬件設備的中央處理單元(CPU)的地址轉換表。所述方法還包括計算機檢索計算機硬件設備的操作系統(OS)映像的調用棧的多個調用棧幀的格式。所述方法還包括,基于收集的地址轉換表和檢索的多個調用棧幀的格式,計算機檢索多個調用棧幀。所述方法還包括計算機將檢索的多個調用棧幀輸出到計算機文件。本專利技術的實施例提供輔助服務設備或輔助服務處理器,來進行用于收集故障數據的增強數據收集技術,以便診斷和確定用于被認為硬件引起的故障,而實際上由軟件觸發的系統范圍崩潰的恢復動作,所述故障數據與系統的操作系統實例(instance)有關或與管理程序有關。在此公開的實施例收集與不同分區的管理程序固件和內核/操作系統映像之間的交互有關的數據,以便保留不同分區的操作系統分離。附圖說明圖1是根據本專利技術的實施例的、收集用于診斷計算機硬件設備的軟件造成的故障的數據的系統的框圖。圖2是根據本專利技術的實施例的、收集用于診斷計算機硬件設備的軟件造成的故障的數據的過程的流程圖,其中該過程在圖1的系統中實施。圖3是根據本專利技術的實施例的、在圖1的系統中包括的并且實施圖2的過程的計算機系統的框圖。具體實施例方式概覽本專利技術認識到在現有的中到大規模計算機處理系統中的故障終止和故障數據收集機制僅收集與很可能已經發生故障的項目直接相關的數據,因此為診斷可能由微代碼/固件或基于軟件的代碼流、事件或任務觸發的系統范圍硬件級終止提供了不充足的數據。本專利技術還認識到其它已知數據收集機制通過關注于從沒有導致硬件類型故障的、基于系統處理器的微代碼和/或軟件操作系統終止模式收集數據,也為診斷系統范圍硬件級終止提供了不充足的數據。本專利技術還認識到虛擬化技術需要在系統處理器上執行的各操作系統之間的隔離,使得沒有來自操作系統有效存儲器映像(又稱作,分區)的數據存在于系統及轉儲中。以上提及的隔離防止在與硬件設計邏輯故障的軟件代碼流交互的情況下的適當診斷。本專利技術的實施例可以提供一種用于在經歷系統范圍硬件級終止(例如,由于物理硬件故障或邏輯設計問題)的計算機系統中收集數據的方法和系統,所述系統范圍硬件級終止被認為由硬件造成,而實際上由微代碼、固件或基于軟件代碼流、事件或任務觸發。如在此使用的,系統范圍硬件級終止(又稱作,硬件處理器故障模式)被定義為指示計算機硬件設備已經發生故障的全系統崩潰,并且可能是崩潰的原因。本專利技術的實施例利用這樣的構思在系統存儲器中的操作系統和管理程序固件使用一些關于它們的棧、頁面轉換機制(例如,用于虛擬化的公共頁面表)和任務數據存儲機制的相同的相互關聯的架構和結構。因此,在可以將錯誤描述為在管理程序固件和操作系統微代碼或內核之間的相互關聯的區域中,在此公開的輔助服務設備(或輔助服務處理器)基于以上提及的相互關聯架構和結構,并且基于每個操作系統映像的特征(諸如,每個操作系統映像的字節序(endian)格式、字大小、棧幀格式、尋址模式),從故障核收集數據點。由輔助服務設備收集的數據點包括,但不限于,在執行任務而不管任務所屬的操作系統映像的情況下來自物理或虛擬處理器的調用棧。輔助服務設備不需要救護(ambulance)邏輯分區(LPAR)來收集以上提及的故障數據。收集用于診斷計算機硬件設備的軟件造成的故障的數據的系統圖1是根據本專利技術的實施例的、收集用于診斷計算機硬件設備的軟件造成的故障的數據的系統的框圖。系統100的實施例包括計算機系統102,計算機系統102包括系統主存儲器104。系統主存儲器104是用作計算機系統102的主存儲器的有形計算機數據存儲 設備。在一個實施例中,系統主存儲器104是易失性存儲器。計算機系統102運行操作系統(OS)映像106-1... 106-N和內核108-1... 108-N,其中N彡2。OS映像106-1...106-N與內核108-1...108-N以——對應形式相關聯。管理程序(即,分區管理器)管理其中運行OS映像106-1··· 106-N和內核108-1··· 108-N的管理邏輯分區(未示出)本文檔來自技高網...
【技術保護點】
一種收集用于診斷計算機硬件設備的故障的數據的方法,所述方法包括以下步驟:計算機接收導致全系統崩潰的計算機硬件設備的故障的指示;計算機收集計算機硬件設備的中央處理單元CPU的地址轉換表;計算機檢索計算機硬件設備的操作系統OS映像的調用棧的多個調用棧幀的格式;基于收集的地址轉換表和檢索的多個調用棧幀的格式,計算機的處理器檢索多個調用棧幀;以及計算機將檢索的多個調用棧幀輸出到計算機文件。
【技術特征摘要】
...
【專利技術屬性】
技術研發人員:DJ麥科伊,
申請(專利權)人:國際商業機器公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。