崗位職責(zé):
對GPU服務(wù)器A100、A800、H100、H800、H200等型號 進行性能監(jiān)控與故障處理
1、GPU云服務(wù)器維護,包括日常報警巡檢,集群使用狀態(tài)記錄,處理系統(tǒng)報警;GPU狀態(tài)檢查,定期進行GPU狀態(tài)檢查,是否有ECC報警;GPU使用問題,客戶在使用過程中遇到的問題,如驅(qū)動兼容性,任務(wù)失敗原因;環(huán)境搭建,為GPU服務(wù)器,搭建cuda工具相關(guān)依賴,conda虛擬環(huán)境等
2,有搭建GPU測試環(huán)境的能力,如(GPU burn、Field diag、DCGM)等測試工具,定位GPU問題(如算力異常、ECC、散熱問題);
3,負責(zé)GPU服務(wù)器的安裝、調(diào)試、上架、故障診斷及更換。 定期檢查硬件狀態(tài),確保設(shè)備穩(wěn)定運行。 配合供應(yīng)商處理硬件保修或更換。
4. 執(zhí)行服務(wù)器硬件改配及軟件適配,確保兼容性。
5. 與售前,售后團隊協(xié)作,解決技術(shù)問題,。
崗位要求:
1. 計算機/電子工程相關(guān)專業(yè),熟悉英偉達GPU架構(gòu)及CUDA生態(tài)
2. 精通GPU服務(wù)器拆裝、故障診斷,備件管理,熟悉服務(wù)器BMC管理。
3. 熟練使用Linux命令Python/Shell腳本開發(fā)能力,
4.了解AI/HPC場景者有AI服務(wù)器整機及GPU測
試經(jīng)驗更佳;