1、硬件維護
負責GPU服務(wù)器的安裝、調(diào)試、上架、故障診斷及維修。
定期檢查硬件狀態(tài)(GPU、CPU、內(nèi)存、硬盤、電源等),確保設(shè)備穩(wěn)定運行。
配合供應(yīng)商處理硬件保修或更換(如GPU燒毀、顯存故障等)。
2、集群與驅(qū)動管理
管理大規(guī)模GPU集群(萬卡級),支持算力網(wǎng)絡(luò)架構(gòu)(IB/RoCE/NVLink/PCIe),優(yōu)化集群性能(HPL/HPCG基準測試),解決網(wǎng)絡(luò)通信、存儲(Lustre/CephFS)及算力調(diào)度(Slurm/PBS)問題。
部署與維護監(jiān)控系統(tǒng)(Prometheus/Grafana/Zabbix),實時跟蹤GPU利用率、功耗及健康狀態(tài),構(gòu)建故障預(yù)警機制,設(shè)計HA測試方案(故障注入/災(zāi)備切換)。
3、硬件與軟件適配
執(zhí)行服務(wù)器硬件改配(如GPU升級、液冷方案部署)及軟件適配(驅(qū)動安裝、BIOS/固件更新),確保與操作系統(tǒng)(Linux/CentOS)、虛擬化平臺(Docker/Kubernetes)及AI框架(CUDA/TensorRT)的兼容性。
參與智算中心交付,配合完成服務(wù)器上架、網(wǎng)絡(luò)配置及壓力測試,支持異構(gòu)加速場景(大模型訓練/推理)。
4、文檔與協(xié)作
編寫運維手冊、故障處理SOP及巡檢報告,維護維修案例庫,記錄硬件生命周期(故障歷史、配件更換)。
與研發(fā)、售前團隊協(xié)作,解決復(fù)雜技術(shù)問題(如硬件兼容性、性能瓶頸),提供客戶技術(shù)培訓及方案定制。
探索前沿技術(shù)(如Chiplet異構(gòu)集成、存算一體架構(gòu)),優(yōu)化運維自動化工具(Ansible/Python腳本),提升故障處理效率。
1、專業(yè)背景
計算機、電子工程、通信等相關(guān)專業(yè),本科及以上學歷;3年以上阿里云IDC機房、GPU服務(wù)器維護或數(shù)據(jù)中心運維經(jīng)驗,熟悉NVIDIA/AMD主流顯卡架構(gòu)(如Hopper/Ada Lovelace)者優(yōu)先。
2、核心技能
硬件能力:精通GPU服務(wù)器拆裝、故障診斷(如錯誤代碼解析),掌握焊接工具(熱風槍、示波器)及備件管理,熟悉服務(wù)器BMC管理(IPMI/RedFish)。
軟件與工具:熟練使用Linux命令行,掌握自動化工具(Ansible/Kubernetes)、監(jiān)控平臺(Prometheus)及集群管理工具(Slurm);熟悉Python/Shell腳本開發(fā)。
網(wǎng)絡(luò)與架構(gòu):理解IB/RoCE網(wǎng)絡(luò)協(xié)議、RDMA原理,掌握集群文件系統(tǒng)(Lustre/NFS)部署與調(diào)優(yōu),熟悉PCIe/CXL接口規(guī)范。
3、軟技能
具備快速故障定位能力(MTTR優(yōu)化),能在7×24小時輪值中響應(yīng)緊急事件;良好的客戶溝通能力,適應(yīng)定制化服務(wù)需求。