職責:
1.負責公司異構算力資源池的7x24小時穩(wěn)定性和可用性。對算力服務器的硬件狀態(tài)、功耗、溫度以及作業(yè)調度隊列等進行全方位、實時性的監(jiān)控與告警。
2.保障算力資源的高效利用,持續(xù)分析算力使用效率,針對資源爭用、排隊過長等問題進行根因分析,并通過優(yōu)化調度策略、調整資源配比等手段,提升整個算力集群的吞吐量。
3.具備快速定位和解決問題的能力,能夠系統(tǒng)性地區(qū)分并排查GPU/NPU卡、高速網(wǎng)絡、存儲IO或軟件棧等不同層面的問題,快速相關故障與性能問題。
4.主導或參與新算力節(jié)點的上線、現(xiàn)有集群的橫向擴容以及硬件迭代升級等技術項目,確保算力供給能夠前瞻性地匹配業(yè)務發(fā)展的速度。
5.負責維護算力平臺的基礎軟件環(huán)境,包括GPU/NPU驅動、CUDA/ROCm計算庫、容器運行時及深度學習框架等組件的版本管理和一致性。
6.編寫腳本或使用自動化工具,實現(xiàn)算力資源的快速交付、批量配置、巡檢和故障自愈,提升運維效率與規(guī)范性。
任職資格:
1.具備扎實的異構計算硬件與系統(tǒng)知識,熟悉NVIDIA/AMD等主流GPU或昇騰/寒武紀等國產(chǎn)NPU的架構與特性。
2.精通Linux操作系統(tǒng)原理,掌握系統(tǒng)性能分析工具,能夠從硬件、驅動到操作系統(tǒng)層面全面理解算力節(jié)點的運行狀態(tài),高效運維和深度排障。
3.擁有豐富的故障診斷經(jīng)驗與系統(tǒng)性解決問題能力,能夠從性能計數(shù)器、系統(tǒng)日志和監(jiān)控數(shù)據(jù)中快速定位影響算力輸出的瓶頸與根因,能夠系統(tǒng)地分析計算、網(wǎng)絡、存儲之間的相互影響,并制定有效解決方案的能力。
4.精通Prometheus、Zabbix、Grafana等監(jiān)控棧的部署與使用,能夠構建貼合算力業(yè)務需求的監(jiān)控儀表盤與告警規(guī)則,實現(xiàn)運維工作的可觀測性。
5.熟練掌握至少一門腳本語言,能夠編寫用于批量設備管理、配置收集、日志分析或自動化巡檢的腳本,具備Ansible、Terraform等自動化工具使用經(jīng)驗者更佳。
6.具備優(yōu)秀的溝通能力,責任心、主動性和在高壓下管理多個任務的能力。