崗位要求:
1、統(tǒng)招本科,理工科專業(yè);(驗證學(xué)信網(wǎng))
2、掌握 Linux、Windows等操作系統(tǒng),能快速準(zhǔn)確的定位故障原因及解決問題,了解智算中心NPU 設(shè)備及分布式存儲架構(gòu)。
3、具有五年及以上通用服務(wù)器、存儲、光纖交換機運維能力,其中具有一年及以上NPU服務(wù)器運維能力。
4、具有原廠的相關(guān)認(rèn)證,如RHCE、HCIP等其他同等級別原廠認(rèn)證。
職責(zé):
1、負(fù)責(zé)智算中心基礎(chǔ)設(shè)施管理 (算力、網(wǎng)絡(luò)、存儲)
2、管理服務(wù)器、存儲設(shè)備與網(wǎng)絡(luò)安全系統(tǒng)日常維護
3、負(fù)責(zé)智算中心監(jiān)控系統(tǒng)部署與優(yōu)化
4、負(fù)責(zé)大規(guī)模 GPU/NPU 集群的性能調(diào)優(yōu)與故障排除
5、監(jiān)控 AI 算力平臺運行狀態(tài),及時處理告警與故障