任職資格
1. 本科及以上學(xué)歷,計(jì)算機(jī)相關(guān)專業(yè)。3年及以上Linux系統(tǒng)運(yùn)維經(jīng)驗(yàn),熟悉主流Linux發(fā)行版,熟悉NVIDIA GPU驅(qū)動(dòng)、CUDA生態(tài)及常見兼容性問題,具備良好的故障分析能力和問題閉環(huán)能力。
2. 有AI訓(xùn)練/推理環(huán)境支持經(jīng)驗(yàn),有GPU容器化、Kubernetes+GPU運(yùn)維經(jīng)驗(yàn),熟悉至少一種監(jiān)控體系(如Prometheus+Grafana),具備告警規(guī)則設(shè)計(jì)能力。
3. RHCE或CKA認(rèn)證者優(yōu)先。
工作職責(zé)
1. 負(fù)責(zé)GPU服務(wù)器操作系統(tǒng)、驅(qū)動(dòng)、CUDA及相關(guān)基礎(chǔ)軟件的部署、維護(hù)與升級(jí),管理并行文件系統(tǒng)。
2. 負(fù)責(zé)GPU算力平臺(tái)的系統(tǒng)架構(gòu)運(yùn)維,包括裸金屬、虛擬化或容器化環(huán)境,參與作業(yè)調(diào)度系統(tǒng)(如Kubernetes、Slurm等)的部署、運(yùn)維與優(yōu)化。
3. 負(fù)責(zé)GPU監(jiān)控體系建設(shè)與維護(hù),包括使用率、溫度、功耗、顯存、錯(cuò)誤信息等指標(biāo)監(jiān)控,配合定位GPU節(jié)點(diǎn)、驅(qū)動(dòng)、內(nèi)核或系統(tǒng)層面的性能與穩(wěn)定性問題。