崗位職責(zé):
1、智算平臺(tái)運(yùn)維:負(fù)責(zé)大規(guī)模GPU集群平臺(tái)的日常運(yùn)維與監(jiān)控,確保平臺(tái)穩(wěn)定運(yùn)行(N卡/國(guó)內(nèi)GPU卡);
2、系統(tǒng)部署與管理:協(xié)助進(jìn)行服務(wù)器、存儲(chǔ)設(shè)備及網(wǎng)絡(luò)設(shè)備的上架、部署、配置、管理與維護(hù);
3、巡檢:定期對(duì)智算平臺(tái)GPU節(jié)點(diǎn)及網(wǎng)絡(luò)設(shè)備軟硬件、服務(wù)等進(jìn)行巡檢;
4、文檔維護(hù):編寫與更新運(yùn)維文檔,包括配置文件、操作手冊(cè)和故障排查記錄;
5、監(jiān)控與報(bào)警:配置和管理監(jiān)控系統(tǒng),跟蹤平臺(tái)性能指標(biāo),及時(shí)發(fā)現(xiàn)潛在問題并進(jìn)行預(yù)警;
6、工作地點(diǎn)與其他:西寧國(guó)家三江源大數(shù)據(jù)基地,5X8進(jìn)行以上職責(zé)的現(xiàn)場(chǎng)履行,7X24小時(shí)問題響應(yīng)。
任職要求:
1、 熟悉 Linux 系統(tǒng)管理與操作(如 CentOS、Ubuntu 等)及排障;
2、熟悉常見的云平臺(tái)(如阿里云、騰訊云、AWS)及虛擬化技術(shù)(如 Docker、Kubernetes);
3、具備一定的監(jiān)控工具使用經(jīng)驗(yàn)(如 Prometheus、Grafana、Zabbix 等);
4、具備一定網(wǎng)絡(luò)基礎(chǔ)知識(shí)、了解TCP/IP、VLAN、M-LAG、BGP等技術(shù);
5、熟悉Python、Shell、Go等一種或多種編程語言;
6、熟悉IB網(wǎng)絡(luò)、RoCE網(wǎng)絡(luò)基礎(chǔ)架構(gòu)及RDMA原理,有實(shí)際搭建/維護(hù)經(jīng)驗(yàn),對(duì)與有大規(guī)模GPU集群(萬卡)運(yùn)維經(jīng)驗(yàn)者優(yōu)先。
7、熟練操作Nvidia卡/集群(A系列/H系列)及故障識(shí)別、處理,對(duì)硬件/網(wǎng)絡(luò)硬件問題能夠進(jìn)行故障處理,對(duì)國(guó)內(nèi)GPU卡有一定了解。