崗位職責(zé)
1、按照故障處理SLA要求響應(yīng)智算機(jī)房各類運(yùn)維工單,嚴(yán)格遵循SOP流程執(zhí)行操作,涵蓋設(shè)備的上下架、硬件部件更換、機(jī)房布線等操作
2、負(fù)責(zé)智算機(jī)房GPU服務(wù)器、交換機(jī)等設(shè)備的日常巡檢、狀態(tài)匯總、故障跟蹤處理及總結(jié)歸檔
3、及時(shí)響應(yīng)并處理機(jī)房緊急突發(fā)情況(如服務(wù)器宕機(jī)、網(wǎng)絡(luò)中斷、服務(wù)器硬件故障等),嚴(yán)格按流程執(zhí)行處理、記錄等工作
4、具備較強(qiáng)的責(zé)任心與溝通能力,確保智算機(jī)房運(yùn)維安全規(guī)范,最快程度完成故障處理,保障訓(xùn)練業(yè)務(wù)的穩(wěn)定運(yùn)行
任職要求
1、熟悉GPU服務(wù)器、服務(wù)器各部件如GPU/網(wǎng)卡/存儲(chǔ)卡/CPU/內(nèi)存等配置與特性,熟練掌握各類服務(wù)器部件故障排障手段與經(jīng)驗(yàn);
2、熟悉交換機(jī)基礎(chǔ)命令,能完成交換機(jī)基礎(chǔ)配置與檢查;
3、1年以上智算機(jī)房/數(shù)據(jù)中心運(yùn)維經(jīng)驗(yàn),有GPU集群硬件運(yùn)維經(jīng)驗(yàn)者優(yōu)先;
4、熟悉IDC機(jī)房運(yùn)維環(huán)境與安全規(guī)范;
5、熟練操作Linux系統(tǒng)(CentOS/Ubuntu),熟悉硬件查詢命令及常用系統(tǒng)命令,能進(jìn)入單用戶模式進(jìn)行系統(tǒng)操作;
6、具備智算機(jī)房應(yīng)急事件處理能力,如GPU掉卡、網(wǎng)絡(luò)中斷、機(jī)房溫濕度異常等情況的快速響應(yīng)與處理;
7、對(duì)智算機(jī)房常見(jiàn)的服務(wù)器、交換機(jī)運(yùn)維流程能熟練掌握,并能識(shí)別流程中的潛在風(fēng)險(xiǎn);
8、具有較強(qiáng)責(zé)任心,具備良好的團(tuán)隊(duì)協(xié)作與溝通能力,能跨部門配合推進(jìn)運(yùn)維工作;
9、本科及以上學(xué)歷,計(jì)算機(jī)科學(xué)與技術(shù)、電子信息工程等計(jì)算機(jī)相關(guān)專業(yè)