職位摘要:我們正在尋找一位有才華的AIDC SRE7*24(三班倒班模式)IT值班運維工程師加入我們的團隊,負責輪班維護和改進我們AI數(shù)據(jù)中心的基礎(chǔ)設(shè)施。您將負責確保支持我們的AI應用程序的系統(tǒng)的可靠性、可擴展性和性能。
主要責任:
?監(jiān)控和管理硬件基礎(chǔ)設(shè)施的健康和性能,處理各種7*24支持中的主機,網(wǎng)絡(luò),存儲等設(shè)備的問題。
?設(shè)計和實施解決方案以提高硬軟件系統(tǒng)的可靠性、可擴展性和性能。
?與網(wǎng)絡(luò),存儲工程師及其他SRE密切合作,排除和解決AIDC相關(guān)的問題。
?與各供應商溝通合作,確保提供最佳解決方案來滿足我們的值班需求。
?參與值班輪換,為AIDC基礎(chǔ)設(shè)施提供全天候(24/7)支持。
任職資格:
?計算機、電氣、電子等相關(guān)領(lǐng)域的統(tǒng)招??萍耙陨蠈W位。
?2年以上擔任IDC值班運維或相關(guān)角色的經(jīng)驗。
?具有IDC硬件、操作系統(tǒng)及應用測試,運維和故障排除方面的相關(guān)經(jīng)驗。
?了解數(shù)據(jù)中心架構(gòu),包括服務器、存儲、網(wǎng)絡(luò)和電源系統(tǒng)。
?熟悉Linux服務器常用操作和管理。
?強大的分析和解決問題的能力。
?出色的溝通和團隊合作能力。
優(yōu)先資格:
?具有人工智能和機器學習硬件(例如GPU,IB交換機,以太交換機)的經(jīng)驗優(yōu)先。
?熟悉腳本語言優(yōu)先,例如Python或Bash。
?熟悉數(shù)據(jù)中心冷卻和通風系統(tǒng)知識優(yōu)先。
?善于使用AI工具輔助完成工作。