【崗位職責(zé)】
1.全面負(fù)責(zé)人工智能平臺(tái)的日常運(yùn)維工作,包括平臺(tái)的部署、配置、監(jiān)控、調(diào)優(yōu)及故障處理等,確保平臺(tái)穩(wěn)定、高效運(yùn)行;
2.建立和完善平臺(tái)運(yùn)維管理制度、流程和規(guī)范,制定應(yīng)急預(yù)案,提高平臺(tái)的可靠性和可用性;
3.監(jiān)控人工智能平臺(tái)的運(yùn)行狀態(tài)、性能指標(biāo)及資源使用情況,及時(shí)發(fā)現(xiàn)并解決潛在問題,預(yù)防故障發(fā)生;
4.負(fù)責(zé)基礎(chǔ)服務(wù)相關(guān)硬件設(shè)備(服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)設(shè)備等)和軟件系統(tǒng)的維護(hù)與管理,確保其正常運(yùn)行;
5.組織進(jìn)行平臺(tái)的升級(jí)、補(bǔ)丁安裝及版本更新工作,保障平臺(tái)功能的持續(xù)優(yōu)化和安全;?
6.與開發(fā)團(tuán)隊(duì)、運(yùn)營(yíng)團(tuán)隊(duì)等保持密切溝通協(xié)作,協(xié)助解決平臺(tái)開發(fā)、使用過程中的技術(shù)問題。?
【任職條件】
1.計(jì)算機(jī)科學(xué)、電子工程、高性能計(jì)算相關(guān)專業(yè)碩士及以上學(xué)歷。
2.具有5年以上系統(tǒng)運(yùn)維經(jīng)驗(yàn),其中至少2年以上人工智能平臺(tái)或大規(guī)模分布式系統(tǒng)運(yùn)維管理經(jīng)驗(yàn)。?
3.有云計(jì)算、大數(shù)據(jù)平臺(tái)運(yùn)維經(jīng)驗(yàn)者優(yōu)先。?
4.熟悉人工智能平臺(tái)的架構(gòu)和運(yùn)行原理,掌握相關(guān)運(yùn)維技術(shù)和工具;精通 Linux 操作系統(tǒng)、數(shù)據(jù)庫(如 MySQL、MongoDB 等)、網(wǎng)絡(luò)技術(shù)及存儲(chǔ)技術(shù);熟悉容器技術(shù)(如 Docker、Kubernetes)、虛擬化技術(shù)及自動(dòng)化運(yùn)維工具(如 Ansible、Jenkins 等);具備較強(qiáng)的故障排查和問題解決能力,能快速響應(yīng)并處理平臺(tái)突發(fā)故障。
5.工作認(rèn)真負(fù)責(zé),嚴(yán)謹(jǐn)細(xì)致,具有較強(qiáng)的責(zé)任心和抗壓能力;具備良好的溝通協(xié)調(diào)能力和團(tuán)隊(duì)合作精神,能與各部門順暢協(xié)作;具有持續(xù)學(xué)習(xí)的意識(shí)和能力,關(guān)注行業(yè)新技術(shù)和發(fā)展趨勢(shì)。