崗位職責(zé)
1、負(fù)責(zé)AI相關(guān)服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)設(shè)備的規(guī)劃、配置、監(jiān)控和故障排除;
2、負(fù)責(zé)AI相關(guān)平臺(tái)環(huán)境的搭建、發(fā)布升級(jí)、運(yùn)維監(jiān)控等,保障服務(wù)器穩(wěn)定性和可用性。
3、負(fù)責(zé)處理線上故障,分析原因,設(shè)計(jì)解決方案和應(yīng)急預(yù)案;
4、針對(duì)公司基礎(chǔ)設(shè)施、相關(guān)產(chǎn)品及數(shù)據(jù),規(guī)劃安全運(yùn)維策略,預(yù)防各類安全威脅,保障 AI 系統(tǒng)數(shù)據(jù)與業(yè)務(wù)安全;
5、協(xié)助編寫項(xiàng)目相關(guān)文檔,配合項(xiàng)目經(jīng)理完成項(xiàng)目管理工作,推動(dòng)項(xiàng)目驗(yàn)收;
任職要求
1、精通 Linux、Windows 相關(guān)服務(wù)器操作,能夠熟練進(jìn)行服務(wù)器的安裝、配置、調(diào)優(yōu)以及故障排查;
2、熟練掌握網(wǎng)絡(luò)基礎(chǔ)知識(shí),了解容器技術(shù)(如 Docker、Kubernetes),熟悉主流公有云及相關(guān)產(chǎn)品操作;
3、掌握主流的數(shù)據(jù)庫(kù)(如 MySQL、PostgreSQL 等)安裝、維護(hù)、調(diào)優(yōu)等操作,了解數(shù)據(jù)庫(kù)的備份與恢復(fù)策略;
4、熟悉至少一種自動(dòng)化運(yùn)維工具(Ansible、SaltStack、Puppet 等),有較強(qiáng)的腳本編寫能力(Shell、Python 等),能夠獨(dú)立開(kāi)發(fā)自動(dòng)化運(yùn)維腳本;
5、熟悉 AI 相關(guān)技術(shù)棧,包括深度學(xué)習(xí)框架(TensorFlow、PyTorch 等)的部署與運(yùn)維,有 GPU 集群管理經(jīng)驗(yàn),了解GPU虛擬化技術(shù);