崗位職責(zé):
1. 負(fù)責(zé)云原生平臺的搭建和維護,包括但不限于CI/CD,自動化測試,監(jiān)控告警,數(shù)據(jù)安全和災(zāi)備等;
2. 負(fù)責(zé)運維規(guī)范流程的設(shè)計和推廣;
3. 負(fù)責(zé)與技術(shù)團隊的協(xié)作,并對重點項目提供必要的技術(shù)保障與支持;
4. 負(fù)責(zé)應(yīng)用系統(tǒng)的性能分析與架構(gòu)優(yōu)化,不斷提高系統(tǒng)運行效率。
技能要求:
1.精通Kubernetes核心概念(Pod/Deployment/Service/Ingress/CRD)及運維操作(kubectl/Helm/Operator);熟悉容器技術(shù)(Docker/Containerd)及鏡像倉庫管理(Harbor)。
2.熟練使用KubeSphere平臺,掌握其多集群管理、應(yīng)用治理、微服務(wù)治理等高級功能。
3.熟悉 DevOps 理念及相關(guān)生態(tài),具備2年以上大規(guī)模高可用分布式系統(tǒng)集群的實踐經(jīng)驗。
4.熟悉Linux操作系統(tǒng)及常用命令,具備Shell腳本編程能力。
5.具備較強的問題分析和解決能力,務(wù)實主動且有良好的溝通協(xié)作能力。
6.熟練掌握大模型訓(xùn)練/推理框架及分布式系統(tǒng)運維,具備GPU集群管理、性能調(diào)優(yōu)及故障排查能力。
7.要求具備大規(guī)模AI系統(tǒng)運維經(jīng)驗,熟悉LLM全鏈路監(jiān)控告警體系,擁有多場景模型部署優(yōu)化實戰(zhàn)能力,兼具自動化運維開發(fā)及跨團隊協(xié)同經(jīng)驗者優(yōu)先。