工作職責(zé):
1.云原生體系架構(gòu):負(fù)責(zé)公司級云原生技術(shù)棧的架構(gòu)設(shè)計與演進,主導(dǎo)Kubernetes集群規(guī)劃、服務(wù)網(wǎng)格(Istio/Linkerd)落地與Serverless化探索,推動云原生技術(shù)在AI、大數(shù)據(jù)、微服務(wù)等平臺的深度應(yīng)用。
2.現(xiàn)代化交付體系建設(shè):設(shè)計并實施企業(yè)級CI/CD平臺,精通Jenkins/GitLab CI流水線編排,主導(dǎo)GitOps實踐落地(ArgoCD/Flux),實現(xiàn)基礎(chǔ)設(shè)施即代碼(IaC)與交付流程自動化,支撐多業(yè)務(wù)線敏捷迭代。
3.可觀測性與SRE實踐:構(gòu)建統(tǒng)一監(jiān)控告警體系,整合Prometheus+Grafana+AlertManager,設(shè)計全鏈路追蹤與日志聚合方案,主導(dǎo)SLI/SLO定義與錯誤預(yù)算管理,推動故障演練與混沌工程常態(tài)化。
4.性能工程與成本優(yōu)化:建立性能壓測標(biāo)準(zhǔn)流程,設(shè)計全鏈路壓測平臺,分析系統(tǒng)瓶頸并推動優(yōu)化;實施資源成本治理,通過FinOps實踐實現(xiàn)云資源利用率提升與成本可控。
5.多環(huán)境適配與標(biāo)準(zhǔn)化:主導(dǎo)異構(gòu)環(huán)境(公有云/私有云/混合云)適配,推動國產(chǎn)化技術(shù)棧標(biāo)準(zhǔn)化;維護公司級Helm Chart倉庫與Operator生態(tài),沉淀可復(fù)用的部署模板。
6.技術(shù)賦能:作為云原生技術(shù)專家,開展SRE/DevOps培訓(xùn)與認(rèn)證,培養(yǎng)工程師梯隊
任職要求:
1.云原生深度專家:5年以上云原生領(lǐng)域經(jīng)驗,有生產(chǎn)級Kubernetes集群(500+節(jié)點)架構(gòu)設(shè)計與運維經(jīng)驗,熟悉控制平面組件(API Server/Scheduler/Controller Manager)調(diào)優(yōu)與二次開發(fā)
2.精通CI/CD與GitOps:主導(dǎo)過3個以上大規(guī)模Jenkins/GitLab CI流水線建設(shè)項目,熟悉Pipeline as Code;精通ArgoCD/Flux,有GitOps在多集群、多環(huán)境落地的實戰(zhàn)經(jīng)驗。
3.可觀測性體系:深度掌握Prometheus Operator、Thanos/Cortex架構(gòu),有大規(guī)模監(jiān)控指標(biāo)(10萬+)優(yōu)化經(jīng)驗;熟悉OpenTelemetry標(biāo)準(zhǔn),具備分布式鏈路追蹤與日志聚合實戰(zhàn)能力。
4.性能調(diào)優(yōu)能力:有全鏈路壓測平臺(如JMeter/K6/TPC-C)建設(shè)經(jīng)驗,能分析JVM、內(nèi)核、網(wǎng)絡(luò)、存儲瓶頸并提出優(yōu)化方案。
5.信創(chuàng)與多云經(jīng)驗:有信創(chuàng)項目國產(chǎn)化適配經(jīng)驗,熟悉鯤鵬/昇騰生態(tài);具備多云(阿里云/騰訊云/華為云)環(huán)境交付能力。
優(yōu)先條件:
1.有AI/MLops平臺或大數(shù)據(jù)平臺云原生改造經(jīng)驗
2.主導(dǎo)過Service Mesh大規(guī)模落地(100+微服務(wù))