崗位職責(zé)
? 負責(zé)云環(huán)境搭建與管理,基于 K8s 部署 Spring Cloud 微服務(wù)、 IM / RTC 服務(wù)、小程序容器運行環(huán)境。
? 構(gòu)建高可用運維體系:設(shè)計 CI/CD 流水線(Jenkins/GitLab CI)、灰度發(fā)布方案、監(jiān)控告警(Prometheus/Grafana)、日志分析(ELK),保障 IM 消息、音視頻通話穩(wěn)定性。
? 主導(dǎo)高并發(fā)容量規(guī)劃:壓測,設(shè)計彈性伸縮策略,應(yīng)對百萬級 DAU 流量波動。
? 落地海外合規(guī)運維:數(shù)據(jù)本地化存儲、GDPR 合規(guī)審計、安全防護(防火墻 / 滲透測試),解決跨區(qū)域網(wǎng)絡(luò)延遲問題。
? 管理云基礎(chǔ)設(shè)施(K8s、VPC、SLB、Redis、MQ、數(shù)據(jù)庫、CDN 等),優(yōu)化穩(wěn)定性及成本。
? 負責(zé)故障排查、事故復(fù)盤、SLO/SLA 制定和持續(xù)優(yōu)化,帶領(lǐng)運維 / SRE 團隊推進自動化、平臺化。
任職要求
? 6 年以上運維 / SRE 經(jīng)驗,精通海外云平臺、Kubernetes、Docker 容器化技術(shù)。
? 深入理解分布式系統(tǒng)運維,熟悉 Spring Cloud 微服務(wù)、Redis、MQ、數(shù)據(jù)庫(MySQL/NoSQL)、CDN 等組件的監(jiān)控與優(yōu)化。
? 有百萬級 DAU 高并發(fā)系統(tǒng)運維經(jīng)驗,主導(dǎo)過社交 App 或音視頻平臺的穩(wěn)定性建設(shè),能快速排查海外網(wǎng)絡(luò)、服務(wù)故障。
? 熟練掌握自動化腳本(Shell/Python)、基礎(chǔ)設(shè)施即代碼(Terraform/Ansible),熟悉 SLO/SLA 制定與故障復(fù)盤流程。
? 熟練掌握監(jiān)控與可觀測性工具(Prometheus、Grafana、ELK/EFK、SkyWalking/Jaeger 等)。
? 具備團隊管理能力與跨團隊溝通能力,了解海外合規(guī)要求(GDPR)。
加分項
? 英語良好
? 有IM / RTC服務(wù)運維經(jīng)驗;
? 熟悉 Chaos Engineering、SRE 體系(Error Budget);
? 持有阿里云相關(guān)認證(如 ACP);
? 有多區(qū)域部署與合規(guī)運維經(jīng)驗。