崗位要求
1、計(jì)算機(jī)相關(guān)專業(yè)本科及以上學(xué)歷,5年以上運(yùn)維工作經(jīng)驗(yàn),其中至少3年專職Kubernetes運(yùn)維管理經(jīng)驗(yàn),維護(hù)過較大規(guī)模生產(chǎn)k8s集群。
2、精通Linux操作系統(tǒng)維護(hù)、內(nèi)核性能調(diào)優(yōu),熟練使用Python/Shell/Go等至少一種語(yǔ)言,可開發(fā)自動(dòng)化運(yùn)維腳本及工具。
3、具備良好的網(wǎng)絡(luò)基礎(chǔ),熟悉 TCP/IP、DNS、HTTP 等協(xié)議,熟悉常見的網(wǎng)絡(luò)問題分析和處理,具備很強(qiáng)技術(shù)敏感度和故障排查經(jīng)驗(yàn)。
4、深入理解 Kubernetes 的核心概念(如 Pod、Deployment、Service、Ingress、StatefulSet、DaemonSet 等)和工作原理。熟練使用 kubectl、helm 等命令行工具,具備編寫和調(diào)試YAML/JSON 資源清單文件的能力。熟練掌握Docker 容器技術(shù),熟悉Dockerfile 最佳實(shí)踐
5、熟練掌握至少一種主流的 CNI 網(wǎng)絡(luò)插件、CSI 存儲(chǔ)方案和Ingress Controller。
6、熟練掌握 Prometheus + Grafana 監(jiān)控棧的搭建、配置和使用,熟悉ELK日志系統(tǒng)管理和使用。
7、工作細(xì)致、善于思考,對(duì)前沿技術(shù)有強(qiáng)烈的鉆研精神;強(qiáng)烈的責(zé)任心、良好的溝通和協(xié)調(diào)能力、極強(qiáng)的業(yè)務(wù)推動(dòng)能力、勇于接受挑戰(zhàn);具備較強(qiáng)的文檔編寫能力。
8、愿意接受7*24小時(shí)根據(jù)監(jiān)控系統(tǒng)或人工報(bào)障信息,隨時(shí)處理線上系統(tǒng)故障,保障系統(tǒng)穩(wěn)定運(yùn)行。
崗位職責(zé)
1、負(fù)責(zé)公司生產(chǎn)、灰度、測(cè)試、開發(fā)環(huán)境的 Kubernetes 集群的規(guī)劃、部署、升級(jí)、擴(kuò)容、監(jiān)控與日常維護(hù),保障集群的高可用性和穩(wěn)定性。深入排查并解決集群節(jié)點(diǎn)、網(wǎng)絡(luò)、存儲(chǔ)、負(fù)載均衡等組件的故障和性能瓶頸。管理和維護(hù)集群的etcd、CNI網(wǎng)絡(luò)插件、CSI存儲(chǔ)插件、Ingress、coredns、鏡像倉(cāng)庫(kù)等核心組件。
2、構(gòu)建和完善集群及應(yīng)用的全鏈路監(jiān)控體系,使用 Prometheus、Grafana 等工具對(duì)集群資源、應(yīng)用性能及業(yè)務(wù)指標(biāo)進(jìn)行監(jiān)控,配置和管理合理的告警規(guī)則,確保能及時(shí)響應(yīng)并處理各類故障。
3、為開發(fā)團(tuán)隊(duì)提供資源規(guī)劃和性能調(diào)優(yōu)的建議與支持。