一、工作職責(zé)
1、平臺(tái)高可用運(yùn)維與監(jiān)控:
負(fù)責(zé)平臺(tái)基于Kubernetes的容器化微服務(wù)架構(gòu)的日常巡檢、監(jiān)控、故障排查與性能優(yōu)化。
維護(hù)和管理平臺(tái)核心組件(如GitLab、Harbor、Nexus、SonarQube、Tekton流水線等)的穩(wěn)定運(yùn)行。
通過(guò)監(jiān)控系統(tǒng)(如Prometheus/Grafana)和日志系統(tǒng),主動(dòng)發(fā)現(xiàn)并解決潛在問(wèn)題,確保平臺(tái)SLA。
2、用戶支持與問(wèn)題解決:
作為平臺(tái)技術(shù)專家,響應(yīng)用戶(項(xiàng)目經(jīng)理、開(kāi)發(fā)者、測(cè)試人員等)在使用過(guò)程中遇到的技術(shù)問(wèn)題,提供及時(shí)、準(zhǔn)確的解決方案。
處理用戶關(guān)于項(xiàng)目創(chuàng)建、流水線執(zhí)行、權(quán)限配置、賬戶管理等操作的咨詢和故障報(bào)修。
3、平臺(tái)配置與持續(xù)改進(jìn):
負(fù)責(zé)平臺(tái)管理后臺(tái)的配置工作,包括用戶與角色權(quán)限管理、廠商信息管理、系統(tǒng)配置等。
根據(jù)業(yè)務(wù)需求,維護(hù)和優(yōu)化CI/CD流水線模板、工程腳手架模板。
協(xié)助優(yōu)化和落地DevOps規(guī)范與流程,提升平臺(tái)的易用性和團(tuán)隊(duì)協(xié)作效率。
4、安全、備份與災(zāi)備:
執(zhí)行平臺(tái)的安全策略,定期進(jìn)行安全漏洞掃描和修復(fù),管理鏡像安全。
制定并實(shí)施平臺(tái)及數(shù)據(jù)的備份與恢復(fù)策略,定期進(jìn)行災(zāi)備演練。
5、文檔與知識(shí)沉淀:
編寫(xiě)和維護(hù)平臺(tái)運(yùn)維手冊(cè)、故障處理手冊(cè)、用戶操作指南等文檔。
沉淀運(yùn)維知識(shí),分享最佳實(shí)踐,幫助團(tuán)隊(duì)共同成長(zhǎng)。
二、任職要求:
必備條件:
1、學(xué)歷與經(jīng)驗(yàn):? 計(jì)算機(jī)相關(guān)專業(yè)本科及以上學(xué)歷,擁有3年以上中大型軟件系統(tǒng)或云平臺(tái)運(yùn)維經(jīng)驗(yàn),有DevOps平臺(tái)運(yùn)維經(jīng)驗(yàn)者優(yōu)先。
2、容器與編排技術(shù):? 精通Docker容器技術(shù),對(duì)Kubernetes有深入的了解和實(shí)戰(zhàn)經(jīng)驗(yàn),能夠熟練進(jìn)行集群的部署、運(yùn)維和排障。
Linux與網(wǎng)絡(luò):? 精通Linux操作系統(tǒng),掌握Shell/Python/Go等至少一種腳本語(yǔ)言用于自動(dòng)化運(yùn)維。具備扎實(shí)的網(wǎng)絡(luò)知識(shí)(TCP/IP, DNS, 負(fù)載均衡等)。
3、DevOps工具鏈:? 熟悉并理解Git、CI/CD(如Jenkins, Tekton, GitLab CI等)、制品庫(kù)(如Harbor, Nexus)、代碼掃描(如SonarQube)等工具的原理和使用。
4、問(wèn)題解決能力:? 具備強(qiáng)烈的責(zé)任心、縝密的邏輯思維和出色的故障排查能力,能承受一定的工作壓力。
溝通協(xié)作:? 具備良好的溝通能力和服務(wù)意識(shí),能夠與開(kāi)發(fā)、測(cè)試、項(xiàng)目管理等多個(gè)角色高效協(xié)作。
優(yōu)先考慮:
1、有大型企業(yè)級(jí)DevOps平臺(tái)或研發(fā)協(xié)同平臺(tái)建設(shè)或運(yùn)維經(jīng)驗(yàn)者。
2、熟悉敏捷開(kāi)發(fā)流程和項(xiàng)目管理(如Scrum、Kanban)者。
3、具備云平臺(tái)(如騰訊云TKE、AWS EKS、阿里云ACK)運(yùn)維經(jīng)驗(yàn)者。
4、持有Kubernetes(CKA/CKAD)、Linux、網(wǎng)絡(luò)等相關(guān)認(rèn)證者。