1、運維平臺監(jiān)控開發(fā)與優(yōu)化:使用 Go 語言和 Java 進行運維平臺監(jiān)控模塊的設(shè)計與開發(fā),依據(jù)業(yè)務(wù)需求持續(xù)優(yōu)化監(jiān)控功能,保證監(jiān)控數(shù)據(jù)的精準與實時。
2、告警能力完善:基于對 Prometheus、Thanos 及周邊生態(tài)組件的熟悉,搭建并完善告警體系,設(shè)定合理的告警閾值,實現(xiàn)告警信息的及時準確推送。
3、K8S 集群相關(guān)運維:負責 Kubernetes 集群的日常運維工作,涵蓋集群部署、擴縮容操作,以及針對集群運行中出現(xiàn)的故障進行排查與修復(fù),維持集群的穩(wěn)定運作。
4、監(jiān)控數(shù)據(jù)處理與分析:深入分析運維平臺監(jiān)控數(shù)據(jù),敏銳察覺潛在的系統(tǒng)問題與性能瓶頸,提出切實可行的優(yōu)化方案。
5、自動化運維腳本開發(fā):編寫自動化運維腳本,運用 Go 語言或 Java 實現(xiàn)運維流程的自動化,提升運維效率,降低人為操作失誤。
6、跨團隊協(xié)作:與開發(fā)團隊、產(chǎn)品團隊緊密協(xié)作,積極參與項目推進,確保運維工作與整體業(yè)務(wù)發(fā)展目標相契合。
1、技術(shù)能力:熟練掌握 Go 語言和 Java 編程,擁有扎實的編程功底與良好的代碼編寫規(guī)范;熟悉 Kubernetes(K8S)原理與操作,能熟練開展集群管理與故障排查;精通 Prometheus、Thanos 及周邊生態(tài)組件的使用。
2、問題解決能力:具備出色的問題分析與解決能力,能夠迅速定位并處理運維過程中產(chǎn)生的各類技術(shù)難題。
3、團隊協(xié)作能力:擁有良好的溝通和團隊協(xié)作能力,能夠積極主動地與其他團隊成員協(xié)同合作,共同達成工作目標。
4、學習能力:對新技術(shù)充滿熱情,具備快速學習能力,能夠及時跟進運維領(lǐng)域的最新技術(shù)動態(tài)并應(yīng)用于實際工作。