崗位職責(zé)
1、系統(tǒng)穩(wěn)定性保障:負責(zé)保障公司系統(tǒng)、應(yīng)用和服務(wù)的高可用性、可靠性和性能。設(shè)計、實施和維護監(jiān)控系統(tǒng),及時發(fā)現(xiàn)并解決潛在問題。
2、故障排除與問題解決:快速響應(yīng)和解決生產(chǎn)環(huán)境中的故障,確保系統(tǒng)正常運行。
3、自動化運維:開發(fā)和維護自動化工具,提高系統(tǒng)部署、配置和監(jiān)控的效率。
4、容量規(guī)劃與性能優(yōu)化:分析系統(tǒng)資源使用情況,進行容量規(guī)劃,確保系統(tǒng)能夠滿足業(yè)務(wù)增長需求。
5、安全性保障:與安全團隊合作,確保系統(tǒng)和服務(wù)的安全性,及時修復(fù)潛在的安全漏洞。
3、能夠深入了解監(jiān)控發(fā)現(xiàn)、故障應(yīng)急、風(fēng)險治理等一個或多個技術(shù)領(lǐng)域,并對相關(guān)的技術(shù)領(lǐng)域,并將相關(guān)能力平臺化擴展與多場景復(fù)制,解決實際穩(wěn)定性場景中面臨的問題,提升用戶體驗。
崗位要求
1、本科及以上學(xué)歷,計算機科學(xué)、信息技術(shù)或相關(guān)專業(yè)背景。
2、5年以上系統(tǒng)運維、性能優(yōu)化、故障排查等相關(guān)經(jīng)驗。
3、熟練使用自動化運維工具,具備Shell、Python等腳本編程經(jīng)驗。
4、深入理解計算、存儲、網(wǎng)絡(luò)、安全等技術(shù)。
5、深入了解云計算、容器化技術(shù)(Docker、Kubernetes)。
6、熟悉 Prometheus、Grafana 等監(jiān)控工具,具備可觀測性系統(tǒng)搭建和維護經(jīng)驗。
7、熟悉 ELK/EFK 等日志系統(tǒng),具備日志收集、分析和查詢的實戰(zhàn)經(jīng)驗。
8、熟悉常用的運維工具和技術(shù),例如 Ansible、Jenkins、Git 等。
9、具備強大的故障排除和問題解決能力,能夠在高壓環(huán)境下迅速應(yīng)對。
10、有大型分布式系統(tǒng)的設(shè)計和維護經(jīng)驗者優(yōu)先。
11、對新技術(shù)有強烈的學(xué)習(xí)興趣,保持對行業(yè)最新趨勢的關(guān)注。