崗位職責(zé)
1.構(gòu)建統(tǒng)一的可觀測性平臺,整合指標(Metrics)、日志(Logs)、鏈路追蹤(Traces)三大核心數(shù)據(jù);
2.設(shè)計高可用、高性能的采集、存儲與查詢架構(gòu);
3.建立精準告警機制,減少噪音,提升故障發(fā)現(xiàn)與定位效率;
4.推動 OpenTelemetry 等標準埋點規(guī)范落地,確保全棧(前端、后端、中間件)可觀測覆蓋;
5.提供面向開發(fā)、運維、業(yè)務(wù)的可視化看板與自助分析能力,驅(qū)動系統(tǒng)優(yōu)化與容量規(guī)劃。
能力要求
1.學(xué)歷:本科及以上,計算機科學(xué)與技術(shù)、軟件工程、信息工程等計算機科學(xué)與技術(shù)、軟件工程、信息工程等計算機相關(guān)專業(yè)優(yōu)先;
2.工作年限:5年以上監(jiān)控相關(guān)工作經(jīng)驗,3年以上可觀測性平臺建設(shè)經(jīng)驗;
3.技術(shù)要求:深入掌握 Prometheus + Grafana、ELK(Elasticsearch、Logstash、Kibana)、Loki + Tempo、SkyWalking 等主流可觀測性技術(shù)棧;有大規(guī)模時序數(shù)據(jù)(Prometheus TSDB、InfluxDB)或日志存儲(Elasticsearch、MinIO)處理經(jīng)驗,熟悉存儲優(yōu)化、采樣策略與成本控制;理解分布式系統(tǒng)故障模式,能設(shè)計有效的根因分析(RCA)輔助機制;精通 OpenTelemetry 標準,能推動全棧埋點規(guī)范落地;具備平臺產(chǎn)品思維,能平衡靈活性、性能與易用性,設(shè)計用戶友好的可視化看板與分析工具。
4.具備良好的團隊協(xié)作能力、溝通能力與問題解決能力,認同公司技術(shù)理念與發(fā)展方向。
薪資可面議