崗位職責(zé)
1.參與企業(yè)級(jí)監(jiān)控平臺(tái)的研發(fā),統(tǒng)一收集和分析系統(tǒng)指標(biāo)、日志與調(diào)用鏈路數(shù)據(jù);
2.開(kāi)發(fā)高性能的數(shù)據(jù)采集、傳輸、存儲(chǔ)與查詢模塊,支撐大規(guī)模服務(wù)的實(shí)時(shí)可觀測(cè)性;
3.實(shí)現(xiàn)智能告警、故障定位輔助、容量預(yù)測(cè)等能力,幫助團(tuán)隊(duì)快速發(fā)現(xiàn)和解決問(wèn)題;
4.推動(dòng)全公司系統(tǒng)接入統(tǒng)一監(jiān)控標(biāo)準(zhǔn),減少重復(fù)建設(shè);
5.優(yōu)化平臺(tái)資源消耗與查詢效率,在成本與體驗(yàn)之間取得平衡。
能力要求
1.學(xué)歷:本科及以上,計(jì)算機(jī)科學(xué)與技術(shù)、軟件工程、信息工程等計(jì)算機(jī)科學(xué)與技術(shù)、軟件工程、信息工程等計(jì)算機(jī)相關(guān)專業(yè)優(yōu)先;
2.工作年限:3年以上監(jiān)控研發(fā)相關(guān)工作經(jīng)驗(yàn),1年以上可觀測(cè)性工具開(kāi)發(fā)經(jīng)驗(yàn);
3.技術(shù)要求:熟悉 Java 或 Go 編程語(yǔ)言,有 Prometheus、Grafana、ELK、Loki、SkyWalking 等系統(tǒng)開(kāi)發(fā)或深度定制經(jīng)驗(yàn);熟悉時(shí)序數(shù)據(jù)庫(kù)(Prometheus TSDB、InfluxDB、ClickHouse)或日志存儲(chǔ)(Elasticsearch)的原理與調(diào)優(yōu);能設(shè)計(jì)高吞吐、低延遲的數(shù)據(jù)管道(采集、傳輸、存儲(chǔ)、查詢),處理百萬(wàn)級(jí)指標(biāo)或 TB 級(jí)日志;理解分布式系統(tǒng)常見(jiàn)故障模式,能將運(yùn)維痛點(diǎn)轉(zhuǎn)化為有效監(jiān)控能力;熟悉 OpenTelemetry 標(biāo)準(zhǔn),具備埋點(diǎn)規(guī)范設(shè)計(jì)與落地能力;掌握監(jiān)控告警策略設(shè)計(jì)、降噪算法與根因分析輔助技術(shù)。
4.具備良好的團(tuán)隊(duì)協(xié)作能力、溝通能力與問(wèn)題解決能力,認(rèn)同公司技術(shù)理念與發(fā)展方向。
薪資可面議