參與企業(yè)級(jí)監(jiān)控平臺(tái)研發(fā),統(tǒng)一采集分析指標(biāo)、日志及鏈路數(shù)據(jù),開(kāi)發(fā)高性能數(shù)據(jù)處理模塊支撐實(shí)時(shí)可觀(guān)測(cè)性;實(shí)現(xiàn)智能告警、故障定位等能力,推動(dòng)全公司監(jiān)控標(biāo)準(zhǔn)化,優(yōu)化資源消耗與查詢(xún)效率。
1. 學(xué)歷:本科及以上,計(jì)算機(jī)科學(xué)與技術(shù)、軟件工程、網(wǎng)絡(luò)工程、物聯(lián)網(wǎng)工程、數(shù)學(xué)與應(yīng)用數(shù)學(xué)、信息與計(jì)算科學(xué)、電子信息工程、電子科學(xué)與技術(shù)、通信工程、等理工科相關(guān)專(zhuān)業(yè)
2. 工作年限:3年及以上相關(guān)工作經(jīng)驗(yàn);
3. 技術(shù)要求:熟悉 Java 或 Go 編程語(yǔ)言,有 Prometheus、Grafana、ELK、Loki、SkyWalking 等系統(tǒng)開(kāi)發(fā)或深度定制經(jīng)驗(yàn);熟悉時(shí)序數(shù)據(jù)庫(kù)(Prometheus TSDB、InfluxDB、ClickHouse)或日志存儲(chǔ)(Elasticsearch)的原理與調(diào)優(yōu);能設(shè)計(jì)高吞吐、低延遲的數(shù)據(jù)管道(采集、傳輸、存儲(chǔ)、查詢(xún)),處理百萬(wàn)級(jí)指標(biāo)或 TB 級(jí)日志;理解分布式系統(tǒng)常見(jiàn)故障模式,能將運(yùn)維痛點(diǎn)轉(zhuǎn)化為有效監(jiān)控能力;熟悉 OpenTelemetry 標(biāo)準(zhǔn),具備埋點(diǎn)規(guī)范設(shè)計(jì)與落地能力;掌握監(jiān)控告警策略設(shè)計(jì)、降噪算法與根因分析輔助技術(shù)。
4. 具備良好的團(tuán)隊(duì)協(xié)作能力、溝通能力與問(wèn)題解決能力,認(rèn)同公司技術(shù)理念與發(fā)展方向。