崗位要求:
1.負(fù)責(zé)搭建和維護(hù)基于VictoriaMetrics/Prometheus的監(jiān)控系統(tǒng),實(shí)現(xiàn)指標(biāo)采集、存儲(chǔ)和可視化;
2.開發(fā)Loki日志收集與分析管道,優(yōu)化日志查詢性能;
3.設(shè)計(jì)Grafana監(jiān)控看板,制定業(yè)務(wù)/系統(tǒng)級(jí)監(jiān)控指標(biāo)標(biāo)準(zhǔn);
4.維護(hù)node-exporter等數(shù)據(jù)采集組件,適配k8s/k3s容器化環(huán)境;
5.研究NPU等異構(gòu)計(jì)算資源的監(jiān)控方案,開發(fā)定制化Exporter;
6.構(gòu)建多級(jí)告警體系,實(shí)現(xiàn)智能閾值判定與告警降噪。
任職要求:
1. 本科及以上學(xué)歷,計(jì)算機(jī)相關(guān)專業(yè),3年以上相關(guān)工作經(jīng)驗(yàn);
2.3年以上監(jiān)控系統(tǒng)開發(fā)經(jīng)驗(yàn),精通PromQL/VictoriaMetrics查詢語言;
3.熟練掌握Loki日志棧和Grafana可視化配置,有Dashboard模板開發(fā)經(jīng)驗(yàn);
4.熟悉k8s/k3s監(jiān)控體系,了解ServiceMonitor/PodMonitor等CRD配置;
5.具備Go/Python開發(fā)能力,能編寫定制化Exporter和告警插件;
6.有NPU/GPU等硬件監(jiān)控經(jīng)驗(yàn)者優(yōu)先,熟悉DCGM工具鏈更佳;
7.熟悉OpenTelemetry等可觀測性標(biāo)準(zhǔn)者加分;
8. 有較強(qiáng)的學(xué)習(xí)能力,能夠快速學(xué)習(xí)工作相關(guān)的新技術(shù),并運(yùn)用于相關(guān)項(xiàng)目中;
9. 工作態(tài)度認(rèn)真負(fù)責(zé),敢于接受挑戰(zhàn)。