工作職責:
1、根據(jù)運維規(guī)劃,深入各運維技術(shù)子方向(故障監(jiān)控/容量評估/配置和資源變更等),提供平臺化運維解決方案并持續(xù)優(yōu)化;
2、持續(xù)跟進 K8S 平臺架構(gòu)應(yīng)用部署以及平臺組件優(yōu)化,跟進 K8S 運維工具開發(fā);
3、負責大規(guī)模服務(wù)器配置管理、基礎(chǔ)軟件安裝以及性能調(diào)優(yōu)、應(yīng)用自動化部署等工作;
4、參與平臺SRE輪值 OnCall,完成運維開發(fā)相關(guān)工作文檔編寫。
任職資格:
1、計算機統(tǒng)招本科以上相關(guān)專業(yè),3年以上運維/開發(fā)經(jīng)驗,熟悉軟件開發(fā)和系統(tǒng)架構(gòu),有自動化運維的經(jīng)驗,精通Linux操作系統(tǒng);
2、熟悉 K8S多集群生命周期管理;熟練 Golang/Python 開發(fā);
3、熟悉基本的數(shù)據(jù)結(jié)構(gòu),熟悉基本的網(wǎng)絡(luò)知識,熟悉項目中 Postgresql/Mysql 等數(shù)據(jù)庫使用;
4、熟悉計算機網(wǎng)絡(luò),熟悉 DHCP、DNS 等常見協(xié)議,擅長基于 Tcpdump/Wireshark 分析網(wǎng)絡(luò)問題;
5、掌握 Prometheus/Alertmanager 監(jiān)控告警平臺,并基于 API 和 Webhook 實現(xiàn)自定義告警通知;
6、基于 Ubuntu、Centos 做系統(tǒng)二次封裝,掌握基于 PXE kickstart 自動化裝機流程;
7、熟悉 Linux 內(nèi)核網(wǎng)絡(luò)協(xié)議棧,清楚數(shù)據(jù)包在 Iptables 四表五鏈路徑,具備配置能力;
8、有以下一項或多項經(jīng)驗者優(yōu)先:對混合云、數(shù)據(jù)中心建設(shè)有獨特理解,對常見運維問題有豐富的經(jīng)驗優(yōu)先;
9、了解GPU、大模型訓(xùn)推等相關(guān)知識。