1. 負責一站式具身數(shù)據(jù)平臺的部署、配置、升級與日常運維工作,保障平臺7×24小時穩(wěn)定、高效運行。
2. 搭建并優(yōu)化平臺監(jiān)控體系,包括系統(tǒng)資源、服務(wù)狀態(tài)、數(shù)據(jù)流轉(zhuǎn)、業(yè)務(wù)指標等維度的監(jiān)控,實現(xiàn)異常告警、故障自動發(fā)現(xiàn)與快速定位。
3. 負責平臺數(shù)據(jù)安全保障,制定并執(zhí)行數(shù)據(jù)備份、恢復(fù)策略,防范數(shù)據(jù)泄露、丟失等風險,確保數(shù)據(jù)合規(guī)性。
4. 處理運維過程中的各類故障與問題,包括系統(tǒng)宕機、性能瓶頸、網(wǎng)絡(luò)異常等,快速響應(yīng)并制定解決方案,降低故障影響范圍。
5. 推進運維自動化建設(shè),編寫Shell、Python等腳本優(yōu)化運維流程,提升部署效率、故障處理效率及運維工作標準化水平。
6. 配合研發(fā)、產(chǎn)品團隊完成平臺版本迭代的部署上線工作,參與測試環(huán)境搭建與維護,保障迭代過程順暢。
7. 關(guān)注運維相關(guān)技術(shù)趨勢,引入合適的運維工具與方案,持續(xù)優(yōu)化平臺架構(gòu)的穩(wěn)定性、可擴展性與運維效率。
任職要求:
1. 本科及以上學歷,計算機相關(guān)專業(yè),3年以上IT運維工作經(jīng)驗,有大數(shù)據(jù)平臺、AI平臺或分布式系統(tǒng)運維經(jīng)驗者優(yōu)先,熟2. 悉具身數(shù)據(jù)平臺相關(guān)業(yè)務(wù)場景者加分。
3. 精通Linux操作系統(tǒng),熟練掌握系統(tǒng)配置、性能優(yōu)化、故障排查等技能,具備扎實的網(wǎng)絡(luò)基礎(chǔ)知識(TCP/IP、路由、交換等)。
4. 熟悉容器化技術(shù)(Docker)、容器編排工具(Kubernetes)的使用與運維,有相關(guān)集群部署、管理經(jīng)驗者優(yōu)先。
5. 掌握主流監(jiān)控工具(Prometheus、Grafana、Zabbix等)、日志收集分析工具(ELK Stack等)的搭建與使用。
6. 具備一定的腳本開發(fā)能力,熟練使用Shell、Python等至少一種編程語言,能獨立完成運維自動化腳本編寫。
7. 熟悉MySQL、Redis、MongoDB等數(shù)據(jù)庫/緩存的運維與優(yōu)化,了解Hadoop、Spark等大數(shù)據(jù)組件運維者優(yōu)先。
8. 具有良好的問題排查能力、溝通協(xié)調(diào)能力和責任心,能承受應(yīng)急故障處理的壓力,具備團隊協(xié)作精神和較強的學習能力。