崗位職責(zé):
1.參與智能運維的整體架構(gòu)設(shè)計與規(guī)劃,結(jié)合公司業(yè)務(wù)需求和技術(shù)發(fā)展趨勢,制定合理的技術(shù)方案,確保平臺具備高可用性、高性能和可擴展性;
2. 負(fù)責(zé)智能運維平臺的開發(fā)工作,包括數(shù)據(jù)采集模塊、數(shù)據(jù)分析模塊、告警管理模塊、自動化運維模塊等功能的編碼實現(xiàn),使用主流的開發(fā)框架和工具,保證代碼質(zhì)量和開發(fā)效率;
3. 與運維團隊緊密合作,深入了解運維業(yè)務(wù)流程,將運維場景和需求轉(zhuǎn)化為具體的功能需求,通過開發(fā)實現(xiàn)運維工作的自動化、智能化,提高運維效率,降低運維成本;
4. 負(fù)責(zé)智能運維的數(shù)據(jù)處理和分析工作,運用大數(shù)據(jù)技術(shù)和機器學(xué)習(xí)算法,對運維數(shù)據(jù)進行挖掘和分析,建立運維數(shù)據(jù)模型,實現(xiàn)故障預(yù)測、根因分析等智能化運維功能;
5. 監(jiān)控智能運維平臺的運行狀態(tài),及時發(fā)現(xiàn)和解決平臺運行過程中出現(xiàn)的問題,保障平臺的穩(wěn)定運行;定期對平臺進行性能優(yōu)化,提升平臺的響應(yīng)速度和處理能力;
6. 參與制定和完善智能運維相關(guān)的技術(shù)規(guī)范、流程和標(biāo)準(zhǔn),推動團隊技術(shù)水平的提升;
7. 分享技術(shù)經(jīng)驗和最佳實踐,幫助團隊成員共同成長。
崗位任職要求:
1、本科及以上學(xué)歷,計算機科學(xué)、軟件工程、電子信息等相關(guān)專業(yè);
2、具備AI 與機器學(xué)習(xí)技術(shù),能熟練使用 Python/R等語言,掌握機器學(xué)習(xí)經(jīng)典算法(如回歸分析、聚類、決策樹)、深度學(xué)習(xí)框架(TensorFlow/PyTorch)等知識;
運維場景定制算法:熟悉時序預(yù)測(LSTM/Transformer 用于性能趨勢分析)、異常檢測(Isolation Forest/One-Class SVM 用于故障預(yù)警)、強化學(xué)習(xí)(自動參數(shù)調(diào)優(yōu))等模型,了解相關(guān)模型在不同場景下的落地;
3、具備自動化運維能力,熟練使用 Shell/Python 編寫各類運維自動化腳本;掌握 Docker/Kubernetes 容器化技術(shù),可熟練使用 Prometheus+Grafana、Zabbix 等工具以及ELK等,構(gòu)建日志分析和監(jiān)控體系;
4、具備良好的溝通和理解能力,理解不同運維場景對監(jiān)控、撥測等方面的需求,能夠?qū)?yīng)用可用性需求轉(zhuǎn)化為 AIOPS設(shè)計需求。