工作職責:
1、負責AI平臺開發(fā)建設,基于K8S調用或二開API,包括標注平臺、訓練平臺、推理平臺及相關工具鏈的架構設計和研發(fā)工作;
2、設計高可擴展分布式計算與存儲方案,負責性能調優(yōu)、彈性容災及長期運維,保障集群的穩(wěn)定性與資源利用率;
3、將平臺和算法框架結合,通過任務調度、彈性容災、Prometheus + Grafana + GPU 指標監(jiān)控、性能調優(yōu)等手段,端到端提升算法研發(fā)效率。
4、跟蹤業(yè)界 AI 平臺動態(tài),持續(xù)優(yōu)化技術方案,推動功能迭代。
任職資格:
1. 大學本科及以上學歷,計算機及相關專業(yè),三年以上系統(tǒng)架構設計、應用和開發(fā)經(jīng)驗;
2. 掌握Java等常用開發(fā)語言,服務端開發(fā)的涉及常用工具體系。
3. 熟悉K8S相關技術,有相關開發(fā)經(jīng)驗,有過集群系統(tǒng)開發(fā)、部署和優(yōu)化經(jīng)驗優(yōu)先
4. 熟悉軟件開發(fā)流程以及DevOps完整流程,熟悉DevOps相關系統(tǒng)原理,有相關工具和使用經(jīng)驗、如Jenkins,Argo,Ceph,K8S,Docker,掌握源碼者優(yōu)先;
5. 工作認真負責,具有良好的團隊合作能力、溝通協(xié)調能力和學習能力,能承受一定強度的工作壓力。