崗位優(yōu)勢:
薪資可談,晉升空間大,各項福利待遇好,公司氛圍好,有發(fā)展前景
崗位職責(zé)
1. 負(fù)責(zé)AI基礎(chǔ)架構(gòu)(如GPU/算力集群、分布式存儲、高速網(wǎng)絡(luò))的規(guī)劃、部署、監(jiān)控與維護(hù),保障高可用性;
2. 優(yōu)化AI訓(xùn)練/推理集群的資源調(diào)度與負(fù)載均衡(如Slurm/Kubernetes/Kubeflow),提升算力利用率與任務(wù)效率;
3. 設(shè)計自動化運(yùn)維方案,支持大規(guī)模分布式訓(xùn)練、模型版本管理及多環(huán)境協(xié)同(開發(fā)/測試/生產(chǎn));
4. 解決AI系統(tǒng)底層性能瓶頸(如網(wǎng)絡(luò)延遲、存儲I/O、GPU顯存優(yōu)化),協(xié)同硬件團(tuán)隊完成調(diào)優(yōu);
5. 制定AI基礎(chǔ)架構(gòu)的災(zāi)備、擴(kuò)容及安全策略,確保數(shù)據(jù)合規(guī)與系統(tǒng)韌性;
6. 跟蹤AI基礎(chǔ)設(shè)施技術(shù)(如高性能計算、RDMA網(wǎng)絡(luò)、MLOps工具鏈),推動技術(shù)迭代與標(biāo)準(zhǔn)化。
任職要求
1、一本及以上學(xué)歷,計算機(jī)、電子信息、人工智能等相關(guān)專業(yè);具有AI 架構(gòu)師經(jīng)驗
2、有算力調(diào)配,及運(yùn)維經(jīng)驗
3、熟悉Linux系統(tǒng)及腳本開發(fā)(Python/Shell),精通容器化與編排技術(shù)(Docker/K8s);
4、熟悉AI算力集群管理(GPU/NPU資源分配、監(jiān)控與故障排查);
5、掌握分布式系統(tǒng)原理,了解AI訓(xùn)練框架(PyTorch/TensorFlow)的底層架構(gòu)與依賴;
6、熟練使用監(jiān)控工具(如Prometheus),具備自動化腳本開發(fā)能力;
7、有大規(guī)模AI集群運(yùn)維經(jīng)驗或參與過AI平臺搭建 ;
8、邏輯清晰,表達(dá)能力強(qiáng),具備良好的團(tuán)隊協(xié)作意識。