職位概述
我們正在尋找一位資深具身模型分布式訓(xùn)練師,負責領(lǐng)導(dǎo)大規(guī)模具身智能模型的分布式訓(xùn)練工作。您將參與構(gòu)建業(yè)界領(lǐng)先的機器人智能系統(tǒng),推動具身智能技術(shù)的邊界。
核心職責
1、技術(shù)研發(fā)與實現(xiàn)
- 設(shè)計并實施大規(guī)模具身模型的分布式訓(xùn)練架構(gòu),包括數(shù)據(jù)并行、模型并行、流水線并行等策略
- 開發(fā)和優(yōu)化多機多卡環(huán)境下的訓(xùn)練框架,提升訓(xùn)練效率和系統(tǒng)穩(wěn)定性
- 構(gòu)建高效的分布式仿真環(huán)境,支持大規(guī)模并行數(shù)據(jù)收集和策略評估
- 實現(xiàn)混合并行訓(xùn)練方案,優(yōu)化通信開銷和計算資源利用率
2、系統(tǒng)優(yōu)化與性能調(diào)優(yōu)
- 分析和解決分布式訓(xùn)練中的性能瓶頸,包括通信、內(nèi)存、計算等方面
- 開發(fā)梯度同步優(yōu)化、通信壓縮、重疊計算等性能優(yōu)化技術(shù)
- 設(shè)計和實施容錯機制,確保長時間訓(xùn)練的穩(wěn)定性和可靠性
- 優(yōu)化GPU顯存使用,支持更大模型和批次的訓(xùn)練
3、算法創(chuàng)新與應(yīng)用
- 研究和應(yīng)用最新的分布式訓(xùn)練算法,如ZeRO、MoE等先進技術(shù)
- 開發(fā)適應(yīng)具身智能特點的訓(xùn)練策略,包括多任務(wù)學(xué)習、元學(xué)習、課程學(xué)習等
- 設(shè)計高效的強化學(xué)習分布式訓(xùn)練框架,支持離線與在線混合訓(xùn)練
- 探索仿真到實物的遷移學(xué)習技術(shù),提升模型在真實環(huán)境中的表現(xiàn)
4、工程部署與運維
- 構(gòu)建自動化訓(xùn)練流水線,實現(xiàn)模型訓(xùn)練、評估、部署的全流程管理
- 開發(fā)訓(xùn)練監(jiān)控系統(tǒng),實時跟蹤訓(xùn)練狀態(tài)、資源使用和性能指標
- 設(shè)計和維護多集群訓(xùn)練環(huán)境,支持彈性擴縮容和資源調(diào)度
- 建立模型版本管理和實驗追蹤體系
5、團隊協(xié)作與指導(dǎo)
- 領(lǐng)導(dǎo)技術(shù)方案設(shè)計和代碼審查,確保代碼質(zhì)量和系統(tǒng)可靠性
- 指導(dǎo)初級工程師,分享分布式訓(xùn)練的最佳實踐和經(jīng)驗
- 與算法團隊、硬件團隊緊密合作,優(yōu)化端到端訓(xùn)練性能
- 撰寫技術(shù)文檔,沉淀知識體系,推動團隊技術(shù)成長
任職要求必備條件
- 3年以上分布式訓(xùn)練相關(guān)工作經(jīng)驗
- 精通PyTorch分布式訓(xùn)練框架(DDP, FSDP, RPC等)
- 熟悉NCCL、MPI等通信庫和性能優(yōu)化
- 有大模型(10B+參數(shù))分布式訓(xùn)練實戰(zhàn)經(jīng)驗
- 熟練掌握Python和Linux環(huán)境下的開發(fā)調(diào)試
優(yōu)先考慮
- 有具身智能、機器人學(xué)習相關(guān)項目經(jīng)驗
- 熟悉強化學(xué)習分布式訓(xùn)練框架(Ray, RLlib等)
- 有Kubernetes、Slurm等集群管理經(jīng)驗
- 在頂級會議(NeurIPS, ICML, ICLR等)發(fā)表過相關(guān)論文
- 熟悉CUDA編程和內(nèi)核優(yōu)化
我們提供
- 具有競爭力的薪酬待遇和股權(quán)激勵
- 業(yè)界領(lǐng)先的計算資源(數(shù)百張A100/H800集群)
- 與頂尖團隊共事的機會,參與前沿技術(shù)研發(fā)
- 良好的職業(yè)發(fā)展通道和技術(shù)成長空間