【工作職責】
1.負責規(guī)控與控制策略的強化學習建模,設計獎勵函數(shù)、搭建策略網絡。
2.基于 PPO、AMP 等算法,在 Isaac Gym、Isaac Lab、MuJoCo、Gazebo 等仿真環(huán)境開展大規(guī)模并行訓練。
3.研發(fā)領域自適應與域隨機化方法,緩解策略在真實具身智能設備(無人機、無人車、機器狗、機器人等)上的震蕩、失穩(wěn)與性能退化問題,提升 sim2real 成功率。
4.建立標準化仿真回歸測試流程,完成萬次級策略驗證與規(guī)劃邏輯回歸測試,評估策略穩(wěn)定性與失效邊界。
【任職要求】
1.控制理論、計算機科學相關專業(yè)碩士/博士學歷,系統(tǒng)修讀過《深度強化學習》《非線性動力學》,理論基礎扎實。
2.精通 Isaac Gym、Isaac Lab、MuJoCo 大規(guī)模仿真流程,具備千量級以上 Agent 并發(fā)訓練的算力調度經驗。
3.擅長獎勵函數(shù)設計,有通過域隨機化解決硬件失準與震蕩的實操經驗,具備 sim2real 相關理解與落地能力。
4.能設計自動化回歸測試邏輯,量化評估 RL 策略魯棒性上限,有標準化代碼與流程記錄習慣。
5.具備優(yōu)秀科研與實驗習慣,可系統(tǒng)性分析模型不收斂原因,而非盲目調參。
補充說明:優(yōu)秀且經驗豐富者,可適當放寬任職條件;本崗位可招聘應屆畢業(yè)生,同時開放實習生崗位,實習生薪資標準為300-380元/天