【工作職責(zé)】
1.負(fù)責(zé)規(guī)控與控制策略的強(qiáng)化學(xué)習(xí)建模,設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)、搭建策略網(wǎng)絡(luò)。
2.基于 PPO、AMP 等算法,在 Isaac Gym、Isaac Lab、MuJoCo、Gazebo 等仿真環(huán)境開展大規(guī)模并行訓(xùn)練。
3.研發(fā)領(lǐng)域自適應(yīng)與域隨機(jī)化方法,緩解策略在真實(shí)具身智能設(shè)備(無(wú)人機(jī)、無(wú)人車、機(jī)器狗、機(jī)器人等)上的震蕩、失穩(wěn)與性能退化問(wèn)題,提升 sim2real 成功率。
4.建立標(biāo)準(zhǔn)化仿真回歸測(cè)試流程,完成萬(wàn)次級(jí)策略驗(yàn)證與規(guī)劃邏輯回歸測(cè)試,評(píng)估策略穩(wěn)定性與失效邊界。
【任職要求】
1.控制理論、計(jì)算機(jī)科學(xué)相關(guān)專業(yè)碩士/博士學(xué)歷,系統(tǒng)修讀過(guò)《深度強(qiáng)化學(xué)習(xí)》《非線性動(dòng)力學(xué)》,理論基礎(chǔ)扎實(shí)。
2.精通 Isaac Gym、Isaac Lab、MuJoCo 大規(guī)模仿真流程,具備千量級(jí)以上 Agent 并發(fā)訓(xùn)練的算力調(diào)度經(jīng)驗(yàn)。
3.擅長(zhǎng)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì),有通過(guò)域隨機(jī)化解決硬件失準(zhǔn)與震蕩的實(shí)操經(jīng)驗(yàn),具備 sim2real 相關(guān)理解與落地能力。
4.能設(shè)計(jì)自動(dòng)化回歸測(cè)試邏輯,量化評(píng)估 RL 策略魯棒性上限,有標(biāo)準(zhǔn)化代碼與流程記錄習(xí)慣。
5.具備優(yōu)秀科研與實(shí)驗(yàn)習(xí)慣,可系統(tǒng)性分析模型不收斂原因,而非盲目調(diào)參。
補(bǔ)充說(shuō)明:優(yōu)秀且經(jīng)驗(yàn)豐富者,可適當(dāng)放寬任職條件;本崗位可招聘應(yīng)屆畢業(yè)生,同時(shí)開放實(shí)習(xí)生崗位,實(shí)習(xí)生薪資標(biāo)準(zhǔn)為300-380元/天