一、崗位職責(zé):
1、研究并實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)算法(DQN/PPO/SAC/A3C等)解決實(shí)際問題;
2、設(shè)計(jì)仿真環(huán)境(Gym/Unity/Mujoco等)和獎勵函數(shù),優(yōu)化智能體策略;
3、結(jié)合深度學(xué)習(xí)(如Deep RL)提升智能決策能力;
4、探索多智能體強(qiáng)化學(xué)習(xí)(MARL)、模仿學(xué)習(xí)(Imitation Learning)等方向。
二、職位要求:
1、計(jì)算機(jī)、人工智能、數(shù)學(xué)、自動化等相關(guān)專業(yè)本科及以上學(xué)歷;
2、編程能力:熟練Python,熟悉PyTorch/TensorFlow/JAX等框架;
3、算法基礎(chǔ):扎實(shí)的機(jī)器學(xué)習(xí)/深度學(xué)習(xí)/強(qiáng)化學(xué)習(xí)理論基礎(chǔ);
4、項(xiàng)目經(jīng)驗(yàn):
(1)模型方向:有CV/NLP/推薦系統(tǒng)等領(lǐng)域的模型訓(xùn)練和優(yōu)化經(jīng)驗(yàn)
RL方向:有機(jī)器人控制、游戲AI、自動駕駛等RL應(yīng)用經(jīng)驗(yàn)
(2)加分項(xiàng)(Nice-to-Have)
熟悉分布式訓(xùn)練(DDP/FSDP/Horovod)或大模型訓(xùn)練(LLM/RLHF)
有強(qiáng)化學(xué)習(xí)競賽(如Kaggle、AI Dungeon)或論文發(fā)表(ICML/NeurIPS/ICLR)經(jīng)驗(yàn),熟悉CUDA優(yōu)化、模型部署(TensorRT/Triton)或邊緣計(jì)算(Jetson)。
三、福利待遇:
雙休+六險(xiǎn)一金+年終獎+部門獎金+節(jié)假日福利+生日福利+員工體檢+員工旅游+電話補(bǔ)貼+交通補(bǔ)貼