崗位職責(zé): l 負(fù)責(zé)抓取/采摘機器人的 VLA(Vision–Language–Action)智能決策體系設(shè)計與實現(xiàn); l 負(fù)責(zé)構(gòu)建和優(yōu)化復(fù)雜場景下的 視覺–語言–動作多模態(tài)模型,實現(xiàn)自主理解目標(biāo)結(jié)構(gòu)、抓取/采摘策略等語義信息; l 負(fù)責(zé)基于 VLM/VLA 的 任務(wù)規(guī)劃、動作生成、抓取策略生成等算法研發(fā); l 將 VLA 模型嵌入機器人控制棧,實現(xiàn)從高層語義目標(biāo)到底層控制指令的映射; l 負(fù)責(zé)構(gòu)建多模態(tài)數(shù)據(jù)集(RGB、深度、點云、文本描述、語義標(biāo)簽),并開展自監(jiān)督/弱監(jiān)督訓(xùn)練; l 將感知(檢測、分割、姿態(tài)估計)與規(guī)劃(軌跡生成、抓取點選擇)整合進世界模型或通用 VLA 架構(gòu); l 在 Jetson/ARM/NPU 平臺上進行推理優(yōu)化,實現(xiàn)可部署的輕量化 VLA 模型; l 跟蹤 OpenAI、VLAWorld、Pi0、RT-2、OpenVLA、Agricultural-VLM 等前沿研究成果,推動落地; l 編寫算法文檔、接口說明與高層架構(gòu)文檔。 (2)任職需求與優(yōu)先條件: l 計算機、人工智能、機器人、多模態(tài)學(xué)習(xí)等相關(guān)專業(yè)碩士以上學(xué)歷; l 熟悉 C++/Python,具備扎實的深度學(xué)習(xí)工程能力; l 精通多模態(tài)學(xué)習(xí),包括視覺–語言預(yù)訓(xùn)練、跨模態(tài)對齊、動作預(yù)測等; l 熟悉VLM/VLA 模型(如 OpenVLA、RT-2、VLAWorld、VIMA、RoboVQA)優(yōu)先; l 熟悉世界模型(如 DreamerV3、TD-MPC、MPC-based latent models)者優(yōu)先; l 熟悉機器人行為克隆 RLHF、Diffusion Policy 者優(yōu)先; l 熟悉 ROS1/ROS2、MoveIt、機械臂控制棧,有機械臂/戶外機器人經(jīng)驗者優(yōu)先; l 在多模態(tài)、大模型、機器人學(xué)習(xí)等領(lǐng)域有論文、開源項目或工程落地經(jīng)驗者優(yōu)先。