【崗位職責(zé)】
1 、評估體系與基準(zhǔn)構(gòu)建
負(fù)責(zé)設(shè)計、構(gòu)建和維護(hù)具身大腦模型的端到端評估體系,定義科學(xué)、全面的評估指標(biāo),涵蓋任務(wù)成功率、效率、魯棒性、泛化能力、安全性等多個維度。主導(dǎo)開發(fā)和維護(hù)標(biāo)準(zhǔn)化的評估基準(zhǔn),涵蓋仿真環(huán)境(如Libero、CALVIN、自定義場景)和真實機(jī)器人任務(wù),確保評估的可比性和可復(fù)現(xiàn)性。
2 、自動化測試與流水線開發(fā)
開發(fā)自動化的模型測試框架和CI/CD流水線,實現(xiàn)模型更新后的自動化回歸測試,快速發(fā)現(xiàn)性能衰退和功能缺陷。設(shè)計并實現(xiàn)多樣化的測試用例,包括正常場景、邊界場景和異常場景,系統(tǒng)性地挖掘模型潛在問題。
3 、模型性能評估與深度分析
執(zhí)行大規(guī)模的模型評估實驗,收集、整理和分析海量評估數(shù)據(jù),生成清晰的評估報告和可視化圖表,為模型迭代提供數(shù)據(jù)驅(qū)動的決策支持。對模型失敗案例進(jìn)行深入的根本原因分析,定位問題是出在感知、規(guī)劃、決策還是控制環(huán)節(jié),并形成詳細(xì)的“Bug Report”反饋給算法團(tuán)隊。
4 、真機(jī)測試與安全驗證
負(fù)責(zé)模型在真實機(jī)器人(機(jī)械臂、機(jī)器狗、無人機(jī))上的部署測試,制定并執(zhí)行嚴(yán)格的安全測試協(xié)議,確保測試過程的人員和設(shè)備安全。在真實環(huán)境中驗證模型的Sim2Real效果,評估其在光照變化、背景干擾、硬件噪聲等復(fù)雜條件下的實際表現(xiàn)。
5 、評估工具與平臺開發(fā)
開發(fā)和維護(hù)可視化的評估結(jié)果展示平臺(Dashboard),讓團(tuán)隊成員能直觀地了解模型性能、對比不同版本、追蹤關(guān)鍵指標(biāo)。編寫和維護(hù)評估相關(guān)的技術(shù)文檔、測試規(guī)范和操作手冊,提升團(tuán)隊評估工作的規(guī)范化和效率。
【崗位要求】
1 、學(xué)歷與專業(yè)背景
計算機(jī)科學(xué)、機(jī)器人、自動化、電子信息等相關(guān)專業(yè)本科及以上學(xué)歷,擁有2年以上AI模型測試、機(jī)器人系統(tǒng)測試或相關(guān)質(zhì)量保證經(jīng)驗。
2 、核心測試與評估能力
深刻理解AI模型(特別是多模態(tài)模型、強(qiáng)化學(xué)習(xí)模型)的評估方法論,熟悉準(zhǔn)確率、召回率、F1-score等傳統(tǒng)指標(biāo),并理解任務(wù)成功率、樣本效率、魯棒性等具身智能專屬指標(biāo)。具備優(yōu)秀的測試用例設(shè)計能力,能夠從用戶需求和系統(tǒng)架構(gòu)出發(fā),設(shè)計出覆蓋全面、重點突出的測試方案。
3、 機(jī)器人與仿真技術(shù)
熟悉ROS/ROS2,能夠使用ROS工具鏈監(jiān)控機(jī)器人狀態(tài)、發(fā)布指令和分析日志。熟練使用至少一種主流仿真環(huán)境(如Gazebo、Isaac Sim、AirSim),能夠在仿真中搭建測試場景并執(zhí)行自動化測試。
4 、編程與工具能力
精通Python,具備扎實的腳本開發(fā)和自動化能力,熟悉pytest等測試框架。
熟悉數(shù)據(jù)處理和可視化庫,如Pandas、NumPy、Matplotlib、Seaborn,能夠高效地處理和分析評估數(shù)據(jù)。有使用Weights & Biases (WB)、MLflow等實驗管理工具的經(jīng)驗者優(yōu)先。
5、 AI模型理解
對具身智能有濃厚興趣,了解VLA模型、強(qiáng)化學(xué)習(xí)、多模態(tài)融合等基本概念,不需要會設(shè)計模型,但需要理解其輸入、輸出和基本工作原理。有閱讀和理解AI模型技術(shù)文檔的能力,能夠與算法工程師進(jìn)行高效的技術(shù)溝通。
6 、軟技能與綜合素質(zhì)
具備極強(qiáng)的細(xì)心、耐心和責(zé)任心,對發(fā)現(xiàn)問題和追蹤問題根源有強(qiáng)烈熱情。
具備出色的邏輯思維能力和問題分析能力,能夠從復(fù)雜的現(xiàn)象中定位問題的本質(zhì)。具備良好的溝通能力和團(tuán)隊協(xié)作精神,能夠清晰、準(zhǔn)確地描述問題,并推動問題解決。