崗位職責(zé)
1.探究推理、事實(shí)性和泛化的評(píng)估套件庫。
2.運(yùn)用自動(dòng)和人工評(píng)估,構(gòu)建測(cè)試感知準(zhǔn)確性、符號(hào)推理正確性、工具調(diào)用精度和端到端任務(wù)成功的基準(zhǔn)測(cè)試方法。
3.在神經(jīng)推理和 MCP 調(diào)用時(shí)檢測(cè)可觀察性(度量、日志、追蹤)。
4.團(tuán)隊(duì)技術(shù)協(xié)調(diào)。
任職要求
1.專業(yè)背景:計(jì)算機(jī)、數(shù)學(xué)、統(tǒng)計(jì)、人工智能等相關(guān)專業(yè)。
2.學(xué)歷要求:碩士學(xué)歷及以上;本科學(xué)歷如有優(yōu)秀項(xiàng)目經(jīng)驗(yàn)也可接受。
3.工作經(jīng)驗(yàn):至少 2 年相關(guān)項(xiàng)目經(jīng)驗(yàn),有重要項(xiàng)目突破經(jīng)歷可放寬至 1 年。
4.技能要求:具有 NLP/AI 性能測(cè)試評(píng)估、度量設(shè)計(jì)、代碼調(diào)試、項(xiàng)目進(jìn)展跟進(jìn)及 AI 項(xiàng)目風(fēng)險(xiǎn)評(píng)估工作能力或經(jīng)歷,掌握統(tǒng)計(jì)分析(Python/R)、human-in-the-loop 評(píng)估框架并具有綜合審核各方進(jìn)展的技術(shù)協(xié)調(diào)能力。
工作地點(diǎn):天津、杭州、珠海