崗位要求:●本科及以上學(xué)歷,專業(yè)不限。
●具備良好的文字理解與表達(dá)能力,邏輯思維清晰,具備較好的同理心和用戶視角。
●工作認(rèn)真細(xì)致、責(zé)任心強,具備較強的執(zhí)行力和團隊協(xié)作精神,能嚴(yán)格遵守評測標(biāo)準(zhǔn)和流程。
●具備基本的計算機操作能力,能熟練使用辦公軟件(如Excel、Word),有數(shù)據(jù)標(biāo)注、模型評測相關(guān)經(jīng)驗者優(yōu)先。
●對人工智能、大語言模型領(lǐng)域有一定興趣,深度使用主流AI產(chǎn)品,并有自己的認(rèn)知和見解;了解大模型的基本原理和技術(shù)框架。
崗位職責(zé):●負(fù)責(zé)各類大語言模型(LLM)通用能力的一線評測工作,包括但不限于文本生成、邏輯推理、知識問答、多輪對話、代碼生成等核心場景的效果驗證。
●按照評測標(biāo)準(zhǔn)和流程,對模型輸出結(jié)果進行客觀、準(zhǔn)確的打分與標(biāo)注,記錄評測過程中的異常情況和模型不足,形成詳細(xì)的評測日志。
●參與構(gòu)建自動評估集,完成題目構(gòu)建、考點撰寫、打分邏輯等任務(wù)。
●參與評測數(shù)據(jù)集的整理、清洗與標(biāo)注工作,協(xié)助優(yōu)化評測樣本的覆蓋度和代表性,提升評測數(shù)據(jù)的質(zhì)量。
●配合團隊完成評測任務(wù)的推進,及時反饋評測過程中遇到的問題(如評測標(biāo)準(zhǔn)模糊、樣本異常等),協(xié)助優(yōu)化評測方案和流程。