服務(wù)要求:
熟悉機(jī)器學(xué)習(xí)/大模型常用評(píng)估指標(biāo)、數(shù)據(jù)集和測(cè)試工具;
熟悉魯棒性測(cè)試、偏見(jiàn)性檢測(cè)、安全測(cè)試流程;
熟悉評(píng)測(cè)框架(如OpenCompass、自動(dòng)化測(cè)試平臺(tái)與可視化分析工具;
熟悉不同類(lèi)型模型、智能體和任務(wù)的測(cè)試樣本構(gòu)造方法;
具備復(fù)雜系統(tǒng)的評(píng)估指標(biāo)設(shè)計(jì)與評(píng)估流程搭建能力;
具備5年以上AI模型測(cè)試與質(zhì)量保障經(jīng)驗(yàn),主持過(guò)大規(guī)模模型評(píng)估體系或跨場(chǎng)景評(píng)測(cè)項(xiàng)目;
在模型安全性、可解釋性評(píng)估等領(lǐng)域有豐富實(shí)踐,持有軟件測(cè)試或質(zhì)量管理相關(guān)認(rèn)證者優(yōu)先。
主要服務(wù)內(nèi)容:
設(shè)計(jì)多維度的模型評(píng)估體系,涵蓋通用能力與業(yè)務(wù)適應(yīng)性;
構(gòu)建測(cè)試數(shù)據(jù)集、Prompt組和交互腳本,構(gòu)建模型評(píng)估自動(dòng)化流水線(xiàn);
實(shí)現(xiàn)模型版本間對(duì)比評(píng)估工具,分析評(píng)估結(jié)果,識(shí)別模型偏差、幻覺(jué)等缺陷;
分析模型輸出與用戶(hù)反饋,輸出模型評(píng)估報(bào)告,推動(dòng)模型優(yōu)化。