崗位職責(zé):
1.負(fù)責(zé)AI大模型及相關(guān)應(yīng)用、智能體的評測工作,深入理解評測需求,制定并落地評測方案;
2.負(fù)責(zé)構(gòu)建大模型評測能力平臺,通過不斷探索和創(chuàng)新,迭代提升評測效率及準(zhǔn)確性;
3.對AI大模型進(jìn)行功能測試、性能測試、穩(wěn)定性測試、自動化測試等,確保系統(tǒng)滿足用戶需求及合規(guī)安全;
4.負(fù)責(zé)模型測試數(shù)據(jù)集的構(gòu)建及維護(hù),定期抽樣真實(shí)對話數(shù)據(jù)并進(jìn)行標(biāo)注;
5.分析歸因評測結(jié)果,編寫測試報告,提出改進(jìn)建議,協(xié)助研發(fā)團(tuán)隊定位并修復(fù)問題;
6.熟練使用LLM應(yīng)用開發(fā)平臺,開發(fā)并落地推廣測試領(lǐng)域場景保險業(yè)務(wù)相關(guān)的智能工作流,助力測試工作提效。
任職要求:
1.計算機(jī)、軟件工程、人工智能、電子信息等相關(guān)專業(yè);
2.二年以上AI大模型應(yīng)用測試工作經(jīng)驗(yàn),參與四項(xiàng)及以上AI大模型應(yīng)用的測試工作,擁有保險領(lǐng)域契約、核保、理賠、營銷、客戶服務(wù)等場景AI大模型應(yīng)用測試工作經(jīng)驗(yàn)優(yōu)先;
3.熟悉Java/Python/C++等至少一種編程語言;
4.熟悉AI大模型應(yīng)用的測試方法、測試工具、測試數(shù)據(jù)集構(gòu)建、測試指標(biāo)體系等;
5.熟悉常見LLM、VLM評測方案,對業(yè)界常見的Benchmark、評測集有基礎(chǔ)了解;
6.熟練使用LLM應(yīng)用開發(fā)平臺,如Dify、Langflow、Flowise等;
7.了解機(jī)器學(xué)習(xí)理論,包括深度學(xué)習(xí)、自然語言處理等技術(shù);了解數(shù)據(jù)處理和分析方法,能夠運(yùn)用數(shù)據(jù)驅(qū)動的方法協(xié)助算法團(tuán)隊優(yōu)化模型性能;
8.掌握軟件測試設(shè)計方法,理解軟件編程規(guī)范,了解軟件自動化測試、性能測試基礎(chǔ)方法和工具。