1.負(fù)責(zé)大模型預(yù)訓(xùn)練數(shù)據(jù)的清洗、去噪與結(jié)構(gòu)化處理,構(gòu)建高質(zhì)量語料庫,支持模型訓(xùn)練需求:
2.設(shè)計并實(shí)現(xiàn)基于Python的高效數(shù)據(jù)處理Pipeline,優(yōu)化數(shù)
據(jù)預(yù)處理流程,提升數(shù)據(jù)質(zhì)量;
3.擅長對接數(shù)據(jù)采集(上游)與模型訓(xùn)練(下游),制定數(shù)據(jù)規(guī)范、質(zhì)量監(jiān)控及閉環(huán)優(yōu)化策略,確保數(shù)據(jù)-模型高效協(xié)同
崗位要求:
1.研究生及以上學(xué)歷,計算機(jī)、數(shù)據(jù)科學(xué)、人工智能相關(guān)
專業(yè);2.一年以上數(shù)據(jù)清洗/處理經(jīng)驗(yàn),有LLM或NLP項(xiàng)目經(jīng)驗(yàn)者
優(yōu)先;
3.具備良好的數(shù)據(jù)敏感度,能獨(dú)立解決復(fù)雜數(shù)據(jù)問題;4.強(qiáng)烈的責(zé)任心與團(tuán)隊協(xié)作能力,適應(yīng)快節(jié)奏技術(shù)迭代,