1.負責(zé)構(gòu)建大模型場景應(yīng)用數(shù)據(jù)集,包括訓(xùn)練數(shù)據(jù)集、微調(diào)數(shù)據(jù)集和測試數(shù)據(jù)集等;
2.負責(zé)數(shù)據(jù)平臺設(shè)計與開發(fā),包括數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)去重、數(shù)據(jù)標注、質(zhì)量評估、數(shù)據(jù)發(fā)布等策略制定及相關(guān)工具開發(fā);
3.負責(zé)數(shù)據(jù)平臺與大模型訓(xùn)練平臺、大模型應(yīng)用的對接集成,根據(jù)需求設(shè)計對接方案并工程化實現(xiàn);
4.及時發(fā)現(xiàn)和定位數(shù)據(jù)問題,跟蹤問題的解決進度,確保數(shù)據(jù)問題得到有效解決;
5.開展數(shù)據(jù)治理,持續(xù)提升數(shù)據(jù)質(zhì)量,挖掘數(shù)據(jù)價值;
6.管理數(shù)據(jù)存儲和數(shù)據(jù)安全,確保數(shù)據(jù)的保密性和合規(guī)性;
7.參與需求文檔、設(shè)計文檔、使用文檔等材料編寫;
任職要求:
1.統(tǒng)招本科及以上學(xué)歷,計算機科學(xué)、數(shù)據(jù)科學(xué)、信息系統(tǒng)、統(tǒng)計等相關(guān)專業(yè);
2.三年以上數(shù)據(jù)處理或人工智能相關(guān)工作經(jīng)驗;
3.具備較強的SQL編程能力,能夠編寫腳本進行數(shù)據(jù)處理;
5.具備較強的Python編程能力,熟練使用常用數(shù)據(jù)處理庫(Pandas、NumPy);
4.熟悉主流的數(shù)據(jù)庫,如Oracle、MySQL、ES、MongoDB等;
5.熟悉主流的向量數(shù)據(jù)庫,如Milvus、Chroma等;
6.熟悉大數(shù)據(jù)技術(shù)棧,如Hadoop、Spark等;
7.了解深度學(xué)習(xí)、大模型、RAG等相關(guān)技術(shù),了解主流的大模型訓(xùn)練及微調(diào)方法;