崗位職責(zé):
1、數(shù)據(jù)體系建設(shè):負(fù)責(zé)構(gòu)建和優(yōu)化面向AI的數(shù)據(jù)基礎(chǔ)設(shè)施,包括數(shù)據(jù)中臺、數(shù)據(jù)湖及實(shí)時數(shù)據(jù)采集管道,支撐海量語料庫與知識圖譜的穩(wěn)定運(yùn)行。
2、數(shù)據(jù)處理與治理:負(fù)責(zé)多模態(tài)數(shù)據(jù)(文本、圖像、業(yè)務(wù)數(shù)據(jù))的ETL工作,制定數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)與版本管理體系,確保AI模型訓(xùn)練數(shù)據(jù)的有效性、豐富性與安全性。
3、特征工程支撐:深度參與模型開發(fā)全流程,與算法團(tuán)隊(duì)協(xié)作進(jìn)行數(shù)據(jù)探索、特征工程構(gòu)建及數(shù)據(jù)維度分析,提升模型訓(xùn)練效果。
4、管道效率優(yōu)化:持續(xù)優(yōu)化數(shù)據(jù)處理邏輯與架構(gòu)性能,保障從原始數(shù)據(jù)采集到訓(xùn)練數(shù)據(jù)交付的全鏈路高吞吐與低延遲。
任職要求:
1、教育背景:計(jì)算機(jī)科學(xué)、數(shù)據(jù)科學(xué)、軟件工程或相關(guān)專業(yè)本科及以上學(xué)歷。
編程能力:熟練掌握 Python 編程,具備扎實(shí)的代碼規(guī)范;熟悉 SQL,并能進(jìn)行復(fù)雜查詢與性能調(diào)優(yōu)。
2、框架知識:熟悉大數(shù)據(jù)處理框架(如 Spark、Flink)及消息隊(duì)列(如 Kafka);了解數(shù)據(jù)湖/數(shù)據(jù)倉庫架構(gòu)設(shè)計(jì)。
3、AI知識儲備:理解機(jī)器學(xué)習(xí)全流程,具備數(shù)據(jù)清洗、標(biāo)注體系搭建或特征工程的實(shí)際項(xiàng)目經(jīng)驗(yàn);對向量數(shù)據(jù)庫或MLOps有實(shí)踐者優(yōu)先。
4、綜合素質(zhì):具備優(yōu)秀的問題分析與解決能力,能在復(fù)雜數(shù)據(jù)環(huán)境中保持邏輯清晰;對AI技術(shù)充滿熱情,主動關(guān)注行業(yè)前沿動態(tài)。