核心職責(zé):
1. 為調(diào)度系統(tǒng)構(gòu)建數(shù)據(jù)預(yù)處理流水線,保障輸入數(shù)據(jù)質(zhì)量
2. 開(kāi)發(fā)自動(dòng)化清洗工具,處理缺失/異常/重復(fù)數(shù)據(jù),實(shí)施標(biāo)準(zhǔn)化
3. 設(shè)計(jì)數(shù)據(jù)質(zhì)量監(jiān)控規(guī)則(完整性/一致性校驗(yàn))
4. 集成調(diào)度系統(tǒng)(Airflow等),優(yōu)化ETL流程銜接
5. 編寫(xiě)技術(shù)文檔,支持跨團(tuán)隊(duì)數(shù)據(jù)需求
6.本科及以上學(xué)歷, 3-5年工作經(jīng)驗(yàn)
必備技能:
1.熟悉Python(Pandas/NumPy)及SQL
2.數(shù)據(jù)清洗開(kāi)發(fā)經(jīng)驗(yàn),熟悉正則/字符串處理
3.了解數(shù)據(jù)治理框架(DAMA/DCMM)
4.掌握ETL工具(PySpark/Great Expectations)
5.熟悉Linux環(huán)境與基礎(chǔ)Shell腳本
加分項(xiàng):
1.調(diào)度系統(tǒng)(Airflow)或云平臺(tái)(AWS/Azure)經(jīng)驗(yàn)
2.數(shù)據(jù)血緣追蹤/元數(shù)據(jù)管理實(shí)踐
3.大數(shù)據(jù)生態(tài)(Spark/Hive)基礎(chǔ)