1.數(shù)據(jù)鏈路設(shè)計(jì)與開發(fā):對(duì)接業(yè)務(wù)需求,梳理數(shù)據(jù)源(如 MySQL/Oracle 等關(guān)系型數(shù)據(jù)庫(kù)、日志文件、API 接口、消息隊(duì)列等),設(shè)計(jì) ETL 方案(全量 / 增量同步策略、調(diào)度頻率、異常處理機(jī)制)。
使用 ETL 工具(如 DataX、Sqoop、FlinkX、Kettle 等)或編程語(yǔ)言(Python/Java)開發(fā)數(shù)據(jù)同步腳本,實(shí)現(xiàn)數(shù)據(jù)從源端到目標(biāo)端(數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)湖、OLAP 引擎等)的抽取、清洗、轉(zhuǎn)換與加載。
2.ETL 任務(wù)運(yùn)維與監(jiān)控:負(fù)責(zé) ETL 任務(wù)的日常運(yùn)維,通過(guò)調(diào)度工具(如 AirFlow、DolphinScheduler)配置任務(wù)依賴與執(zhí)行計(jì)劃,確保每日 / 實(shí)時(shí)任務(wù)按預(yù)期運(yùn)行。
搭建 ETL 任務(wù)監(jiān)控體系,跟蹤任務(wù)執(zhí)行狀態(tài)、數(shù)據(jù)量波動(dòng)、同步延遲等指標(biāo),及時(shí)發(fā)現(xiàn)并解決任務(wù)失敗、數(shù)據(jù)丟失、重復(fù)同步等問(wèn)題。
3.數(shù)據(jù)質(zhì)量與一致性保障:設(shè)計(jì)數(shù)據(jù)校驗(yàn)規(guī)則(如主鍵唯一性、字段格式校驗(yàn)、業(yè)務(wù)邏輯校驗(yàn)),在 ETL 流程中嵌入校驗(yàn)節(jié)點(diǎn),確保同步后的數(shù)據(jù)準(zhǔn)確性、完整性與一致性。
定期進(jìn)行數(shù)據(jù)質(zhì)量巡檢,輸出數(shù)據(jù)質(zhì)量報(bào)告,推動(dòng)源端業(yè)務(wù)系統(tǒng)優(yōu)化數(shù)據(jù)采集規(guī)范,降低臟數(shù)據(jù)流入風(fēng)險(xiǎn)。
4.性能優(yōu)化與效率提升:優(yōu)化 ETL 任務(wù)性能,通過(guò)調(diào)整并行度、批量處理參數(shù)、SQL 查詢語(yǔ)句等方式,降低同步延遲(如核心實(shí)時(shí)鏈路延遲≤3 分鐘,離線任務(wù)完成時(shí)間≤規(guī)定窗口)。
識(shí)別并解決 ETL 流程中的瓶頸(如源端讀取壓力、網(wǎng)絡(luò)傳輸擁堵、目標(biāo)端寫入性能不足),提升數(shù)據(jù)同步吞吐量。
5.文檔與標(biāo)準(zhǔn)化建設(shè):編寫 ETL 設(shè)計(jì)文檔、開發(fā)手冊(cè)、運(yùn)維指南,記錄數(shù)據(jù)源結(jié)構(gòu)、轉(zhuǎn)換規(guī)則、任務(wù)調(diào)度邏輯等關(guān)鍵信息,確保團(tuán)隊(duì)協(xié)作高效。
制定 ETL 開發(fā)規(guī)范(如命名規(guī)則、腳本模板、代碼評(píng)審標(biāo)準(zhǔn)),推動(dòng)數(shù)據(jù)鏈路開發(fā)的標(biāo)準(zhǔn)化與可復(fù)用性。
崗位要求:
學(xué)歷背景:本科及以上學(xué)歷,計(jì)算機(jī)科學(xué)與技術(shù)、軟件工程、數(shù)據(jù)科學(xué)、統(tǒng)計(jì)學(xué)等相關(guān)專業(yè)。
工作經(jīng)驗(yàn):2-3 年及以上 ETL 開發(fā)經(jīng)驗(yàn),熟悉至少 1 種主流 ETL 工具(DataX/Sqoop/Kettle/FlinkX),有大型數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)平臺(tái) ETL 鏈路搭建經(jīng)驗(yàn)者優(yōu)先。
技術(shù)技能:
精通 SQL 語(yǔ)言,能熟練編寫復(fù)雜查詢、存儲(chǔ)過(guò)程,熟悉關(guān)系型數(shù)據(jù)庫(kù)(MySQL/Oracle)與分布式存儲(chǔ)(Hive/HBase)的讀寫特性。
掌握至少一種編程語(yǔ)言(Python/Java/Shell),能獨(dú)立開發(fā)自定義 ETL 腳本或工具插件,解決特殊數(shù)據(jù)源同步問(wèn)題。
了解任務(wù)調(diào)度工具(AirFlow/DolphinScheduler)的使用,能配置任務(wù)依賴、監(jiān)控與告警。
熟悉數(shù)據(jù)清洗與轉(zhuǎn)換邏輯(如格式標(biāo)準(zhǔn)化、缺失值處理、冗余數(shù)據(jù)剔除),有數(shù)據(jù)質(zhì)量管控經(jīng)驗(yàn)者優(yōu)先。
熟悉阿里云大數(shù)據(jù)產(chǎn)品(DataWorks、MaxCompute)
證書資質(zhì):持有 CDA 數(shù)據(jù)分析師、阿里云大數(shù)據(jù)開發(fā)工程師等證書者優(yōu)先。