職位描述
崗位職責:
1. 數據倉庫與數據湖建設:負責迭代優(yōu)化公司級數據倉庫/數據湖架構的設計與實施。
2. 數據處理 pipeline 開發(fā):
- 使用 Spark、Flink 等框架開發(fā)高效、穩(wěn)定的批處理和實時數據處理管道。
- 精通 FlinkSQL,并利用其進行實時數據流的處理和聚合,深刻理解其狀態(tài)管理、時間語義、Exactly-Once等核心技術細節(jié)。
3. 數據治理與質量保障:
- 建立并執(zhí)行數據質量管理體系,包括數據血緣、元數據管理、數據標準、數據生命周期管理等。
- 能夠快速發(fā)現、定位并解決數據延遲、異常、質量波動等問題,嚴格履行承諾的數據SLA/SLI。
4. 數據服務與性能優(yōu)化:
- 基于 StarRocks、Doris 或 Trino 等OLAP引擎,為數據分析、報表和即席查詢提供高性能數據服務。
- 持續(xù)對數據管道、計算任務和查詢語句進行性能調優(yōu),包括但不限于資源調配、SQL優(yōu)化、索引優(yōu)化等。
5. 技術組件運維與開發(fā):負責大數據組件的選型、集成、配置與優(yōu)化(如 Kafka, HDFS, Paimon 等)。
任職要求:
任職要求
- 必備技能與經驗:
- 計算機科學、信息技術或相關專業(yè)本科及以上學歷,3年以上數據領域開發(fā)經驗。
- 精通 SQL,擁有極強的SQL編寫和優(yōu)化能力,熟悉多種數據庫的特性和調優(yōu)技巧。
- 精通 Flink 實時計算技術,尤其是 FlinkSQL 的實戰(zhàn)應用,深刻理解其運行時原理和細節(jié)。
- 具備豐富的數據倉庫建設經驗,熟悉分層建模理論(如維度建模)。
- 具備扎實的 Java 或 Python 編程能力,能夠進行核心模塊的開發(fā)。
- 擁有實際的數據治理經驗,熟悉數據質量、元數據管理等實踐方法。
- 熟練掌握以下至少兩種大數據技術:
- 計算引擎:Spark、Flink、Trino/Presto
- 消息隊列:Kafka(要求具備配置、優(yōu)化及故障排查能力)
- 存儲系統(tǒng):HDFS、對象存儲(S3/OSS)
- OLAP引擎:StarRocks、Doris、ClickHouse(至少一種,并要求有優(yōu)化經驗)
- 數據湖表格式:Apache Paimon、Iceberg