工作內(nèi)容:
1、負(fù)責(zé)Hadoop、Spark、Kafka等大數(shù)據(jù)平臺的日常部署、監(jiān)控、維護(hù)和性能優(yōu)化。
2、保障大數(shù)據(jù)集群穩(wěn)定運行,快速定位并解決平臺故障及數(shù)據(jù)鏈路問題。
3、維護(hù)和管理任務(wù)調(diào)度系統(tǒng)(如DolphinScheduler、Easydata等),保障數(shù)據(jù)處理作業(yè)按時正確執(zhí)行。
4、負(fù)責(zé)數(shù)據(jù)同步工具(如DataX、Sqoop、Canal等)和ETL流程的運維、監(jiān)控和問題排查。
5、完善監(jiān)控告警體系,實現(xiàn)對集群資源、組件狀態(tài)及數(shù)據(jù)任務(wù)的有效管控。
6、進(jìn)行容量規(guī)劃與成本管理,優(yōu)化資源分配和使用效率。
技能要求:
1、熟悉Hadoop生態(tài)常見組件(HDFS/YARN/Hive/Spark等)的運維管理。
2、有任務(wù)調(diào)度系統(tǒng)的運維經(jīng)驗。
3、熟悉數(shù)據(jù)同步和ETL工具的使用和問題排查。
4、具備Linux系統(tǒng)管理和Shell/Python腳本編寫能力。
5、有大數(shù)據(jù)平臺監(jiān)控工具使用和運維經(jīng)驗者優(yōu)先。
6、具備良好的問題分析能力和團(tuán)隊協(xié)作精神,對系統(tǒng)穩(wěn)定性有高度責(zé)任心。