● 熟悉數(shù)據(jù)分析常用方法,如指標(biāo)分析、漏斗分析等。
● 熟悉Hadoop大數(shù)據(jù)生態(tài)體系,熟悉HDFS讀寫流程、MR Shuffle流程、Yarn作業(yè)提交流程及調(diào)度策略,對HA集群、MR Shuffle的優(yōu)化有相關(guān)了解。
● 熟練運用Hive對數(shù)據(jù)進行查詢、統(tǒng)計等操作,對Hive優(yōu)化的思路與方法有相關(guān)的了解,了解Hive底層執(zhí)行原理。
● 熟悉Spark分布式計算引擎,熟悉 Spark Core 底層原理及 Spark 常用算子,熟悉 Spark 內(nèi)存管理機制,能根據(jù)業(yè)務(wù)需求使用Spark SQL進行數(shù)據(jù)處理、查詢、統(tǒng)計。
● 熟悉 Oracle 、MySql 關(guān)系型數(shù)據(jù)庫,熟悉關(guān)系型數(shù)據(jù)庫的存儲過程和事務(wù)機制,了解數(shù)據(jù)庫的索引及優(yōu)化。
● 熟悉 Python 編程語言,能用pandas、numpy進行數(shù)據(jù)處理。
● 熟悉 Linux 系統(tǒng),掌握常用的 Linux 命令,能夠完成日常工作中 Shell 腳本的編寫。
● 熟悉永洪BI,能針對不同場景制作相關(guān)報表解決實際業(yè)務(wù)需求。
● 熟悉EXCEL,能通過EXCEL完成數(shù)據(jù)處理相關(guān)操作。