1、負(fù)責(zé)大數(shù)據(jù)平臺(tái)(如Hadoop、Spark、Flink、Kafka集群)的規(guī)劃、部署和高可用架構(gòu)設(shè)計(jì),確保平臺(tái)具備可擴(kuò)展性和彈性。
2、監(jiān)控集群健康狀態(tài),制定運(yùn)維規(guī)范,及時(shí)處理節(jié)點(diǎn)故障、性能瓶頸等問(wèn)題,保障平臺(tái)服務(wù)穩(wěn)定性。
3、對(duì)數(shù)據(jù)管道、計(jì)算和存儲(chǔ)資源進(jìn)行持續(xù)調(diào)優(yōu),平衡系統(tǒng)性能與成本效益,并負(fù)責(zé)集群的容量規(guī)劃與擴(kuò)縮容管理。
4、配置數(shù)據(jù)訪問(wèn)控制、加密及合規(guī)策略,落實(shí)數(shù)據(jù)質(zhì)量管理、元數(shù)據(jù)管理和數(shù)據(jù)生命周期管理,防范數(shù)據(jù)風(fēng)險(xiǎn)。
5、參與私有云平臺(tái)(OpenStack、VMware、K8s等)的架構(gòu)設(shè)計(jì)、環(huán)境搭建和性能調(diào)優(yōu)。
6、參與AI集群的部署與運(yùn)維,AI應(yīng)用的部署及性能調(diào)優(yōu)。
要求:
1、本科及以上學(xué)歷,計(jì)算機(jī)、通信或相關(guān)專業(yè),5 年以上數(shù)據(jù)中心/云平臺(tái)運(yùn)維經(jīng)驗(yàn)。
2、精通Hadoop/Spark等大數(shù)據(jù)生態(tài)組件,具備性能調(diào)優(yōu)(如JVM調(diào)優(yōu)、資源隊(duì)列管理)和復(fù)雜故障排查能力
3、熟悉Linux系統(tǒng)、網(wǎng)絡(luò)及虛擬化/容器化技術(shù)(如Docker/K8s)。
4、熟練使用Python/Java/Scala等至少一門編程語(yǔ)言進(jìn)行開(kāi)發(fā),掌握SQL優(yōu)化,并能運(yùn)用自動(dòng)化工具提升運(yùn)維效率。
5、熟悉主流私有云平臺(tái)(如 OpenStack、VMware vSphere、CloudStack)的一種或多種。
6、熟悉存儲(chǔ)系統(tǒng)(SAN/NAS/分布式存儲(chǔ))和數(shù)據(jù)庫(kù)基礎(chǔ)運(yùn)維,具備數(shù)據(jù)治理經(jīng)驗(yàn)者優(yōu)先。