崗位職責(zé):
規(guī)劃和部署高可用、高性能的 Ceph 存儲(chǔ)集群(包括 CephFS 和 RGW);
實(shí)現(xiàn)集群擴(kuò)容、升級(jí)、備份、遷移等運(yùn)維操作;
持續(xù)優(yōu)化集群架構(gòu),滿(mǎn)足 AI 訓(xùn)練、數(shù)據(jù)湖、大規(guī)模文件服務(wù)等業(yè)務(wù)需求。
構(gòu)建 Ceph 存儲(chǔ)的監(jiān)控、告警與日志體系(如 Prometheus + Grafana + Loki);
使用 Ansible/Shell 腳本等工具實(shí)現(xiàn)運(yùn)維自動(dòng)化。
定位并解決集群故障(如 OSD 崩潰、PG 異常、性能抖動(dòng));
識(shí)別和優(yōu)化存儲(chǔ) IOPS、吞吐量、延遲等性能瓶頸;
編寫(xiě)問(wèn)題報(bào)告和操作文檔,推動(dòng)問(wèn)題閉環(huán)
熟悉 RoCE/Infiniband 網(wǎng)絡(luò)配置,支持基于 RDMA 的高性能存儲(chǔ)訪(fǎng)問(wèn);
配合網(wǎng)絡(luò)團(tuán)隊(duì)調(diào)試網(wǎng)絡(luò)收發(fā)、RDMA 協(xié)議棧、驅(qū)動(dòng)和帶寬瓶頸。
分布式存儲(chǔ)技術(shù)預(yù)研,跟蹤和測(cè)試新一代分布式文件系統(tǒng)(如3FS),分析其性能表現(xiàn)、部署架構(gòu)和與現(xiàn)有系統(tǒng)的兼容性;
實(shí)現(xiàn) Ceph 作為 Kubernetes 的后端存儲(chǔ)(RBD / CephFS);
任職要求:
本科及以上學(xué)歷,計(jì)算機(jī)、網(wǎng)絡(luò)、電子工程相關(guān)專(zhuān)業(yè);
5 年以上 Linux 系統(tǒng)運(yùn)維或存儲(chǔ)平臺(tái)運(yùn)維經(jīng)驗(yàn);
精通 Ceph 架構(gòu)及其核心組件(MON、OSD、MDS、RGW);
熟悉 Prometheus、Grafana等監(jiān)控與日志系統(tǒng);
有基于 RDMA 網(wǎng)絡(luò)的 Ceph 或其他分布式存儲(chǔ)系統(tǒng)部署調(diào)優(yōu)經(jīng)驗(yàn);
有 Ceph 與 Kubernetes 或 OpenStack 集成經(jīng)驗(yàn)者優(yōu)先;
具備文檔編寫(xiě)能力、良好的問(wèn)題分析思維、團(tuán)隊(duì)溝通和協(xié)作能力。
加分項(xiàng)(非必須):
了解 CSI 插件、PVC 機(jī)制、Kubernetes 存儲(chǔ)類(lèi)(StorageClass);
有大型 Ceph 集群(PB 級(jí)以上)設(shè)計(jì)和運(yùn)營(yíng)經(jīng)驗(yàn);
熟悉企業(yè)級(jí) Ceph 分布式部署方案(如 Multi-site RGW、Erasure Coding)