1、負(fù)責(zé)智算中心項(xiàng)目的交付實(shí)施管理,根據(jù)售前頂設(shè)方案與項(xiàng)目合同,制定詳盡的交付實(shí)施計(jì)劃,明確項(xiàng)目范圍、里程碑、資源需求與風(fēng)險(xiǎn)預(yù)案,確保項(xiàng)目交付目標(biāo)清晰、路徑可行。
2、牽頭智算中心基礎(chǔ)設(shè)施的部署與集成,主導(dǎo)算力集群(GPU/ASIC等)、高速網(wǎng)絡(luò)(InfiniBand/RoCE等)、存儲(chǔ)系統(tǒng)、制冷與供電等設(shè)施的現(xiàn)場(chǎng)實(shí)施、硬件安裝、系統(tǒng)聯(lián)調(diào)與集成測(cè)試,確保整體架構(gòu)按設(shè)計(jì)落地。
3、負(fù)責(zé)智算平臺(tái)軟件與調(diào)度系統(tǒng)的部署與配置,完成操作系統(tǒng)、容器平臺(tái)、作業(yè)調(diào)度系統(tǒng)(如Slurm/Kubernetes)、分布式存儲(chǔ)、AI框架及監(jiān)控運(yùn)維平臺(tái)的安裝、配置與優(yōu)化,實(shí)現(xiàn)算力資源的統(tǒng)一管理與高效調(diào)度。
4、主導(dǎo)智算集群的性能調(diào)優(yōu)與穩(wěn)定性保障,對(duì)交付上線的智算系統(tǒng)進(jìn)行深度性能測(cè)試與瓶頸分析,包括但不限于算力效率、網(wǎng)絡(luò)帶寬與延遲、存儲(chǔ)IO等,并實(shí)施針對(duì)性調(diào)優(yōu),確保系統(tǒng)達(dá)到或超過設(shè)計(jì)指標(biāo)。
5、負(fù)責(zé)交付過程中的問題定位與解決,快速響應(yīng)并處理在部署、聯(lián)調(diào)及試運(yùn)行階段出現(xiàn)的各類硬件、軟件及網(wǎng)絡(luò)問題,協(xié)調(diào)內(nèi)外部技術(shù)資源進(jìn)行根因分析并推動(dòng)解決,保障項(xiàng)目關(guān)鍵節(jié)點(diǎn)按時(shí)達(dá)成。
6、負(fù)責(zé)項(xiàng)目交付文檔的編寫與移交,整理輸出包括實(shí)施計(jì)劃、部署圖紙、配置清單、測(cè)試報(bào)告、運(yùn)維手冊(cè)及培訓(xùn)資料等全套交付文檔,并完成對(duì)客戶運(yùn)維團(tuán)隊(duì)的系統(tǒng)移交與技術(shù)培訓(xùn)。
7、協(xié)調(diào)與管理交付項(xiàng)目干系人,與客戶IT/運(yùn)維團(tuán)隊(duì)、內(nèi)部售前/研發(fā)部門、以及硬件/軟件供應(yīng)商保持密切溝通,管理客戶期望,匯報(bào)項(xiàng)目進(jìn)度,協(xié)同解決交付過程中的各類問題與變更需求。
【智算網(wǎng)絡(luò)架構(gòu)與集成能力】
1、具備智算中心整體網(wǎng)絡(luò)架構(gòu)的規(guī)劃與設(shè)計(jì)能力,精通高性能計(jì)算(智算)與通用計(jì)算網(wǎng)絡(luò)的融合方案。
2、熟練掌握數(shù)據(jù)中心級(jí)交換機(jī)(智算/通算)的自動(dòng)化腳本編寫、獨(dú)立調(diào)試及全網(wǎng)聯(lián)合調(diào)試,具備復(fù)雜網(wǎng)絡(luò)環(huán)境下的問題定位與解決能力。
3、能夠協(xié)同服務(wù)器團(tuán)隊(duì)開展網(wǎng)絡(luò)性能測(cè)試與流量調(diào)優(yōu),具備端到端性能分析與優(yōu)化經(jīng)驗(yàn),確保網(wǎng)絡(luò)低延遲、高吞吐。
4、擁有實(shí)際智算/通算網(wǎng)絡(luò)項(xiàng)目的實(shí)施落地經(jīng)驗(yàn),能夠獨(dú)立承擔(dān)從規(guī)劃、部署到驗(yàn)收的全流程網(wǎng)絡(luò)集成工作。
5、具備HCIE、CCIE或同等級(jí)別數(shù)通認(rèn)證者優(yōu)先。
【智算主機(jī)與平臺(tái)工程能力】
1、熟悉智算及通用服務(wù)器設(shè)備的初始化、系統(tǒng)部署及標(biāo)準(zhǔn)化配置流程,具備大規(guī)模節(jié)點(diǎn)交付與管理經(jīng)驗(yàn)。
2、掌握智算服務(wù)器在BIOS、固件、驅(qū)動(dòng)及操作系統(tǒng)層面的深度參數(shù)調(diào)優(yōu),具備性能瓶頸識(shí)別與系統(tǒng)級(jí)優(yōu)化能力。
3、精通GPU計(jì)算軟件棧(如CUDA、conda環(huán)境)及容器化技術(shù)(Docker、Kubernetes),能夠獨(dú)立完成AI訓(xùn)練/推理平臺(tái)的搭建與維護(hù)。
4、具備智算/通算集群實(shí)際部署經(jīng)驗(yàn),熟悉從硬件上架、系統(tǒng)配置到應(yīng)用交付的完整流程。
5、持有RHCE或同類Linux系統(tǒng)級(jí)別認(rèn)證者優(yōu)先。
【工作經(jīng)驗(yàn)】
1、智算/數(shù)據(jù)中心項(xiàng)目實(shí)施經(jīng)驗(yàn):具備3年以上智算中心、超算中心或大型數(shù)據(jù)中心項(xiàng)目的現(xiàn)場(chǎng)交付、系統(tǒng)集成或?qū)嵤┻\(yùn)維經(jīng)驗(yàn),主導(dǎo)或核心參與過至少2個(gè)從零到一建設(shè)的智算集群交付項(xiàng)目,并成功上線穩(wěn)定運(yùn)行。
2、智算網(wǎng)絡(luò)部署與調(diào)優(yōu)經(jīng)驗(yàn):擁有豐富的智算高速網(wǎng)絡(luò)(如InfiniBand、RoCEv2)的部署、調(diào)試與排障經(jīng)驗(yàn)。熟練掌握主流交換機(jī)的腳本編寫、配置與管理,并能獨(dú)立完成網(wǎng)絡(luò)單點(diǎn)調(diào)試、全網(wǎng)聯(lián)調(diào)及與服務(wù)器的協(xié)同打流測(cè)試與性能調(diào)優(yōu)。
3、智算服務(wù)器與平臺(tái)部署經(jīng)驗(yàn):具備豐富的智算服務(wù)器(如NVIDIA DGX/HGX系列、或主流GPU服務(wù)器)的硬件初始化、操作系統(tǒng)部署、固件/驅(qū)動(dòng)升級(jí)及深度參數(shù)調(diào)優(yōu)經(jīng)驗(yàn)。精通CUDA、容器(Docker)、容器編排(Kubernetes)及作業(yè)調(diào)度系統(tǒng)在智算環(huán)境下的部署、配置與優(yōu)化。