【崗位職責(zé)】
1. 深度理解業(yè)務(wù)用戶算力使用場景,分析算力需求并設(shè)計可落地的技術(shù)方案,涵蓋硬件選型、資源分配策略,平衡性能、安全性與預(yù)算約束。
2. 提供人工智能基礎(chǔ)服務(wù)(含算力、人工智能平臺、模型等)技術(shù)咨詢與培訓(xùn),協(xié)助用戶優(yōu)化適配硬件架構(gòu)。
3. 主導(dǎo)智算中心硬件基礎(chǔ)設(shè)施優(yōu)化及迭代升級,包括服務(wù)器集群、存儲系統(tǒng)、網(wǎng)絡(luò)架構(gòu)及異構(gòu)計算資源(GPU/FPGA等)的選型與調(diào)優(yōu)。制定硬件資源全生命周期管理策略,監(jiān)控算力負(fù)載、能耗效率及系統(tǒng)穩(wěn)定性,建立容災(zāi)與高可用性方案。
【任職條件】
1.計算機科學(xué)、電子工程、高性能計算相關(guān)專業(yè)優(yōu)先。
2.5年以上智算、云計算或相關(guān)領(lǐng)域的工作經(jīng)驗,其中3年以上項目管理或解決方案設(shè)計經(jīng)驗,有大型智算中心設(shè)計及實施經(jīng)驗優(yōu)先。
3.精通異構(gòu)計算架構(gòu)(NVIDIA/AMD GPU、昇騰/寒武紀(jì)AI芯片等),具備智算中心或大型IDC建設(shè)案例。
4.熟悉InfiniBand/RoCE高速網(wǎng)絡(luò)拓?fù)湓O(shè)計,掌握分布式存儲性能調(diào)優(yōu)方法。
5.出色的跨部門協(xié)調(diào)能力,可以快速理解用戶需求,并具備出色的可落地算力方案設(shè)計能力。
6.曾參與過國產(chǎn)化硬件替代項目者優(yōu)先。
7.持有OCP/AWS/華為HCIE認(rèn)證者優(yōu)先。