崗位職責(zé):
1.開展公司兩級(jí)智算中心算力相關(guān)的運(yùn)營(yíng)工作,主要內(nèi)容包括算力資源管理、算力技術(shù)支持、算力培訓(xùn)推廣、算力兩級(jí)協(xié)同等內(nèi)容;
2.負(fù)責(zé)圍繞模型訓(xùn)練與推理任務(wù)對(duì)算力相關(guān)需求,構(gòu)建統(tǒng)一規(guī)范、動(dòng)態(tài)調(diào)度、安全可控的兩級(jí)算力運(yùn)營(yíng)體系,并輸出相關(guān)的算力運(yùn)營(yíng)標(biāo)準(zhǔn);
3.負(fù)責(zé)算力需求受理及算力需求核算等工作,針對(duì)訓(xùn)練場(chǎng)景、推理場(chǎng)景能夠建立算力-模型匹配關(guān)系,并借助壓測(cè)手段給出匹配最優(yōu)算力資源的建議,核算算力需求后進(jìn)行分配;
4.負(fù)責(zé)算力調(diào)度相關(guān)技術(shù)的研究和實(shí)施,能夠根據(jù)算力資源指標(biāo)監(jiān)控等技術(shù),對(duì)不同場(chǎng)景算力資源應(yīng)用趨勢(shì)提出總結(jié)建議,并能夠進(jìn)行彈性擴(kuò)縮容;
5.負(fù)責(zé)算力運(yùn)監(jiān)監(jiān)測(cè)指標(biāo)的梳理,能夠基于監(jiān)測(cè)技術(shù)構(gòu)建算力運(yùn)營(yíng)指標(biāo)監(jiān)測(cè)體系,幫助開展算力資源規(guī)劃設(shè)計(jì)關(guān)工作;
6.精通AI基礎(chǔ)設(shè)施和人工智能軟件,能夠定期對(duì)市面上主流的大模型、人工智能芯片、無損網(wǎng)絡(luò)等軟硬件產(chǎn)品開展調(diào)研,并形成調(diào)研報(bào)告,指導(dǎo)公司后續(xù)智算中心算力規(guī)劃和建設(shè)。
任職要求:
1.本科及以上學(xué)歷,計(jì)算機(jī)/電子工程相關(guān)專業(yè);具備3年以上GPU集群/智算中心運(yùn)維運(yùn)營(yíng)經(jīng)驗(yàn);熟悉Python、Ansible,有一定的編程能力;
2.精通人工智能大模型訓(xùn)練微調(diào)、推理部署全棧流程,能夠與模型研發(fā)團(tuán)隊(duì)協(xié)作預(yù)估算力需求,具備分析訓(xùn)練微調(diào)、推理部署任務(wù)日志,進(jìn)行簡(jiǎn)單問題定位能力;
3.精通Kubernetes/Docker容器化技術(shù),具備設(shè)計(jì)GPU/NPU集群調(diào)度策略,優(yōu)化資源利用率,實(shí)現(xiàn)算力資源的高效利用的能力;
4.對(duì)算力-模型匹配關(guān)系有深度認(rèn)知,熟悉模型部署與壓測(cè)相關(guān)技術(shù),能夠針對(duì)模型特性,通過壓測(cè)手段給出匹配最優(yōu)算力資源的建議;
5.精通promethous/Grafana等監(jiān)控軟件,能夠通過預(yù)埋探針檢測(cè)算力使用瓶頸,并建立彈性伸縮機(jī)制,輸出算力效能分析報(bào)告等能力;
6.熟悉智算中心訓(xùn)練微調(diào)、推理部署場(chǎng)景下相應(yīng)的組網(wǎng)方案,能夠給出組網(wǎng)規(guī)劃;
7.熟悉NVIDIA CUDA生態(tài)或華為昇騰CANN生態(tài)及Pytorch、TensorFlow、SGLang、Vllm等主流AI框架;
8.有智算中心算力、平臺(tái)、模型、智能體整體規(guī)劃設(shè)計(jì)和建設(shè)實(shí)施工作經(jīng)驗(yàn)的可以優(yōu)先考慮;
9.對(duì)工作充滿激情,富有責(zé)任心,溝通能力強(qiáng),能承受工作壓力。