崗位職責(zé)
1、支持百億~萬億規(guī)模的超大模型、GPU/NPU千卡互聯(lián)的超大規(guī)模分布式訓(xùn)練架構(gòu),通過分布式并行/流水線/通信優(yōu)化,消除大規(guī)模分布式訓(xùn)練的瓶頸;
2、通過分布式并行優(yōu)化、AI基礎(chǔ)框架優(yōu)化以及算子優(yōu)化,釋放CPU/GPU/NPU等異構(gòu)硬件協(xié)同的最大算力,旨在將硬件性能壓榨到極致,打造一流的訓(xùn)練框架,追求業(yè)界最領(lǐng)先的性能;
3、支持業(yè)界領(lǐng)先的文本模型、多模態(tài)模型在華為智能助手小藝上的業(yè)務(wù)落地。
崗位要求
1.有扎實(shí)的工程算法基礎(chǔ),精通數(shù)據(jù)結(jié)構(gòu)和常用算法,熟練掌握各種編譯、調(diào)試、性能分析工具;
2.有極佳的工程實(shí)現(xiàn)能力,精通Python或者C++;
3.熟悉當(dāng)前主流大語言模型如GPT、Llama、MoE等模型的架構(gòu);
4. 有大規(guī)模分布式系統(tǒng)開發(fā)和優(yōu)化經(jīng)驗(yàn);有大模型分布式訓(xùn)練經(jīng)驗(yàn)者優(yōu)先;