崗位職責(zé):
1、大模型系統(tǒng)架構(gòu)與訓(xùn)練優(yōu)化:主導(dǎo)大模型相關(guān)系統(tǒng)架構(gòu)研究,設(shè)計并實現(xiàn)高可用、可擴(kuò)展、分布式機(jī)器學(xué)習(xí)系統(tǒng);針對端到端自動駕駛、VLM、VLA、世界模型等場景,設(shè)計高效的分布式訓(xùn)練工具,持續(xù)優(yōu)化并行訓(xùn)練策略(數(shù)據(jù)并行、張量并行、流水線并行、MoE并行等);搭建實驗室級大模型訓(xùn)練平臺,結(jié)合 DeepSpeed、Megatron、Colossal-AI 等框架進(jìn)行擴(kuò)展與優(yōu)化。
2、大模型推理與性能優(yōu)化:負(fù)責(zé)車端大模型的推理優(yōu)化:研究量化、裁剪、Speculative Decoding、MoE推理等前沿技術(shù),突破算力與延遲瓶頸;優(yōu)化大模型在車端(自動駕駛、座艙助手)的響應(yīng)延遲與資源占用,提升實時交互體驗;跟蹤并應(yīng)用 TVM、Triton、XLA 等編譯優(yōu)化框架,開發(fā)高性能推理工具鏈。
3、系統(tǒng)集成與工程實現(xiàn):參與自動駕駛/座艙領(lǐng)域車端大模型的集成與部署,打通感知-決策-控制閉環(huán);配合算法、架構(gòu)和基礎(chǔ)組件團(tuán)隊,完成車端嵌入式環(huán)境下的資源調(diào)度與性能優(yōu)化(CPU/GPU/內(nèi)存);全面參與實車調(diào)試迭代,解決綜合性工程問題,提升系統(tǒng)穩(wěn)定性和可交付性。
素質(zhì)要求:
1、 碩士及以上學(xué)歷,計算機(jī)系統(tǒng)、分布式計算、計算機(jī)體系結(jié)構(gòu)、人工智能等相關(guān)專業(yè)背景。
2、 下述技術(shù)能力要求根據(jù)崗位方向部分具備即可:
(1)精通 Python/C++,熟悉 PyTorch 及主流大模型訓(xùn)練框架(DeepSpeed、Megatron、Colossal-AI);
(2)熟悉 分布式系統(tǒng)與并行計算,具備大規(guī)模分布式訓(xùn)練實踐經(jīng)驗;
(3)掌握 CUDA編程與GPU優(yōu)化,熟悉 NCCL、通信優(yōu)化、內(nèi)存管理;
(4)熟悉編譯優(yōu)化框架(TVM、XLA、Triton),具備推理加速經(jīng)驗;
(5)有車端嵌入式平臺(Xavier、Orin、Thor)部署與優(yōu)化經(jīng)驗加分。
3、有科研成果(頂會論文)或工業(yè)級系統(tǒng)優(yōu)化經(jīng)驗;
4、對AI系統(tǒng)/智能駕駛有應(yīng)用興趣。