一. 崗位職責(zé)
1. 大模型開發(fā)與優(yōu)化:
- 設(shè)計、訓(xùn)練和調(diào)優(yōu)大規(guī)模語言模型(如LLaMA、GPT、PaLM等)或視覺多模態(tài)模型。
- 探索模型壓縮、分布式訓(xùn)練、推理加速等技術(shù)(如LoRA、量化、模型并行)。
2. 算法研究與落地:
- 針對業(yè)務(wù)場景(如對話系統(tǒng)、內(nèi)容生成、搜索推薦)優(yōu)化模型效果。
- 解決長尾問題(如幻覺控制、多輪交互、低資源場景適配)。
3. 工程化支持:
- 與工程團隊協(xié)作部署模型,優(yōu)化計算資源利用率(GPU/TPU集群)。
- 開發(fā)高效的數(shù)據(jù)處理流水線,提升訓(xùn)練效率。
二. 核心能力要求**
1. 技術(shù)硬技能:
- 算法基礎(chǔ):精通深度學(xué)習(xí)、Transformer架構(gòu)、自監(jiān)督學(xué)習(xí)、強化學(xué)習(xí)(RLHF)。
- 框架經(jīng)驗:熟悉PyTorch、DeepSpeed、Megatron-LM、Hugging Face生態(tài)。
- 分布式訓(xùn)練:掌握多機多卡訓(xùn)練、混合精度訓(xùn)練、顯存優(yōu)化技術(shù)。
- 領(lǐng)域知識:了解大模型前沿技術(shù)(如MoE、Retrieval-Augmented Generation)。
2. 工程能力:
- 熟悉CUDA編程、模型量化(如AWQ、GPTQ)、推理框架(vLLM、TensorRT)。
- 具備高性能計算(HPC)或大規(guī)模數(shù)據(jù)處理經(jīng)驗(TB級數(shù)據(jù)集)。
3. 軟技能:
- 能快速定位模型訓(xùn)練中的問題(如梯度爆炸、收斂異常)。
- 具備跨團隊協(xié)作能力,能將學(xué)術(shù)成果轉(zhuǎn)化為工業(yè)級解決方案。
候選人背景
- 學(xué)歷:計算機科學(xué)、數(shù)學(xué)、統(tǒng)計學(xué)碩士/博士(頂尖候選人可能放寬至本科+突出項目經(jīng)驗)。
- 經(jīng)驗:
- 3年以上NLP/CV算法經(jīng)驗,至少1年大模型相關(guān)項目經(jīng)歷。
- 有論文發(fā)表(NeurIPS/ICML/ACL等)或開源項目貢獻(如參與Alpaca、Vicuna等社區(qū)項目)優(yōu)先。
- 加分項:
- 熟悉模型合規(guī)性(如數(shù)據(jù)隱私、內(nèi)容安全)。
- 有端到端產(chǎn)品落地經(jīng)驗(如從0到1搭建大模型服務(wù))