一、崗位描述:負(fù)責(zé)AI算法的開發(fā)、訓(xùn)練與搭建,從數(shù)據(jù)到模型再到上線,端到端打造可擴(kuò)展、可落地的智能化解決方案。
二、崗位職責(zé):1.算法研發(fā)與優(yōu)化:負(fù)責(zé)機(jī)器學(xué)習(xí)/深度學(xué)習(xí)算法設(shè)計(jì),覆蓋NLP、CV、多模態(tài)、推薦等方向;
2.大模型技術(shù)落地:基于千億參數(shù)模型進(jìn)行繼續(xù)預(yù)訓(xùn)練、SFT、RLHF,實(shí)現(xiàn)行業(yè)知識(shí)注入與幻覺抑制<5%;構(gòu)建RAG/Agent系統(tǒng):混合檢索Top-5召回率>90%,工具調(diào)用成功率>85%;
3.前沿技術(shù)預(yù)研:跟蹤Transformer、Diffusion、MoE、多模態(tài)CLIP/GPT-4o等SOTA,季度輸出技術(shù)原型+落地PoC;
4.跨團(tuán)隊(duì)協(xié)作:與產(chǎn)品共同拆解業(yè)務(wù)目標(biāo),設(shè)計(jì)離線/在線實(shí)驗(yàn)方案;與工程聯(lián)合完成模型上線、AB Test與性能調(diào)優(yōu);
5.技術(shù)沉淀:撰寫技術(shù)方案、專利、頂會(huì)論文(NeurIPS/ICML/CVPR/ACL),每年至少1篇/1件。
三、技術(shù)能力要求:1.編程與框架:精通Python,能用C++寫高性能OP;熟悉PyTorch/TensorFlow2.x、Transformers、DeepSpeed/Megatron;熟悉Linux、Git、Docker,能獨(dú)立在K8s+GPU集群上調(diào)通分布式訓(xùn)練腳本;
2.模型經(jīng)驗(yàn):熟練調(diào)用BERT/GPT/T5/ViT/CLIP/Swin等結(jié)構(gòu),掌握自監(jiān)督、少樣本、強(qiáng)化學(xué)習(xí)、多模態(tài)融合策略;有大模型預(yù)訓(xùn)練/LoRA/QLoRA/RLHF經(jīng)驗(yàn),熟悉BF16、FlashAttention、Ring-Attention、ZeRO-3優(yōu)化;
3.數(shù)據(jù)與特征:熟練運(yùn)用Spark/Hive/Flink做TB級(jí)數(shù)據(jù)ETL;掌握特征倉庫、在線特征服務(wù)(Redis/Faiss)及一致性校驗(yàn);
4.訓(xùn)練與調(diào)優(yōu):能獨(dú)立搭建多機(jī)多卡訓(xùn)練環(huán)境,解決收斂慢、顯存占用高、訓(xùn)練抖動(dòng)等問題;掌握混合精度、梯度累積、動(dòng)態(tài)Loss Scaling;熟悉模型壓縮:量化(INT8)、剪枝、知識(shí)蒸餾,推理延遲降低50%+;
5.部署與監(jiān)控:掌握ONNX/TensorRT/vLLM/Triton,實(shí)現(xiàn)GPU推理QPS提升3×、顯存降低40%;建立在線監(jiān)控:預(yù)測(cè)分布漂移、OOD檢測(cè)、Bad Case自動(dòng)回流標(biāo)注。