崗位職責(zé):
1、大模型業(yè)務(wù)化微調(diào)與訓(xùn)練
①面向具體業(yè)務(wù)場景,完成大模型的指令微調(diào)(SFT)、偏好對齊訓(xùn)練(如GRPO/RL相關(guān)方法)與持續(xù)迭代;
②負(fù)責(zé)訓(xùn)練數(shù)據(jù)體系建設(shè):數(shù)據(jù)清洗、標(biāo)注規(guī)范、指令構(gòu)造、偏好數(shù)據(jù)構(gòu)造、訓(xùn)練集/評測集劃分與版本管理;
③設(shè)計并優(yōu)化訓(xùn)練策略與超參(LoRA/QLoRA、全參微調(diào)、混合訓(xùn)練等),提升效果與訓(xùn)練效率;
④負(fù)責(zé)訓(xùn)練穩(wěn)定性與成本優(yōu)化:顯存優(yōu)化、吞吐優(yōu)化、分布式訓(xùn)練、故障排查與恢復(fù)。
2、大模型智能體(Agent)開發(fā)與落地
①設(shè)計并實(shí)現(xiàn)面向業(yè)務(wù)的智能體能力:工具調(diào)用(Function Calling/Tool Use)、多步推理、任務(wù)分解、工作流編排;
②構(gòu)建/優(yōu)化RAG、記憶(Memory)、規(guī)劃(Planning)、反思(Reflection)、多智能體協(xié)作等模塊,提升可控性與可靠性;
③將智能體能力與線上系統(tǒng)集成,支持可觀測、可回放、可評估與可迭代。
評測與工程化交付。
3、建立覆蓋業(yè)務(wù)指標(biāo)與通用能力的評測體系(自動評測+人工評測),輸出可量化的迭代報告;
4、搭建訓(xùn)練/推理/評測的工程化流水線(CI/CD、實(shí)驗(yàn)管理、模型版本管理、灰度與回滾);
5、與產(chǎn)品、業(yè)務(wù)、后端/平臺團(tuán)隊協(xié)作,推動從PoC到規(guī)模化落地。
任職要求:
1、計算機(jī)/數(shù)學(xué)/統(tǒng)計/相關(guān)專業(yè)本科及以上,3年以上算法或NLP/深度學(xué)習(xí)相關(guān)經(jīng)驗(yàn)(優(yōu)秀可放寬);
2、扎實(shí)的機(jī)器學(xué)習(xí)/深度學(xué)習(xí)基礎(chǔ),熟悉Transformer、LLM訓(xùn)練范式與常見對齊思路;
3、熟練使用Python,掌握PyTorch及常用訓(xùn)練框架(HuggingFace Transformers、DeepSpeed、FSDP、Megatron等其一或多個)。
4、有SFT/偏好對齊(如GRPO、PPO、DPO、ORPO等)落地經(jīng)驗(yàn),能獨(dú)立完成從數(shù)據(jù)到訓(xùn)練到評測的閉環(huán);
5、熟悉LoRA/QLoRA、量化(AWQ/GPTQ等)、混合精度訓(xùn)練、梯度累積、顯存/通信優(yōu)化;
6、能針對業(yè)務(wù)問題設(shè)計有效的數(shù)據(jù)策略與prompt/指令體系,具備較強(qiáng)問題定位能力;
7、熟悉Agent相關(guān)框架或模式(LangGraph/LangChain、OpenAI function calling范式、ReAct等),有工具調(diào)用與工作流編排實(shí)踐;
8、具備良好工程素養(yǎng),能將模型能力穩(wěn)定上線并持續(xù)迭代(監(jiān)控、日志、回放、A/B實(shí)驗(yàn)等)。
加分項(xiàng):
有大規(guī)模分布式訓(xùn)練實(shí)戰(zhàn)經(jīng)驗(yàn)(多機(jī)多卡、RDMA/NCCL調(diào)優(yōu)、訓(xùn)練故障處理);
在中文對話、知識問答、內(nèi)容生成、客服/銷售、代碼生成、檢索增強(qiáng)等場景有成功案例;
熟悉高質(zhì)量數(shù)據(jù)合成、自動標(biāo)注、對抗數(shù)據(jù)、蒸餾(KD)、模型壓縮與推理加速(vLLM/TensorRT-LLM);
有論文/開源貢獻(xiàn)/競賽成績,或主導(dǎo)過LLM平臺化建設(shè)。