工作職責(zé)
(1) 負(fù)責(zé)對(duì)話與生成類模型的SFT(有監(jiān)督微調(diào))與RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))全流程:數(shù)據(jù)構(gòu)建→標(biāo)注與質(zhì)檢→模型訓(xùn)練→離線/在線評(píng)測→上線迭代。
(2) 設(shè)計(jì)Prompt,并且利用爬蟲、模型生成等手段采集優(yōu)質(zhì)訓(xùn)練樣本,對(duì)模型進(jìn)行SFT,提升模型效果。
(3) 設(shè)計(jì)與實(shí)現(xiàn)對(duì)齊訓(xùn)練鏈路:偏好數(shù)據(jù)采集與清洗、獎(jiǎng)勵(lì)模型(RM)訓(xùn)練、策略優(yōu)化(PPO/DPO/GRPO 等),形成可復(fù)用的訓(xùn)練與評(píng)測流程。
(4) 面向真實(shí)業(yè)務(wù)進(jìn)行生成效果優(yōu)化:提示工程、COT、拒答邊界、引用/事實(shí)核對(duì)、風(fēng)格與長度控制,降低幻覺與違規(guī)率。
(5) 負(fù)責(zé)訓(xùn)練與部署工程化:多卡/多機(jī)并行(DeepSpeed)、混合精度(INT8/FP16/FP8)、vLLM推理加速與量化(LoRA/QLoRA)。
(6) 完成模型效果的評(píng)測:離線自動(dòng)評(píng)測、人評(píng)流程與指南、線上 A/B;沉淀難例集與回歸集。
(7) 構(gòu)建數(shù)據(jù)閉環(huán):從日志與用戶反饋挖掘難樣本與偏差案例,持續(xù)更新 SFT/偏好/對(duì)抗數(shù)據(jù),迭代 RM 與策略。
(8) 與產(chǎn)品/后端/數(shù)據(jù)/安全合規(guī)協(xié)作,輸出技術(shù)方案與上線手冊,保障穩(wěn)定性、可觀測性與合規(guī)性。
任職資格
(1) 計(jì)算機(jī)/數(shù)學(xué)/統(tǒng)計(jì)等相關(guān)專業(yè)碩士及以上,1 年+ NLP/生成模型相關(guān)經(jīng)驗(yàn)。
(2) 代碼與數(shù)理基礎(chǔ)扎實(shí),熟練常見的機(jī)器學(xué)習(xí)算法,深度學(xué)習(xí)算法,理解 Transformer、優(yōu)化器、并行與顯存管理。
(3) 熟悉 SFT/RLHF 方法論與實(shí)現(xiàn):數(shù)據(jù)對(duì)齊、RM 訓(xùn)練、PPO/DPO/GRPO 等策略優(yōu)化,能定位訓(xùn)練不穩(wěn)定與崩塌問題。
(4) 具備生成質(zhì)量優(yōu)化經(jīng)驗(yàn):提示策略、思維鏈/結(jié)構(gòu)化輸出、事實(shí)核對(duì)與幻覺治理、拒答與紅線規(guī)則。
(5) 有訓(xùn)練與推理工程化實(shí)踐:FSDP/ZeRO/DeepSpeed、LoRA/QLoRA、vLLM/TensorRT-LLM、監(jiān)控與日志。
(6) 良好的溝通協(xié)作與問題拆解能力,結(jié)果導(dǎo)向與自驅(qū)學(xué)習(xí)能力強(qiáng)。