崗位職責:
1. 模型開發(fā)與微調
- 負責大模型(如Qwen、DeepSeek、LLaMA)的定制化開發(fā),針對中醫(yī)場景(如問診記錄分析、方劑推薦)進行參數(shù)高效微調(如LoRA、Adapter、QLoRA);
- 設計并實現(xiàn)模型優(yōu)化方案(如FP8/INT8量化、動態(tài)批處理),提升推理效率與部署性能。
- 結合業(yè)務需求(如HIS系統(tǒng)集成),開發(fā)智能功能(如舌診圖像分析、中藥配伍規(guī)則建模)。
2. 全流程模型管理
- 主導模型從數(shù)據(jù)預處理、訓練、評估到部署的全生命周期管理。
- 構建高質量垂直領域數(shù)據(jù)集(如中醫(yī)古籍文本、電子病歷),完成數(shù)據(jù)清洗、標注與增強。
- 使用DeepSpeed、FSDP等技術實現(xiàn)分布式訓練,優(yōu)化GPU資源利用率。
3. 強化學習與對齊技術
- 研究并實現(xiàn) 監(jiān)督微調(SFT) 與 人類反饋強化學習(RLHF) 技術,提升模型對齊用戶需求的能力(如ReFT論文中的強化微調方法)。
- 設計 獎勵函數(shù) 和 PPO訓練框架,優(yōu)化模型在復雜任務中的決策能力(如中醫(yī)辨證論治規(guī)則建模)。
- 探索 在線強化學習(Online RL) 和 離線強化學習(Offline RL) 在醫(yī)療場景的應用。
4. 技術落地與協(xié)作
- 將微調模型集成到HIS系統(tǒng),支持智能問診、診療輔助等功能,確保與醫(yī)療業(yè)務流程無縫對接。
- 與醫(yī)療顧問協(xié)作,驗證模型輸出的合規(guī)性(如中醫(yī)理論規(guī)范、患者隱私保護)
- 輸出技術文檔與案例,支持客戶培訓及技術方案宣講。
5. 前沿技術探索
- 跟蹤大模型領域最新研究(如多模態(tài)模型、Agent框架),探索其在醫(yī)療場景的應用潛力。
- 研究對齊技術(如DPO/RLAIF)、RAG(檢索增強生成)等,優(yōu)化模型交互體驗與響應質量。
職位要求:
1. 學歷:計算機科學、人工智能、數(shù)學或醫(yī)學相關專業(yè)碩士及以上學歷。
2. 經(jīng)驗:3年以上深度學習或大模型項目經(jīng)驗,有醫(yī)療AI或NLP項目落地者優(yōu)先。
3. 數(shù)學基礎:
- 熟練掌握 線性代數(shù)(矩陣運算、特征值分解)、微積分(梯度下降、優(yōu)化理論)、概率論與統(tǒng)計學(貝葉斯推斷、假設檢驗)。
- 理解 馬爾可夫決策過程(MDP)、貝爾曼方程、策略梯度定理 等強化學習數(shù)學基礎。
4. 技術能力:
- 精通PyTorch/TensorFlow框架,熟悉HuggingFace生態(tài)及主流開源模型。
- 掌握參數(shù)高效微調(PEFT)技術,熟悉LoRA、Adapter等方法。
- 熟悉分布式訓練(如DeepSpeed、FSDP)和模型壓縮(如量化、蒸餾)。
- 有醫(yī)療數(shù)據(jù)處理經(jīng)驗(如電子病歷、舌診圖像)或中醫(yī)知識基礎者優(yōu)先。
5. 強化學習要求:
- 熟悉 監(jiān)督微調(SFT)、人類反饋強化學習(RLHF)、ReFT(Reinforced Fine-Tuning) 等技術。
- 掌握 PPO(Proximal Policy Optimization)、DQN(Deep Q-Network) 等強化學習算法,能獨立實現(xiàn)訓練框架。
- 有 在線強化學習 或 離線強化學習 項目經(jīng)驗,能設計獎勵函數(shù)并優(yōu)化策略。
6. 工具掌握:
- 熟練使用Python。
- 熟悉模型部署技術(如FastAPI、Triton、vLLM、KTransformers等)。
加分項目:
- 對中醫(yī)有一定程度的了解,有中醫(yī)臨床經(jīng)驗,或在中醫(yī)醫(yī)療機構中具有工作經(jīng)驗會優(yōu)先錄取。
- 有強化學習論文復現(xiàn)或 ReFT技術實踐經(jīng)驗。
- 參與過醫(yī)療AI競賽(如Kaggle醫(yī)療挑戰(zhàn))或開源項目貢獻。
- 掌握Docker、Kubernetes等DevOps工具