職位描述
崗位職責(zé):
1、負(fù)責(zé)LLM/VLM大模型的部署和推理優(yōu)化開發(fā),包括量化、并行化等各種典型的優(yōu)化工作,確保系統(tǒng)的高性能、高可用和低成本;
2、與業(yè)務(wù)、產(chǎn)品、算法等團(tuán)隊合作,共同致力提升模型在業(yè)務(wù)場景的效果;
3、探索一些前沿的推理加速技術(shù),包括在新型GPU/NPU上的部署落地。
任職要求:
1、熟悉Transformers、Stable Diffusion等主流模型原理;
2、熟悉至少一種推理引擎框架(vLLM/Slang/ONNX Runtime或其他自研框架);
3、熟悉至少一種機(jī)器學(xué)習(xí)框架(TensorFlow/PyTorch/MxNet或其他自研框架);
4、了解GPU/NPU硬件特性,具備一定的性能調(diào)優(yōu)經(jīng)驗;
5、有以下至少一項的背景知識與經(jīng)驗:GPU編程、模型量化、Kernel開發(fā)及優(yōu)化;
6、良好的團(tuán)隊協(xié)作能力,有良好的動手實現(xiàn)能力,對技術(shù)有熱情。