一、崗位描述:負(fù)責(zé)AI技術(shù)原型模型的工程化落地,將算法模型從實(shí)驗(yàn)環(huán)境部署到生產(chǎn)環(huán)境,構(gòu)建高可用、高性能的AI服務(wù)化平臺,實(shí)現(xiàn)模型的全生命周期管理。
二、崗位職責(zé):1.模型交付:負(fù)責(zé)TensorFlow/PyTorch模型的轉(zhuǎn)換、量化、剪枝、蒸餾,輸出ONNX/TensorRT引擎;將模型封裝為REST/gRPC微服務(wù),實(shí)現(xiàn)<100ms P99延遲、>10k QPS并發(fā)能力;
2.服務(wù)化平臺建設(shè):基于Docker+K8s構(gòu)建CI/CD流水線:鏡像構(gòu)建→灰度發(fā)布→滾動(dòng)升級→自動(dòng)回滾;實(shí)現(xiàn)多模型熱更新、藍(lán)綠/A-B流量切換、彈性HPA與GPU共享調(diào)度;
3.性能與穩(wěn)定性:優(yōu)化推理吞吐:GPU Kernel融合、動(dòng)態(tài)批處理、INT8量化,提升2×以上吞吐;建立Prometheus+Grafana監(jiān)控:GPU利用率、QPS、延遲、顯存、數(shù)據(jù)漂移告警;
4.MLOps與治理:搭建端到端MLOps:數(shù)據(jù)版本(DVC)→訓(xùn)練(Kubeflow)→模型倉庫(MLflow)→部署;模型生命周期管理:版本追蹤、自動(dòng)化回歸測試、線上效果看板、一鍵回滾。
三、技術(shù)能力要求:1.編程與框架:精通Python/C++,能獨(dú)立開發(fā)高性能后端服務(wù)(FastAPI/gRPC/Go);熟悉TensorFlow、PyTorch、ONNX、TensorRT、Triton、vLLM中的至少三項(xiàng);
2.容器與云原生:深度掌握Dockerfile多階段構(gòu)建、鏡像瘦身、安全掃描;熟練使用K8s:Deployment/Service/Ingress、ConfigMap/Secret、HPA/VPA、GPU Operator、Helm包管理;
3.模型優(yōu)化:掌握量化(INT8/FP16)、剪枝、知識蒸餾、動(dòng)態(tài)批處理、KV-Cache優(yōu)化;具備GPU CUDA kernel融合、TensorRT plugin開發(fā)或LLM分布式推理(Deepspeed-Inference)經(jīng)驗(yàn);
4.高可用與監(jiān)控:熟悉Linux性能調(diào)優(yōu):CPU綁核、NUMA、epoll高并發(fā)網(wǎng)絡(luò)、GPU顯存池化;能基于Prometheus+Grafana+Alertmanager搭建7×24監(jiān)控,定位內(nèi)存泄漏、GPU掉卡、網(wǎng)絡(luò)超時(shí)等問題;
5.工程與協(xié)作:3年以上AI項(xiàng)目全鏈路交付經(jīng)驗(yàn),至少1個(gè)大規(guī)模(百萬DAU或千張GPU)線上系統(tǒng);熟悉Git-Flow、Code Review、單元/集成測試、自動(dòng)化運(yùn)維腳本(Bash/Python/Ansible);具備跨團(tuán)隊(duì)溝通經(jīng)驗(yàn),能與算法、產(chǎn)品、運(yùn)維、安全團(tuán)隊(duì)共同制定SLA/SLO并推動(dòng)落地。