崗位職責(zé):
1.基于 Kubernetes 構(gòu)建和維護(hù)統(tǒng)一的 AI 訓(xùn)練與推理平臺(tái),實(shí)現(xiàn)從資源申請(qǐng)、環(huán)境準(zhǔn)備到模型訓(xùn)練及部署的全生命周期管理。
2.針對(duì) AI 訓(xùn)練任務(wù)(如分布式訓(xùn)練)的特性,優(yōu)化集群調(diào)度策略,提升算力資源(GPU/NPU)的利用率和任務(wù)吞吐量。
3.針對(duì)業(yè)務(wù)需求,開發(fā)和定制 K8s Operator、周邊插件及配套的微服務(wù)組件。
任職要求:
1.統(tǒng)招本科,3年及以上平臺(tái)后端開發(fā)經(jīng)驗(yàn);
2.熟練掌握容器化與K8s生態(tài),精通Docker、Kubernetes、Helm,具備微服務(wù)開發(fā)經(jīng)驗(yàn)。
3.精通Golang語(yǔ)言,掌握Golang的底層的運(yùn)行機(jī)制,熟練掌握至少一種腳本/編程語(yǔ)言(Python/Shell),具備高質(zhì)量的代碼編寫能力,熟悉常用的并發(fā)模型及設(shè)計(jì)模式。
4.熟悉Linux操作系統(tǒng),能夠進(jìn)行系統(tǒng)配置、網(wǎng)絡(luò)排查和性能調(diào)優(yōu)。
5.熟練掌握監(jiān)控體系,具備對(duì) Prometheus、Grafana 等組件的部署、配置和維護(hù)能力。
優(yōu)先條件:
有 Volcano、KubeBatch 或 Training-Operator的實(shí)際落地或深度維護(hù)經(jīng)驗(yàn)者優(yōu)先。
有大規(guī)模資源調(diào)度、任務(wù)調(diào)度或服務(wù)調(diào)度或具備大模型分布式訓(xùn)練底層支撐經(jīng)驗(yàn)者優(yōu)先
有AI/ML項(xiàng)目CI/CD實(shí)踐經(jīng)驗(yàn)者優(yōu)先(模型訓(xùn)練、推理服務(wù)部署等