負(fù)責(zé)工業(yè)人工智能開(kāi)發(fā)運(yùn)維一體化平臺(tái)后端微服務(wù)架構(gòu)的設(shè)計(jì)、優(yōu)化與迭代,并主導(dǎo)Go語(yǔ)言核心模塊的開(kāi)發(fā)。積極協(xié)同前端團(tuán)隊(duì)完成AngularJS框架的集成與性能調(diào)優(yōu)?;贙ubernetes構(gòu)建穩(wěn)定、彈性的云原生部署體系,主導(dǎo)容器化編排、監(jiān)控及自動(dòng)化運(yùn)維流程。在GPU資源調(diào)度方面,不僅深入應(yīng)用NVIDIA GPU Operator等方案,還積極適配多種國(guó)產(chǎn)化AI加速卡及其調(diào)度方案,通過(guò)GPU切片、虛擬化等技術(shù)實(shí)現(xiàn)工業(yè)AI訓(xùn)練/推理任務(wù)的高效資源管理。
核心職責(zé):??
??平臺(tái)架構(gòu)與開(kāi)發(fā):?? 負(fù)責(zé)基于Go語(yǔ)言的微服務(wù)架構(gòu)的設(shè)計(jì)、優(yōu)化與迭代開(kāi)發(fā),確保系統(tǒng)的高可用性與可擴(kuò)展性。
??全棧協(xié)同:?? 協(xié)同前端團(tuán)隊(duì),主導(dǎo)AngularJS框架的集成與性能調(diào)優(yōu),保障前后端分離架構(gòu)下的高效協(xié)作與極致用戶體驗(yàn)。
??云原生部署運(yùn)維:?? 基于Kubernetes構(gòu)建并維護(hù)穩(wěn)定、彈性的云原生部署體系,主導(dǎo)容器化編排、監(jiān)控、自動(dòng)化運(yùn)維等全流程。
??核心技術(shù)攻堅(jiān):?? 重點(diǎn)攻克K8s GPU切片技術(shù)(共享、虛擬化等),實(shí)現(xiàn)對(duì)NVIDIA及??多種國(guó)產(chǎn)AI芯片??的高效資源調(diào)度與管理,以滿足工業(yè)AI訓(xùn)練與推理任務(wù)對(duì)異構(gòu)算力的苛刻需求。
??可靠性保障:?? 解決高并發(fā)、分布式存儲(chǔ)、資源管理等技術(shù)難題,提升平臺(tái)在真實(shí)工業(yè)環(huán)境下的穩(wěn)定性和可靠性。
職位要求:??
5年以上后端開(kāi)發(fā)經(jīng)驗(yàn),精通Go語(yǔ)言,具備大型分布式系統(tǒng)的架構(gòu)設(shè)計(jì)和性能優(yōu)化能力。
熟悉AngularJS等前端框架,具備復(fù)雜前后端分離項(xiàng)目的實(shí)戰(zhàn)經(jīng)驗(yàn),能高效驅(qū)動(dòng)前后端協(xié)作。
深入掌握Kubernetes及其核心生態(tài),擁有生產(chǎn)環(huán)境集群的部署、管理、運(yùn)維和故障排查能力。
具備K8s GPU調(diào)度技術(shù)的實(shí)戰(zhàn)經(jīng)驗(yàn),??不僅熟悉NVIDIA GPU Operator等方案,更需具備對(duì)國(guó)產(chǎn)AI加速卡方案的適配能力??,深刻理解設(shè)備插件與資源管理機(jī)制。