崗位職責(zé):
1、DeepSeek、通義千問系列等大模型本地化部署。
2、負(fù)責(zé)阿里云百練平臺(tái),通義點(diǎn)金,大模型相關(guān)的部署實(shí)施;
3、負(fù)責(zé)大模型日常維護(hù)和版本更新。
4、負(fù)責(zé)阿里云平臺(tái)資源的分通義配、搭建、部署、監(jiān)控、調(diào)優(yōu)、升級(jí)、日常維護(hù)工作;
5、建立和完善云平臺(tái)安全的監(jiān)控體系和事件處理機(jī)制,確保業(yè)務(wù)的穩(wěn)定運(yùn)行;
6、制定云平臺(tái)的運(yùn)維流程、制度和規(guī)范;參與運(yùn)維工作相關(guān)流程標(biāo)準(zhǔn)設(shè)計(jì)、編寫;
任職要求
1、熟悉大模型(DeepSeek系列、通義千問系列等)的本地化部署,熟悉多機(jī)多卡大模型部署。
2、熟悉dify等智能體平臺(tái),有實(shí)際使用經(jīng)驗(yàn)最佳。
3、熟悉阿里云百練平臺(tái),對(duì)通義點(diǎn)金等有一定了解,有實(shí)施使用經(jīng)驗(yàn)最佳。
4、掌握 Linux 操作系統(tǒng)管理、TCP/IP 網(wǎng)絡(luò)棧。
5、精通 Docker 基礎(chǔ)操作,具備 Kubernetes 集群部署、升級(jí)、故障排查、網(wǎng)絡(luò)與存儲(chǔ)插件調(diào)優(yōu)經(jīng)驗(yàn);熟練使用 Helm。
6、熟練搭建與維護(hù) Prometheus、Alertmanager、Grafana、Loki 等監(jiān)控和可視化平臺(tái);
7、熟練阿里云產(chǎn)品、包括不限于ACK、ECS、SLB、NAT、NAS存儲(chǔ)等,具備阿里云操作經(jīng)驗(yàn)。
8、精通至少一種腳本語言(Shell/Python/Go),能快速實(shí)現(xiàn)自動(dòng)化與工具開發(fā)。