国产中文无码av每日更新在线观看, 亚洲天堂中文字幕一区二区三区免费, 国产口爆吞精在线观视频-黄色国产, 92福利-国内精品久久久久久99,亚洲成AV人A片不卡无码,浪潮AV无码专区,老熟女败火白浆,中文字幕日产av,色情日本免费看大片

更新于 今天

GPU算力服務(wù)器維保主管

1.5-3萬
  • 重慶渝北區(qū)
  • 1-3年
  • 大專
  • 全職
  • 招1人

職位描述

GPUHGXAIPythonKubernetes
NVIDIA 維保工程師招聘信息

職位名 NVIDIA 硬件維保工程師(全職/駐場)

工作地點
[重慶](可接受國內(nèi)重點數(shù)據(jù)中心駐場)

崗位職責(zé)
1. 硬件維護
- 負(fù)責(zé) NVIDIA H200H100 H800等設(shè)備, HGX 系統(tǒng)的日常巡檢、故障診斷與硬件更換(GPU、NVLink、電源模塊等)。
- 執(zhí)行固件升級(如從 HGX 1.5.0 升級至 1.7.0),確保兼容性與穩(wěn)定性。
2. 故障處理
- 快速響應(yīng)客戶報修,解決 HBM3e內(nèi)存異常、NVLink通信中斷、液冷系統(tǒng)泄漏等典型問題。
- 分析日志(如 BMC/IPMI 日志),定位硬件或驅(qū)動層故障。
3. 性能優(yōu)化
- 配合客戶完成 MLPerf/ResNet 基準(zhǔn)測試,調(diào)優(yōu) CUDA 12.5+ 環(huán)境下的計算性能。
- 優(yōu)化 多節(jié)點集群(8-GPU及以上)的 InfiniBand/RDMA 網(wǎng)絡(luò)配置。
4. 文檔與培訓(xùn)
- 編寫維保報告、SOP操作手冊,并對客戶進行基礎(chǔ)技術(shù)培訓(xùn)。

任職要求
硬性條件
- 學(xué)歷:大專及以上,計算機/電子工程/自動化相關(guān)專業(yè)。
- 經(jīng)驗:
- 3年以上 服務(wù)器/GPU 硬件維保經(jīng)驗,熟悉 NVIDIA Tesla/HGX 系列優(yōu)先。
- 至少參與過 1次HGX架構(gòu)升級項目。
- 技能:
- 熟練使用 NVFlash、nvidia-smi、DCGM 等工具。
- 能解讀 PCIe/NVLink 拓?fù)溴e誤(如 `lspci -tv` 輸出)。
- 了解 液冷系統(tǒng) 基本維護(如管路密封性檢測)。
- 基礎(chǔ)Python/Bash腳本能力
優(yōu)先項
- 持有 **NVIDIA 認(rèn)證工程師(NCA/NCIP)或 華為/浪潮服務(wù)器認(rèn)證。
- 熟悉 Kubernetes/Slurm 在GPU集群中的管理。

薪資福利
- 薪資范圍:15K-30K/月(視經(jīng)驗+認(rèn)證)。
- 福利:
- 五險 + 技術(shù)培訓(xùn)。
- 差旅覆蓋(全國重點數(shù)據(jù)中心技術(shù)支持需求)。
- 提供 H200/HGX 1.7.0 真機實操環(huán)境。

工作場景示例
- 客戶報修:“H200節(jié)點訓(xùn)練任務(wù)突然中斷,`dmesg` 顯示 `NVLink CRC Error`?!?
- 你的行動:
1. 通過 Base Command Manager 檢查GPU狀態(tài)。
2. 更換故障NVLink橋接器,重新校準(zhǔn)鏈路。
3. 執(zhí)行 nccl-test 驗證多卡通信恢復(fù)。

應(yīng)聘方式
1. 簡歷投遞:******************(標(biāo)題:H200維保-姓名-3年經(jīng)驗)。
2. 附上:
- 過往處理的 GPU相關(guān)故障案例(描述+解決過程)。
- 證書掃描件(如有)。

注:本崗位需接受 7×24小時緊急響應(yīng)(月度輪值制)。

工作地點

渝北區(qū)兩江大道重慶市江北區(qū)魚嘴鎮(zhèn)兩江大道182號

職位發(fā)布者

袁先生/人事經(jīng)理

昨日活躍
立即溝通
成都弘智融信科技有限責(zé)任公司
弘智融信維修中心,位于重慶魚嘴兩江開發(fā)區(qū),為ai算力服務(wù)器, nvidia國內(nèi)4大總代之一,客戶涵蓋國企,央企,互聯(lián)網(wǎng)大廠,維修中心主要對自售產(chǎn)品進行維修,維保業(yè)務(wù),網(wǎng)點1000平先進維修實驗室,主要針對h100 h800 h200 h20服務(wù)器的維修,維保。
公司主頁