400-885-9898

更新于 3月5日

APP

舉報

算力基礎設施運維工程師（監(jiān)控棧部署/熟悉NVIDIA/AMD）

1.5-1.6萬

重慶沙坪壩區(qū)
1-3年
本科
全職
招1人

雇員點評標簽

工作環(huán)境好
同事很nice
人際關系好
管理人性化
氛圍活躍
交通便利
團隊執(zhí)行強

職位描述

系統(tǒng)運維云運維網(wǎng)絡運維云計算/大數(shù)據(jù)人工智能IT服務

職責：

1.負責公司異構算力資源池的7x24小時穩(wěn)定性和可用性。對算力服務器的硬件狀態(tài)、功耗、溫度以及作業(yè)調度隊列等進行全方位、實時性的監(jiān)控與告警。

2.保障算力資源的高效利用，持續(xù)分析算力使用效率，針對資源爭用、排隊過長等問題進行根因分析，并通過優(yōu)化調度策略、調整資源配比等手段，提升整個算力集群的吞吐量。

3.具備快速定位和解決問題的能力，能夠系統(tǒng)性地區(qū)分并排查GPU/NPU卡、高速網(wǎng)絡、存儲IO或軟件棧等不同層面的問題，快速相關故障與性能問題。

4.主導或參與新算力節(jié)點的上線、現(xiàn)有集群的橫向擴容以及硬件迭代升級等技術項目，確保算力供給能夠前瞻性地匹配業(yè)務發(fā)展的速度。

5.負責維護算力平臺的基礎軟件環(huán)境，包括GPU/NPU驅動、CUDA/ROCm計算庫、容器運行時及深度學習框架等組件的版本管理和一致性。

6.編寫腳本或使用自動化工具，實現(xiàn)算力資源的快速交付、批量配置、巡檢和故障自愈，提升運維效率與規(guī)范性。

任職資格：

1.具備扎實的異構計算硬件與系統(tǒng)知識，熟悉NVIDIA/AMD等主流GPU或昇騰/寒武紀等國產(chǎn)NPU的架構與特性。

2.精通Linux操作系統(tǒng)原理，掌握系統(tǒng)性能分析工具，能夠從硬件、驅動到操作系統(tǒng)層面全面理解算力節(jié)點的運行狀態(tài)，高效運維和深度排障。

3.擁有豐富的故障診斷經(jīng)驗與系統(tǒng)性解決問題能力，能夠從性能計數(shù)器、系統(tǒng)日志和監(jiān)控數(shù)據(jù)中快速定位影響算力輸出的瓶頸與根因，能夠系統(tǒng)地分析計算、網(wǎng)絡、存儲之間的相互影響，并制定有效解決方案的能力。

4.精通Prometheus、Zabbix、Grafana等監(jiān)控棧的部署與使用，能夠構建貼合算力業(yè)務需求的監(jiān)控儀表盤與告警規(guī)則，實現(xiàn)運維工作的可觀測性。

5.熟練掌握至少一門腳本語言，能夠編寫用于批量設備管理、配置收集、日志分析或自動化巡檢的腳本，具備Ansible、Terraform等自動化工具使用經(jīng)驗者更佳。

6.具備優(yōu)秀的溝通能力，責任心、主動性和在高壓下管理多個任務的能力。

工作地點

沙坪壩區(qū)重慶智算科技有限公司

完善一份簡歷
1736萬+企業(yè)在線搜索，780萬+海量職位精準推薦

相似職位

電廠運維工程師5000-10000元·16薪
重慶 - 渝北
重慶格網(wǎng)科技有限公司
服務器運維工程師8000-10000元·13薪
重慶 - 渝北
重慶張雪機車工業(yè)有限公司
SRE運維工程師(J15207)8000-10000元
重慶 - 沙坪壩
北京亞康智算科技有限公司
H85716崗運維工程師4000-8000元
重慶 - 兩江新區(qū)
武漢佰鈞成技術有限責任公司
GPU算力服務器維保主管1.5-3萬
重慶 - 渝北
成都弘智融信科技有限責任公司
平臺運營工程師（渝車出海項目組）（薪酬面議）1.5-2.5萬
重慶 - 兩江新區(qū)
中數(shù)聯(lián)物流運營有限公司

查看更多相似職位

職位發(fā)布者

王女士/HR

三日內(nèi)活躍

立即溝通

博彥科技承德有限公司

博彥科技（深交所上市公司，股票代碼002649）是一家面向全球的IT咨詢、產(chǎn)品、解決方案與服務提供商。公司成立于1995年，總部位于中國北京，并在中國、美國、西班牙、日本、印度、新加坡和馬來西亞等7個國家設有40余家分支機構、研發(fā)基地或交付中心。博彥科技依托自身強大的研發(fā)與創(chuàng)新能力，廣泛采用基于物聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能和移動互聯(lián)等新興技術，為高科技、金融、互聯(lián)網(wǎng)、地產(chǎn)、交通、汽車、零售、能源、制造、航空、電信、媒體、旅游等行業(yè)客戶提供豐富的解決方案及產(chǎn)品。博彥科技遵循嚴格的質量和安全標準，實施嚴密的安全措施，擁有成熟可靠的管理和開發(fā)流程，并獲得CMMI 3、ISO 20000、ISO 9001、ISO 27001、ISO 14001、OHSAS 18001等一系列資質認證。公司憑借多年的行業(yè)積累、深厚的行業(yè)專長和成熟的行業(yè)實踐、國際化的精英團隊和完善的人才管理、完備的全球化交付與服務網(wǎng)絡、以及無處不在的創(chuàng)新精神與實踐，助力全球客戶盡享科技革新所帶來的卓越運營，為客戶持續(xù)創(chuàng)造關鍵價值。

公司主頁

關于我們: 公司介紹; 聯(lián)系我們; 誠聘英才

產(chǎn)品與服務: 人才招聘; 企業(yè)招聘

使用與幫助: 賬號注銷; 意見反饋; 發(fā)票制度; 防騙指南; 法律協(xié)議; 資質公示

智聯(lián)招聘更懂你的價值

智聯(lián)app小程序官方微信企業(yè)版APP

京ICP備12025925號?京ICP證010207號

京公網(wǎng)安備 11010502059392號?人力資源許可證:1101051996081號

網(wǎng)上有害信息舉報專區(qū)?違法不良信息舉報電話:400-885-9898 關愛未成年舉報熱線:400-885-9898-3

朝陽區(qū)人力資源與社會保障局監(jiān)督電話?

網(wǎng)絡110報警服務電子營業(yè)執(zhí)照