負責智算集群中網(wǎng)絡設備的日常服務管理和健康性維護,按照客戶要求提供華為產(chǎn)品支持多廠家產(chǎn)品統(tǒng)一運維,包括針對三方產(chǎn)品聯(lián)系相應質(zhì)保(保修)/維保廠家獲取相關技術支寺。對于故障現(xiàn)象為網(wǎng)絡類問題或根據(jù)TAM指派,牽頭相關跨域故障定界,確定是否為網(wǎng)絡故障;
A、崗位要求:
1、精通路由&交換技術,安全技術中任一技術領域,具有跨領域知識者優(yōu)先;
2、至少精通華為、Cisco、Juniper、H3C等廠商的一款主流產(chǎn)品,如路由器、交換機、防火墻、UTM、IPS等,熟悉設備安裝、設備特性和配置、調(diào)試和維護;3、有豐富的網(wǎng)絡工程與運營維護、網(wǎng)絡設備調(diào)試、網(wǎng)絡規(guī)劃設計、方案實施及日常維護、現(xiàn)場故障處理等經(jīng)驗;
4、具有中等規(guī)模網(wǎng)絡(50臺左右)的項目交付經(jīng)驗,以及帶領團隊參與至少10個項目的交付經(jīng)驗者優(yōu)先;
5、具備HCIE證書,具有多個HCIE/CCIE/CISA認證證書者優(yōu)先;
6、精通智算相關HCCL、ROCE基礎技術,具備處理相關問題的能力;
7、對于智算常見端口閃斷、光弱和臟污等問題,具備獨立分析能力,并能夠迅速定位根因,提供解決方案;
B、工作內(nèi)容:
一、故障處理:
1、提供對告警監(jiān)控的降噪分析,優(yōu)化告警規(guī)則,提升告警處理效率;
2、針對域內(nèi)提供網(wǎng)絡設備的故障識別、問題定界定位的技術支持服務;
二、問題處理:
1、對遺留問題進行分析、總結、跟蹤閉環(huán),及時輸出案例進行知識沉淀;
投訴處理:
1、當前服務主要針對報障類投訴進行處理,當AI框架及以上的故障定界定位到網(wǎng)絡設備之后,提供問題定位并輔助解決的能力。
三、變更外理:
1、對由投訴、配置操作、安全事件提出的疑難、復雜類變更申請,提供變更的技術評審,遠程變更的操作,以及變更過程中保障,操作后的驗證服務;
2、對由故障單觸發(fā)需進行的疑難、復雜變更,提供變更方案,并聯(lián)合領域業(yè)進行變更評審,遠程變更的操作,以及變更過程中保障,操作后的驗證服務;
四、巡檢預防:
1、協(xié)助完成對智算集群中網(wǎng)絡設備的巡檢方案、健康檢査方案、應急方案的輸出;
2、提供節(jié)假日遠程保障,重大事件保障等服務。