工作職責(zé):
1、操作系統(tǒng)管理:負(fù)責(zé) Linux/Windows 服務(wù)器的安裝、配置、維護(hù)和優(yōu)化,包括用戶管理、權(quán)限控制、軟件安裝、補(bǔ)丁更新、性能調(diào)優(yōu)等。
2、容器技術(shù): 熟悉 Docker、Swarm、Kubernetes 等容器技術(shù),負(fù)責(zé)容器的部署、管理、監(jiān)控和故障排除。
3、人工智能: 熟悉主流 GPU 性能性能參數(shù),熟悉 Langchain 等主流LLM編程框架與 Milvus 等主流向量數(shù)據(jù)庫的部署調(diào)優(yōu)排錯。
4、網(wǎng)絡(luò)管理: 負(fù)責(zé)公司和客戶的網(wǎng)絡(luò)架構(gòu)的規(guī)劃、部署、維護(hù)和優(yōu)化,包括路由器、交換機(jī)、防火墻等網(wǎng)絡(luò)設(shè)備的配置和管理,以及網(wǎng)絡(luò)故障的排查和解決。
5、持續(xù)集成:負(fù)責(zé)搭建運(yùn)維自動化發(fā)布平臺,與 git 倉庫結(jié)合,實(shí)現(xiàn)容器鏡像制作、制品庫發(fā)布等功能;
6、監(jiān)控系統(tǒng):負(fù)責(zé)搭建和維護(hù)系統(tǒng)監(jiān)控平臺,對服務(wù)器、網(wǎng)絡(luò)、應(yīng)用等進(jìn)行實(shí)時監(jiān)控,及時發(fā)現(xiàn)和預(yù)警潛在問題。
7、故障排除:負(fù)責(zé)系統(tǒng)故障的快速定位、分析和解決,并撰寫故障報(bào)告,提出改進(jìn)建議,防止類似問題再次發(fā)生。
8、自動化運(yùn)維:積極研究和應(yīng)用自動化運(yùn)維工具和技術(shù),提高運(yùn)維效率和質(zhì)量。
9、文檔編寫:編寫和維護(hù)系統(tǒng)運(yùn)維相關(guān)文檔,包括操作手冊、故障處理手冊、應(yīng)急預(yù)案等。
10、團(tuán)隊(duì)合作:與其他團(tuán)隊(duì)成員緊密合作,共同完成項(xiàng)目任務(wù),并積極分享經(jīng)驗(yàn)和知識。
任職要求:
1、學(xué)歷:計(jì)算機(jī)科學(xué)、信息技術(shù)或相關(guān)專業(yè)本科及以上學(xué)歷。
2、經(jīng)驗(yàn):3 年以上系統(tǒng)運(yùn)維相關(guān)工作經(jīng)驗(yàn),有大型互聯(lián)網(wǎng)公司工作經(jīng)驗(yàn)者優(yōu)先。
3、技能:
- 精通 Linux/Windows 操作系統(tǒng),熟悉 Shell/Python 等腳本語言。
- 熟悉 Docker、Swarm、Kubernetes 等容器技術(shù),有實(shí)際項(xiàng)目經(jīng)驗(yàn)。
- 熟悉 Langchain、Milvus 等 AIGC技術(shù)相關(guān)技術(shù)。
- 熟悉 Jenkins 等 CICD 工具。
- 熟悉 TCP/IP 協(xié)議、路由交換原理,具備網(wǎng)絡(luò)故障排查能力。
- 熟悉 Zabbix、Prometheus、Grafana 等監(jiān)控工具。
- 具備良好的故障分析和解決問題的能力,能夠獨(dú)立處理復(fù)雜問題。
- 具備良好的溝通能力和團(tuán)隊(duì)合作精神,工作認(rèn)真負(fù)責(zé),積極主動。
- 具備較強(qiáng)的抗壓能力。
- 熟悉云計(jì)算平臺(阿里云、騰訊云、華為云等)。
- 熟悉 Ansible等自動化運(yùn)維工具。
- 有DevOps 實(shí)踐經(jīng)驗(yàn)。