工作內(nèi)容
1. 客戶技術(shù)支持: 負(fù)責(zé) SDK 及開發(fā)環(huán)境(Standalone / Accelerator)的導(dǎo)入培訓(xùn),協(xié)助客戶熟悉軟件架構(gòu)。
2. 模型部署與調(diào)優(yōu): 解決模型在端側(cè)部署時(shí)的推論(Inference)故障、編譯錯(cuò)誤及環(huán)境適配問題。
3. 量化與精度控制: 針對(duì)混合精度(Mixed Precision)與量化(Quantization)過程中的精度損失(Accuracy Loss)進(jìn)行定位,指導(dǎo)客戶進(jìn)行量化感知訓(xùn)練(QAT)或后量化(PTQ)優(yōu)化。
4. 性能分析與優(yōu)化: 負(fù)責(zé)端側(cè) Benchmark 測(cè)試,針對(duì) TPS (Transactions Per Second)、TTFT (Time To First Token)、FPS 等關(guān)鍵指針進(jìn)行瓶頸分析與性能調(diào)教。
5. 疑難定位: 現(xiàn)場(chǎng)定位模型推論結(jié)果異常、內(nèi)存泄漏、多線程沖突等涉及NPU與Slave端底層驅(qū)動(dòng)(BSP)的技術(shù)問題。
職位要求:
1. 專業(yè)背景與經(jīng)驗(yàn)
● 計(jì)算器、電子、自動(dòng)化或人工智能相關(guān)專業(yè),本科及以上學(xué)歷。
● 2 年以上 AI 模型部署、優(yōu)化或嵌入式開發(fā)經(jīng)驗(yàn)(優(yōu)秀應(yīng)屆生亦可考慮)。
● 熟悉端側(cè) AI 部署流程:訓(xùn)練(PyTorch/TensorFlow)→ 轉(zhuǎn)換(ONNX/TFLite)→ 量化 → 部署(SDK/NPU)。
2. 技術(shù)能力(硬實(shí)力)
● 程序語(yǔ)言: 精通 C/C++ 與 Python,具備優(yōu)秀的 Debug 能力。
● 模型推論: 熟悉主流推論框架(如 TensorRT, haliort, OpenVINO 或 SNPE 等)及底層軟件架構(gòu)。
● 量化技術(shù): 理解對(duì)稱/非對(duì)稱量化、INT4/INT8/FP16/BF16 混合精度原理,能處理量化后的精度掉點(diǎn)問題。
● 性能優(yōu)化: 熟悉性能 Profiling 工具,了解計(jì)算圖優(yōu)化、算子融合、內(nèi)存布局優(yōu)化等技術(shù)。
● 硬件環(huán)境: 了解嵌入式 Linux 系統(tǒng),具備 Standalone 模式或 PCIe/M.2 Accelerator 模式下的開發(fā)經(jīng)驗(yàn)(Docker / Yocto Linux)
有以下經(jīng)驗(yàn)者優(yōu)先:
● 具備大語(yǔ)言模型(LLM)端側(cè)量化與加速經(jīng)驗(yàn)者優(yōu)先。
● 有 NPU/GPU等硬件加速器底層驅(qū)動(dòng)或算子開發(fā)經(jīng)驗(yàn)者優(yōu)先。
● 在主流 AI 芯片平臺(tái)有實(shí)際量產(chǎn)項(xiàng)目經(jīng)驗(yàn)。