工作職責(zé):
1、多模態(tài)模型精調(diào)與優(yōu)化
基于LLM(如通義千問-QVQ、LLaVA、Flamingo等)開展視頻/圖像多模態(tài)模型的領(lǐng)域適配精調(diào)(Fine-tuning、LoRA等)。設(shè)計(jì)視頻切片、抽幀策略的優(yōu)化算法,提升預(yù)處理效率與數(shù)據(jù)質(zhì)量。開發(fā)視頻幀與文本的跨模態(tài)對齊技術(shù),支撐智能問答、違規(guī)檢測等業(yè)務(wù)場景。
2、視頻推理算法開發(fā)
集成目標(biāo)跟蹤、行為識(shí)別(如離崗、陌生人檢測)等CV算法,降低冗余推理量級(jí)。構(gòu)建多模態(tài)推理流水線,支持圖像/視頻/文本輸入的統(tǒng)一接口封裝。優(yōu)化模型推理性能(異步處理、模型量化、內(nèi)存管理),滿足高并發(fā)實(shí)時(shí)分析需求。
3、算法全流程管理
實(shí)現(xiàn)模型熱加載、版本控制與灰度發(fā)布,保障服務(wù)高可用性。設(shè)計(jì)推理結(jié)果的結(jié)構(gòu)化存儲(chǔ)方案,建立元數(shù)據(jù)索引體系。開發(fā)違規(guī)視頻片段自動(dòng)截取與關(guān)聯(lián)標(biāo)記算法,支持告警證據(jù)鏈生成。
4、多模態(tài)智能系統(tǒng)開發(fā)
構(gòu)建視頻內(nèi)容的知識(shí)圖譜,支撐自然語言問答(NLP+CV融合)。開發(fā)告警結(jié)果的智能生成與審核模塊,結(jié)合規(guī)則引擎與AI模型。
任職要求:
1、本科及以上學(xué)歷,計(jì)算機(jī)類、軟件里程類、人工智能類、通信網(wǎng)絡(luò)類、電子信息類、數(shù)理統(tǒng)計(jì)類相關(guān)專業(yè);
2、3 年以上的相關(guān)工作經(jīng)驗(yàn),工作經(jīng)驗(yàn)自提供的最高學(xué)歷證書畢業(yè)時(shí)間起算,需提供學(xué)歷證書作為驗(yàn)證;
必備技能:
1、精通Python及主流深度學(xué)習(xí)框架(PyTorch/TensorFlow)。
2、熟悉多模態(tài)模型架構(gòu)(CLIP、BLIP、Video-LLaMA等)及精調(diào)技術(shù)(LoRA、P-Tuning)。
3、掌握視頻處理技術(shù)(FFmpeg/OpenCV)、目標(biāo)檢測(YOLO/DETR)與跟蹤算法(SORT/DeepSORT)。
4、具備高并發(fā)推理系統(tǒng)開發(fā)經(jīng)驗(yàn)(異步處理、隊(duì)列管理、API網(wǎng)關(guān)集成)。
5、熟悉模型部署優(yōu)化(ONNX/TensorRT)及分布式訓(xùn)練/推理框架。
加分項(xiàng)
1、有LLM Agent開發(fā)經(jīng)驗(yàn),或視頻摘要、行為識(shí)別等CV任務(wù)實(shí)戰(zhàn)項(xiàng)目。
熟悉知識(shí)圖譜構(gòu)建(Neo4j/SPARQL)或自然語言問答系統(tǒng)(RAG、LangChain)。
2、了解視頻流媒體架構(gòu)(RTSP/HLS)或邊緣計(jì)算優(yōu)化。