1、數(shù)據(jù)治理相關(guān)工作經(jīng)歷與經(jīng)驗,3年及以上工作經(jīng)驗;
2、學(xué)歷專科及以上;
3、數(shù)據(jù)全流程處理能力掌握程度
精通文本、圖像、音頻、視頻等多模態(tài)數(shù)據(jù)的全流程處理技術(shù),能獨立設(shè)計多源異構(gòu)數(shù)據(jù)的接入方案(如對接API接口、離線文件導(dǎo)入、實時流數(shù)據(jù)捕獲),熟練完成數(shù)據(jù)格式標(biāo)準(zhǔn)化(如文本JSONL轉(zhuǎn)換、圖像分辨率統(tǒng)一、音頻采樣率校準(zhǔn))與跨模態(tài)數(shù)據(jù)關(guān)聯(lián)(如文本-圖像語義匹配、音頻-字幕時間軸對齊),能夠解決過跨模態(tài)數(shù)據(jù)格式?jīng)_突、大文件解析失敗等疑難問題,能輸出標(biāo)準(zhǔn)化的多模態(tài)數(shù)據(jù)處理流程文檔;
4、數(shù)據(jù)質(zhì)量管控技能
優(yōu)秀:精通多模態(tài)數(shù)據(jù)質(zhì)量評估體系設(shè)計,能針對文本(如語義完整性、語法準(zhǔn)確性)、圖像(如清晰度、色彩真實性)、音頻(如信噪比、無雜音時長)等不同模態(tài)制定差異化質(zhì)量指標(biāo),開發(fā)自動化質(zhì)量檢測工具(如基于NLP的文本質(zhì)量評分模型、基于CV的圖像瑕疵識別腳本),能建立質(zhì)量監(jiān)控閉環(huán)(從數(shù)據(jù)采集到輸出的全鏈路質(zhì)量跟蹤),可解決復(fù)雜質(zhì)量問題(如跨模態(tài)數(shù)據(jù)語義不一致、長尾數(shù)據(jù)質(zhì)量失衡),輸出質(zhì)量管控報告并指導(dǎo)團(tuán)隊優(yōu)化數(shù)據(jù)質(zhì)量;
5、多模態(tài)數(shù)據(jù)治理工具搭建技能
精通多模態(tài)數(shù)據(jù)治理全鏈路工具與技術(shù),熟練使用分布式數(shù)據(jù)處理框架(Spark、Flink)、多模態(tài)數(shù)據(jù)管理平臺(如Hudi、Iceberg)、AI輔助治理工具(如基于LLM的文本分類模型、基于CV的圖像標(biāo)注工具)等;
6、多模態(tài)數(shù)據(jù)業(yè)務(wù)適配能力精通多模態(tài)數(shù)據(jù)與業(yè)務(wù)場景的適配邏輯,能深入理解不同業(yè)務(wù)(如多模態(tài)生成、跨模態(tài)檢索、智能交互)對數(shù)據(jù)的差異化需求,設(shè)計針對性的數(shù)據(jù)治理方案(如為生成式AI項目優(yōu)化文本-圖像配對數(shù)據(jù)、為檢索項目提升跨模態(tài)數(shù)據(jù)索引效率);具備復(fù)雜業(yè)務(wù)場景數(shù)據(jù)治理經(jīng)驗;