崗位職責:
1.數(shù)據(jù)集全生命周期管理:統(tǒng)籌圖像、文本、語音等多模態(tài)數(shù)據(jù)的樣本集規(guī)劃、采集、標注與質(zhì)檢,搭建從原始數(shù)據(jù)到評測數(shù)據(jù)的端到端閉環(huán)流程;負責數(shù)據(jù)集版本管理,同時開展千萬級等大規(guī)模樣本數(shù)據(jù)集的從 0 到 1 建設(shè)與長期運營維護。
2.數(shù)據(jù)質(zhì)量與合規(guī)管控:制定并優(yōu)化數(shù)據(jù)質(zhì)量指標體系,通過自動化質(zhì)檢腳本、交叉驗證等方式把控數(shù)據(jù)質(zhì)量;熟悉 GDPR 及《個人信息保護法》等法規(guī),落實數(shù)據(jù)脫敏、差分隱私等手段,確保數(shù)據(jù)隱私合規(guī),規(guī)避版權(quán)與隱私風險。
3.流程優(yōu)化與工具應(yīng)用:優(yōu)化數(shù)據(jù)標注流程和質(zhì)量控制體系,熟練運用 LabelStudio、CVAT 等標注平臺;開發(fā) Python 腳本等自動化工具,加速數(shù)據(jù)預(yù)處理,提升數(shù)據(jù)處理效率;建設(shè)數(shù)據(jù)可視化平臺,對樣本分布、標注質(zhì)量等進行多維度監(jiān)控預(yù)警。
4.跨部門協(xié)作與需求對接:和算法工程師協(xié)作,依據(jù)模型需求優(yōu)化數(shù)據(jù)集結(jié)構(gòu),調(diào)整樣本權(quán)重分配等;對接業(yè)務(wù)、產(chǎn)品等部門,明確數(shù)據(jù)需求,根據(jù)業(yè)務(wù)反饋迭代數(shù)據(jù)集,支撐算法迭代與業(yè)務(wù)上線需求。
5.文檔與風險把控:撰寫數(shù)據(jù)集元數(shù)據(jù)、使用說明等文檔,做好數(shù)據(jù)溯源;監(jiān)控數(shù)據(jù)漂移問題,及時提出迭代方案,同時排查數(shù)據(jù)合規(guī)風險并預(yù)警,保障數(shù)據(jù)穩(wěn)
定供應(yīng)。
任職要求:
1.本科及以上學歷,35周歲以下,計算機科學、數(shù)據(jù)科學、統(tǒng)計學、電子信息等相關(guān)專業(yè);
2.熟練使用 Python(搭配 Pandas、NumPy 等庫)及 SQL,可完成數(shù)據(jù)清洗、篩選等處理工作;熟悉數(shù)據(jù)版本管理方案。
3.了解機器學習數(shù)據(jù)流程,掌握特征工程、數(shù)據(jù)集劃分及準確率等評估指標;熟悉自動化質(zhì)檢相關(guān)方法,如 IoU、一致性檢驗等。
4.能熟練操作常見數(shù)據(jù)標注與管理工具。
5.具備較強的數(shù)據(jù)敏感性、邏輯分析能力,能快速定位并解決數(shù)據(jù)異常問題;同時有良好的溝通協(xié)調(diào)能力,可對接內(nèi)外部資源推進工作。
6.NLP、CV 等特定領(lǐng)域數(shù)據(jù)處理經(jīng)驗;掌握聯(lián)邦學習、可信執(zhí)行環(huán)境等合規(guī)技術(shù);具備大數(shù)據(jù)主流框架及組件相關(guān)知識儲備者優(yōu)先。
【此崗位為外包崗位,一經(jīng)錄用,與合肥市人力資源服務(wù)有限公司簽訂勞動合同】