職位信息
負(fù)責(zé)領(lǐng)導(dǎo)并構(gòu)建一個(gè)覆蓋全球標(biāo)準(zhǔn)、技術(shù)文獻(xiàn)、專利、教材、政策法規(guī)及行業(yè)數(shù)據(jù)的超大規(guī)模、多語(yǔ)言工業(yè)知識(shí)語(yǔ)料庫(kù)。您將定義數(shù)據(jù)標(biāo)準(zhǔn),為下一代工業(yè)AI大模型和知識(shí)圖譜提供堅(jiān)實(shí)、高質(zhì)量的數(shù)據(jù)基石。這是一個(gè)極具挑戰(zhàn)性且對(duì)公司核心數(shù)據(jù)戰(zhàn)略至關(guān)重要的崗位。
核心職責(zé)
1.語(yǔ)料規(guī)劃:
o根據(jù)業(yè)務(wù)目標(biāo)(如訓(xùn)練垂直行業(yè)大模型、構(gòu)建知識(shí)庫(kù)),制定涵蓋所有給定數(shù)據(jù)類別(標(biāo)準(zhǔn)、文獻(xiàn)、專利、教材、政策、數(shù)據(jù)等)的全面語(yǔ)料庫(kù)建設(shè)路線圖與技術(shù)架構(gòu)。
o設(shè)計(jì)支持多源(PDF、文本、圖像、視頻、數(shù)據(jù)庫(kù))、多語(yǔ)言(中/英)、多模態(tài)數(shù)據(jù)的高效處理與存儲(chǔ)方案。
o建立并持續(xù)優(yōu)化語(yǔ)料數(shù)據(jù)的質(zhì)量標(biāo)準(zhǔn)、分類體系和元數(shù)據(jù)規(guī)范。
2.數(shù)據(jù)采集與獲?。?
o規(guī)劃并實(shí)施從公開(kāi)數(shù)據(jù)庫(kù)(如各國(guó)專利局、IEEE Xplore、NIST、各標(biāo)準(zhǔn)組織)、學(xué)術(shù)出版商、行業(yè)協(xié)會(huì)、商業(yè)數(shù)據(jù)提供商等渠道獲取數(shù)據(jù)的技術(shù)方案。
o負(fù)責(zé)與數(shù)據(jù)供應(yīng)商談判、采購(gòu)合法合規(guī)的數(shù)據(jù)授權(quán),管理數(shù)據(jù)使用許可。
o開(kāi)發(fā)或管理網(wǎng)絡(luò)爬蟲(chóng)與API集成工具,安全、合規(guī)、高效地獲取數(shù)據(jù)。
3.數(shù)據(jù)處理與加工流水線構(gòu)建:
o主導(dǎo)搭建自動(dòng)化、工業(yè)級(jí)的語(yǔ)料數(shù)據(jù)處理流水線,覆蓋以下關(guān)鍵環(huán)節(jié):
文本提取與解析:精通處理海量PDF(掃描版/數(shù)字版)、Word等格式文檔,應(yīng)用OCR、版面分析等技術(shù)實(shí)現(xiàn)高精度文本與結(jié)構(gòu)化信息(如標(biāo)題、作者、圖表標(biāo)題)提取。
多語(yǔ)言處理:實(shí)施專業(yè)領(lǐng)域機(jī)器翻譯、術(shù)語(yǔ)對(duì)齊和語(yǔ)言質(zhì)量控制流程。
數(shù)據(jù)清洗與標(biāo)準(zhǔn)化:設(shè)計(jì)并應(yīng)用規(guī)則與模型,對(duì)文本進(jìn)行去重、格式化、錯(cuò)誤糾正、專業(yè)術(shù)語(yǔ)歸一化。
信息結(jié)構(gòu)化:針對(duì)專利、標(biāo)準(zhǔn)、論文等特定類型數(shù)據(jù),提取關(guān)鍵字段(如IPC分類號(hào)、標(biāo)準(zhǔn)號(hào)、DOI、摘要、權(quán)利要求、章節(jié)標(biāo)題等)。
非結(jié)構(gòu)化數(shù)據(jù)標(biāo)注:為圖像(如缺陷檢測(cè)、CAD圖紙)、視頻(如操作過(guò)程)等數(shù)據(jù)集設(shè)計(jì)并管理標(biāo)注方案,確保高質(zhì)量標(biāo)注結(jié)果。
4.質(zhì)量管理與評(píng)估:
o建立貫穿全流程的數(shù)據(jù)質(zhì)量監(jiān)控與評(píng)估體系,定義核心質(zhì)量指標(biāo)(如完整性、準(zhǔn)確性、一致性、時(shí)效性)。
o定期審核語(yǔ)料庫(kù)質(zhì)量,分析問(wèn)題根源,持續(xù)優(yōu)化處理流程與算法模型。
5.跨部門(mén)協(xié)作與項(xiàng)目管理:
o與AI算法團(tuán)隊(duì)、產(chǎn)品經(jīng)理、業(yè)務(wù)專家緊密合作,深刻理解下游應(yīng)用需求,確保語(yǔ)料庫(kù)能有效支持模型訓(xùn)練與產(chǎn)品開(kāi)發(fā)。
o管理語(yǔ)料庫(kù)建設(shè)項(xiàng)目,制定詳細(xì)計(jì)劃,分配任務(wù),跟蹤進(jìn)度,控制風(fēng)險(xiǎn),確保項(xiàng)目按時(shí)、按質(zhì)、按量交付。
任職要求
1.必備條件:
o學(xué)歷與經(jīng)驗(yàn):計(jì)算機(jī)科學(xué)、軟件工程、數(shù)據(jù)科學(xué)或相關(guān)理工科專業(yè)碩士及以上學(xué)歷,5年以上大規(guī)模數(shù)據(jù)工程、知識(shí)圖譜構(gòu)建或相關(guān)領(lǐng)域經(jīng)驗(yàn)。有工業(yè)領(lǐng)域(如高端制造、能源、自動(dòng)化)項(xiàng)目背景者優(yōu)先。
2.優(yōu)先考慮:
o領(lǐng)域知識(shí):對(duì)您所列出的至少2-3個(gè)工業(yè)領(lǐng)域(如機(jī)械、電氣、自動(dòng)化、材料、能源)有基礎(chǔ)知識(shí)或強(qiáng)烈學(xué)習(xí)興趣。熟悉ISO、IEC、ASTM等標(biāo)準(zhǔn)體系者尤佳。
o語(yǔ)言能力:具備優(yōu)秀的英文技術(shù)文獻(xiàn)閱讀能力。