崗位職責:
1. 文本數(shù)據(jù)處理: 參與中文文本數(shù)據(jù)的清洗、加工和標準化工作,包括但不限于分詞、拼音注音、實體識別、錯別字校正等。
2. 數(shù)據(jù)分析: 通過對用戶行為日志等海量數(shù)據(jù)的分析,挖掘數(shù)據(jù)價值,為產(chǎn)品優(yōu)化和業(yè)務增長提供數(shù)據(jù)支持。
3. 數(shù)據(jù)構建: 與算法工程師緊密協(xié)作,根據(jù)模型需求,構建和處理高質量的訓練、驗證和測試數(shù)據(jù)集。
任職要求:
1. 經(jīng)驗背景: 具備2年及以上數(shù)據(jù)開發(fā)或數(shù)據(jù)處理相關工作經(jīng)驗,計算機、統(tǒng)計學或相關專業(yè)本科及以上學歷。
2. 技術能力:
Python: 精通Python編程,熟練掌握多線程/多進程編程,能夠開發(fā)高效的數(shù)據(jù)處理腳本和應用。
SQL: 精通SQL,具備復雜查詢、數(shù)據(jù)轉換和性能優(yōu)化的能力。
大數(shù)據(jù)框架: 擁有Spark等分布式計算框架的實際項目經(jīng)驗,能夠進行并行數(shù)據(jù)處理。
3. 文本處理: 熟悉常見的中文文本處理技術(如分詞、拼音注音、錯別字校正等),并有相關項目實踐經(jīng)驗。
4. 數(shù)據(jù)分析與理解: 具備優(yōu)秀的用戶日志分析能力,能夠從海量數(shù)據(jù)中發(fā)現(xiàn)問題和價值;深刻理解數(shù)據(jù)質量評估的目標和重要性。
加分項:
1. AI數(shù)據(jù)經(jīng)驗: 有為AI模型(尤其是NLP、大語言模型LLM相關領域)構建訓練數(shù)據(jù)的經(jīng)驗者優(yōu)先。
2. 工程實踐: 對數(shù)據(jù)敏感,追求卓越,有良好的代碼規(guī)范和工程實踐習慣。
3. 工具與平臺: 熟悉如Hadoop、Hive、Kafka等其他大數(shù)據(jù)生態(tài)組件者優(yōu)先。