崗位職責
1. 數據采集與獲?。?設計并實現從多源(文本、結構化DB、API、網頁等)獲取知識數據的方案。
2. 數據清洗與預處理: 對原始數據進行深度清洗、去噪、格式化、標準化,處理多源異構數據,確保數據質量。
3. 信息抽取與結構化: 應用NLP技術(實體識別、關系抽取、事件抽取等)從非結構化/半結構化文本中提取結構化知識(為知識圖譜工程師提供基礎數據)。
4. 知識向量化(Embedding)與索引: 選型、應用和優(yōu)化Embedding模型,將文本/知識轉化為向量表示。精通主流向量數據庫(Milvus, Pinecone, Weaviate, Chroma, ES w/ vector)的選型、部署、索引構建、優(yōu)化與維護。
5. 合成數據生成: 探索和應用技術生成用于模型訓練、微調或測試的合成數據。
6. 數據流水線與自動化: 構建高效、可擴展、自動化的數據ETL/ELT流水線,支持知識庫的持續(xù)更新和質量監(jiān)控。
7. 知識更新機制: 設計和實現知識庫的增量更新和版本管理機制。
8. 數據質量與評估: 制定并實施知識數據質量的評估標準和流程。與算法工程師合作定義數據需求。
9. 工具建設: 開發(fā)或引入易用的內部工具支持數據清洗、處理、向量化、索引等操作。
任職要求
1. 編程與工程能力:
極其出色的數據處理能力,精通Python數據處理庫(Pandas, NumPy, Spark等)和SQL。
強大的數據管道(ETL/ELT)設計、構建和優(yōu)化能力。
2. AI技術棧:
熟悉主流Embedding模型原理及應用。
精通至少1-2種主流向量數據庫的核心原理、部署、API、性能調優(yōu)。
經驗要求:
2年以上大規(guī)模數據處理、清洗、構建知識庫/數據湖/數據倉庫的實戰(zhàn)經驗。
有使用向量數據庫構建和優(yōu)化檢索系統(tǒng)的項目經驗。
有信息抽取或數據標注項目經驗者優(yōu)先。
3.核心技能:
大規(guī)模多源異構數據處理與清洗。
向量化(Embedding)技術實踐。
向量數據庫的深度應用與優(yōu)化。
數據流水線工程化與自動化。