崗位職責(zé):
1. 數(shù)據(jù)采集與整理:依據(jù)業(yè)務(wù)與模型需求,設(shè)計(jì)并實(shí)現(xiàn)網(wǎng)頁爬蟲、開放 API 調(diào)用等數(shù)據(jù)采集流程。處理多種非結(jié)構(gòu)化數(shù)據(jù)(如網(wǎng)頁文本、XML、Markdown、PDF 等)的解析、抽取與結(jié)構(gòu)化落庫;
2. 根據(jù)算法團(tuán)隊(duì)需求,構(gòu)建和整理指令數(shù)據(jù)、問答數(shù)據(jù)、對(duì)話數(shù)據(jù)等,按約定格式生成訓(xùn)練語料。對(duì)原始數(shù)據(jù)進(jìn)行脫敏、切分、標(biāo)簽整理等預(yù)處理,為標(biāo)注與訓(xùn)練環(huán)節(jié)提供合規(guī)且高質(zhì)量的數(shù)據(jù)輸入;
3. 配合后端與算法團(tuán)隊(duì),搭建支撐 AI 應(yīng)用(如智能助手、知識(shí)問答、智能客服等)的數(shù)據(jù)流程,包括向量化處理、索引構(gòu)建、日志采集、用戶反饋數(shù)據(jù)沉淀、特征更新等;
4. 與產(chǎn)品、算法、后端等團(tuán)隊(duì)保持良好溝通,理解業(yè)務(wù)背景與需求,能夠?qū)?shù)據(jù)方案提出合理建議。
任職要求:
1. 計(jì)算機(jī)科學(xué)、軟件工程、數(shù)據(jù)科學(xué)、數(shù)學(xué)等相關(guān)專業(yè),本科及以上學(xué)歷;
2. 熟練使用 Python 進(jìn)行數(shù)據(jù)處理與腳本開發(fā),熟悉常見數(shù)據(jù)處理相關(guān)庫(如 pandas 等);
3. 具備扎實(shí)的 SQL 基礎(chǔ),能夠獨(dú)立完成常見的數(shù)據(jù)查詢、聚合統(tǒng)計(jì)與基礎(chǔ)性能優(yōu)化;
4. 對(duì)大語言模型訓(xùn)練數(shù)據(jù)的重要性有基本認(rèn)識(shí),理解指令數(shù)據(jù)、對(duì)話數(shù)據(jù)、知識(shí)庫數(shù)據(jù)等在模型效果中的作用;
5. 具備良好的溝通表達(dá)與跨團(tuán)隊(duì)協(xié)作能力。
加分項(xiàng):
1. 使用任務(wù)調(diào)度 / 工作流工具(如 Airflow、Prefect 或同類工具等)管理定時(shí)任務(wù)與數(shù)據(jù)流程依賴;
2. 有使用 FastGPT、Dify、Flowise、n8n、LangChain、LlamaIndex 等大模型應(yīng)用平臺(tái)或編排框架的實(shí)踐經(jīng)驗(yàn)者優(yōu)先,了解其在對(duì)話機(jī)器人、RAG 檢索、工具調(diào)用編排等場(chǎng)景中的使用方式;
3. 接觸過 Spark、Flink、Hadoop、ClickHouse 等任一大數(shù)據(jù)或高性能存儲(chǔ) / 計(jì)算系統(tǒng);
4. 參與過大模型訓(xùn)練 / 微調(diào) / RAG 等項(xiàng)目的數(shù)據(jù)側(cè)工作,了解完整數(shù)據(jù) pipeline;
5.在技術(shù)社區(qū)或開源社區(qū)有貢獻(xiàn)(如技術(shù)博客、開源項(xiàng)目、技術(shù)分享等)。