【崗位職責】 1、數(shù)據(jù)采集與整理:依據(jù)業(yè)務(wù)與模型需求,設(shè)計并實現(xiàn)網(wǎng)頁爬蟲、開放 API 調(diào)用等數(shù)據(jù)采集流程。處理多種非結(jié)構(gòu)化數(shù)據(jù)(如網(wǎng)頁文本、Markdown、PDF 等)的解析、抽取與結(jié)構(gòu)化落庫; 2、根據(jù)算法團隊需求,構(gòu)建和整理指令數(shù)據(jù)、問答數(shù)據(jù)、對話數(shù)據(jù)等,按約定格式生成訓練語料。對原始數(shù)據(jù)進行脫敏、切分、標簽整理等預處理,為標注與訓練環(huán)節(jié)提供合規(guī)且高質(zhì)量的數(shù)據(jù)輸入; 3、配合后端與算法團隊,搭建支撐 AI 應(yīng)用(如智能助手、知識問答、智能客服等)的數(shù)據(jù)流程,包括向量化處理、索引構(gòu)建、日志采集、用戶反饋數(shù)據(jù)沉淀、特征更新等; 4、與產(chǎn)品、算法、后端等團隊保持良好溝通,理解業(yè)務(wù)背景與需求,能夠?qū)?shù)據(jù)方案提出合理建議。