一、崗位職責(zé)
1.負(fù)責(zé)AI驅(qū)動(dòng)的網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)設(shè)計(jì)、開(kāi)發(fā)與優(yōu)化,針對(duì)不同類型數(shù)據(jù)源構(gòu)建高效、穩(wěn)定的爬取方案,保障數(shù)據(jù)獲取的及時(shí)性與準(zhǔn)確性。
2.運(yùn)用機(jī)器學(xué)習(xí)、自然語(yǔ)言處理等AI技術(shù),解決數(shù)據(jù)處理過(guò)程中的內(nèi)容解析、數(shù)據(jù)智能清洗與去重合并等問(wèn)題,提升數(shù)據(jù)處理效率。
3.負(fù)責(zé)爬蟲(chóng)數(shù)據(jù)的AI驅(qū)動(dòng)式后續(xù)處理,包括數(shù)據(jù)結(jié)構(gòu)化提取、質(zhì)量校驗(yàn)、異常監(jiān)控及存儲(chǔ)管理,為業(yè)務(wù)端提供高質(zhì)量的AI訓(xùn)練數(shù)據(jù)或業(yè)務(wù)分析數(shù)據(jù)。
4.與數(shù)據(jù)分析師、算法工程師、產(chǎn)品經(jīng)理等團(tuán)隊(duì)成員緊密協(xié)作,明確數(shù)據(jù)需求,推動(dòng)爬蟲(chóng)技術(shù)與AI業(yè)務(wù)場(chǎng)景的深度融合與落地。
二、任職要求
1.計(jì)算機(jī)科學(xué)與技術(shù)、軟件工程、數(shù)據(jù)科學(xué)、人工智能等相關(guān)專業(yè)本科及以上學(xué)歷。
2.熟練掌握Python編程語(yǔ)言,能獨(dú)立實(shí)現(xiàn)AI算法(驗(yàn)證碼識(shí)別模型、內(nèi)容分類模型、實(shí)體抽取模型、多模態(tài)數(shù)據(jù)解析模型)與爬蟲(chóng)系統(tǒng)的端到端融合開(kāi)發(fā)。
3.具備扎實(shí)的AI技術(shù)應(yīng)用能力,熟悉機(jī)器學(xué)習(xí)算法(分類、聚類、回歸、深度學(xué)習(xí)等),掌握主流AI框架(TensorFlow、PyTorch、MindSpore),具備大模型應(yīng)用能力,熟悉主流大模型API調(diào)用流程。
4.具備強(qiáng)烈的責(zé)任心、良好的溝通能力和團(tuán)隊(duì)協(xié)作精神,能夠承受項(xiàng)目壓力并獨(dú)立推進(jìn)任務(wù)。
三、加分項(xiàng)
1.有大規(guī)模分布式爬蟲(chóng)系統(tǒng)開(kāi)發(fā)或高并發(fā)爬蟲(chóng)項(xiàng)目經(jīng)驗(yàn),曾處理過(guò)億級(jí)數(shù)據(jù)爬取與處理需求。
2.具備大模型全流程實(shí)踐經(jīng)驗(yàn),曾利用多模態(tài)大模型(如GPT-4V、Gemini、通義千問(wèn)-V)解決爬蟲(chóng)中的圖文混合內(nèi)容解析、復(fù)雜驗(yàn)證碼識(shí)別等問(wèn)題,或使用強(qiáng)化學(xué)習(xí)優(yōu)化爬蟲(chóng)策略,有AI模型部署到生產(chǎn)環(huán)境(Docker+K8s)的工程化經(jīng)驗(yàn)。
3.在爬蟲(chóng)技術(shù)、AI數(shù)據(jù)處理領(lǐng)域有開(kāi)源項(xiàng)目貢獻(xiàn)經(jīng)驗(yàn),或發(fā)表過(guò)相關(guān)技術(shù)文章。