1.負(fù)責(zé)網(wǎng)絡(luò)資源的搜集、抽取、清洗、去重、分類及過(guò)濾,構(gòu)建高質(zhì)量數(shù)據(jù)資源庫(kù);
2.根據(jù)業(yè)務(wù)要求,設(shè)計(jì)并實(shí)現(xiàn)高效的數(shù)據(jù)采集方案,確保數(shù)據(jù)的實(shí)時(shí)性和準(zhǔn)確性;
3.協(xié)助業(yè)務(wù)部門進(jìn)行數(shù)據(jù)的更新及維護(hù),提供數(shù)據(jù)支持及解決方案
4.優(yōu)化采集腳本,提升數(shù)據(jù)采集效率,解決采集過(guò)程中的反爬蟲策略問(wèn)題
5.參與數(shù)據(jù)采集工具的開發(fā)以及成品數(shù)據(jù)集的制作
崗位要求:
1.熟練掌握Python編程語(yǔ)言,具備扎實(shí)的編程基礎(chǔ),
2.熟悉Web前端技術(shù)
3.了解Linxu開發(fā)環(huán)境,基本掌握shell命令
4.有爬蟲經(jīng)驗(yàn)者優(yōu)先