工作內(nèi)容
1.負(fù)責(zé)網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計(jì)、開發(fā)和維護(hù),確保數(shù)據(jù)抓取的效率和穩(wěn)定性;
2.針對不同網(wǎng)站結(jié)構(gòu)(靜態(tài)/動(dòng)態(tài)頁面、API接口等)設(shè)計(jì)爬蟲策略,解決反爬機(jī)制(如驗(yàn)證碼、IP封鎖等);
3.清洗、存儲(chǔ)和分析爬取的數(shù)據(jù),支持業(yè)務(wù)部門的數(shù)據(jù)需求;
4.優(yōu)化爬蟲性能,提升抓取速度和數(shù)據(jù)質(zhì)量;
5.參與數(shù)據(jù)平臺(tái)相關(guān)工具的開發(fā)和維護(hù)。
任職要求
1.精通Python,熟悉常用庫(如Requests、 Scrapy、BeautifulSoup、Selenium等);
2.掌握HTTP/HTTPS協(xié)議、XPath/CSS選擇器、正則表達(dá)式等爬蟲基礎(chǔ)技術(shù);
3.熟悉反爬應(yīng)對策略(如代理IP、請求頭模擬、分布式爬蟲等);
4.了解常見數(shù)據(jù)庫(MySQL/MongoDB/Redis等)和數(shù)據(jù)存儲(chǔ)方案;
5.能獨(dú)立完成從爬取到數(shù)據(jù)落地的全流程開發(fā)。