職位要求:
1. 精通Python爬蟲(chóng)框架(Scrapy/Selenium/Requests等),熟悉分布式爬蟲(chóng)架構(gòu);
2. 掌握反爬破解技術(shù)(IP代理池、請(qǐng)求頭模擬、JS逆向等);
3. 具備文獻(xiàn)平臺(tái)爬取經(jīng)驗(yàn)(如Elsevier、知網(wǎng)、PubMed等為佳);
4. 能通過(guò)日志分析快速定位爬蟲(chóng)中斷原因,制定修復(fù)方案。
工作職責(zé)
1.開(kāi)發(fā)自動(dòng)化爬蟲(chóng)程序,從指定學(xué)術(shù)網(wǎng)站/數(shù)據(jù)庫(kù)每日抓取篇文獻(xiàn)(PDF);
2.設(shè)計(jì)防封禁策略,繞過(guò)反爬機(jī)制(如驗(yàn)證碼、IP限制、動(dòng)態(tài)加載等);
3.按項(xiàng)目規(guī)范清洗、結(jié)構(gòu)化數(shù)據(jù);
4.監(jiān)控爬蟲(chóng)運(yùn)行,及時(shí)修復(fù)因網(wǎng)站改版、規(guī)則變動(dòng)導(dǎo)致的故障;
5.定期提交爬取日志與數(shù)據(jù)質(zhì)量報(bào)告。
試崗要求(合作前提)
提交可運(yùn)行的爬蟲(chóng)Demo,證明能穩(wěn)定實(shí)現(xiàn)單日2000篇文獻(xiàn)的爬取能力;
目標(biāo)網(wǎng)站及字段要求將在簽約NDA后提供。