1. 負責(zé)海量互聯(lián)網(wǎng)數(shù)據(jù)的定向抓取、清洗與結(jié)構(gòu)化;
2. 搭建高效穩(wěn)定的數(shù)據(jù)采集系統(tǒng)與調(diào)度框架;
3. 對反爬機制進行識別、規(guī)避及應(yīng)對;
4. 定期維護爬蟲策略,確保數(shù)據(jù)持續(xù)可用;
5. 與產(chǎn)品、數(shù)據(jù)分析、AI建模團隊協(xié)作,提供定制化數(shù)據(jù)支持。
技能要求:
? 精通 Python(Scrapy / requests / selenium 等庫);
? 熟悉網(wǎng)頁結(jié)構(gòu)(HTML/DOM/XPath/Regex);
? 熟悉代理IP、Cookies管理、Header偽裝、驗證碼識別等反爬機制;
? 具備良好的代碼結(jié)構(gòu)意識和日志監(jiān)控能力;
? 有大型網(wǎng)站(如港交所、雪球、EDGAR、天眼查等)實戰(zhàn)抓取經(jīng)驗優(yōu)先;
? 具備 異步爬蟲 / 多線程 / 分布式爬蟲開發(fā)經(jīng)驗者優(yōu)先;
? 熟悉 MySQL/MongoDB/Elasticsearch 等任一存儲技術(shù)。
加分項:
? 熟悉 JavaScript 動態(tài)頁面渲染處理;
? 具備 NLP/AI 數(shù)據(jù)預(yù)處理經(jīng)驗;
? 有使用云服務(wù)(如 AWS Lambda、阿里云函數(shù)計算)部署爬蟲經(jīng)驗;
? 熟悉 Docker + CI/CD 流程。