崗位職責:
1. 負責 Web 端數(shù)據(jù)全流程采集(爬取、清洗、入庫),可獨立設計多源數(shù)據(jù)采集方案;
2. 熟練掌握 Python,能使用 FastAPI 構(gòu)建后端接口并進行聯(lián)調(diào);
3. 熟悉數(shù)據(jù)庫(Redis、PostgreSQL、MySQL),能進行結(jié)構(gòu)設計與性能優(yōu)化;
4. 熟練使用 Docker 進行服務容器化與多服務編排(Compose),了解 K8s 優(yōu)先;
5. 掌握多種抓取技術(shù)(網(wǎng)頁爬取、動態(tài)渲染、API 調(diào)用),能處理代理池、驗證碼識別等場景;
6. 熟練使用 XPath、BeautifulSoup、pandas 等解析工具提取結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù);
7. 精通反爬破解技術(shù)(JS Hook、AST 分析、混淆還原等);
8. 參與分布式爬蟲系統(tǒng)設計與優(yōu)化,搭建采集調(diào)度與監(jiān)控體系;
9. 熟練使用 Scrapy、PySpider 框架,具備二次開發(fā)與中間件擴展能力;
10. 具備良好的溝通能力,可與產(chǎn)品、數(shù)據(jù)、后端團隊協(xié)同開發(fā);
11. 有 APP 逆向與協(xié)議分析經(jīng)驗者優(yōu)先。