崗位職責(zé):
1.負責(zé)采集系統(tǒng)的架構(gòu)設(shè)計,系統(tǒng)搭建
2.負責(zé)各類數(shù)據(jù)源(API、數(shù)據(jù)庫、網(wǎng)頁)的數(shù)據(jù)采集、清洗、轉(zhuǎn)換與入庫;
3.搭建與維護穩(wěn)定高效的數(shù)據(jù)采集系統(tǒng),確保數(shù)據(jù)采集的準(zhǔn)確性、完整性與時效性;
4.分析數(shù)據(jù)源結(jié)構(gòu)與變化,制定字段映射、清洗規(guī)則和更新策略;
5.針對目標(biāo)站點的反爬策略設(shè)計并實現(xiàn)有效的繞過方案;
6. 編寫數(shù)據(jù)采集文檔與接口說明,支持?jǐn)?shù)據(jù)管理與審計合規(guī)需求。
7.及時解決爬取過程中出現(xiàn)的問題并不斷優(yōu)化程序
任職資格:
1.計算機相關(guān)專業(yè)畢業(yè),3年以上數(shù)據(jù)開發(fā)經(jīng)驗;
2.熟練掌握 Python,具備豐富的 HTTP 請求模擬、抓包調(diào)試、異步編程、數(shù)據(jù)解析能力;
3.熟悉常見數(shù)據(jù)采集方式(如 RESTful API 調(diào)用、網(wǎng)頁爬蟲、日志采集)與數(shù)據(jù)清洗與轉(zhuǎn)換技術(shù);
4.熟悉數(shù)據(jù)采集相關(guān)框架或工具(如 Scrapy、Logstash、NiFi、Flume、Kafka、Flink);
5.熟悉 JavaScript 語言,具備 JS 加解密逆向能力,可獨立實現(xiàn)復(fù)雜參數(shù)構(gòu)造、簽名還原、AES/MD5/RSA算法實現(xiàn)等;
6. 熟悉常見反爬機制及繞過方式,如驗證碼識別(圖形/滑動/點選)、UA/IP切換、請求混淆、Headless Browser 等;
7.具備小程序抓包與接口還原能力,了解小程序數(shù)據(jù)通信機制;
8.有 App 采集經(jīng)驗,熟悉抓包工具(如 Charles、Fiddler、Wireshark、mitmproxy)、Hook 工具(如Frida、Xposed);
9.了解數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全與合規(guī)相關(guān)知識。