職位描述:
1、負責設計和開發(fā)分布式的網(wǎng)絡爬電應用,包括調(diào)度、抓取、入庫等內(nèi)容,進行互聯(lián)網(wǎng)相關信息的抓取和分析2、負責實現(xiàn)大規(guī)模數(shù)據(jù)的抓取、抽取,去重、分類,垃圾過濾,質(zhì)量識別、解析入庫等工作3、負責對指定的多個網(wǎng)站進行網(wǎng)頁抓取、數(shù)據(jù)提取、破解反爬策略
4、承接開發(fā)任務,需求分析,確保按時按質(zhì)按量完成任務
5、有良好的溝通和學習能力.有較強的團隊協(xié)作能力以及快速解決問題的能力。
任職要求:
1、本科及以上統(tǒng)招學歷、計算機或相關專業(yè)、具備2年以上項目開發(fā)經(jīng)驗;
具有scrapy scrapy-redis開發(fā)經(jīng)驗;
具有web逆向經(jīng)驗,如滑塊驗證碼,
熟悉多線程、網(wǎng)絡編程,精通網(wǎng)頁抓取原理及技術,精通正則表達式;
熟悉并熟練應用各種常見加密算法;熟悉至少一種關系型數(shù)據(jù)庫(MVSOL等);熟悉redis、kakfka,有過數(shù)據(jù)庫調(diào)優(yōu)和海量數(shù)據(jù)存儲經(jīng)驗優(yōu)先具有工商數(shù)據(jù)、金融數(shù)據(jù)、案件數(shù)據(jù)抓取經(jīng)驗者優(yōu)先。
雙休 早9晚6