崗位職責:
1、負責設計和開發(fā)分布式爬蟲和調度系統(tǒng),爬蟲核心算法和調度策略優(yōu)化;
2、負責部分網站驗證碼破解和現(xiàn)有爬蟲系統(tǒng)效率的提升;
3、負責網絡數(shù)據(jù)抓取規(guī)劃和數(shù)據(jù)鏈路規(guī)劃、高效且穩(wěn)定爬取指定網站的數(shù)據(jù);
4、構建高可用性、高可擴展性的網絡信息搜集平臺;
5、優(yōu)化現(xiàn)有數(shù)據(jù)清洗,數(shù)據(jù)提取,結構化,入庫等過程;
6、深度思考并參與業(yè)務等數(shù)據(jù)瓶頸,并有效解決;
7、項目中遇到其他問題。
任職要求
1、計算機相關專業(yè),python語言,三年以上爬蟲經驗;
2、有獨立負責過爬蟲平臺搭建、爬蟲系統(tǒng)處理經驗,爬蟲項目規(guī)劃能力;;
3、熟悉Scrapy、Pyspider、nutch、webmagic等主流爬蟲框架使用,了解js引擎技術等優(yōu)先考慮;
4、熟悉js逆向,混淆原理,js語法樹,客戶端常用簽名算法等。
5、具備web挖掘等搜索引擎相關知識,有豐富的網絡爬蟲、網頁去重、網頁信息抽取的經驗,
6、掌握網頁抓取原理及技術,包括基于Cookie的登錄管理,基于headless的采集,熟悉正則表達式、XPath、Jsoup等網頁信息抽取技術。
7、熟悉Linux平臺開發(fā)、常用操作及命令,良好的編碼習慣,有獨立思考的能力,善于解決問題。
8、具備較強的團隊協(xié)作精神,工作責任心強,良好的溝通、理解和執(zhí)行能力。