工作職責(zé):
1、負(fù)責(zé)全球公開(kāi)新聞資訊站點(diǎn)、論壇、社交等公開(kāi)數(shù)據(jù)的智能化采集與獲取,應(yīng)對(duì)大規(guī)模文本、圖像、視頻數(shù)據(jù)的采集、抽取,去重、分類,垃圾過(guò)濾,質(zhì)量識(shí)別、解析入庫(kù)等工作;
2、負(fù)責(zé)各種開(kāi)源網(wǎng)絡(luò)數(shù)據(jù)的基本挖掘分析,參與數(shù)據(jù)服務(wù)產(chǎn)品研發(fā);
3、負(fù)責(zé)爬蟲(chóng)技術(shù)與反爬技術(shù)研究,快速響應(yīng)業(yè)務(wù)需求;
4、優(yōu)秀的技術(shù)文檔意識(shí)和維護(hù)能力。
任職要求:
1、精通熟悉爬蟲(chóng)原理及優(yōu)化技術(shù),熟悉主流爬蟲(chóng)框架使用;熟悉常見(jiàn)的反爬機(jī)制及應(yīng)對(duì)策略,包括但不限于使用代理IP,驗(yàn)證碼智能識(shí)別,動(dòng)態(tài)JS數(shù)據(jù)解析等;
2、熟悉各類應(yīng)用網(wǎng)絡(luò)協(xié)議知識(shí),基本網(wǎng)絡(luò)協(xié)議分析,熟悉基于Phantomjs、Headless、Selenium等無(wú)界面瀏覽器自動(dòng)化交互采集技術(shù);
3、對(duì)數(shù)據(jù)結(jié)構(gòu)和算法設(shè)計(jì)有較為深刻的理解;
4、有較強(qiáng)的編程能力,具備良好的編程習(xí)慣,能夠編寫(xiě)高質(zhì)量技術(shù)文檔。