1、搭建數(shù)據(jù)采集平臺(tái),通過對數(shù)據(jù)的抓取、解析、調(diào)度、存儲(chǔ)等模塊的拆分與優(yōu)化,構(gòu)建和完善統(tǒng)一的抓取服務(wù)平臺(tái);
2、設(shè)計(jì)爬取、調(diào)度和抽取算法,優(yōu)化系統(tǒng);
3、熟識(shí)Hadoop生態(tài)圈技術(shù)體系對離線計(jì)算、內(nèi)存計(jì)算和流式計(jì)算均有深刻理解如Hadoop、Hive、Spark、Flink、Impala 等;
4、解決爬蟲和數(shù)據(jù)庫出現(xiàn)的問題并不斷維護(hù)、優(yōu)化程序。
任職資格:
1、本科及以上學(xué)歷,計(jì)算機(jī)相關(guān)專業(yè),2年左右相關(guān)經(jīng)驗(yàn);
2、Python 開發(fā)的經(jīng)驗(yàn),爬蟲開發(fā)經(jīng)驗(yàn),熟識(shí)MySQL或了解PostgreSQL 數(shù)據(jù)庫能協(xié)助檢查數(shù)據(jù)入庫環(huán)節(jié);
3、熟識(shí)整個(gè)爬蟲的設(shè)計(jì)及實(shí)現(xiàn)流程.精通網(wǎng)頁抓取原理及技術(shù),精通正則表達(dá)式從結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù)中獲取信息;
4、具有搜尋相關(guān)技術(shù)研發(fā)、數(shù)據(jù)挖掘、數(shù)據(jù)處理、自然語言處理、信息檢索、機(jī)器學(xué)習(xí)背景者優(yōu)先。
職位福利:五險(xiǎn)一金、加班補(bǔ)助、周末雙休、員工旅游、定期體檢