【崗位職責(zé)】
1、系統(tǒng)設(shè)計(jì)與開(kāi)發(fā):運(yùn)維現(xiàn)有的系統(tǒng),編寫(xiě)高效的Python爬蟲(chóng)腳本,從指定的公開(kāi)網(wǎng)站、API接口、APP、微信公號(hào)等渠道,自動(dòng)化抓取多源數(shù)據(jù);
2、數(shù)據(jù)處理與清洗: 對(duì)爬取到的原始數(shù)據(jù)進(jìn)行清洗、去重、格式化、轉(zhuǎn)換和集成,確保數(shù)據(jù)的準(zhǔn)確性和一致性,使其滿(mǎn)足報(bào)告研究人員的使用;
3、技術(shù)難題攻堅(jiān): 解決爬取過(guò)程中遇到的各種技術(shù)挑戰(zhàn),包括但不限于動(dòng)態(tài)渲染(JS)、驗(yàn)證碼識(shí)別、IP封禁、API限制等。
4、質(zhì)量與效率: 建立數(shù)據(jù)質(zhì)量監(jiān)控體系,持續(xù)優(yōu)化爬蟲(chóng)策略和系統(tǒng)架構(gòu),提升數(shù)據(jù)采集的覆蓋度、及時(shí)性和效率。
5、合規(guī)與倫理: 嚴(yán)格遵守Robots協(xié)議、數(shù)據(jù)安全法與版權(quán)法規(guī),確保所有數(shù)據(jù)采集活動(dòng)的合法合規(guī)性。
【技術(shù)要求】
1、精通 Python 編程語(yǔ)言,熟練使用Python、Java、php語(yǔ)言,掌握 Scrapy, Requests, Selenium/Playwright 等主流爬蟲(chóng)框架和工具。
2、深刻理解HTTP/HTTPS協(xié)議,熟悉Web前端技術(shù)(HTML, CSS, JavaScript)。
3、具備處理復(fù)雜反爬機(jī)制(如IP速率限制、驗(yàn)證碼、動(dòng)態(tài)加載、用戶(hù)行為檢測(cè)、加密參數(shù)等)的實(shí)戰(zhàn)經(jīng)驗(yàn)。
4、熟悉至少一種數(shù)據(jù)庫(kù)(如 MySQL, PostgreSQL, MongoDB, Redis)。
5、具備優(yōu)秀的數(shù)據(jù)清洗和處理能力,熟悉 Pandas, NumPy 等工具。
6、了解分布式爬蟲(chóng)原理,有使用 Scrapy-Redis, Celery 等工具的經(jīng)驗(yàn)。
符合條件且有相關(guān)經(jīng)驗(yàn)的人員也可兼職錄用本工作崗位
工作地點(diǎn):南寧市青秀區(qū)金洲路18-1號(hào)疾控中心小區(qū)1棟B單元3103室
總部地址:北京市西城區(qū)天橋南大街1號(hào)天橋藝術(shù)大廈B1-104室
職位福利:周末雙休、每年多次調(diào)薪、加班補(bǔ)助、節(jié)日福利、餐補(bǔ)、年底雙薪、員工旅游、帶薪年假
職位亮點(diǎn):全國(guó)第一的演藝、音樂(lè)和文旅大數(shù)據(jù)機(jī)構(gòu)!