崗位職責(zé)
1. 負(fù)責(zé)微信公眾號(hào)、網(wǎng)站等公開(kāi)數(shù)據(jù)源的爬取工作,設(shè)計(jì)高效穩(wěn)定的爬蟲(chóng)策略。
2. 對(duì)爬取的數(shù)據(jù)進(jìn)行清洗、去重、結(jié)構(gòu)化處理,確保數(shù)據(jù)質(zhì)量。
3. 協(xié)助搭建和維護(hù)爬蟲(chóng)數(shù)據(jù)架構(gòu),優(yōu)化數(shù)據(jù)存儲(chǔ)與調(diào)度流程。
4. 監(jiān)控爬蟲(chóng)系統(tǒng)運(yùn)行狀態(tài),及時(shí)排查和解決異常問(wèn)題。
5. 配合團(tuán)隊(duì)完成數(shù)據(jù)需求分析和技術(shù)方案設(shè)計(jì)。
任職要求
1. 教育背景:計(jì)算機(jī)、軟件工程、數(shù)據(jù)科學(xué)等相關(guān)專(zhuān)業(yè)優(yōu)先,大三及以上或研究生在讀,2026屆應(yīng)屆畢業(yè)生優(yōu)先,提供轉(zhuǎn)正機(jī)會(huì)。
2. 技術(shù)能力:
2.1 熟練掌握Python編程,熟悉常用爬蟲(chóng)框架(如Scrapy、Requests、Selenium等)。
2.2 了解反爬機(jī)制(如IP封禁、驗(yàn)證碼、動(dòng)態(tài)加載等),具備一定的繞過(guò)經(jīng)驗(yàn)。
2.3 熟悉數(shù)據(jù)清洗與處理工具(如Pandas、正則表達(dá)式、XPath等)。
2.4 了解數(shù)據(jù)庫(kù)操作(MySQL/MongoDB/Redis等),有數(shù)據(jù)存儲(chǔ)設(shè)計(jì)經(jīng)驗(yàn)者優(yōu)先。
2.5 了解基本的數(shù)據(jù)架構(gòu)和調(diào)度工具(如Airflow、Kafka等)者加分。
2.6 項(xiàng)目經(jīng)驗(yàn):有實(shí)際爬蟲(chóng)項(xiàng)目經(jīng)驗(yàn)(如校園項(xiàng)目、競(jìng)賽、開(kāi)源項(xiàng)目等),能展示相關(guān)代碼或成果。
3. 其他能力:
3.1. 具備良好的邏輯思維和問(wèn)題解決能力,能獨(dú)立排查技術(shù)問(wèn)題。
3.2. 責(zé)任心強(qiáng),溝通順暢,具備團(tuán)隊(duì)協(xié)作意識(shí)。
3.3. 對(duì)數(shù)據(jù)敏感,有較強(qiáng)學(xué)習(xí)能力和主動(dòng)性。
4. 加分項(xiàng)
4.1. 有公眾號(hào)爬蟲(chóng)、動(dòng)態(tài)網(wǎng)頁(yè)抓取經(jīng)驗(yàn)。
4.2 熟悉分布式爬蟲(chóng)、增量爬取等技術(shù)。
4.3 了解簡(jiǎn)單數(shù)據(jù)分析或可視化方法。
4.4 有GitHub技術(shù)博客或個(gè)人項(xiàng)目展示。
福利待遇
1. 實(shí)習(xí)補(bǔ)貼具競(jìng)爭(zhēng)力,具體面議。
2. 配備技術(shù)導(dǎo)師一對(duì)一指導(dǎo),接觸實(shí)際企業(yè)級(jí)項(xiàng)目。
3. 實(shí)習(xí)期滿(mǎn)提供正式錄用機(jī)會(huì),薪資待遇從優(yōu)。
4. 彈性工作時(shí)間,開(kāi)放友好的技術(shù)氛圍。