工作職責(zé):
1、數(shù)據(jù)抓取與處理:
設(shè)計(jì)和開(kāi)發(fā)高效的網(wǎng)絡(luò)爬蟲(chóng)和數(shù)據(jù)抓取程序,從多種公開(kāi)數(shù)據(jù)源獲取所需信息。
解決抓取過(guò)程中遇到的反爬蟲(chóng)、動(dòng)態(tài)渲染、驗(yàn)證碼等復(fù)雜技術(shù)問(wèn)題。
確保數(shù)據(jù)抓取過(guò)程的合法性、穩(wěn)定性和效率。
2、數(shù)據(jù)清洗與入庫(kù):
對(duì)抓取和業(yè)務(wù)產(chǎn)生的原始數(shù)據(jù)進(jìn)行清洗、去重、格式化、轉(zhuǎn)換等ETL處理。
設(shè)計(jì)和維護(hù)合理的數(shù)據(jù)存儲(chǔ)結(jié)構(gòu),將處理后的數(shù)據(jù)高效、準(zhǔn)確地存入數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)。
保證數(shù)據(jù)質(zhì)量和數(shù)據(jù) pipeline 的可靠性。
任職要求:
1、精通 Python: 3年以上扎實(shí)的Python開(kāi)發(fā)經(jīng)驗(yàn),深刻理解Pythonic編程思想,熟練掌握其核心庫(kù)和常用框架(如 FastAPI、Django、Flask、Scrapy等)。
2、數(shù)據(jù)抓取專(zhuān)長(zhǎng): 精通Scrapy、Requests、BeautifulSoup、Selenium/Playwright等至少一種主流爬蟲(chóng)框架或工具,能應(yīng)對(duì)各種復(fù)雜的抓取場(chǎng)景。
3、數(shù)據(jù)處理與存儲(chǔ): 熟練掌握Pandas、NumPy等數(shù)據(jù)處理庫(kù),并具備良好的SQL能力,熟悉至少一種主流數(shù)據(jù)庫(kù)(如 MySQL、PostgreSQL、MongoDB等)。
4、綜合能力: 具備優(yōu)秀的問(wèn)題解決能力、團(tuán)隊(duì)合作精神和良好的溝通能力。