加入思特奇你將:
1、負(fù)責(zé)AI大模型訓(xùn)練所需的各類數(shù)據(jù)的網(wǎng)絡(luò)采集、解析與清洗工作;
2、設(shè)計(jì)并實(shí)現(xiàn)高效、可擴(kuò)展的分布式爬蟲框架與數(shù)據(jù)采集系統(tǒng);
3、針對(duì)不同網(wǎng)站/平臺(tái)的數(shù)據(jù)結(jié)構(gòu),開發(fā)定制化爬取與反爬策略;
4、優(yōu)化數(shù)據(jù)抓取的速度與穩(wěn)定性,確保數(shù)據(jù)采集的質(zhì)量與完整性;
5、與數(shù)據(jù)清洗、標(biāo)注、建模等團(tuán)隊(duì)緊密協(xié)作,確保數(shù)據(jù)格式與需求一致;
6、關(guān)注數(shù)據(jù)合規(guī)與版權(quán)問題,確保采集行為符合相關(guān)法律法規(guī)。
如果你是:
1、國(guó)家正規(guī)院校研究生學(xué)歷,計(jì)算機(jī)科學(xué)與技術(shù)、軟件工程、數(shù)據(jù)科學(xué)等相關(guān)專業(yè);
2、精通 Python,熟悉 Scrapy、Selenium/Playwright?、PySpider?等爬蟲框架;
3、熟悉 HTTP/HTTPS 協(xié)議、HTML、XPath、CSS Selector、正則表達(dá)式等解析技術(shù);
具備應(yīng)對(duì)反爬機(jī)制(如驗(yàn)證碼、IP封鎖、動(dòng)態(tài)加載等)的經(jīng)驗(yàn);
4、熟悉常用數(shù)據(jù)庫(MySQL、MongoDB、Redis等)存儲(chǔ)與查詢優(yōu)化;
5、有海量數(shù)據(jù)采集與分布式爬蟲系統(tǒng)設(shè)計(jì)經(jīng)驗(yàn)者優(yōu)先;
6、具備良好的學(xué)習(xí)能力、溝通協(xié)作能力與數(shù)據(jù)安全意識(shí)。