任職資格:
1.編程能力: 精通 Python,具備扎實(shí)的編程功底和良好的代碼規(guī)范。
2.爬蟲技術(shù):
熟練掌握 Requests, Scrapy, Selenium, Playwright 等至少一種主流爬蟲框架/工具。
了解網(wǎng)頁解析技術(shù)(XPath, CSS Selector, 正則表達(dá)式)。
有處理動(dòng)態(tài)渲染.驗(yàn)證碼.IP限制等反爬策略的實(shí)際經(jīng)驗(yàn)。
3.數(shù)據(jù)處理:
熟練使用 Pandas, NumPy 進(jìn)行數(shù)據(jù)操作與分析。
熟悉至少一種數(shù)據(jù)庫(SQL如 MySQL/PostgreSQL,或NoSQL如 MongoDB/Redis)。
4.AI/ML 技能:
熟悉主流機(jī)器學(xué)習(xí)框架(如 Scikit-learn, XGBoost/LightGBM)及深度學(xué)習(xí)框架(如 PyTorch, TensorFlow)。
對(duì)機(jī)器學(xué)習(xí)算法(回歸.分類.聚類.時(shí)序分析等)有扎實(shí)理解和應(yīng)用經(jīng)驗(yàn)。
崗位職責(zé):
1.數(shù)據(jù)采集與爬蟲開發(fā):
設(shè)計(jì)并開發(fā)高性能.高可用的分布式爬蟲系統(tǒng),高效獲取目標(biāo)數(shù)據(jù)。
進(jìn)行爬蟲任務(wù)的調(diào)度.監(jiān)控與運(yùn)維優(yōu)化。
2.數(shù)據(jù)處理與清洗:
對(duì)原始多源異構(gòu)數(shù)據(jù)進(jìn)行清洗.去重.結(jié)構(gòu)化與歸一化處理。
構(gòu)建穩(wěn)健的數(shù)據(jù)質(zhì)量監(jiān)控與校驗(yàn)流程,確保下游分析的數(shù)據(jù)可靠性。
設(shè)計(jì)和維護(hù)數(shù)據(jù)ETL/ELT管道,為模型訓(xùn)練與分析準(zhǔn)備高質(zhì)量數(shù)據(jù)集。
3.AI Agent 開發(fā)與智能系統(tǒng)構(gòu)建:
基于大語言模型(LLM)或其他AI模型,設(shè)計(jì)并開發(fā)面向特定場(chǎng)景的AI智能體(Agent)。
實(shí)現(xiàn)Agent的規(guī)劃.工具調(diào)用.記憶.多模態(tài)交互等核心能力。
將Agent集成到業(yè)務(wù)工作流或產(chǎn)品中,提升自動(dòng)化與智能化水平。
4.機(jī)器學(xué)習(xí)與大數(shù)據(jù)分析:
針對(duì)業(yè)務(wù)問題,運(yùn)用統(tǒng)計(jì)學(xué)習(xí)與機(jī)器學(xué)習(xí)算法進(jìn)行數(shù)據(jù)探索.特征工程.模型訓(xùn)練與評(píng)估。
開發(fā)并部署可擴(kuò)展的預(yù)測(cè).分類.聚類或推薦模型。
利用大數(shù)據(jù)技術(shù)(如Spark.Flink)處理超大規(guī)模數(shù)據(jù)集,進(jìn)行深度分析與洞察挖掘。