任職資格:
1.編程能力: 精通 Python,具備扎實的編程功底和良好的代碼規(guī)范。
2.爬蟲技術(shù):
熟練掌握 Requests, Scrapy, Selenium, Playwright 等至少一種主流爬蟲框架/工具。
了解網(wǎng)頁解析技術(shù)(XPath, CSS Selector, 正則表達(dá)式)。
有處理動態(tài)渲染.驗證碼.IP限制等反爬策略的實際經(jīng)驗。
3.數(shù)據(jù)處理:
熟練使用 Pandas, NumPy 進(jìn)行數(shù)據(jù)操作與分析。
熟悉至少一種數(shù)據(jù)庫(SQL如 MySQL/PostgreSQL,或NoSQL如 MongoDB/Redis)。
4.AI/ML 技能:
熟悉主流機器學(xué)習(xí)框架(如 Scikit-learn, XGBoost/LightGBM)及深度學(xué)習(xí)框架(如 PyTorch, TensorFlow)。
對機器學(xué)習(xí)算法(回歸.分類.聚類.時序分析等)有扎實理解和應(yīng)用經(jīng)驗。
崗位職責(zé):
1.數(shù)據(jù)采集與爬蟲開發(fā):
設(shè)計并開發(fā)高性能.高可用的分布式爬蟲系統(tǒng),高效獲取目標(biāo)數(shù)據(jù)。
進(jìn)行爬蟲任務(wù)的調(diào)度.監(jiān)控與運維優(yōu)化。
2.數(shù)據(jù)處理與清洗:
對原始多源異構(gòu)數(shù)據(jù)進(jìn)行清洗.去重.結(jié)構(gòu)化與歸一化處理。
構(gòu)建穩(wěn)健的數(shù)據(jù)質(zhì)量監(jiān)控與校驗流程,確保下游分析的數(shù)據(jù)可靠性。
設(shè)計和維護數(shù)據(jù)ETL/ELT管道,為模型訓(xùn)練與分析準(zhǔn)備高質(zhì)量數(shù)據(jù)集。
3.AI Agent 開發(fā)與智能系統(tǒng)構(gòu)建:
基于大語言模型(LLM)或其他AI模型,設(shè)計并開發(fā)面向特定場景的AI智能體(Agent)。
實現(xiàn)Agent的規(guī)劃.工具調(diào)用.記憶.多模態(tài)交互等核心能力。
將Agent集成到業(yè)務(wù)工作流或產(chǎn)品中,提升自動化與智能化水平。
4.機器學(xué)習(xí)與大數(shù)據(jù)分析:
針對業(yè)務(wù)問題,運用統(tǒng)計學(xué)習(xí)與機器學(xué)習(xí)算法進(jìn)行數(shù)據(jù)探索.特征工程.模型訓(xùn)練與評估。
開發(fā)并部署可擴展的預(yù)測.分類.聚類或推薦模型。
利用大數(shù)據(jù)技術(shù)(如Spark.Flink)處理超大規(guī)模數(shù)據(jù)集,進(jìn)行深度分析與洞察挖掘。