国产中文无码av每日更新在线观看, 亚洲天堂中文字幕一区二区三区免费, 国产口爆吞精在线观视频-黄色国产, 92福利-国内精品久久久久久99,亚洲成AV人A片不卡无码,浪潮AV无码专区,老熟女败火白浆,中文字幕日产av,色情日本免费看大片

更新于 3月2日

爬蟲與數(shù)據(jù)處理工程師-合肥

6000-10000元
  • 合肥蜀山區(qū)
  • 3-5年
  • 本科
  • 全職
  • 招1人

職位描述

Python數(shù)據(jù)挖掘數(shù)據(jù)清洗數(shù)據(jù)采集爬蟲開發(fā)分布式爬蟲反爬蟲HadoopNLP工具
核心職責:
海外全媒體數(shù)據(jù)采集:負責 YouTube、TikTok、Reddit、Spotify 等海外平臺文本、圖片、音視頻數(shù)據(jù)的自動化抓取與下載,保障海量數(shù)據(jù)高效采集;
多模態(tài)數(shù)據(jù)處理:運用主流 AI 模型 / 工具庫完成原始數(shù)據(jù)格式轉換、采樣、抽幀及特征提??;
數(shù)據(jù)清洗與過濾:開發(fā)高效算法剔除無效、低質、重復數(shù)據(jù)(如靜音視頻檢測、模糊圖片剔除、文本去噪);
自動化標注支撐:按業(yè)務需求完成數(shù)據(jù)預標注 / 結構化處理(語音轉文字、視頻場景分割、文本情感打分),輸出高質量訓練語料;
數(shù)據(jù)存儲與索引:關聯(lián)結構化數(shù)據(jù)與多媒體文件,落地至向量數(shù)據(jù)庫 / 分布式存儲系統(tǒng)。
任職要求:
核心技術能力:精通 Python 異步編程(asyncio/aiohttp),可支撐海量多媒體文件并發(fā)下載;熟練使用 Playwright/Puppeteer 抓取高動態(tài)音視頻流媒體頁面;
多媒體處理(重點):
熟練運用 FFmpeg(命令行 / Python 綁定)實現(xiàn)視頻抽幀、轉碼、音頻提取、時長裁剪;
熟悉 Pillow/OpenCV,能完成圖像去噪、縮放、格式校驗、相似度比對;
掌握正則 / LangChain/spaCy/NLTK 等工具處理多語言文本(去 HTML 標簽、特殊字符清洗),了解 VAD(靜音檢測)、OCR(字幕識別)、ASR(語音轉文字)相關模型應用;
模型與工程化:有調用 OpenAI API、Hugging Face 開源模型(Whisper/CLIP)進行數(shù)據(jù)預處理 / 自動標記經(jīng)驗;熟悉數(shù)據(jù)流處理邏輯,可設計 Celery+Redis 任務隊列處理耗時多媒體任務;
存儲管理:熟悉 S3 / 阿里云 OSS 等對象存儲使用,了解 Milvus/Pinecone 等向量數(shù)據(jù)庫基本概念,或有海量元數(shù)據(jù)結構化存儲經(jīng)驗。

工作地點

蜀山區(qū)合肥創(chuàng)新創(chuàng)業(yè)園-13棟

認證資質

營業(yè)執(zhí)照信息

職位發(fā)布者

田楠/人力資源總監(jiān)

昨日活躍
立即溝通
公司Logo新宇智慧
深圳新宇智慧科技有限公司,前身為深圳市立創(chuàng)翻譯有限公司。是翻譯行業(yè)領先的語言技術解決方案的供應商。我們?yōu)閲H化公司、政府、個人提供全方位的多語言服務以及相關的技術解決方案和服務。幫助客戶在國際市場上獲得成功。我們以客戶的需求為導向,聚焦在語言領域不斷創(chuàng)新,精益求精,使公司始終處于行業(yè)前沿。公司總部設在具有中國珠三角“曼哈頓”美稱的深圳前海經(jīng)濟開發(fā)區(qū),在合肥設有制作中心,北京、香港設有分公司,同時在上海、劍橋設有辦事處。深圳市立創(chuàng)信息系統(tǒng)有限公司(公司網(wǎng)址:http://www.hkgsl.com)公司福利:周末雙休,帶薪年假,五險一金,節(jié)日福利,專業(yè)培訓,立即上崗,彈性工作,員工旅游,英語角等公司理念:“客戶為先、員工為本、精誠服務、追求卓越”公司愿景:“客戶全球化最佳合作伙伴”
公司主頁