主要職責
1.設計、構建和維護可擴展的拓撲數(shù)據(jù)ETL/ELT管道,實現(xiàn)從多源數(shù)據(jù)到拓撲表示(如單純復形、持久圖、鄰接矩陣等)的自動化轉換。
2.研發(fā)和實現(xiàn)針對不同類型數(shù)據(jù)的拓撲特征提取方法,利用詞嵌入、CNN特征向量等構建點云,并計算其拓撲特征。將其直接建模為拓撲對象,或通過高階交互構建組合結構。應用滑動窗口、重構技術(如Takens嵌入)將其轉換為拓撲對象進行分析。
3. 熟練運用拓撲特征(如條形碼、持久圖、Betti數(shù))的向量化技術(如持久景觀、Betti曲線、拓撲簽名等),將其轉化為下游機器學習模型可用的特征。
4. 評估、集成并優(yōu)化拓撲數(shù)據(jù)分析工具(如 Gudhi, Dionysus, Scikit-TDA),將其封裝為標準化、可復用的數(shù)據(jù)服務或API。
5. 解決大規(guī)模數(shù)據(jù)集拓撲計算中的性能瓶頸,通過分布式計算、并行化等技術優(yōu)化處理流程。
6. 與算法工程師、Java工程師緊密合作,理解其分析需求,并提供高質量的拓撲數(shù)據(jù)支持。
職位要求
1.計算機科學、應用數(shù)學、統(tǒng)計學或相關領域的本科及以上學歷。
2.擁有 3年以上數(shù)據(jù)工程或相關領域的工作經(jīng)驗。具備 至少1個將拓撲數(shù)據(jù)分析應用于實際項目的經(jīng)驗,并深刻理解將原始數(shù)據(jù)轉換為拓撲表示的全流程。
熟練掌握持續(xù)同調等拓撲數(shù)據(jù)分析的核心理論與計算方法。
3.精通Nebula Graph、Neo4j和ClickHouse中至少一種數(shù)據(jù)庫的使用,并理解其底層原理。
4.擁有實際的拓撲特征向量化經(jīng)驗,能將持久圖等結果融入標準ML管道。
5.精通 Python 和 SQL,并具備強大的編程能力。擁有豐富的大數(shù)據(jù)生態(tài)工具使用經(jīng)驗(如 Spark, Hadoop, Hive)。
6.具備構建復雜數(shù)據(jù)管道的經(jīng)驗,熟悉相關工作流管理工具(如 Airflow, Dagster)。
7.擁有處理非結構化數(shù)據(jù)(文本、圖像)和/或圖數(shù)據(jù)的實際項目經(jīng)驗。對嵌入技術和特征工程有深刻理解。
8.能夠接受一定程度的出差。