一、全棧式人工智能賦能平臺(tái)
我們從零到一構(gòu)建了覆蓋基礎(chǔ)設(shè)施、資源調(diào)度、模型生產(chǎn)到應(yīng)用創(chuàng)新的全鏈路AI平臺(tái),為無(wú)線產(chǎn)業(yè)的智能化轉(zhuǎn)型提供核心動(dòng)力。
1. 尖端AI基礎(chǔ)設(shè)施:
異構(gòu)千卡集群: 成功部署并運(yùn)維了由NVIDIA GPU和昇騰NPU組成的混合千卡算力集群。
無(wú)收斂網(wǎng)絡(luò)架構(gòu): 采用800G無(wú)收斂Fat-Tree網(wǎng)絡(luò)架構(gòu),確保大模型訓(xùn)練中參數(shù)面的高效無(wú)阻塞通信。
高性能存儲(chǔ)系統(tǒng): 構(gòu)建了支撐PB級(jí)數(shù)據(jù)集與模型的強(qiáng)一致性分布式存儲(chǔ),并設(shè)計(jì)了多級(jí)緩存系統(tǒng),實(shí)現(xiàn)了成本與效率的最佳平衡。我們具備完整的大規(guī)模AI實(shí)驗(yàn)室規(guī)劃與建設(shè)能力。
2. 智能AI資源調(diào)度系統(tǒng):
異構(gòu)資源統(tǒng)一管理: 實(shí)現(xiàn)對(duì)不同廠商、不同型號(hào)的算力資源進(jìn)行統(tǒng)一池化管理與智能調(diào)度。
極致的資源利用率: 擁有保障SLA(服務(wù)等級(jí)協(xié)議)的搶占式調(diào)度能力,并支持訓(xùn)練任務(wù)的彈性擴(kuò)縮容與故障自動(dòng)恢復(fù),最大化資源使用效率。
3. 企業(yè)級(jí)MLOps作業(yè)系統(tǒng):
端到端全流程覆蓋: 打造了貫穿特征工程、數(shù)據(jù)管理、模型訓(xùn)練、評(píng)估發(fā)布、性能驗(yàn)證到在線部署的全流程AI作業(yè)平臺(tái)。其能力和完善度對(duì)標(biāo)并超越了Kubeflow等業(yè)界主流框架,為AI在無(wú)線產(chǎn)業(yè)的規(guī)模化落地提供強(qiáng)大支持。
4. 前沿AI Agent與開發(fā)者賦能平臺(tái):
智能工作流引擎: 構(gòu)建了連接用戶、工作流編排、腳本執(zhí)行與大語(yǔ)言模型的AI Agent平臺(tái),對(duì)標(biāo)Coze、Dify等業(yè)界前沿產(chǎn)品,實(shí)現(xiàn)復(fù)雜任務(wù)的自動(dòng)化與智能化。
領(lǐng)域?qū)俅a助手: 針對(duì)無(wú)線業(yè)務(wù)場(chǎng)景,開發(fā)了特化的代碼助手,提供代碼生成、測(cè)試用例生成等強(qiáng)大功能,旨在賦能開發(fā)者,引領(lǐng)vibe coding的智能編碼新范式。
二、新一代無(wú)線工程技術(shù)平臺(tái)
面對(duì)億行級(jí)代碼庫(kù)與高頻迭代的挑戰(zhàn),我們摒棄傳統(tǒng)編譯模式,自主研發(fā)并構(gòu)建了業(yè)界領(lǐng)先的分布式工程體系。
核心技術(shù):
高性能分布式編譯: 研發(fā)了先進(jìn)的分布式編譯技術(shù),可動(dòng)態(tài)調(diào)度上萬(wàn)臺(tái)虛擬機(jī)進(jìn)行協(xié)同編譯,將傳統(tǒng)耗時(shí)數(shù)小時(shí)的編譯任務(wù)壓縮至分鐘級(jí),實(shí)現(xiàn)代碼的快速集成與版本的高效發(fā)布。
千萬(wàn)級(jí)IOPS分布式存儲(chǔ): 自主構(gòu)建了具備千萬(wàn)級(jí)IOPS(每秒讀寫操作次數(shù))能力的分布式存儲(chǔ)系統(tǒng),為大規(guī)模編譯和海量代碼管理提供堅(jiān)實(shí)的數(shù)據(jù)底座。
智能化代碼保障體系: 集成了完善的自動(dòng)化代碼質(zhì)量檢查與掃描能力,構(gòu)建了堅(jiān)固的“代碼合入門禁”,從源頭保障工程質(zhì)量。