從探索人類前沿科技的超算,到普通人掏出手機(jī)就能體驗(yàn)的智能推薦算法,每套以至高算力為目標(biāo)的集群系統(tǒng)都需要解決一個(gè)算力之外的關(guān)鍵問(wèn)題——網(wǎng)絡(luò)。
是的,分布式技術(shù)用“把大問(wèn)題拆成小問(wèn)題”的方法為人們提供了一條以量變實(shí)現(xiàn)質(zhì)變的可行路徑。但分開(kāi)進(jìn)行的海量計(jì)算總還是需要一個(gè)匯總結(jié)果并繼續(xù)推進(jìn)計(jì)算的過(guò)程。而這一過(guò)程對(duì)網(wǎng)絡(luò)的帶寬、延遲和丟包率都提出了極高要求。以目前流行的深度學(xué)習(xí)算法為例,0.1%的丟包率就會(huì)帶來(lái)50%的集群效率降低。
在構(gòu)建算力集群時(shí),用戶通常有兩種選擇:一種是沒(méi)有丟包困擾成本較高且生態(tài)封閉的Infiniband網(wǎng)絡(luò),另一種則是性價(jià)比更高但需要花費(fèi)精力降低延遲和丟包率的以太網(wǎng)技術(shù)。而對(duì)于更看重效率效果的互聯(lián)網(wǎng)行業(yè)來(lái)說(shuō),答案只有一個(gè)——這些特性全都要!
嗶哩嗶哩基于業(yè)務(wù)發(fā)展需求?需要建設(shè)一張高性能計(jì)算網(wǎng)絡(luò)
嗶哩嗶哩,簡(jiǎn)稱“B站”,一個(gè)有用有趣的綜合性視頻社區(qū),被用戶們親切地稱為“百科全書式的網(wǎng)站、沒(méi)有圍墻的圖書館,成長(zhǎng)道路上的加油站,創(chuàng)作者的舞臺(tái)”。截止2024年第二季度,B站日均活躍用戶達(dá)1.02億。圍繞用戶、創(chuàng)作者和內(nèi)容,B站構(gòu)建了一個(gè)源源不斷產(chǎn)生優(yōu)質(zhì)內(nèi)容的生態(tài)系統(tǒng)?;贏I的“千人千面”內(nèi)容推薦算法,B站能把好內(nèi)容推薦給感興趣的用戶,進(jìn)入內(nèi)容量與用戶活躍度雙向激勵(lì)的正循環(huán)。而要在海量?jī)?nèi)容、龐大訪問(wèn)量、億級(jí)用戶的背景下,完成精準(zhǔn)的內(nèi)容推薦,B站需要一套高性能網(wǎng)絡(luò)為用戶提供服務(wù)。
面對(duì)實(shí)時(shí)更新的內(nèi)容和快速變化的用戶關(guān)注點(diǎn),B站的AI算力集群要盡可能快地完成“樣本導(dǎo)入——訓(xùn)練——模型導(dǎo)出——推理”的完整業(yè)務(wù)流程,縮短AI技術(shù)與業(yè)務(wù)應(yīng)用之間的距離。需求看似稀松平常,但這個(gè)“快”字卻對(duì)應(yīng)了多維度的底層技術(shù)挑戰(zhàn)。
其一,拉通整個(gè)AI業(yè)務(wù)流程,實(shí)現(xiàn)業(yè)務(wù)整體的快。
“樣本導(dǎo)入——訓(xùn)練——模型導(dǎo)出——推理”等各個(gè)功能的子集群需置于同一張網(wǎng)絡(luò)之中,形成一張龐大的算力網(wǎng)絡(luò);盡可能讓數(shù)據(jù)和模型更快傳輸,讓不同功能形成整體,實(shí)現(xiàn)業(yè)務(wù)層面的快。
其二,在關(guān)鍵的訓(xùn)練集群內(nèi)部,網(wǎng)絡(luò)延遲要足夠低。
大模型訓(xùn)練過(guò)程對(duì)網(wǎng)絡(luò)延遲非常敏感,高延遲不僅會(huì)影響GPU節(jié)點(diǎn)之間的同步性和一致性,讓GPU花費(fèi)更多時(shí)鐘周期來(lái)等待計(jì)算結(jié)果和參數(shù)的同步,更會(huì)影響整個(gè)集群的可擴(kuò)展性和算力利用率。
其三,在“算網(wǎng)一體”的宏觀趨勢(shì)之下,算力方案與網(wǎng)絡(luò)架構(gòu)應(yīng)保持高度匹配。
算與網(wǎng)就如同車和路,二者的高度匹配才能大幅提升系統(tǒng)整體運(yùn)行效率,并為后續(xù)的運(yùn)維管理和升級(jí)擴(kuò)容帶來(lái)更大提升空間。
一面是業(yè)務(wù)層面的嚴(yán)苛需求,另一面則是缺貨、禁售等外部因素所帶來(lái)的巨大不確定風(fēng)險(xiǎn);經(jīng)過(guò)對(duì)網(wǎng)絡(luò)、計(jì)算、經(jīng)驗(yàn)和供貨等諸多因素的考察比對(duì)之后,B站選擇牽手華為,共同構(gòu)建新一代AI算力集群。
用以太網(wǎng)統(tǒng)一承載?讓AI算網(wǎng)一體高度統(tǒng)一融合
圖1.多網(wǎng)融合網(wǎng)絡(luò)架構(gòu)圖
B站網(wǎng)絡(luò)技術(shù)團(tuán)隊(duì)與華為聯(lián)合設(shè)計(jì)了基于以太網(wǎng)的“一張網(wǎng)”算力集群建設(shè)方案。該方案通過(guò)華為CE16800系列核心框式交換機(jī),能夠?qū)⒑A繕颖緮?shù)據(jù)的存儲(chǔ)集群、包含海量GPU計(jì)算節(jié)點(diǎn)的訓(xùn)練集群和負(fù)責(zé)業(yè)務(wù)應(yīng)用的推理集群整合成一張龐大的業(yè)務(wù)網(wǎng)絡(luò),為每個(gè)業(yè)務(wù)功能提供足夠的數(shù)據(jù)帶寬。使用一張網(wǎng)聯(lián)接數(shù)據(jù)和業(yè)務(wù)、訓(xùn)練和推理,打通功能之間的煙囪壁壘,提升業(yè)務(wù)整體運(yùn)行效率。相對(duì)于私有化的Infiniband網(wǎng)絡(luò),使用統(tǒng)一且開(kāi)放的以太網(wǎng)通訊協(xié)議也有助于降低系統(tǒng)總體建設(shè)成本,并保持“一張網(wǎng)”內(nèi)部的架構(gòu)統(tǒng)一、協(xié)議統(tǒng)一,繼而降低建設(shè)、運(yùn)維的成本及難度。
在網(wǎng)絡(luò)架構(gòu)確定之后,接下來(lái)是選擇AI算力網(wǎng)絡(luò)的硬件選型和組網(wǎng)方案。在組網(wǎng)硬件選型上,華為提供多種硬件組網(wǎng)方式,典型的有盒盒組網(wǎng)方案,盒框組網(wǎng)方案,框框組網(wǎng)方案。通過(guò)雙方多次技術(shù)交流,綜合B站機(jī)房現(xiàn)場(chǎng)環(huán)境條件、硬件成本等多方面考慮,B站選擇盒盒組網(wǎng)的方案,如下圖所示,構(gòu)建的是一張千卡規(guī)模的AI算力集群。
圖2.華為昇騰組網(wǎng)架構(gòu)圖
為了滿足AI算力訓(xùn)練集群對(duì)網(wǎng)絡(luò)延遲的苛刻需求,B站技術(shù)人員聯(lián)合華為工程師一起對(duì)整張網(wǎng)絡(luò)實(shí)施了細(xì)致入微的架構(gòu)設(shè)計(jì)和配置優(yōu)化。AI算力網(wǎng)絡(luò)總體按經(jīng)典的Spine-Leaf兩層CLOS組網(wǎng)設(shè)計(jì)落地,但基于大模型訓(xùn)練對(duì)于網(wǎng)絡(luò)通信特點(diǎn),在接入層稍微做了些變動(dòng),同時(shí)使用4臺(tái)LEAF交換機(jī)連接GPU服務(wù)器的多個(gè)網(wǎng)口。整個(gè)網(wǎng)由8個(gè)POD構(gòu)成,每個(gè)POD包含8臺(tái)GPU節(jié)點(diǎn),每臺(tái)GPU配置8張400G以太網(wǎng)卡,每個(gè)POD可容納128張GPU卡,從而整個(gè)集群規(guī)??蛇_(dá)1024張GPU卡。在SPINE層面,使用16臺(tái)400G交換機(jī)來(lái)實(shí)現(xiàn)8個(gè)POD網(wǎng)絡(luò)聯(lián)接的對(duì)稱對(duì)等。路由設(shè)計(jì)方面全網(wǎng)使用了EBGP路由協(xié)議,當(dāng)鏈路出現(xiàn)故障時(shí)網(wǎng)絡(luò)自動(dòng)收斂。在高帶寬和低延遲要求方面,全網(wǎng)使用RDMA技術(shù)且同時(shí)啟用華為交換機(jī)特性NSLB(Network?Service Load Balance,網(wǎng)絡(luò)服務(wù)負(fù)載均衡)功能。RDMA技術(shù)無(wú)需CPU和系統(tǒng)內(nèi)存參與的顯存數(shù)據(jù)交換,能夠提高通訊效率,減少系統(tǒng)開(kāi)銷;而NSLB則是華為的獨(dú)有技術(shù),可結(jié)合管理模塊實(shí)現(xiàn)全流量的秒級(jí)感知來(lái),繼而通過(guò)高效網(wǎng)絡(luò)編排來(lái)減少網(wǎng)絡(luò)擁塞、丟包和鎖死情況的發(fā)生,提升訓(xùn)練過(guò)程的可靠性,減少重新加載checkpoint的次數(shù),以達(dá)成加快訓(xùn)練的效果。通過(guò)網(wǎng)絡(luò)架構(gòu)的合理設(shè)計(jì)和多種先進(jìn)技術(shù)的綜合應(yīng)用,在訓(xùn)練集群內(nèi)部實(shí)現(xiàn)400G高帶寬互聯(lián)、互聯(lián)鏈路冗余、通信路徑最優(yōu)、Leaf上下行帶寬1:1等眾多先進(jìn)特性。而在業(yè)務(wù)層面這些技術(shù)與特性便意味著低延遲和全網(wǎng)無(wú)阻塞。
在多種網(wǎng)絡(luò)流量模型和GPU通訊庫(kù)(NCCL和HCCL)驗(yàn)證過(guò)程中,華為昇騰整套網(wǎng)絡(luò)方案在同Leaf下點(diǎn)對(duì)點(diǎn)網(wǎng)絡(luò)帶寬利用率超98%,延遲最低2.8微秒;“多對(duì)一”帶寬利用率80%,All-to-All和AllReduce過(guò)程帶寬利用率超98%。而在跨Spine測(cè)試中,華為昇騰整套網(wǎng)絡(luò)方案仍能實(shí)現(xiàn)超98%的帶寬利用率和最低5.6微秒的延遲;并能在“多對(duì)一”通訊中實(shí)現(xiàn)80%的帶寬利用率和超90%的All-to-All、AllReduce帶寬利用率。
圖3.服務(wù)器集群布線
圖4.網(wǎng)絡(luò)集群布線
以上圖3和圖4為華為昇騰整套網(wǎng)絡(luò)解決方案在B站數(shù)據(jù)中心落地示意圖,在部署實(shí)施層面,華為配合B站網(wǎng)絡(luò)技術(shù)團(tuán)隊(duì)完成網(wǎng)絡(luò)規(guī)劃、實(shí)施前期準(zhǔn)備、交付前全網(wǎng)參數(shù)調(diào)優(yōu)、HCCL通訊集參數(shù)調(diào)優(yōu)和驗(yàn)收測(cè)試等流程,為業(yè)務(wù)上線做好充分的準(zhǔn)備。同時(shí)為了保障整個(gè)集群的長(zhǎng)期穩(wěn)定運(yùn)行,華為與B站一起對(duì)機(jī)房現(xiàn)場(chǎng)網(wǎng)絡(luò)布線做了高標(biāo)準(zhǔn)落地,每條線纜有序布放、捆扎,降低排查鏈路故障等問(wèn)題的難度,提升運(yùn)維效率。
算網(wǎng)一體?讓互聯(lián)網(wǎng)+AI盛放未來(lái)
不僅B站,流量大、數(shù)據(jù)多、用戶多是所有互聯(lián)網(wǎng)業(yè)務(wù)的典型特征。而在AI業(yè)務(wù)落地的過(guò)程中,對(duì)單卡算力的錙銖必較已成過(guò)去時(shí);借助先進(jìn)網(wǎng)絡(luò)來(lái)構(gòu)建千卡、甚至萬(wàn)卡集群來(lái)應(yīng)對(duì)業(yè)務(wù)挑戰(zhàn)才是主流選擇。因此,“算網(wǎng)一體、高度匹配、相互優(yōu)化”也順勢(shì)成為互聯(lián)網(wǎng)企業(yè)構(gòu)建新一代基礎(chǔ)架構(gòu)時(shí)關(guān)注的重點(diǎn)。
對(duì)于廣大行業(yè)客戶而言,華為所擁有網(wǎng)絡(luò)解決方案能力、算力解決方案能力、龐大合作伙伴體系、豐富的規(guī)劃和實(shí)施經(jīng)驗(yàn)正是構(gòu)建新型基礎(chǔ)架構(gòu)、落地AI業(yè)務(wù)之所需。與此同時(shí),華為亦在通過(guò)不斷的底層技術(shù)創(chuàng)新和上層體驗(yàn)優(yōu)化來(lái)實(shí)現(xiàn)解決方案與服務(wù)的持續(xù)精進(jìn),為互聯(lián)網(wǎng)企業(yè)鋪就通向未來(lái)的寬闊坦途。雙方的相向而行也造就了華為與互聯(lián)網(wǎng)企業(yè)聯(lián)合創(chuàng)新、共同探索的一段段佳話。
十年前,脫胎于互聯(lián)網(wǎng)業(yè)務(wù)邏輯的“互聯(lián)網(wǎng)+”概念火遍全國(guó),助力千行百業(yè)實(shí)現(xiàn)了業(yè)務(wù)和經(jīng)營(yíng)理念的跨越式升級(jí);十年之后,互聯(lián)網(wǎng)又成為了擁抱AI技術(shù)、引領(lǐng)基礎(chǔ)架構(gòu)和業(yè)務(wù)升級(jí)的先鋒軍。
能夠與互聯(lián)網(wǎng)產(chǎn)業(yè)相伴同行、共赴未來(lái),不僅是華為的榮幸,也是ICT產(chǎn)業(yè)技術(shù)探索、實(shí)現(xiàn)價(jià)值的絕佳路徑。