數(shù)說(shuō)品智聯(lián)接 | 一張網(wǎng)支撐AI端到端應(yīng)用，嗶哩嗶哩與華為聯(lián)袂演繹高維度算網(wǎng)融合

資訊呢喃 2024-10-28 15:38 閱讀 3,296 來(lái)源：DVBCN 　

從探索人類前沿科技的超算，到普通人掏出手機(jī)就能體驗(yàn)的智能推薦算法，每套以至高算力為目標(biāo)的集群系統(tǒng)都需要解決一個(gè)算力之外的關(guān)鍵問(wèn)題——網(wǎng)絡(luò)。

是的，分布式技術(shù)用“把大問(wèn)題拆成小問(wèn)題”的方法為人們提供了一條以量變實(shí)現(xiàn)質(zhì)變的可行路徑。但分開(kāi)進(jìn)行的海量計(jì)算總還是需要一個(gè)匯總結(jié)果并繼續(xù)推進(jìn)計(jì)算的過(guò)程。而這一過(guò)程對(duì)網(wǎng)絡(luò)的帶寬、延遲和丟包率都提出了極高要求。以目前流行的深度學(xué)習(xí)算法為例，0.1%的丟包率就會(huì)帶來(lái)50%的集群效率降低。

在構(gòu)建算力集群時(shí)，用戶通常有兩種選擇：一種是沒(méi)有丟包困擾成本較高且生態(tài)封閉的Infiniband網(wǎng)絡(luò)，另一種則是性價(jià)比更高但需要花費(fèi)精力降低延遲和丟包率的以太網(wǎng)技術(shù)。而對(duì)于更看重效率效果的互聯(lián)網(wǎng)行業(yè)來(lái)說(shuō)，答案只有一個(gè)——這些特性全都要！

嗶哩嗶哩基于業(yè)務(wù)發(fā)展需求?需要建設(shè)一張高性能計(jì)算網(wǎng)絡(luò)

嗶哩嗶哩，簡(jiǎn)稱“B站”，一個(gè)有用有趣的綜合性視頻社區(qū)，被用戶們親切地稱為“百科全書式的網(wǎng)站、沒(méi)有圍墻的圖書館，成長(zhǎng)道路上的加油站，創(chuàng)作者的舞臺(tái)”。截止2024年第二季度，B站日均活躍用戶達(dá)1.02億。圍繞用戶、創(chuàng)作者和內(nèi)容，B站構(gòu)建了一個(gè)源源不斷產(chǎn)生優(yōu)質(zhì)內(nèi)容的生態(tài)系統(tǒng)?；贏I的“千人千面”內(nèi)容推薦算法，B站能把好內(nèi)容推薦給感興趣的用戶，進(jìn)入內(nèi)容量與用戶活躍度雙向激勵(lì)的正循環(huán)。而要在海量?jī)?nèi)容、龐大訪問(wèn)量、億級(jí)用戶的背景下，完成精準(zhǔn)的內(nèi)容推薦，B站需要一套高性能網(wǎng)絡(luò)為用戶提供服務(wù)。

面對(duì)實(shí)時(shí)更新的內(nèi)容和快速變化的用戶關(guān)注點(diǎn)，B站的AI算力集群要盡可能快地完成“樣本導(dǎo)入——訓(xùn)練——模型導(dǎo)出——推理”的完整業(yè)務(wù)流程，縮短AI技術(shù)與業(yè)務(wù)應(yīng)用之間的距離。需求看似稀松平常，但這個(gè)“快”字卻對(duì)應(yīng)了多維度的底層技術(shù)挑戰(zhàn)。

其一，拉通整個(gè)AI業(yè)務(wù)流程，實(shí)現(xiàn)業(yè)務(wù)整體的快。

“樣本導(dǎo)入——訓(xùn)練——模型導(dǎo)出——推理”等各個(gè)功能的子集群需置于同一張網(wǎng)絡(luò)之中，形成一張龐大的算力網(wǎng)絡(luò)；盡可能讓數(shù)據(jù)和模型更快傳輸，讓不同功能形成整體，實(shí)現(xiàn)業(yè)務(wù)層面的快。

其二，在關(guān)鍵的訓(xùn)練集群內(nèi)部，網(wǎng)絡(luò)延遲要足夠低。

大模型訓(xùn)練過(guò)程對(duì)網(wǎng)絡(luò)延遲非常敏感，高延遲不僅會(huì)影響GPU節(jié)點(diǎn)之間的同步性和一致性，讓GPU花費(fèi)更多時(shí)鐘周期來(lái)等待計(jì)算結(jié)果和參數(shù)的同步，更會(huì)影響整個(gè)集群的可擴(kuò)展性和算力利用率。

其三，在“算網(wǎng)一體”的宏觀趨勢(shì)之下，算力方案與網(wǎng)絡(luò)架構(gòu)應(yīng)保持高度匹配。

算與網(wǎng)就如同車和路，二者的高度匹配才能大幅提升系統(tǒng)整體運(yùn)行效率，并為后續(xù)的運(yùn)維管理和升級(jí)擴(kuò)容帶來(lái)更大提升空間。

一面是業(yè)務(wù)層面的嚴(yán)苛需求，另一面則是缺貨、禁售等外部因素所帶來(lái)的巨大不確定風(fēng)險(xiǎn)；經(jīng)過(guò)對(duì)網(wǎng)絡(luò)、計(jì)算、經(jīng)驗(yàn)和供貨等諸多因素的考察比對(duì)之后，B站選擇牽手華為，共同構(gòu)建新一代AI算力集群。

用以太網(wǎng)統(tǒng)一承載?讓AI算網(wǎng)一體高度統(tǒng)一融合

數(shù)說(shuō)品智聯(lián)接 | 一張網(wǎng)支撐AI端到端應(yīng)用，嗶哩嗶哩與華為聯(lián)袂演繹高維度算網(wǎng)融合-DVBCN

圖1.多網(wǎng)融合網(wǎng)絡(luò)架構(gòu)圖

B站網(wǎng)絡(luò)技術(shù)團(tuán)隊(duì)與華為聯(lián)合設(shè)計(jì)了基于以太網(wǎng)的“一張網(wǎng)”算力集群建設(shè)方案。該方案通過(guò)華為CE16800系列核心框式交換機(jī)，能夠?qū)⒑Ａ繕颖緮?shù)據(jù)的存儲(chǔ)集群、包含海量GPU計(jì)算節(jié)點(diǎn)的訓(xùn)練集群和負(fù)責(zé)業(yè)務(wù)應(yīng)用的推理集群整合成一張龐大的業(yè)務(wù)網(wǎng)絡(luò)，為每個(gè)業(yè)務(wù)功能提供足夠的數(shù)據(jù)帶寬。使用一張網(wǎng)聯(lián)接數(shù)據(jù)和業(yè)務(wù)、訓(xùn)練和推理，打通功能之間的煙囪壁壘，提升業(yè)務(wù)整體運(yùn)行效率。相對(duì)于私有化的Infiniband網(wǎng)絡(luò)，使用統(tǒng)一且開(kāi)放的以太網(wǎng)通訊協(xié)議也有助于降低系統(tǒng)總體建設(shè)成本，并保持“一張網(wǎng)”內(nèi)部的架構(gòu)統(tǒng)一、協(xié)議統(tǒng)一，繼而降低建設(shè)、運(yùn)維的成本及難度。

在網(wǎng)絡(luò)架構(gòu)確定之后，接下來(lái)是選擇AI算力網(wǎng)絡(luò)的硬件選型和組網(wǎng)方案。在組網(wǎng)硬件選型上，華為提供多種硬件組網(wǎng)方式，典型的有盒盒組網(wǎng)方案，盒框組網(wǎng)方案，框框組網(wǎng)方案。通過(guò)雙方多次技術(shù)交流，綜合B站機(jī)房現(xiàn)場(chǎng)環(huán)境條件、硬件成本等多方面考慮，B站選擇盒盒組網(wǎng)的方案，如下圖所示，構(gòu)建的是一張千卡規(guī)模的AI算力集群。

數(shù)說(shuō)品智聯(lián)接 | 一張網(wǎng)支撐AI端到端應(yīng)用，嗶哩嗶哩與華為聯(lián)袂演繹高維度算網(wǎng)融合-DVBCN

圖2.華為昇騰組網(wǎng)架構(gòu)圖

為了滿足AI算力訓(xùn)練集群對(duì)網(wǎng)絡(luò)延遲的苛刻需求，B站技術(shù)人員聯(lián)合華為工程師一起對(duì)整張網(wǎng)絡(luò)實(shí)施了細(xì)致入微的架構(gòu)設(shè)計(jì)和配置優(yōu)化。AI算力網(wǎng)絡(luò)總體按經(jīng)典的Spine-Leaf兩層CLOS組網(wǎng)設(shè)計(jì)落地，但基于大模型訓(xùn)練對(duì)于網(wǎng)絡(luò)通信特點(diǎn)，在接入層稍微做了些變動(dòng)，同時(shí)使用4臺(tái)LEAF交換機(jī)連接GPU服務(wù)器的多個(gè)網(wǎng)口。整個(gè)網(wǎng)由8個(gè)POD構(gòu)成，每個(gè)POD包含8臺(tái)GPU節(jié)點(diǎn)，每臺(tái)GPU配置8張400G以太網(wǎng)卡，每個(gè)POD可容納128張GPU卡，從而整個(gè)集群規(guī)?？蛇_(dá)1024張GPU卡。在SPINE層面，使用16臺(tái)400G交換機(jī)來(lái)實(shí)現(xiàn)8個(gè)POD網(wǎng)絡(luò)聯(lián)接的對(duì)稱對(duì)等。路由設(shè)計(jì)方面全網(wǎng)使用了EBGP路由協(xié)議，當(dāng)鏈路出現(xiàn)故障時(shí)網(wǎng)絡(luò)自動(dòng)收斂。在高帶寬和低延遲要求方面，全網(wǎng)使用RDMA技術(shù)且同時(shí)啟用華為交換機(jī)特性NSLB（Network?Service Load Balance，網(wǎng)絡(luò)服務(wù)負(fù)載均衡）功能。RDMA技術(shù)無(wú)需CPU和系統(tǒng)內(nèi)存參與的顯存數(shù)據(jù)交換，能夠提高通訊效率，減少系統(tǒng)開(kāi)銷；而NSLB則是華為的獨(dú)有技術(shù)，可結(jié)合管理模塊實(shí)現(xiàn)全流量的秒級(jí)感知來(lái)，繼而通過(guò)高效網(wǎng)絡(luò)編排來(lái)減少網(wǎng)絡(luò)擁塞、丟包和鎖死情況的發(fā)生，提升訓(xùn)練過(guò)程的可靠性，減少重新加載checkpoint的次數(shù)，以達(dá)成加快訓(xùn)練的效果。通過(guò)網(wǎng)絡(luò)架構(gòu)的合理設(shè)計(jì)和多種先進(jìn)技術(shù)的綜合應(yīng)用，在訓(xùn)練集群內(nèi)部實(shí)現(xiàn)400G高帶寬互聯(lián)、互聯(lián)鏈路冗余、通信路徑最優(yōu)、Leaf上下行帶寬1:1等眾多先進(jìn)特性。而在業(yè)務(wù)層面這些技術(shù)與特性便意味著低延遲和全網(wǎng)無(wú)阻塞。

在多種網(wǎng)絡(luò)流量模型和GPU通訊庫(kù)（NCCL和HCCL）驗(yàn)證過(guò)程中，華為昇騰整套網(wǎng)絡(luò)方案在同Leaf下點(diǎn)對(duì)點(diǎn)網(wǎng)絡(luò)帶寬利用率超98%，延遲最低2.8微秒；“多對(duì)一”帶寬利用率80%，All-to-All和AllReduce過(guò)程帶寬利用率超98%。而在跨Spine測(cè)試中，華為昇騰整套網(wǎng)絡(luò)方案仍能實(shí)現(xiàn)超98%的帶寬利用率和最低5.6微秒的延遲；并能在“多對(duì)一”通訊中實(shí)現(xiàn)80%的帶寬利用率和超90%的All-to-All、AllReduce帶寬利用率。

數(shù)說(shuō)品智聯(lián)接 | 一張網(wǎng)支撐AI端到端應(yīng)用，嗶哩嗶哩與華為聯(lián)袂演繹高維度算網(wǎng)融合-DVBCN

圖3.服務(wù)器集群布線

數(shù)說(shuō)品智聯(lián)接 | 一張網(wǎng)支撐AI端到端應(yīng)用，嗶哩嗶哩與華為聯(lián)袂演繹高維度算網(wǎng)融合-DVBCN

圖4.網(wǎng)絡(luò)集群布線

以上圖3和圖4為華為昇騰整套網(wǎng)絡(luò)解決方案在B站數(shù)據(jù)中心落地示意圖，在部署實(shí)施層面，華為配合B站網(wǎng)絡(luò)技術(shù)團(tuán)隊(duì)完成網(wǎng)絡(luò)規(guī)劃、實(shí)施前期準(zhǔn)備、交付前全網(wǎng)參數(shù)調(diào)優(yōu)、HCCL通訊集參數(shù)調(diào)優(yōu)和驗(yàn)收測(cè)試等流程，為業(yè)務(wù)上線做好充分的準(zhǔn)備。同時(shí)為了保障整個(gè)集群的長(zhǎng)期穩(wěn)定運(yùn)行，華為與B站一起對(duì)機(jī)房現(xiàn)場(chǎng)網(wǎng)絡(luò)布線做了高標(biāo)準(zhǔn)落地，每條線纜有序布放、捆扎，降低排查鏈路故障等問(wèn)題的難度，提升運(yùn)維效率。

算網(wǎng)一體?讓互聯(lián)網(wǎng)+AI盛放未來(lái)

不僅B站，流量大、數(shù)據(jù)多、用戶多是所有互聯(lián)網(wǎng)業(yè)務(wù)的典型特征。而在AI業(yè)務(wù)落地的過(guò)程中，對(duì)單卡算力的錙銖必較已成過(guò)去時(shí)；借助先進(jìn)網(wǎng)絡(luò)來(lái)構(gòu)建千卡、甚至萬(wàn)卡集群來(lái)應(yīng)對(duì)業(yè)務(wù)挑戰(zhàn)才是主流選擇。因此，“算網(wǎng)一體、高度匹配、相互優(yōu)化”也順勢(shì)成為互聯(lián)網(wǎng)企業(yè)構(gòu)建新一代基礎(chǔ)架構(gòu)時(shí)關(guān)注的重點(diǎn)。

對(duì)于廣大行業(yè)客戶而言，華為所擁有網(wǎng)絡(luò)解決方案能力、算力解決方案能力、龐大合作伙伴體系、豐富的規(guī)劃和實(shí)施經(jīng)驗(yàn)正是構(gòu)建新型基礎(chǔ)架構(gòu)、落地AI業(yè)務(wù)之所需。與此同時(shí)，華為亦在通過(guò)不斷的底層技術(shù)創(chuàng)新和上層體驗(yàn)優(yōu)化來(lái)實(shí)現(xiàn)解決方案與服務(wù)的持續(xù)精進(jìn)，為互聯(lián)網(wǎng)企業(yè)鋪就通向未來(lái)的寬闊坦途。雙方的相向而行也造就了華為與互聯(lián)網(wǎng)企業(yè)聯(lián)合創(chuàng)新、共同探索的一段段佳話。

十年前，脫胎于互聯(lián)網(wǎng)業(yè)務(wù)邏輯的“互聯(lián)網(wǎng)+”概念火遍全國(guó)，助力千行百業(yè)實(shí)現(xiàn)了業(yè)務(wù)和經(jīng)營(yíng)理念的跨越式升級(jí)；十年之后，互聯(lián)網(wǎng)又成為了擁抱AI技術(shù)、引領(lǐng)基礎(chǔ)架構(gòu)和業(yè)務(wù)升級(jí)的先鋒軍。

能夠與互聯(lián)網(wǎng)產(chǎn)業(yè)相伴同行、共赴未來(lái)，不僅是華為的榮幸，也是ICT產(chǎn)業(yè)技術(shù)探索、實(shí)現(xiàn)價(jià)值的絕佳路徑。

相關(guān)文章

“敦煌路上看敦煌《覺(jué)醒的敦煌：神獸出動(dòng)…

《湖南省應(yīng)急廣播管理暫行辦法》印發(fā)

BOSMA博冠推出8K廣播級(jí)訊道攝像機(jī)DC0300…

“佳直播PRO”電影機(jī)訊道化直播解決方案榮…

“數(shù)智視界菁彩有為”華為全面亮相第三十…

BIRTV2025盛大開(kāi)幕數(shù)碼視訊AI+4K/8K閃…

国产精品奶水无码视频免费|激情五月天深爱网|精品国产女主播一区在线观看|国产黄网一区二区

數(shù)說(shuō)品智聯(lián)接 | 一張網(wǎng)支撐AI端到端應(yīng)用，嗶哩嗶哩與華為聯(lián)袂演繹高維度算網(wǎng)融合

24小時(shí)排行

国产精品奶水无码视频免费|激情五月天深爱网|精品国产女主播一区在线观看|国产黄网一区二区

數(shù)說(shuō)品智聯(lián)接 | 一張網(wǎng)支撐AI端到端應(yīng)用，嗶哩嗶哩與華為聯(lián)袂演繹高維度算網(wǎng)融合

24小時(shí)排行

數(shù)說(shuō)品智聯(lián)接 | 一張網(wǎng)支撐AI端到端應(yīng)用，嗶哩嗶哩與華為聯(lián)袂演繹高維度算網(wǎng)融合