精品一区二区三区在线成人,欧美精产国品一二三区,Ji大巴进入女人66h,亚洲春色在线视频

快手DHPS:國(guó)內(nèi)首個(gè)實(shí)現(xiàn)基于RDMA 通信的可負(fù)載均衡高性能服務(wù)架構(gòu)!

發(fā)布于 2025-7-23 17:09
瀏覽
0收藏

一、項(xiàng)目背景

當(dāng)前在線推理服務(wù)架構(gòu)中,計(jì)算節(jié)點(diǎn)(推理服務(wù))與存儲(chǔ)節(jié)點(diǎn)(在線 PS 服務(wù))之間存在海量的實(shí)時(shí)數(shù)據(jù)傳輸需求。隨著模型參數(shù)量劇增,傳統(tǒng)分布式架構(gòu)需擴(kuò)展到成千上萬(wàn)個(gè)服務(wù)節(jié)點(diǎn),導(dǎo)致計(jì)算節(jié)點(diǎn)訪問存儲(chǔ)節(jié)點(diǎn)的帶寬散出激增,進(jìn)而推高訪問延遲。加之當(dāng)前主流的 TCP 網(wǎng)絡(luò)通信存在 CPU 占用高、延遲高、吞吐低等劣勢(shì),嚴(yán)重制約了服務(wù)響應(yīng)時(shí)間,限制了模型預(yù)估機(jī)器的橫向擴(kuò)展(Scale-Out)規(guī)模。

結(jié)合快手的業(yè)務(wù)需求,我們的目標(biāo)是將傳統(tǒng)分布式架構(gòu)升級(jí)為高密計(jì)算存儲(chǔ)分布式架構(gòu)。通過(guò) RDMA 通信構(gòu)建計(jì)算節(jié)點(diǎn)與存儲(chǔ)節(jié)點(diǎn)之間的高效互聯(lián)體系,節(jié)省 CPU 算力,提高 GPU 算力密度,同時(shí)顯著提升網(wǎng)絡(luò)傳輸效率,為未來(lái)更大規(guī)模的 AI 基礎(chǔ)設(shè)施建設(shè)奠定基礎(chǔ)。為此,我們構(gòu)建了國(guó)內(nèi)第一個(gè)在在線系統(tǒng)中實(shí)現(xiàn)的可負(fù)載均衡的基于 RDMA 通信的高性能服務(wù)架構(gòu) DHPS。


快手DHPS:國(guó)內(nèi)首個(gè)實(shí)現(xiàn)基于RDMA 通信的可負(fù)載均衡高性能服務(wù)架構(gòu)!-AI.x社區(qū)


二、技術(shù)實(shí)現(xiàn)

2.1 整體架構(gòu)

DHPS 架構(gòu)通過(guò)端網(wǎng)協(xié)同設(shè)計(jì),構(gòu)建了覆蓋計(jì)算、存儲(chǔ)與網(wǎng)絡(luò)的全鏈路高性能體系,實(shí)現(xiàn)了在線服務(wù)場(chǎng)景下 RDMA 技術(shù)的規(guī)模化落地與智能化調(diào)度,其架構(gòu)創(chuàng)新可歸納為三大核心模塊:

  • 網(wǎng)絡(luò)建設(shè):構(gòu)建了支持 AZ 級(jí)部署的四層網(wǎng)絡(luò),實(shí)現(xiàn)了超大規(guī)模 RDMA 與 TCP 混合運(yùn)行能力。該架構(gòu)支持業(yè)務(wù)進(jìn)行 AZ 級(jí)跨 POD 高性能通信,有效降低網(wǎng)絡(luò)對(duì) CPU 資源的占用,提升業(yè)務(wù)部署靈活性,將業(yè)務(wù)部署范圍擴(kuò)展為 AZ 級(jí)。
  • 軟件優(yōu)化:為充分發(fā)揮高密度機(jī)型的資源優(yōu)勢(shì)并顯著提升系統(tǒng)吞吐性能,我們自主研發(fā)了高性能存儲(chǔ)引擎和高性能 RDMA 網(wǎng)絡(luò)通信庫(kù) opt-rdma。
  • 流量調(diào)度:基于對(duì)硬件和網(wǎng)絡(luò)配置的感知,優(yōu)先保證流量在同 POD 或同 AZ 內(nèi)調(diào)度,以最大化利用 RDMA 的高吞吐與低延遲優(yōu)勢(shì)。同時(shí),實(shí)現(xiàn)了用戶無(wú)感知的 RDMA/TCP 協(xié)議自動(dòng)選擇和切換,通過(guò)實(shí)時(shí)采集 RDMA/TCP 耗時(shí)和可用性數(shù)據(jù),動(dòng)態(tài)調(diào)整請(qǐng)求策略,并在檢測(cè)到 RDMA 異常或擁塞時(shí)的自動(dòng)回退。最終,實(shí)現(xiàn)了 RDMA 與 TCP 在 AZ 內(nèi)的常態(tài)化混合流量均衡調(diào)度。


快手DHPS:國(guó)內(nèi)首個(gè)實(shí)現(xiàn)基于RDMA 通信的可負(fù)載均衡高性能服務(wù)架構(gòu)!-AI.x社區(qū)


2.2 高性能存儲(chǔ)引擎研發(fā)

為滿足在線推理服務(wù)對(duì)支持高性能讀取且需實(shí)時(shí)更新的特征向量(Embedding)存儲(chǔ)需求,我們針對(duì)傳統(tǒng)鏈?zhǔn)焦7桨复嬖诘淖x路徑冗長(zhǎng)、過(guò)期管理效率低及內(nèi)存碎片嚴(yán)重等問題,設(shè)計(jì)了新一代存儲(chǔ)引擎。該引擎在保持原有接口兼容性的前提下,顯著提升了讀寫性能,并有效降低了運(yùn)維成本,其核心優(yōu)化點(diǎn)包括:

  • 索引優(yōu)化:采用 12 路 Cuckoo Hash 索引結(jié)構(gòu),并設(shè)計(jì)基于 8-bit Tag 的 SIMD 匹配算法,充分利用同一 Cache Line 內(nèi)的數(shù)據(jù),大福減少哈希沖突,縮短讀路徑長(zhǎng)度。
  • 批量讀取優(yōu)化:針對(duì)批量讀場(chǎng)景,積極預(yù)取以隱藏內(nèi)存訪問延遲,從而大幅提升讀取吞吐量。
  • 過(guò)期回收機(jī)制:設(shè)計(jì)了基 TTL 分層的精確過(guò)期與強(qiáng)制回收方案,在確保高效回收過(guò)期數(shù)據(jù)的同時(shí),將 CPU 開銷控制在最低水平。
  • 內(nèi)存管理:采用 Key-in-Value 存儲(chǔ)布局,并定期執(zhí)行內(nèi)存整理(Compaction),有效減少內(nèi)存碎片,確保內(nèi)存浪費(fèi)率不高于 5%。


快手DHPS:國(guó)內(nèi)首個(gè)實(shí)現(xiàn)基于RDMA 通信的可負(fù)載均衡高性能服務(wù)架構(gòu)!-AI.x社區(qū)


2.3 基于 RDMA 的高性能網(wǎng)絡(luò)通信庫(kù)

過(guò)去十幾年間,網(wǎng)卡帶寬已實(shí)現(xiàn)從千兆到 800Gb 的躍遷。然而,在網(wǎng)絡(luò) I/O 密集型業(yè)務(wù)場(chǎng)景中,隨著網(wǎng)卡性能的提升,操作系統(tǒng)處理網(wǎng)絡(luò) I/O 的開銷也同步增大,這不僅推高了通信延遲,更嚴(yán)重制約了服務(wù)整體吞吐量的提升。其根本原因在于 CPU 算力的發(fā)展速度遠(yuǎn)滯后于網(wǎng)卡性能的提升。為突破這一瓶頸,亟需借助專用芯片來(lái)提升網(wǎng)絡(luò)傳輸效率,減少 CPU 參與度。RDMA 技術(shù)應(yīng)運(yùn)而生。

RDMA 是一種高性能網(wǎng)絡(luò)數(shù)據(jù)傳輸技術(shù),它允許計(jì)算機(jī)繞過(guò)操作系統(tǒng)內(nèi)核和 CPU,直接通過(guò)網(wǎng)絡(luò)適配器訪問遠(yuǎn)程主機(jī)內(nèi)存。其核心原理是由網(wǎng)卡硬件實(shí)現(xiàn)內(nèi)存到內(nèi)存的直接傳輸,徹底消除了傳統(tǒng)網(wǎng)絡(luò)通信中的性能瓶頸,具備高吞吐、低延遲、內(nèi)核旁路以及近乎零 CPU 消耗等顯著優(yōu)勢(shì)。

然而,RDMA 的應(yīng)用也面臨兩大挑戰(zhàn):

  • 編程復(fù)雜性:RDMA 原生的 Verbs API 接口復(fù)雜、使用門檻高。
  • 硬件依賴性:RDMA 依賴底層硬件(如支持 RDMA 的網(wǎng)卡、交換機(jī)等)的支持。部署 RDMA 應(yīng)用時(shí),必須確保向后兼容性,以維護(hù)原有網(wǎng)絡(luò)的穩(wěn)定性。

為此,我們研發(fā)了一套基于 RDMA 的高性能網(wǎng)絡(luò)通信組件。該組件旨在:

  • 簡(jiǎn)化編程模型:封裝并屏蔽底層復(fù)雜的 RDMA Verbs API,對(duì)外提供一套完整的網(wǎng)絡(luò)傳輸解決方案。
  • 保障兼容性與靈活性:同時(shí)兼容 TCP 協(xié)議,內(nèi)部集成 RDMA 與 TCP 兩套傳輸鏈路。在運(yùn)行過(guò)程中,能夠自動(dòng)感知底層網(wǎng)絡(luò)環(huán)境與硬件能力,動(dòng)態(tài)選擇最優(yōu)的傳輸鏈路進(jìn)行通信。


快手DHPS:國(guó)內(nèi)首個(gè)實(shí)現(xiàn)基于RDMA 通信的可負(fù)載均衡高性能服務(wù)架構(gòu)!-AI.x社區(qū)


接下來(lái),我們將從易用性、高性能和魯棒性三個(gè)方面來(lái)介紹該通信組件。

  1. 高易用性
  • 統(tǒng)一協(xié)議:RDMA Verbs API 的復(fù)雜性主要源于其底層硬件交互機(jī)制和設(shè)計(jì)理念,開發(fā)者需要顯式管理十幾種資源隊(duì)形,且異步通信模式與傳統(tǒng)同步 Socket 編程差異顯著。
  • 提供類似 RPC 的接口:為契合業(yè)務(wù)系統(tǒng)廣泛采用的 RPC 模式并實(shí)現(xiàn)用戶無(wú)感知遷移,我們封裝了底層連接管理、狀態(tài)轉(zhuǎn)換、內(nèi)存管理、線程模型、流量控制等細(xì)節(jié),對(duì)外提供與原有 RPC 框架完全兼容的統(tǒng)一接口。
  • 監(jiān)控一體化:深度集成了 kess、rpcmonitor 等本地監(jiān)控組件,真正做到了“拿來(lái)即用”的用戶體驗(yàn)。
  1. 高性能
  • 無(wú)鎖機(jī)制:內(nèi)部采用無(wú)鎖、全異步設(shè)計(jì),完全運(yùn)行于用戶態(tài),徹底消除了上下文切換帶來(lái)的性能開銷;
  • Zero Copy:采用了單邊通信模式,可以通過(guò)網(wǎng)卡直接訪問對(duì)端內(nèi)存,實(shí)現(xiàn)了零 CPU 參與、內(nèi)核旁路以及數(shù)據(jù)的零拷貝;
  • QP 共享:通過(guò)鏈接資源池、注冊(cè)內(nèi)存資源池等預(yù)分配策略,實(shí)現(xiàn)資源的“即拿即用”以及高效復(fù)用。
  • 原子操作:線程模型采用 Master-Worker 模式,Master 線程以 Polling 模式從完成隊(duì)列獲取請(qǐng)求,交由 Worker 線程處理業(yè)務(wù)邏輯,兩類線程之間通過(guò)原子變量進(jìn)行信息傳遞,從而達(dá)到超低延遲、超高吞吐,單機(jī) QPS 輕松突破數(shù)千萬(wàn)。
  1. 魯棒性
  • 可靠性:采用 RC(Reliable Connection)通信模式,保證數(shù)據(jù)的不重、不丟、保序;
  • Fallback 機(jī)制:智能感知,可動(dòng)態(tài)感知底層網(wǎng)絡(luò)環(huán)境及硬件特性,自動(dòng)選擇采用 RDMA 通信還是 TCP 通信,自動(dòng)選擇最優(yōu)通信路徑;
  • 協(xié)議兼容:TCP 兼容,同時(shí)支持基于傳統(tǒng) TCP 的 RPC 通信模式,如遇 RDMA 硬件故障、數(shù)據(jù)錯(cuò)誤等,可實(shí)現(xiàn)失敗回退 TCP;
  • 硬件兼容:硬件兼容,支持硬件混跑,對(duì)不同代際網(wǎng)卡、不同品牌網(wǎng)卡做了兼容適配。

2.4 流量調(diào)度與負(fù)載均衡

我們的業(yè)務(wù)服務(wù)(計(jì)算服務(wù)和存儲(chǔ)服務(wù))采用多 AZ 部署,其中計(jì)算服務(wù)是無(wú)狀態(tài)的,而存儲(chǔ)服務(wù)則是有狀態(tài)的多副本多 Shard 部署,我們能夠保證在每個(gè) AZ 內(nèi)部都會(huì)至少有一個(gè)完整的存儲(chǔ)服務(wù)副本。

在流量調(diào)度方面,我們?cè)谧裱韵聝?yōu)先級(jí)規(guī)則,智能動(dòng)態(tài)調(diào)整計(jì)算節(jié)點(diǎn)到存儲(chǔ)節(jié)點(diǎn)的流量比例來(lái)實(shí)現(xiàn)負(fù)載均衡:

  1. 最高優(yōu)先級(jí):優(yōu)先網(wǎng)絡(luò) POD 內(nèi)調(diào)度,優(yōu)先 RDMA 通信
  2. 次優(yōu)先級(jí):其次 AZ 內(nèi)跨 POD 調(diào)度,優(yōu)先 RDMA 通信
  3. 最低優(yōu)先級(jí):跨 AZ 調(diào)度,通過(guò) TCP 通信

我們實(shí)現(xiàn)了故障檢測(cè)機(jī)制,在 RDMA 通信過(guò)程中如果遇到硬件故障、連接異常、網(wǎng)絡(luò)擁塞或其它原因?qū)е?RDMA 通信失敗的情況,可以做到快速切換 TCP,保障服務(wù)性能。

?為保障服務(wù)高可用與性能穩(wěn)定:

  • 快速故障切換: 實(shí)現(xiàn)了高效的故障檢測(cè)機(jī)制。當(dāng) RDMA 通信過(guò)程中遭遇硬件故障、連接異常、網(wǎng)絡(luò)擁塞或其他導(dǎo)致通信失敗的情況時(shí),系統(tǒng)可快速、自動(dòng)回退至 TCP 協(xié)議。
  • 智能動(dòng)態(tài)調(diào)節(jié): 鑒于網(wǎng)絡(luò)性能受多重因素影響,調(diào)度系統(tǒng)實(shí)時(shí)采集請(qǐng)求處理指標(biāo)(如時(shí)延、成功率),并據(jù)此實(shí)施多級(jí)節(jié)點(diǎn)與網(wǎng)絡(luò)選擇策略:
  • 動(dòng)態(tài)流量配比: 根據(jù)目標(biāo)節(jié)點(diǎn)的實(shí)時(shí)可用性與請(qǐng)求延遲等參數(shù),動(dòng)態(tài)調(diào)整發(fā)往該節(jié)點(diǎn)的 RDMA 與 TCP 請(qǐng)求比例。
  • 節(jié)點(diǎn)級(jí)熔斷: 當(dāng)針對(duì)特定存儲(chǔ)節(jié)點(diǎn)的 RDMA 和 TCP 請(qǐng)求均失敗時(shí),觸發(fā)單點(diǎn)熔斷機(jī)制,自動(dòng)將流量切換至性能更優(yōu)的其他可用數(shù)據(jù)節(jié)點(diǎn)。


快手DHPS:國(guó)內(nèi)首個(gè)實(shí)現(xiàn)基于RDMA 通信的可負(fù)載均衡高性能服務(wù)架構(gòu)!-AI.x社區(qū)


2.5 AZ 級(jí) RDMA 高性能網(wǎng)絡(luò)

基礎(chǔ)設(shè)施打造了端網(wǎng)一體的高性能網(wǎng)絡(luò)解決方案,網(wǎng)絡(luò)側(cè)通過(guò) DCN5.0 全異構(gòu)網(wǎng)絡(luò)架構(gòu)搭載自研 51.2T 網(wǎng)絡(luò)交換機(jī)支持高密服務(wù)器 800G 雙上聯(lián)接入,在提供超大帶寬的同時(shí)保證了網(wǎng)絡(luò)接入的高可靠。主機(jī)側(cè)自研擁塞控制算法和網(wǎng)絡(luò)協(xié)議落地行業(yè)首個(gè)基于商業(yè)非定制化網(wǎng)卡的 AZ 級(jí) RDMA 多協(xié)議混跑方案,克服了 DCN Lossy 網(wǎng)絡(luò)的限制,實(shí)現(xiàn)了 PFC-Free,打破了過(guò)去 RDMA 傳輸局限于 POD 內(nèi)的傳輸距離限制,拓展傳輸域?qū)崿F(xiàn) AZ 內(nèi) RDMA 網(wǎng)絡(luò)的互聯(lián)互通。對(duì)比行業(yè)基于大 buffer 交換機(jī)和自研定制網(wǎng)卡的昂貴方案,在大幅降低成本的同時(shí)提供了 RDMA 網(wǎng)絡(luò)傳輸?shù)拇筮B通域、低延遲、高吞吐。結(jié)合流量親和性調(diào)度,實(shí)現(xiàn)在數(shù)據(jù)中心內(nèi) RDMA 流量與 TCP 流量常態(tài)化混跑,并提升了其穩(wěn)定性和效率。


快手DHPS:國(guó)內(nèi)首個(gè)實(shí)現(xiàn)基于RDMA 通信的可負(fù)載均衡高性能服務(wù)架構(gòu)!-AI.x社區(qū)


  1. 全異構(gòu)高性能物理網(wǎng)絡(luò)
  • 超高帶寬網(wǎng)絡(luò)接入架構(gòu):
  • 支持 DHPS 服務(wù)器 2x200G / 4x200G 雙上連接入
  • 支持多種規(guī)模 POD ,按需靈性交付。
  • 支持多交換芯片異構(gòu)組網(wǎng)。
  • AZ 級(jí) RDMA 網(wǎng)絡(luò):
  • 連通域:具備 AZ 級(jí)超大 RDMA 通信域,支持業(yè)務(wù)服務(wù)端、存儲(chǔ)端靈活部署。長(zhǎng)期演進(jìn)到可覆蓋 Region 級(jí)。
  • 吞吐:達(dá)到 4 層網(wǎng)絡(luò)帶寬的 80%,在滿足公平性的前提下充分利用各層級(jí)間網(wǎng)絡(luò)有效帶寬。在吞吐和延時(shí)的均衡條件下,達(dá)到最大利用率。
  • 丟包:利用自研擁塞控制算法等軟件能力,將丟包控制在業(yè)務(wù)無(wú)感范圍內(nèi)。
  • 延時(shí):POD 內(nèi)的 P99 延時(shí)優(yōu)于 DCQCN 30% 以上,POD 間的 P99 延時(shí)優(yōu)于 TCP 30% 以上,在保持高性能前提下,不因時(shí)延抖動(dòng)導(dǎo)致業(yè)務(wù)受損。
  • 自研 51.2T 網(wǎng)絡(luò)設(shè)備:
  • 支持 400G 端口一分二 breakout 特性。
  • KNOS 網(wǎng)絡(luò)操作系統(tǒng)適配 marvel、huawei、brcm 51.2T 多元芯片。
  • 支持基于 IFA2.0 INT 、UCMP 等特性。
  • 交換機(jī)緩存雙棧 QOS 設(shè)計(jì),避免 TCP 網(wǎng)絡(luò)抖動(dòng)影響 RDMA 性能,在最大化 RDMA 性能的同時(shí),保持 TCP 的鏈接穩(wěn)定性。


  1. 自研主機(jī)網(wǎng)絡(luò)協(xié)議棧
  • PCC 自研擁塞控制算法:
  • 基于 RDMA RoceV2,快手自研基于 RTT + ECN + Tx_event 精細(xì)化信號(hào)的 Rate - Based 結(jié)合 window 擁塞控制。
  • 算法支持 AZ 級(jí) 4 層超大網(wǎng)絡(luò)域,支持 POD 間 Lossy/POD 內(nèi) lossless 網(wǎng)絡(luò),以及 TCP/RDMA 雙棧混跑。
  • 基于 smartnic 可編程能力,實(shí)現(xiàn)多元化網(wǎng)卡基于統(tǒng)一擁塞控制算法的高性能、穩(wěn)定互通。
  • PFC-Free:
  • 在 DCN 范圍,RDMA 穩(wěn)定傳輸不依賴 PFC,擺脫對(duì)成本高昂的大 buffer 設(shè)備依賴。
    避免了數(shù)據(jù)中心 PFC 風(fēng)暴對(duì)網(wǎng)絡(luò)穩(wěn)定性的沖擊,造成大面積故障。
  • TCP/RDMA 雙棧混跑:
  • 核心模型使能 RDMA 高性能連接,長(zhǎng)尾業(yè)務(wù)常態(tài) TCP 連接覆蓋。
    RDMA 網(wǎng)絡(luò)可 fallback 到 TCP,異常情況下可保證高可用性。
  • 多路徑:
  • 通過(guò)多 QP 路徑支持網(wǎng)絡(luò)端到端全鏈路的負(fù)載分擔(dān)
  • 通過(guò) Multi-path 技術(shù)實(shí)現(xiàn)流量 QP 級(jí)調(diào)度


  1. 聯(lián)合業(yè)務(wù)高效高性能網(wǎng)絡(luò)運(yùn)營(yíng)
  • RDMA 網(wǎng)絡(luò)穩(wěn)定性保障能力:
  • 故障預(yù)防:建立端到端的配置管理、交付驗(yàn)收、巡檢機(jī)制。在交付階段使用 KNP 配置管理中心以及主機(jī)配置管理平臺(tái)統(tǒng)一下發(fā)權(quán)威配置,保證初始配置的正確性;在交付階段執(zhí)行端到端的驗(yàn)收測(cè)試以及性能壓測(cè),提前發(fā)現(xiàn)并解決潛在問題;上線后定期巡檢,及時(shí)發(fā)現(xiàn)并糾正配置誤操作。
  • 故障發(fā)現(xiàn):基于 Telemetry 和 gRPC 技術(shù),秒級(jí)采集交換機(jī)與服務(wù)器網(wǎng)卡關(guān)鍵指標(biāo)(RDMA 流量、交換機(jī) Buffer 使用率、PFC、CNP、OOS 等)。在 RDMA 平面部署全量 pingmesh,秒級(jí)感知 RDMA 連通性故障問題。
  • 故障定位:構(gòu)建 RDMA POD 網(wǎng)絡(luò)數(shù)據(jù)可視化系統(tǒng),基于 RDMA 特點(diǎn)針對(duì)性開發(fā)了 ERSPAN  RDMA 丟包定位工具、PFC storm 故障自動(dòng)定位系統(tǒng)、網(wǎng)卡毫秒級(jí)高精度指標(biāo)采集工具 Probe ,整合多維度的數(shù)據(jù),提供直觀的 POD 全景運(yùn)行狀態(tài)視圖,輔助快速定位。
  • 故障恢復(fù):詳細(xì)梳理 RDMA 故障場(chǎng)景及影響,制定清晰的故障處理 SOP(涵蓋交換機(jī)與網(wǎng)卡)及應(yīng)急預(yù)案。建立網(wǎng)絡(luò)與業(yè)務(wù)團(tuán)隊(duì)的協(xié)同運(yùn)營(yíng)機(jī)制,實(shí)現(xiàn)故障快速聯(lián)動(dòng)止損與恢復(fù)。
  • RDMA 網(wǎng)絡(luò)監(jiān)控開放系統(tǒng):
  • 網(wǎng)絡(luò)構(gòu)建并開放主機(jī)監(jiān)控?cái)?shù)據(jù)接入、服務(wù)器網(wǎng)絡(luò)信息查詢、拓?fù)洳樵儭⒕W(wǎng)絡(luò)變更、故障推送等系統(tǒng)服務(wù)能力,加強(qiáng)與業(yè)務(wù)團(tuán)隊(duì)的聯(lián)合運(yùn)營(yíng)建設(shè),實(shí)現(xiàn)故障的快速發(fā)現(xiàn)、定位和止損恢復(fù)。
  • 高效交付平臺(tái):
  • 聯(lián)合業(yè)務(wù)建立了完整交付流程,開發(fā)了自動(dòng)化部署、測(cè)試驗(yàn)收工具,依托于  KNP 大交付平臺(tái)實(shí)現(xiàn)了自動(dòng)化部署、端網(wǎng)一體化交付、自動(dòng)化網(wǎng)絡(luò)驗(yàn)收、業(yè)務(wù)聯(lián)合驗(yàn)收。經(jīng)過(guò) 24 年對(duì)流程和工具優(yōu)化,達(dá)成:交換機(jī)網(wǎng)絡(luò)交付驗(yàn)收(3BD),主機(jī)網(wǎng)絡(luò)納管交付(分鐘級(jí)),業(yè)務(wù)聯(lián)合性能驗(yàn)收(1BD)。

三、性能收益

DHPS 架構(gòu)通過(guò)端到端的技術(shù)革新,在多個(gè)維度實(shí)現(xiàn)了性能突破,為在線服務(wù)場(chǎng)景提供了量化可衡量的價(jià)值提升:查詢吞吐提升 270%+,更新性能翻倍,內(nèi)存碎片率下降 40%,網(wǎng)絡(luò)延遲降低 35%,在超大規(guī)模集群中實(shí)現(xiàn) 99.999% 服務(wù)可用性,為企業(yè)級(jí)應(yīng)用提供業(yè)界領(lǐng)先的高性能在線服務(wù)解決方案;在線 GPU 機(jī)器上面因?yàn)?CPU 節(jié)省可以帶更多卡,能進(jìn)一步從 4 卡機(jī)器升級(jí)到 8 卡機(jī)器甚至更多,提升大模型和搜推廣模型結(jié)合的迭代上限。


以快手推薦大模型的精排服務(wù)為例,架構(gòu)升級(jí)顯著收益:

  • 資源大幅縮減:老架構(gòu)下存儲(chǔ)服務(wù)節(jié)點(diǎn)需要 200 臺(tái)左右 64 核 CPU 機(jī)器,新架構(gòu)下只需要個(gè)位數(shù)的高密度 CPU 機(jī)器,機(jī)器成本資源節(jié)省 70%
  • 延遲顯著降低:計(jì)算節(jié)點(diǎn)與存儲(chǔ)節(jié)點(diǎn)之間的通信延遲,由毫秒級(jí)降至百微秒級(jí)。
  • 吞吐量大幅提升:如下表所示,通過(guò)采用新一代存儲(chǔ)引擎 (Cubes - Cuckoo Hash) 與 自研高性能通信庫(kù) (opt-rdma),極限吞吐提升超過(guò) 270%。

不同存儲(chǔ)引擎與通信協(xié)議下的極限吞吐對(duì)比:


快手DHPS:國(guó)內(nèi)首個(gè)實(shí)現(xiàn)基于RDMA 通信的可負(fù)載均衡高性能服務(wù)架構(gòu)!-AI.x社區(qū)


Infer 收益(以推全的 million interest 服務(wù)為例,同等 qps 壓力下)

  • CPU 降低、延遲顯著降低,為更高密度的 GPU 機(jī)器在在線服務(wù)中的應(yīng)用創(chuàng)造了更大空間。

此外,DHPS 架構(gòu)優(yōu)勢(shì)在 TCP 和 RDMA 流量常態(tài)混合狀態(tài)下穩(wěn)定運(yùn)行。在 TCP 與 RDMA 混跑下,CPU 機(jī)器單機(jī)極限吞吐優(yōu)于單 TCP 極限吞吐。


快手DHPS:國(guó)內(nèi)首個(gè)實(shí)現(xiàn)基于RDMA 通信的可負(fù)載均衡高性能服務(wù)架構(gòu)!-AI.x社區(qū)


四、未來(lái)展望

DHPS 作為國(guó)內(nèi)首個(gè)在在線系統(tǒng)中實(shí)現(xiàn)的、基于 RDMA 通信的可負(fù)載均衡高性能服務(wù)架構(gòu),在滿足快手在線系統(tǒng)嚴(yán)苛的高穩(wěn)定性要求下,不僅實(shí)現(xiàn)了卓越性能(查詢吞吐提升 270%),更顯著提升了業(yè)務(wù)迭代能力上限,為大模型在搜索、廣告、推薦等核心場(chǎng)景的落地奠定了堅(jiān)實(shí)基礎(chǔ)。


該架構(gòu)的價(jià)值遠(yuǎn)超在線推薦場(chǎng)景。其 RDMA 自研通信庫(kù)已作為核心組件集成至 KESS(快手統(tǒng)一的服務(wù)治理平臺(tái))。整套高性能基建設(shè)施(涵蓋網(wǎng)絡(luò)、存儲(chǔ)、通信庫(kù))具備高度可復(fù)用性,可廣泛應(yīng)用于高性能計(jì)算 (HPC)、分布式存儲(chǔ)系統(tǒng)、大規(guī)模模型推理服務(wù)等關(guān)鍵領(lǐng)域。這標(biāo)志著搜索、廣告、推薦(搜推廣)領(lǐng)域的傳統(tǒng)分布式架構(gòu),正在向面向 AI 大模型的高密度計(jì)算分布式架構(gòu)演進(jìn)。

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 丹棱县| 大城县| 广水市| 西充县| 南京市| 泸西县| 扎兰屯市| 资阳市| 巩留县| 周宁县| 博湖县| 灵石县| 湖口县| 黎城县| 新竹市| 峨山| 怀安县| 柯坪县| 大理市| 广安市| 宿州市| 枣强县| 临武县| 塘沽区| 浪卡子县| 高唐县| 堆龙德庆县| 棋牌| 剑河县| 靖州| 敖汉旗| 台前县| 田林县| 酉阳| 图们市| 临颍县| 镇远县| 罗山县| 洛川县| 当雄县| 福贡县|