浪潮信息發(fā)布"元腦SD200"超節(jié)點(diǎn)，面向萬(wàn)億參數(shù)大模型創(chuàng)新設(shè)計(jì)

浪潮信息

2025-08-08 21:07 1561

北京2025年8月8日 /美通社/ -- 8月7日，浪潮信息發(fā)布面向萬(wàn)億參數(shù)大模型的超節(jié)點(diǎn)AI服務(wù)器"元腦SD200"。該產(chǎn)品基于浪潮信息創(chuàng)新研發(fā)的多主機(jī)低延遲內(nèi)存語(yǔ)義通信架構(gòu)，以開(kāi)放系統(tǒng)設(shè)計(jì)向上擴(kuò)展支持64路本土GPU芯片。元腦SD200可實(shí)現(xiàn)單機(jī)內(nèi)運(yùn)行超萬(wàn)億參數(shù)大模型，并支持多個(gè)領(lǐng)先大模型機(jī)內(nèi)同時(shí)運(yùn)行及多智能體實(shí)時(shí)協(xié)作與按需調(diào)用，目前已率先實(shí)現(xiàn)商用。在實(shí)際評(píng)測(cè)中，元腦SD200運(yùn)行DeepSeek R1和Kimi K2等全參模型的64卡整機(jī)推理性能實(shí)現(xiàn)超線性擴(kuò)展。

當(dāng)前，混合專(zhuān)家模型(MoE)的高效架構(gòu)正在驅(qū)動(dòng)大模型參數(shù)規(guī)模持續(xù)擴(kuò)展，國(guó)內(nèi)外前沿大模型的參數(shù)量快速突破萬(wàn)億規(guī)模，這給算力系統(tǒng)架構(gòu)提出新的挑戰(zhàn)。一方面，模型參數(shù)量增加和序列長(zhǎng)度增加帶來(lái)的鍵值緩存(KV cache)激增，需要智能計(jì)算系統(tǒng)具有超大顯存空間承載，依靠單芯片或節(jié)點(diǎn)的性能提升已難以為繼；且其推理過(guò)程作為通信敏感型計(jì)算，對(duì)分布式計(jì)算通信延時(shí)要求極高，需要構(gòu)建更大向上擴(kuò)展(Scale up)高速互連域。另一方面，智能體AI開(kāi)啟多模型協(xié)作的新范式，其推理過(guò)程需要生成比傳統(tǒng)模型多近百倍的數(shù)據(jù)詞元(token)，導(dǎo)致計(jì)算量激增。

元腦SD200超節(jié)點(diǎn)AI服務(wù)器是浪潮信息面向萬(wàn)億參數(shù)大模型AI時(shí)代而設(shè)計(jì)，創(chuàng)新研發(fā)多主機(jī)低延遲內(nèi)存語(yǔ)義通信架構(gòu)，基于開(kāi)放總線交換技術(shù)構(gòu)建，在單機(jī)內(nèi)實(shí)現(xiàn)了64路GPU芯片的高速統(tǒng)一互連，成功解決萬(wàn)億大模型對(duì)超大顯存空間和超低通信延時(shí)的核心需求。在開(kāi)放架構(gòu)之上，元腦SD200通過(guò)智能總線管理和開(kāi)放的預(yù)填充-解碼(Prefill-Decoder)分離推理框架實(shí)現(xiàn)軟硬件深度協(xié)同，智能化管理復(fù)雜AI計(jì)算任務(wù)。

- 在架構(gòu)層面，元腦SD200基于自主研發(fā)的開(kāi)放總線交換技術(shù)首創(chuàng)多主機(jī)三維網(wǎng)格系統(tǒng)架構(gòu)，實(shí)現(xiàn)64路本土GPU芯片高速互連；通過(guò)創(chuàng)新遠(yuǎn)端GPU虛擬映射技術(shù)，突破多主機(jī)交換域統(tǒng)一編址難題，實(shí)現(xiàn)顯存統(tǒng)一地址空間擴(kuò)增8倍，單機(jī)可以提供最大4TB顯存和64TB內(nèi)存，為萬(wàn)億參數(shù)、超長(zhǎng)序列大模型提供充足鍵值緩存空間。同時(shí)，依托百納秒級(jí)超低延遲鏈路，構(gòu)建64卡大高速互連域統(tǒng)一原生內(nèi)存語(yǔ)義通信，實(shí)測(cè)結(jié)果表明，在推理過(guò)程常見(jiàn)的小數(shù)據(jù)包通信場(chǎng)景中，全規(guī)約(All Reduce)性能表現(xiàn)優(yōu)異，顯著提升計(jì)算與通信效率。

- 在系統(tǒng)層面，根據(jù)萬(wàn)億參數(shù)大模型計(jì)算、通信需求特征，浪潮信息開(kāi)發(fā)智能總線管理系統(tǒng)，實(shí)現(xiàn)超節(jié)點(diǎn)64卡全局最優(yōu)路由的自動(dòng)創(chuàng)建，支持不同拓?fù)淝袚Q，資源按需切分。對(duì)于全規(guī)約、全聚集(All Gather)等典型通信算子，開(kāi)展不同數(shù)據(jù)量大小的細(xì)粒度通信策略設(shè)計(jì)，如多層級(jí)通信機(jī)制等，實(shí)現(xiàn)通信延時(shí)進(jìn)一步降低。同時(shí)依托開(kāi)放的PD分離框架，支持異步KV Cache高效傳輸與差異化并行策略，在提升業(yè)務(wù)服務(wù)級(jí)別目標(biāo)的同時(shí)保持對(duì)多元算力的兼容性，實(shí)現(xiàn)計(jì)算與通信架構(gòu)的深度協(xié)同優(yōu)化。

元腦SD200超節(jié)點(diǎn)AI服務(wù)器通過(guò)軟硬協(xié)同系統(tǒng)創(chuàng)新，成功向上擴(kuò)展突破芯片性能邊界，在大模型場(chǎng)景中展示出優(yōu)異的性能表現(xiàn)。結(jié)合優(yōu)化的PD分離框架，SD200超節(jié)點(diǎn)滿機(jī)運(yùn)行DeepSeek R1全參模型推理性能超線性提升比為3.7倍，滿機(jī)運(yùn)行Kimi K2全參模型推理性能超線性提升比為1.7倍。

當(dāng)前，開(kāi)源模型的飛躍式進(jìn)步正在加速智能時(shí)代的到來(lái)，推動(dòng)研發(fā)范式從封閉走向開(kāi)放協(xié)作。同時(shí)，隨著大模型參數(shù)量的持續(xù)提升，對(duì)算力基礎(chǔ)設(shè)施的建設(shè)提出了更高要求。浪潮信息通過(guò)開(kāi)放系統(tǒng)架構(gòu)創(chuàng)新，為開(kāi)源大模型的規(guī)?；涞睾蛻?yīng)用創(chuàng)新提供關(guān)鍵支撐。

消息來(lái)源：浪潮信息