智東西(公眾號:zhidxcom)
作者 | 程茜
編輯 | 漠影
智東西9月29日報道,在9月26日的2025人工智能計算大會上,浪潮信息連破兩項紀錄,讓智能體產業化門檻一降再降!
一個是國內大模型最快Token生成速度:基于元腦SD200超節點AI服務器,DeepSeek R1大模型Token生成速度僅需8.9毫秒;另一個是百萬Token成本首次擊破1元,基于其最新發布的元腦HC1000超擴展AI服務器。
而這兩大突破的價值,正契合智能體商業化產業化落地的本質邏輯——
如今,具備自主學習、決策與執行能力、能獨立完成復雜任務的智能體,已成為大模型規模化落地的核心載體,其產業化比拼的正是三大核心能力:場景適配能力、交互速度、成本控制。
模型能力能否精準匹配行業真實需求、交互速度是否滿足實時場景要求、Token成本能否支撐盈利閉環,最終實現從技術可用到商業可持續的跨越,成為智能體產業化的關鍵桎梏。
在這背后,算力體系的革新至關重要。當前GPU主導的計算模式與通用架構面臨挑戰,正逐漸在能效比和成本效益上觸及瓶頸,因此業界亟需重新審視并設計AI計算系統,發展AI專用架構以突破瓶頸。
浪潮信息通過軟硬件協同設計與深度優化,已經在持續推動AI計算架構的創新與突破上拿出了階段性重磅成果。
一、直面智能體產業化落地挑戰!浪潮信息發力底層架構革新之路
最近爆火的智能體將生成式AI的應用潛力推至新的高度,從為用戶提供AI工具和助手,到多智能體協同創造價值的未來圖景正在緩慢展開。
一方面,從語言到圖像、音視頻、3D各類模型連番刷新性能天花板,模型參數從百億、千億向萬億飆升,海量數據、后訓練階段算力投入的綜合作用下,AI展現出通過學習人類知識具備泛化智能的“涌現”能力。
這正是智能體誕生的基礎,其可以根據需求、用戶預設的目標學習人類知識主動決策、規劃、執行,甚至實現自主迭代進化。

另一方面DeepSeek通過算法創新降低大模型門檻,開源生態繁榮,為智能體生態繁榮奠定了基礎。
這一趨勢下,智能體產業化的三大核心要素被清晰推至臺前:模型能力決定智能體應用上限、交互速度決定智能體產業化價值、Token成本決定智能體盈利能力。
具體來看,模型能力決定了智能體在具體場景中能解決什么問題、解決到什么程度:首先綜合性能可以對標甚至超過閉源模型的開源模型是重要支撐;其次具體到不同場景,每個模型推理、交互、垂直領域知識精準度,決定其能否做到在不同場景可用。
交互速度決定智能體解決問題的速度:不同于此前用戶與聊天機器人的交互場景,用戶對時延的感知并不敏感,最初GPT-3.5每秒生成速度僅為40個token,彼時已經可以滿足用戶的閱讀體驗,但這放到智能體交互層面遠遠不夠。
智能體在金融等對時延要求較高的領域,往往需要其響應速度降至毫秒級別,也就是說,即使模型能力再強,慢響應也會讓其失去實用價值。

最后是成本,Token成本決定智能體盈利能力,Token成本直接對應企業的算力消耗成本,成本與定價差額決定智能體毛利率,若Token成本過高,企業也會陷入賣得越多、虧得越多的困境。
然而當下推理模型的思考過程會產生成千上萬個Token,智能體在執行復雜任務的中間環節也會產生大量中間文本Token。根據Reddit的數據,當前使用AI輔助編程的開發者平均每月會消耗1千萬到5億Token,相比一年前暴漲50倍,目前企業部署一個智能體平均每月的Token成本大概是1000到5000美元。主流模型的Token成本居高不下,這對于其產業化是不小的瓶頸。
因此,隨著大模型參數規模擴大、應用場景復雜化,單純依靠堆算力、堆成本的粗放模式,已難以平衡智能體的性能、速度與盈利需求,從計算架構層面實現技術突破成為適配三大要素、推動智能體產業化落地的最優路徑,這也是浪潮信息在布局的方向。
二、從速度到成本雙重突破,樹AI服務器性能與成本新標桿
在這樣的產業背景下,浪潮信息作為全球算力基建核心供應商,其此次連破兩個國內紀錄的硬件產品,就是最好的例證。
首先是浪潮信息元腦SD200超節點AI服務器,在此之上DeepSeek R1的Token生成速度只需8.9毫秒,既實現國內大模型最快Token生成速度,也標志國產AI服務器Token生成速度邁入10毫秒時代。
基于其獨創的多主機3D Mesh系統架構,該服務器單機實現了64路本土AI芯片的高速統一互連,單機可承載4萬億參數單體模型,或部署多個萬億參數模型組成的智能體應用。

生成速度極致壓縮的背后,SD200還實現了極低通信延遲、整機高可靠性設計、超線性擴展的推理性能。
SD200達到業界最低通信延遲為0.69微秒,其采用極致精簡的協議棧,包括物理層、數據鏈路層、事務層3層,原生支持Load/Store等“內存語義”,基礎通信延遲達到百納秒級,同時Open Fabric原生支持由硬件邏輯實現的鏈路層重傳,采用分布式、預防式的流控機制,從而實現穩定可靠通信。

為了保證整機高可靠適應超節點的大規模商業化應用,其系統硬件層面通過全銅纜電互連、短距緊耦合傳輸,實現每十億小時故障率是傳統光模塊互連方案的1/100,基礎軟件層通過創新GPU故障信息轉儲、跨域故障關聯定位等關鍵技術,實現全方位故障可觀測、全自動故障隔離、極速故障恢復,業務軟件層通過構建業務故障預測模型實現推理響應不中斷。

SD200還通過面向超節點創新優化的通信庫、PD分離策略、動態負載均衡等技術,將通信耗時控制在10%以內,實現了Deepseek R1 671B最高16.3倍的超線性擴展率。
與此同時,為了進一步提升SD200的易用性,浪潮信息使其兼容CUDA生態,對PyTorch算子全覆蓋,一鍵遷移典型應用等。
此外,基于多元開放的超節點計算平臺、異構融合的軟件棧,浪潮信息還將與生態合作伙伴共同構建全場景智能體應用,共同塑造超節點智算應用“北京方案”。
其次是元腦HC1000超擴展AI服務器,推理成本首次擊破1元/每百萬Token。
浪潮信息首席AI戰略官劉軍透露,全面優化降本和軟硬協同增效是HC1000實現百萬Token 1元成本高效生產力的關鍵路徑。其核心是浪潮信息創新設計的DirectCom極速架構以及全對稱系統拓撲設計。

DirectCom架構每計算模組配置16顆AIPU,實現單卡成本降低60%以上,每卡分攤系統成本降低50%,其采用直達通信設計、計算通信1:1均衡配比,實現全局無阻塞通信;全對稱系統拓撲設計支持靈活的PD分離、AF分離方案,最大化資源利用率。
HC1000還支持超大規模無損擴展,實現從1024卡到52萬卡的不同規模系統構建,計算側通過DirectCom和智能保序機制,網絡側支持包噴灑動態路由,深度算網協同實現推理性能相比傳統RoCE提升1.75倍。
這兩大硬件一方面拉高交互速度保障實時場景響應效率;另一方面推動Token成本持續觸底,為智能體規模化落地提供關鍵硬件支撐。
三、浪潮信息的算力前瞻邏輯:跟隨應用、算法發展布局
當我們剖析浪潮信息兩大硬件背后的黑科技會發現,其核心底座是底層基礎設施在系統架構、互聯協議、軟件框架等關鍵點上進行的協同創新。
智能體產業化已成為行業共識,全球知名市研機構IDC的報告預測,中國企業級智能體應用市場規模在2028年保守估計將超過270億美元。
然而當前以GPU為核心的計算模式與通用計算架構正面臨嚴峻挑戰。
一方面,通用計算架構的優勢在于其廣泛的場景兼容性,但其痛點是為適配多元需求而預留的冗余設計,往往導致特定場景下算力效率難以突破;另一方面,專用架構聚焦單一領域的性能極致優化,像為AI訓練量身打造的等,受限于應用場景的狹窄性,難以形成跨領域的生態規模。
綜合來看,計算產業的每一次跨越式發展,本質上都是在通用架構的普適性與專用架構的高效性之間尋找動態平衡,使其在場景需求、技術迭代等方面實現互補,契合當下的產業發展需求。
因此,這一時間節點,隨著AI計算需求呈指數級增長,行業亟需全面轉向效率導向,重新審視并重構AI計算系統。
我們可以從浪潮信息的布局中,觀察到其對計算架構底層創新的諸多思考。
劉軍透露,他們追求計算架構創新的原則是跟隨應用和算法發展的方向,以應用為導向、以系統為核心,才是進行計算架構創新的有效路徑。
具體來看,此次浪潮信息的SD200和HC1000針對的是兩個典型場景。
SD200面向對延遲要求敏感的商業場景,HC1000面向的是云計算、互聯網、大規模AI服務提供商,這些企業需要為客戶的智能體應用提供成本更優的計算基礎設施。
今年智能體剛剛起步,面向未來,其產業化落地必然會助推AI算力持續高速增長,仍有三大挑戰并存。
首先是系統規模擴展接近工程極限,智能體對多模態交互、實時推理的需求,推動算力集群向更大規模、更高互聯效率演進,但硬件與網絡的物理限制日益凸顯;
其次是算力大規模增長對電力基礎設施帶來挑戰,智能體的高并發交互帶來算力功耗的指數級增長,單個智算中心的電力需求已達數吉瓦級別;
最后是算力投入和產出失衡,商業兌現進程緩慢,智能體產業化仍處于高投入、低回報階段,其面臨GPU利用率低、尚未形成成熟盈利模式等困境。
這也進一步印證了,效率導向的重要性。劉軍補充說,智能體時代加速發展,從人機交互到機機交互,都意味著思考問題的角度要隨之變化。當下應從規模導向轉向效率導向,采用算法硬件化的專用計算架構,探索開發大模型芯片,實現軟硬件深度優化,是未來的發展方向。
結語:大模型重塑AI生態,算力革命緊隨其后
大模型發展日新月異,從唯參數論到應用落地,推理需求增長、智能體出現等,其對底層算力玩家提出的需求也在發生變化。
因此企業在應對AI算力挑戰時,不能僅停留在解決當下的性能瓶頸與資源緊張等表層痛點,更需穿透問題表象,深挖制約算力效率提升與規模化應用的核心桎梏,在此基礎上,浪潮信息通過前瞻性視角布局技術與架構創新,為未來AI規模化落地筑牢技術根基。