業界全力提升Token速度、降低成本,支撐千行百業跨越智能體規模落地臨界點。
文|游勇
編|周路平
不久前的2025人工智能計算大會上,浪潮信息公布了一份業內矚目的成績單:基于元腦SD200超節點AI服務器,DeepSeek R1大模型Token生成速度僅需8.9毫秒,創造國內大模型最快Token生成速度;而最新發布的元腦HC1000超擴展AI服務器,實現每百萬Token成本首次擊破1元大關。
浪潮信息在推動AI推理正式進入“10毫秒、1塊錢”的時代,而背后是底層算力在應對智能體大規模應用時面臨的兩大挑戰:一方面,多智能體之間的交互,對響應速度更加嚴苛;另一方面,智能體帶來Token消耗量的指數級增長,如何降低Token生成的成本,成了智能體大規模應用以及未來能否實現商業閉環必須要攻克的一環。
在業內看來,Token速度的提升和成本的大幅降低有望推動千行百業加速應用智能體。
01
速度與成本,已成智能體時代頭號敵人
今年初,DeepSeek在推理模型上的進展以及Manus令人眼前一亮的實踐,快速推動大模型從訓練進入以智能體技術為代表的推理時代。能夠實現自主規劃執行路徑、靈活調用工具的智能體,無論是在C端應用,還是在B端市場,都爆發出巨大的應用潛力。今年也被認為是Agent元年。
德勤預測,到2025年,將有25%的企業部署生成式AI驅動的智能代理;到2027年,這一比例將升至50%。
2025年8月,國務院也出臺了《關于深入實施“人工智能+”行動的意見》,明確提出到2027年,新一代智能終端、智能體等應用普及率超70%。
中國人工智能企業的數量已經超過5000家,平均約11個小時就有一家人工智能企業誕生。智能體落地如火如荼,各類智能體產品和智能體開發平臺層出不窮。無論是汽車、金融、網絡安全、電商以及協同辦公等行業都在探索智能體的應用場景。而在編程、客服、營銷、辦公助手、商業智能、知識助手等通用場景已經看到了成效。在不久前的WAIC上,各廠商的重心幾乎都放在了智能體的落地上。
“智能體已經進入到大規模商業部署的階段。”浪潮信息首席AI戰略官劉軍說,國內幾個頭部的AI產品,調用量已經非常大,Token增長的比例都是每月幾倍的增長,而國內今年比去年的Token調用量可能會上升50倍。 2025年5月底,火山引擎透露,豆包大模型日均tokens使用量超過16.4萬億。騰訊在今年9月表示,現在用戶每天向元寶的提問量已經達到年初一個月的總和。
但行業烈火烹油的背后,大模型應用落地從訓練走向推理,這也給行業帶來速度與成本的雙重考驗。
百度智能云CEO沈抖曾提到,因為在大模型推理上,推理的工作負載會隨著流量規模、輸入輸出長度的變化而變化。為了保持高吞吐、低時延,往往需要多個節點之間協同完成計算與通信。如果通信和計算的調度不夠高效,就會造成算力空轉、等待時間增加,推理性能下降,“這個時候,單靠堆卡是不夠的,需要做系統性的優化。”
“智能體進入大規模商業化應用時,響應速度成了企業的核心競爭力之一。”劉軍說,“對于Agent速度的痛點,大家在產業里面感知到了,但是一直沒有很明確地去把這個問題放到這么重要的位置上。”
過往是以Chat為核心的人機交互,對延遲沒那么苛刻,只需要跟上人的閱讀速度就基本能滿足需求。但智能體時代,人機交互進化成智能體與智能體之間的交互,而智能體接收信息的速度幾乎沒有上限,智能體之間的交互對于延遲的痛感越來越強烈。比如金融行業的欺詐檢測需要做到10毫秒左右、具身智能的規劃決策需要做到50毫秒。
而且,隨著單一智能體走向多智能體,每一個環節的延遲都會累加,最終讓延遲變得不可接受。“如果延遲不做到足夠低的話,沒有商業的可能性。”劉軍說。
除了推理模型的響應速度,旺盛的需求和Token的指數級增長也給全行業帶來另一個幸福的煩惱:底層的算力基礎設施能否把推理成本做得足夠低。
“我們看到了Token成本帶給整個產業的巨大壓力。”劉軍說,“客戶最關心的問題轉為了成本是不是足夠低,是不是能夠實現一個超大規模的擴展,使得我的基礎設施能夠支撐大規模應用服務的能力。”
當前,企業部署一個智能體平均每月的Token成本大概是1000到5000美元。以OpenAI的GPT-5為例,其在處理復雜任務時,輸入Token成本為每百萬1.25美元,輸出Token為每百萬10美元。
盡管行業的Token成本每半年就出現較大幅度的下降,但隨著大規模應用,如何降低成本依然是行業所關心的話題。尤其是超大規模的商業用戶,對成本的感知會更加深刻。
“省成本是用戶體驗非常重要的一個指標。”百度集團副總裁侯振宇說,百度智能云針對推理服務,重新設計了調度器、加速引擎與 KVCache 系統,在萬卡集群規模上實現了吞吐大幅提升與首Token延遲顯著下降。
國慶假期前,DeepSeek專門發布了新款推理模型,引入全新的稀疏注意力機制,實現了推理成本大幅降低,開發者調用API的價格降低50%以上。
火山引擎也是國內在AI推理上降價最為兇猛的云廠商之一。火山引擎總裁譚待曾表示,單個Agent任務的Token消耗量可達傳統聊天場景的數十倍,成本成為規模化應用的掣肘,“過去人與模型聊一小時耗20萬Token,如今Agent處理一個復雜任務就要20萬Token,降價是普及的前提。”
春江水暖鴨先知。當這些模型廠商、AI云廠商表達出對速度和成本的強烈痛點時,作為國內算力龍頭,浪潮信息所處的生態位,也讓其更早地捕捉到行業演進的趨勢,“或許一般規模的企業當下對成本的感知不強,但成本一定是在超大規模的商業用戶首先感知到這樣一個差別。”劉軍說,浪潮信息正在基于底層計算架構的創新優化,探索了一條更契合行業發展的降本提效路徑。
02
浪潮信息如何做到“10毫秒、1塊錢”?
作為浪潮信息在推理場景的主打產品,HC1000和SD200背后有著明確的客群。HC1000會更適合大規模的互聯網客戶,他們對控制成本有著更強的感知和需求。SD200則是滿足在行業應用時對延遲要求敏感的客戶,強調人工智能+產業落地,比如金融行業、具身智能等。
“我們不會為了技術而去做技術,為了指標而去做指標,更多是針對產業的核心挑戰來針對性地優化設計。”劉軍說,浪潮信息在解決算力痛點時,一直堅持的思路是以應用為導向,以系統為核心。
浪潮信息針對Agent的全鏈條做了深入細致的量化分析,找到了每個環節可能會影響速度的因素,然后集中在核心部分進行攻關。
比如浪潮信息發現,智能體之間的交互,通信數據包相對較小,超大帶寬的用途不是特別大。劉軍做了個形象的比喻,就像是從a地到b地修了16車道的高速公路,但是車輛在16車道上只跑了很短的距離,反而在上高速和下高速這兩個節點花了很長時間,“我們重點就解決了車輛上高速和下高速的速度問題,讓車輛直通上去,直通下去”。
此外,浪潮信息也對架構層面做了創新,比如元腦SD200采用了創新的多主機3D Mesh系統架構,將多個主機的GPU資源整合成一個統一的計算域,并且當中能夠實現跨主機域全局統一編址。并且通過Smart Fabric Manager,元腦SD200實現了超節點64卡全局最優路由的自主創建,保障AI芯片間通信路徑最短,進一步縮短基礎通信延遲。
而影響Token生成成本的一個關鍵因素是目前推理的算效太低。劉軍透露,大模型在推理過程中的算效比非常低,“可能比訓練低甚至一個數量級以上。”
其中,推理算效低的一大原因在于計算負載不均衡。
業內目前的普遍做法是PD分離,將預填充和解碼兩個階段分開部署,實現了計算資源的更細粒度調度與利用,為提升吞吐、降低延遲提供了結構基礎。
除了業內常用的PD分離,浪潮信息在背后做了更多的分離技術來提升算效。比如在Decode(解碼)階段,把注意力計算和FFN計算拆開,在FFN部分又把不同的專家拆開。通過這些充分的拆解和解耦,讓每一塊GPU的計算效率足夠高,最終帶來了算效的倍數提升。
浪潮信息最新發布的元腦HC1000超擴展AI服務器就采用了全對稱的DirectCom極速架構,可以智能調度每個環節的算力需求,不讓計算資源閑置或等待,讓它時刻處于計算和通信狀態,整個網絡的利用率接近98%,“把計算利用率調提高將近7倍”。
而在硬件層面,元腦HC1000創新了16卡計算模組設計、單卡“計算-顯存-互連”均衡設計,大幅降低單卡成本和每卡系統分攤成本。同時,全對稱的系統拓撲設計支持超大規模無損擴展。據測算,元腦HC1000的推理性能相比傳統RoCE提升1.75倍,單卡模型算力利用率最高提升5.7倍。
而且,當推理過程被盡可能地解耦之后,系統對單芯片的性能依賴也大幅減小。過往,業內主流AI芯片的解題思路是在不斷提升單芯片的性能,相當于一個六邊形戰士。但如今解耦之后,每個階段對芯片的需求出現差異,用戶可以不用昂貴的高帶寬內存,也能獲得很高的算效。這種全局的解決思路更適合當前國內因為難以獲得高端GPU卡而出現的算力瓶頸。
當然,從產業發展的視角來看,百萬Token輸出成本一塊錢是當前國內的最佳水平,但遠不是算力演進的終點,“未來5年我們評估的數是隨著Token數量的增長,需要相對應的實現單Token成本同等的數量級的下降,才能保持一種平衡。”劉軍說。
結語:AI計算架構將走向專用
本質上,當前的GPU和ASIC芯片都是通用計算芯片,不是針對大模型去做的極致優化,里面仍然有很多的冗余。“要跟上Token高速增長的步伐,我們就一定要去革新計算的架構。”
劉軍認為,當行業處于AI應用的起步和探索階段,平臺開發生態的通用性會更加重要,可以實現與不同的開發生態和軟件生態耦合。但如果進入到大規模商業部署階段,這種模式很快會遇到瓶頸,普惠AI將變得遙不可及。
“只要形成了一定的產業規模,最終會向極致的定制化和專業化的設計轉變。”劉軍說,“這是一個專用與通用對立統一、交替發展的過程。如果說AI的上半場是訓練,那么下半場將是推理。大模型具有一次訓練、無限次推理的特點,而模型權重在推理時是固定的,采用算法硬件化的專用計算架構將更適合推理場景,這應當是未來的發展方向。”
劉軍提到了一個例子,D. E. Shaw研究所是搞量化的鼻祖,這家機構為分子動力學打造了一臺特殊設計、功能單一的專用超級計算機Anton,通過算法創新和軟硬件協同,最終使得其在分子動力學模擬中獲得了比通用計算機高出百倍的計算能效。
這給AI計算架構也提供了借鑒。當大模型進入到一個規模海量、應用非常集中的階段時,“通用就一定不劃算”,浪潮信息認為,采用算法硬件化的專用計算架構更適合推理場景,探索開發專用大模型芯片,實現軟硬件深度優化,針對大模型的核心算法算子去做極致優化,“只有這樣性能擴展定律才能跟得上Token增長的海量需求”。



