华为云Tokens驱动算力革新,384超节点融合黑科技,打造高效智能计算新生态。
8月27日,在第四届828 B2B企业节开幕式上,华为云宣布其Tokens服务全面接入CloudMatrix384超节点。这一技术升级标志着中国AI算力基础设施迈入新阶段,尤其是在大模型推理效率和成本控制方面实现了关键突破。

借助xDeepServe架构的创新设计,华为云单芯片性能达到最高2400TPS(每秒处理Token数)和50ms TPOT(每个Token处理时间),在吞吐量与延迟指标上超越当前业界平均水平。这不仅是一次硬件能力的释放,更是从底层架构到上层服务全栈协同优化的结果。
过去18个月,中国AI算力需求呈现指数级增长。数据显示,2024年初全国日均Token消耗量为1000亿,而到今年6月底已突破30万亿——短短一年半时间增长超过300倍。这一惊人的增速背后,是大模型应用在各行各业加速落地的真实写照,也对算力供给提出了前所未有的挑战。
面对激增的需求,传统的按卡时计费模式已难以满足多样化、精细化的AI服务场景。为此,今年3月,华为云率先推出基于MaaS(Model as a Service)理念的Tokens计费服务,根据不同应用场景对性能与时延的要求,提供在线版、进线版、离线版乃至尊享版等多种服务规格,为大模型、Agent智能体等AI工具提供了更灵活、低成本的算力支持。
此次Tokens服务接入CloudMatrix384超节点,意味着华为云在推理性能上再次实现跃升:单卡吞吐从年初的1920TPS提升至2400TPS,TPOT稳定在50ms以内。这不是简单的数字提升,而是建立在“软硬协同、全栈创新”基础上的技术体系胜利。
大算力的构建从来不是单一硬件的突破,而是一个涵盖芯片、通信、存储、框架、调度的系统工程。华为云依托其“大杂烩”式的全栈技术积累,打通了从NPU到应用的最后一公里。CloudMatrix384超节点以全新计算架构打破性能瓶颈;CANN昇腾硬件使能层优化算子执行与通信效率;EMS弹性内存存储技术突破“AI内存墙”,实现“以存强算”;xDeepServe分布式推理框架则通过Transformerless极致分离架构,将大模型拆解为可独立调度的功能模块,最大化利用每一颗芯片的算力资源。
尤其值得关注的是,xDeepServe作为CloudMatrix384的原生服务,采用创新的微模块化设计,将MoE大模型中的Attention、FFN和Expert三大组件解耦,如同把大模型变成可自由组合的“积木”,并分派至不同NPU并行处理。这种架构变革,从根本上改变了传统集中式推理的瓶颈。
随后,通过微秒级XCCL通信库和自研FlowServe推理引擎的高效协同,这些分散的“积木”被重新拼接成一个超高吞吐的LLM服务平台——也就是Tokens的“超高速流水线”。正是在这种软硬一体的深度优化下,华为云实现了从非超节点单卡600tokens/s到超节点单卡2400tokens/s的四倍性能跃迁。
作为硬件与AI框架之间的关键中间层,CANN提供了包括高性能算子库和XCCL通信库在内的完整支持体系。其中,XCCL专为超节点环境下的大语言模型服务打造,充分释放了CloudMatrix384所采用的UB互联架构(UB fabric)的带宽潜力,为Transformerless架构所需的高并发、低延迟通信提供了坚实的底层保障。
而FlowServe作为重构后的“去中心化”分布式推理引擎,进一步提升了系统的扩展性与稳定性。它将整个超节点划分为多个自治的DP小组,每个小组都具备独立的Tokenizer、执行器、RTC缓存和网络栈,真正实现了“千卡并发不拥堵”。这种设计理念,预示着未来超大规模AI推理系统的发展方向。
目前,xDeepServe已实现MA(Model-Action)分离,下一步计划将Attention、MoE、Decode等核心组件全部转化为自由流动的数据流,并将这一“拼图式”架构扩展到多台超节点之间。如果成功,推理吞吐量有望实现线性增长,“芯片永不排队、推理永不塞车”的愿景或将变为现实。
截至目前,华为云MaaS服务已全面支持DeepSeek、Kimi、Qwen、Pangu、SDXL、Wan等主流大模型,以及versatile、Dify、扣子等热门Agent平台。这意味着开发者可以基于统一平台快速调用多种模型能力,大幅降低开发门槛。
更值得肯定的是,华为云并未止步于“开源复刻”,而是通过大量模型性能优化与效果调优的技术积累,实现了“源于开源,高于开源”的跨越。例如在文生图场景中,通过Int8量化、旋转位置编码融合算子等技术,在轻微牺牲画质的前提下,出图速度达到业界主流平台的2倍,且最大支持2K×2K分辨率,显著提升了生成效率。
在文生视频领域,华为云同样表现出色。通过量化加速与通算并行等手段,有效降低了延迟与显存占用,视频生成速度相较竞争对手提升达3.5倍。这种端到端的性能优势,使得企业在构建AI原生应用时拥有更强的技术底气。
在应用层面,华为云已联合超过100家生态伙伴,深入调研分析、内容创作、智慧办公、智能运维等行业场景,共同打造丰富的AI Agent解决方案。这些实践正在推动AI从“技术可用”迈向“业务好用”的新阶段。
例如,基于MaaS平台推出的“今日人才数智员工解决方案”,融合自然语言处理、机器学习等技术,能够实现与用户的智能交互和任务自动处理,显著提升人力资源服务效率与客户满意度;北京方寸无忧科技开发的“无忧智慧公文解决方案”,则帮助政企单位实现公文处理的自动化与智能化,加速办公数字化转型进程。
从技术突破到生态繁荣,华为云Tokens服务的持续进化,反映出中国AI产业正在从“算力焦虑”向“效率革命”转变。CloudMatrix384与xDeepServe的结合,不仅是华为技术实力的集中体现,也为国内AI基础设施建设树立了新的标杆。可以预见,随着更多企业接入这一高效、灵活的MaaS平台,AI将更快地从实验室走向产线,真正成为推动产业升级的核心动力。