华为云Tokens引爆算力革命：384超节点集结大杂烩黑科技

华为云Tokens驱动算力革新，384超节点融合黑科技，打造高效智能计算新生态。

　　 8月27日，在第四届828 B2B企业节开幕式上，华为云宣布其Tokens服务全面接入CloudMatrix384超节点。这一技术升级标志着中国AI算力基础设施迈入新阶段，尤其是在大模型推理效率和成本控制方面实现了关键突破。

　　借助xDeepServe架构的创新设计，华为云单芯片性能达到最高2400TPS（每秒处理Token数）和50ms TPOT（每个Token处理时间），在吞吐量与延迟指标上超越当前业界平均水平。这不仅是一次硬件能力的释放，更是从底层架构到上层服务全栈协同优化的结果。

　　过去18个月，中国AI算力需求呈现指数级增长。数据显示，2024年初全国日均Token消耗量为1000亿，而到今年6月底已突破30万亿——短短一年半时间增长超过300倍。这一惊人的增速背后，是大模型应用在各行各业加速落地的真实写照，也对算力供给提出了前所未有的挑战。

　　面对激增的需求，传统的按卡时计费模式已难以满足多样化、精细化的AI服务场景。为此，今年3月，华为云率先推出基于MaaS（Model as a Service）理念的Tokens计费服务，根据不同应用场景对性能与时延的要求，提供在线版、进线版、离线版乃至尊享版等多种服务规格，为大模型、Agent智能体等AI工具提供了更灵活、低成本的算力支持。

　　此次Tokens服务接入CloudMatrix384超节点，意味着华为云在推理性能上再次实现跃升：单卡吞吐从年初的1920TPS提升至2400TPS，TPOT稳定在50ms以内。这不是简单的数字提升，而是建立在“软硬协同、全栈创新”基础上的技术体系胜利。

　　大算力的构建从来不是单一硬件的突破，而是一个涵盖芯片、通信、存储、框架、调度的系统工程。华为云依托其“大杂烩”式的全栈技术积累，打通了从NPU到应用的最后一公里。CloudMatrix384超节点以全新计算架构打破性能瓶颈；CANN昇腾硬件使能层优化算子执行与通信效率；EMS弹性内存存储技术突破“AI内存墙”，实现“以存强算”；xDeepServe分布式推理框架则通过Transformerless极致分离架构，将大模型拆解为可独立调度的功能模块，最大化利用每一颗芯片的算力资源。

　　尤其值得关注的是，xDeepServe作为CloudMatrix384的原生服务，采用创新的微模块化设计，将MoE大模型中的Attention、FFN和Expert三大组件解耦，如同把大模型变成可自由组合的“积木”，并分派至不同NPU并行处理。这种架构变革，从根本上改变了传统集中式推理的瓶颈。

　　随后，通过微秒级XCCL通信库和自研FlowServe推理引擎的高效协同，这些分散的“积木”被重新拼接成一个超高吞吐的LLM服务平台——也就是Tokens的“超高速流水线”。正是在这种软硬一体的深度优化下，华为云实现了从非超节点单卡600tokens/s到超节点单卡2400tokens/s的四倍性能跃迁。

　　作为硬件与AI框架之间的关键中间层，CANN提供了包括高性能算子库和XCCL通信库在内的完整支持体系。其中，XCCL专为超节点环境下的大语言模型服务打造，充分释放了CloudMatrix384所采用的UB互联架构（UB fabric）的带宽潜力，为Transformerless架构所需的高并发、低延迟通信提供了坚实的底层保障。

　　而FlowServe作为重构后的“去中心化”分布式推理引擎，进一步提升了系统的扩展性与稳定性。它将整个超节点划分为多个自治的DP小组，每个小组都具备独立的Tokenizer、执行器、RTC缓存和网络栈，真正实现了“千卡并发不拥堵”。这种设计理念，预示着未来超大规模AI推理系统的发展方向。

　　目前，xDeepServe已实现MA（Model-Action）分离，下一步计划将Attention、MoE、Decode等核心组件全部转化为自由流动的数据流，并将这一“拼图式”架构扩展到多台超节点之间。如果成功，推理吞吐量有望实现线性增长，“芯片永不排队、推理永不塞车”的愿景或将变为现实。

　　截至目前，华为云MaaS服务已全面支持DeepSeek、Kimi、Qwen、Pangu、SDXL、Wan等主流大模型，以及versatile、Dify、扣子等热门Agent平台。这意味着开发者可以基于统一平台快速调用多种模型能力，大幅降低开发门槛。

　　更值得肯定的是，华为云并未止步于“开源复刻”，而是通过大量模型性能优化与效果调优的技术积累，实现了“源于开源，高于开源”的跨越。例如在文生图场景中，通过Int8量化、旋转位置编码融合算子等技术，在轻微牺牲画质的前提下，出图速度达到业界主流平台的2倍，且最大支持2K×2K分辨率，显著提升了生成效率。

　　在文生视频领域，华为云同样表现出色。通过量化加速与通算并行等手段，有效降低了延迟与显存占用，视频生成速度相较竞争对手提升达3.5倍。这种端到端的性能优势，使得企业在构建AI原生应用时拥有更强的技术底气。

　　在应用层面，华为云已联合超过100家生态伙伴，深入调研分析、内容创作、智慧办公、智能运维等行业场景，共同打造丰富的AI Agent解决方案。这些实践正在推动AI从“技术可用”迈向“业务好用”的新阶段。

　　例如，基于MaaS平台推出的“今日人才数智员工解决方案”，融合自然语言处理、机器学习等技术，能够实现与用户的智能交互和任务自动处理，显著提升人力资源服务效率与客户满意度；北京方寸无忧科技开发的“无忧智慧公文解决方案”，则帮助政企单位实现公文处理的自动化与智能化，加速办公数字化转型进程。

　　从技术突破到生态繁荣，华为云Tokens服务的持续进化，反映出中国AI产业正在从“算力焦虑”向“效率革命”转变。CloudMatrix384与xDeepServe的结合，不仅是华为技术实力的集中体现，也为国内AI基础设施建设树立了新的标杆。可以预见，随着更多企业接入这一高效、灵活的MaaS平台，AI将更快地从实验室走向产线，真正成为推动产业升级的核心动力。