九章云极尚明栋谈Token：算力也能论“度”卖,九章云极是外包公司吗

作者｜周雅

就在三个月前的3月份，中国日均Token调用量突破140万亿，这个数字相比两年前增长了1000倍。与此同时，行业里流传着另一个数字：智算集群的有效算力利用率，平均不到20%。

需求在指数级爆发，生产端却有八成产能在空转，这个落差里，藏着整个AI基础设施行业最核心的问题。

九章云极联合创始人兼COO尚明栋在MWC上海2026期间，接受了科技行者的专访，他所描述的，正是填补这个落差的方法论。

把包车变成打车

今天，一个企业级Agent接到“分析上月销售数据并做业绩对比”的任务，需要拆解成七八个步骤，一次文件分析消耗几万到几十万Token。视频生成更甚，一段30秒的2K视频，单次可能消耗几百万甚至上亿Token。而就在两年前，大多数人和AI的交互还停留在问几个简单问题，每次不过几十个Token。

“行业Token整体消耗量，相较两年提升千倍，但实际使用主体规模仅增长一两百个百分点。”尚明栋说，行业变化的核心，不是使用人群扩张，而是单一企业、单一业务的AI算力消耗提升了。

问题随之而来：谁来生产这些Token，怎么定价？

早期的算力市场很粗放，就是芯片堆机器，按时间收费。你租一台GPU服务器，按月付钱，用不用都得付。尚明栋把它比作包车：不管你坐不坐，车都开着等你，按小时计费。大模型时代一台GPU服务器的月租是几万甚至几十万，这和“普惠”背道而驰。此可谓第一阶段。

九章云极做的第一件事是“把包车变成打车”。通过自研的弹性算力平台，用户按实际消耗付费，资源随用随放。对用户来说，体验从长租变成了叫滴滴。这是第二阶段。

今年，行业进入第三阶段：Token时代。计费单位不再是TFLOPS或GPU小时数，而是Token本身。一个Token的价格里叠加了电力、算力、大模型三层成本，不同模型产出的Token“含金量”不同。用DeepSeek V4 Pro和V4 Flash完成同一个任务，Token价格不一样，效率也不一样。

“企业选型会核算整体的业务成本，而非对比Token的单价。”尚明栋说，研发人员做复杂功能开发时，在架构设计阶段，往往会选高参数、强推理能力的大模型；待业务逻辑定型后，再切换轻量化模型压缩开销，市场需求反向驱动各类Token形成分层定价体系。

九章云极在这个基础上设计了Token Plan。不同档位包含不同数量的Token和权益，买得越多，折扣越大。尚明栋直接把它比喻成“通信时代的数据包”：“你需要的Agent服务，后面都得调用不同的大模型，调用方式都是Token。”从计费逻辑上看，Token Plan就是AI时代的流量包。

一度算力等于多少

计费方式解决了“怎么收钱”的问题，但还有一个更底层的问题：算力本身怎么度量？

所有计算芯片的底层都可以抽象成浮点运算次数。九章云极据此定义了“一度算力”（DCU）：312 TFLOPS × 1小时。

这个定义的逻辑和电力行业如出一辙。电力的“度”把发电、输电、变电等中间环节全部抽象掉，用户不需要知道这度电是水力发的还是火力发的。“一度算力”要做的也是这件事：把芯片型号、架构差异、集群配置这些底层复杂度屏蔽掉，给算力一个标准化的度量衡。

水有水表，电有电表，煤气有煤气表。当算力也有了自己的“度”，它就从一堆铁疙瘩，变成了一种可以计量、可以定价、可以按需供应的公共资源。

但芯片和芯片之间的差距，远比发电厂之间的差距大。同样标称性能的芯片，实际推理效率可能差好几倍。

“Token这一层天然屏蔽了芯片的复杂度。”尚明栋说。终端客户只需关注Token对应的大模型能力、任务吞吐效率，无需关心推理底层搭载的是国产芯片还是海外芯片，异构硬件适配、算力调度优化是由算力服务商完成。

九章云极的做法是，以业界通用的浮点运算能力为基准定义“一度”，不同芯片通过实测数据换算相对值。例如，A100一小时约等于1度，H200约等于2.8度，国产芯片各有对应的换算系数。这是运营层面的工程折中。

有了“度”做输入端计量，Token做输出端计量，中间的效率空间就成了九章云极的利润区。

由此，这家公司给自己立了一个方向：持续推动Token成本下降，让算力变得更普惠。尚明栋在采访中反复提及一个词“普惠”：“什么叫普惠？让更多的人以更低的门槛和成本，去把AI能力或服务用起来，就实现了普惠。所以我们说按量收费，其实是实现普惠的一种方式。”

降本有几条路。硬件上，芯片每一代都在迭代，能效在持续提升。系统上，要打通“算、存、运”的协同。GPU忙得要死，存储却在空转，数据在HBM、DRAM、NVMe之间反复搬运，搬运本身成了瓶颈。把这些空转的资源重新利用起来，不需要额外投入硬件，就能释放出可观的产能。

“凡是出现空置，本质上就是资本的浪费。”尚明栋说。九章云极的工程实践就是从浪费中“榨”出价值。

比如，PD分离把prefill和decoding拆开处理，因为前者是计算密集型，后者是显存密集型。KV caching减少重复计算。部分模型做剪枝量化降低推理功耗，用MTP等算法做进一步加速。他提到，通过在合适的集群尺度上精细调度，能在保证模型质量的前提下，显著提高Token产出率。所有技术细节叠加在一起，最终落到一个用户可感知的指标：每百万Token的价格。同等模型、同等智能化程度下，九章的价格更低，生意就成立。

领跑者也要等红灯

Token的成本能降多少，不完全是工程问题。它同样取决于底层芯片的供给，而芯片恰好是当前全球AI产业链中变量最大的一层。

尚明栋援引了黄仁勋的一个分析框架，把AI产业链拆成“五层蛋糕”：电力、芯片、AI基础设施、大模型、智能体。他逐一判断：

在电力层，中国的优势明显，基础设施完善，供给充裕。他说，马斯克一度考虑把算力搬到太空，一个重要原因就是，美国地面电力基础设施的约束。

在芯片层，英伟达的存在让美国保持领先，但在供给受限的条件下，中国国产芯片正在快速追赶。

AI基础设施和大模型两层，差距都在缩小。DeepSeek每次打榜，都能在多个门类排进前二，推理成本只有同级别模型的十二分之一。

到了智能体层，中国拥有全球最齐全的工业门类和14亿消费者，落地场景的广度和密度都有天然优势。

一头一尾占优，中间三层差距不大且在缩小。基于这个格局，尚明栋提出了一判断：“红绿灯效应”。

“如果全是绿灯，领先的永远领先。”他说。但技术发展不是笔直的高速公路，领跑者为了探索未知方向，必须承担试错成本；追赶者可以沿着已验证的路径快速跟进。每一个技术瓶颈就是一个红灯，领先者停下来等待突破，追赶者就有了靠近的窗口。

这两条路径的差异，体现在对“普惠”的不同理解上：一条路径来自海外市场，追求能力天花板，相信AI一旦达到某个临界点，所有短板都可以弥补。另一条路径来自中国市场，追求成本地板，让尽可能多的人和行业先用起来，用规模化应用反哺技术迭代。

“如果你是美国人，如果你不相信有奇点的话，你会觉得非常绝望。”尚明栋说得很直白。他给出的数据佐证是，中国的日均Token消耗量已经超过美国，增速也更快。中国作为全球工业门类最齐全的国家，AI在toB场景的渗透空间远大于其他市场。

当然，产业生态需要多元化，自研厂商深耕底层技术突破，应用型厂商聚焦行业落地，两类主体互补共存，可避免全行业重复研发浪费，或是底层技术创新动力不足的问题，共同构建健康可持续的AI产业生态。