作者|周雅

就在三个月前的3月份,中国日均Token调用量突破140万亿,这个数字相比两年前增长了1000倍。与此同时,行业里流传着另一个数字:智算集群的有效算力利用率,平均不到20%。

需求在指数级爆发,生产端却有八成产能在空转,这个落差里,藏着整个AI基础设施行业最核心的问题。

九章云极联合创始人兼COO尚明栋在MWC上海2026期间,接受了科技行者的专访,他所描述的,正是填补这个落差的方法论。


把包车变成打车

今天,一个企业级Agent接到“分析上月销售数据并做业绩对比”的任务,需要拆解成七八个步骤,一次文件分析消耗几万到几十万Token。视频生成更甚,一段30秒的2K视频,单次可能消耗几百万甚至上亿Token。而就在两年前,大多数人和AI的交互还停留在问几个简单问题,每次不过几十个Token。

“行业Token整体消耗量,相较两年提升千倍,但实际使用主体规模仅增长一两百个百分点。”尚明栋说,行业变化的核心,不是使用人群扩张,而是单一企业、单一业务的AI算力消耗提升了。

问题随之而来:谁来生产这些Token,怎么定价?

早期的算力市场很粗放,就是芯片堆机器,按时间收费。你租一台GPU服务器,按月付钱,用不用都得付。尚明栋把它比作包车:不管你坐不坐,车都开着等你,按小时计费。大模型时代一台GPU服务器的月租是几万甚至几十万,这和“普惠”背道而驰。此可谓第一阶段。

九章云极做的第一件事是“把包车变成打车”。通过自研的弹性算力平台,用户按实际消耗付费,资源随用随放。对用户来说,体验从长租变成了叫滴滴。这是第二阶段。

今年,行业进入第三阶段:Token时代。计费单位不再是TFLOPS或GPU小时数,而是Token本身。一个Token的价格里叠加了电力、算力、大模型三层成本,不同模型产出的Token“含金量”不同。用DeepSeek V4 Pro和V4 Flash完成同一个任务,Token价格不一样,效率也不一样。

“企业选型会核算整体的业务成本,而非对比Token的单价。”尚明栋说,研发人员做复杂功能开发时,在架构设计阶段,往往会选高参数、强推理能力的大模型;待业务逻辑定型后,再切换轻量化模型压缩开销,市场需求反向驱动各类Token形成分层定价体系。

九章云极在这个基础上设计了Token Plan。不同档位包含不同数量的Token和权益,买得越多,折扣越大。尚明栋直接把它比喻成“通信时代的数据包”:“你需要的Agent服务,后面都得调用不同的大模型,调用方式都是Token。”从计费逻辑上看,Token Plan就是AI时代的流量包。


一度算力等于多少

计费方式解决了“怎么收钱”的问题,但还有一个更底层的问题:算力本身怎么度量?

所有计算芯片的底层都可以抽象成浮点运算次数。九章云极据此定义了“一度算力”(DCU):312 TFLOPS × 1小时。

这个定义的逻辑和电力行业如出一辙。电力的“度”把发电、输电、变电等中间环节全部抽象掉,用户不需要知道这度电是水力发的还是火力发的。“一度算力”要做的也是这件事:把芯片型号、架构差异、集群配置这些底层复杂度屏蔽掉,给算力一个标准化的度量衡。

水有水表,电有电表,煤气有煤气表。当算力也有了自己的“度”,它就从一堆铁疙瘩,变成了一种可以计量、可以定价、可以按需供应的公共资源。

但芯片和芯片之间的差距,远比发电厂之间的差距大。同样标称性能的芯片,实际推理效率可能差好几倍。

“Token这一层天然屏蔽了芯片的复杂度。”尚明栋说。终端客户只需关注Token对应的大模型能力、任务吞吐效率,无需关心推理底层搭载的是国产芯片还是海外芯片,异构硬件适配、算力调度优化是由算力服务商完成。

九章云极的做法是,以业界通用的浮点运算能力为基准定义“一度”,不同芯片通过实测数据换算相对值。例如,A100一小时约等于1度,H200约等于2.8度,国产芯片各有对应的换算系数。这是运营层面的工程折中。

有了“度”做输入端计量,Token做输出端计量,中间的效率空间就成了九章云极的利润区。

由此,这家公司给自己立了一个方向:持续推动Token成本下降,让算力变得更普惠。尚明栋在采访中反复提及一个词“普惠”:“什么叫普惠?让更多的人以更低的门槛和成本,去把AI能力或服务用起来,就实现了普惠。所以我们说按量收费,其实是实现普惠的一种方式。”

降本有几条路。硬件上,芯片每一代都在迭代,能效在持续提升。系统上,要打通“算、存、运”的协同。GPU忙得要死,存储却在空转,数据在HBM、DRAM、NVMe之间反复搬运,搬运本身成了瓶颈。把这些空转的资源重新利用起来,不需要额外投入硬件,就能释放出可观的产能。

“凡是出现空置,本质上就是资本的浪费。”尚明栋说。九章云极的工程实践就是从浪费中“榨”出价值。

比如,PD分离把prefill和decoding拆开处理,因为前者是计算密集型,后者是显存密集型。KV caching减少重复计算。部分模型做剪枝量化降低推理功耗,用MTP等算法做进一步加速。他提到,通过在合适的集群尺度上精细调度,能在保证模型质量的前提下,显著提高Token产出率。所有技术细节叠加在一起,最终落到一个用户可感知的指标:每百万Token的价格。同等模型、同等智能化程度下,九章的价格更低,生意就成立。


领跑者也要等红灯

Token的成本能降多少,不完全是工程问题。它同样取决于底层芯片的供给,而芯片恰好是当前全球AI产业链中变量最大的一层。

尚明栋援引了黄仁勋的一个分析框架,把AI产业链拆成“五层蛋糕”:电力、芯片、AI基础设施、大模型、智能体。他逐一判断:

在电力层,中国的优势明显,基础设施完善,供给充裕。他说,马斯克一度考虑把算力搬到太空,一个重要原因就是,美国地面电力基础设施的约束。

在芯片层,英伟达的存在让美国保持领先,但在供给受限的条件下,中国国产芯片正在快速追赶。

AI基础设施和大模型两层,差距都在缩小。DeepSeek每次打榜,都能在多个门类排进前二,推理成本只有同级别模型的十二分之一。

到了智能体层,中国拥有全球最齐全的工业门类和14亿消费者,落地场景的广度和密度都有天然优势。

一头一尾占优,中间三层差距不大且在缩小。基于这个格局,尚明栋提出了一判断:“红绿灯效应”。

“如果全是绿灯,领先的永远领先。”他说。但技术发展不是笔直的高速公路,领跑者为了探索未知方向,必须承担试错成本;追赶者可以沿着已验证的路径快速跟进。每一个技术瓶颈就是一个红灯,领先者停下来等待突破,追赶者就有了靠近的窗口。

这两条路径的差异,体现在对“普惠”的不同理解上:一条路径来自海外市场,追求能力天花板,相信AI一旦达到某个临界点,所有短板都可以弥补。另一条路径来自中国市场,追求成本地板,让尽可能多的人和行业先用起来,用规模化应用反哺技术迭代。

“如果你是美国人,如果你不相信有奇点的话,你会觉得非常绝望。”尚明栋说得很直白。他给出的数据佐证是,中国的日均Token消耗量已经超过美国,增速也更快。中国作为全球工业门类最齐全的国家,AI在toB场景的渗透空间远大于其他市场。

当然,产业生态需要多元化,自研厂商深耕底层技术突破,应用型厂商聚焦行业落地,两类主体互补共存,可避免全行业重复研发浪费,或是底层技术创新动力不足的问题,共同构建健康可持续的AI产业生态。

/04/

在每个阶段找到落地方式

正是在全球多元化的环境下,九章云极布局海外算力业务已两年半,核心区域锁定东亚、东南亚、中东、西欧,尚明栋告诉我们,这里头遵循了三个标准:

第一,当地工业化进程达到一定阶段,企业具备AI数智化升级需求,有真实的算力消费市场;

第二,当地配套完善的AIDC机房、供电、网络等底层基础设施,算力硬件落地后,能快速投入使用;

第三,双边经贸合作稳定、营商环境成熟,具备长期产业合作基础。

尚明栋还凝练了一个全球化扩张的方法论:“借船”。九章云极擅长智算云的建设和运营,但到了新市场,资质合规、本地资源对接不可能从头做起,因此,通常和当地电信运营商或大资方合作,这些合作伙伴有资金、有政府关系、熟悉本地法规,能整合AIDC建设所需的各类资源。

不过眼下,九章云极的海外业务在早期布局阶段。尚明栋指出,公司当前的重点仍是深耕国内市场,业务发展良好,驱动力来自行业对AI落地需求的持续增长。

基于此,九章云极给自己设定的下一个里程碑是,算力纳管规模达到10万P,日均Token消耗量达到10万亿。在这个体量之上,平台要能支撑1000个以上的产业模型运行,同时在三年内把Token的平均成本再降1000倍。

这家成立于2013年的公司,经历了几轮变迁:最初做的是,一个放在云上的建模平台。后来发现,数据的出域问题是一个门槛,就把平台搬进去做私有化部署,服务了银行、证券、运营商、能源等一批行业客户。大模型来了之后范式转移,他们选了AI基础设施这条路。理由很简单:任何行业要长远发展,地基得先打牢。

尚明栋说,13年前,公司定的使命是八个字:“创造智能,探索未知”。到了今天,使命未变,变的是每个阶段找到的落地方式。