全国客服电话
13555555555
产品中心
PRODUCT CENTER
全国客服电话
13555555555

当前位置: 网站首页 > 新闻动态 > 行业动态

谁在消耗5万亿模型算力?

发布时间:2026-03-08 14:55:23 点击量: 8


2026年2月9日至2月15日,在线人工智能托管平台OpenRouter发布了一组数据:中国大模型的单周调用量达到4.12万亿Token,历史上首次超过美国模型的2.94万亿Token。 OpenRouter是一个聚合全球大模型接口的平台,被称为人工智能界的“超级接口”。开发者不需要逐一去注册大模型公司的账号,只需通过该平台的统一接口,就能自由调用全球各家公司推出的各类模型,因此,该平台的使用量数据通常被视为全球大模型受欢迎程度和真实应用强度的风向标。 紧接着的2月16日至2月22日这一周,中国大模型的周调用量进一步冲高至5.16万亿Token,三周内增长了127%,在当周全球大模型周调用量排名前五的榜单中,MiniMax M2.5、月之暗面Kimi K2.5、智谱GLM-5与深度求索DeepSeek V3.2占据了四个席位。 根据官方用户数据,在OpenRouter平台近47.17%的用户来自美国、中国开发者仅占6.01%的背景下,这组数据反映出海外开发者对中国模型的使用意愿正在快速上升。 Token是人工智能处理语言的基本单元。在算力市场中,Token调用量是衡量大模型使用强度、商业价值与渗透深度的核心指标,海外开发者对中国模型的高频调用,标志着人工智能产业的重心正在发生转移,行业不再单纯比拼构建大模型时的“一次性训练成本”,而是进入了高频度、常态化的“应用推理”阶段。 应用重心的迁移直接导致了下游采购标准的转向,国产AI芯片厂商也由此获得了加快进入市场的机会。 要厘清这五万亿Token的去向,首先需要观察用户使用人工智能的方式发生了什么变化。 根据OpenRouter与风险投资机构a16z联合发布的《2025 AI使用报告》,该平台处理的编程任务Token占比已从2025年初的11%增加到了50%以上,成为最大的单一使用品类。这一转变背后,是人工智能应用模式从“问答式”向“智能体(Agent)”模式的切换。 在早期的问答模式下,用户提一个问题,模型给出一个回答,单次交互消耗的Token通常在几百到几千个之间。一旦用户停止提问,消耗也就随之停止。但进入智能体模式后,人工智能开始在后台持续执行多步骤任务。 上海一家算力芯片厂商的负责人告诉记者,以编程场景为例,一个智能体在接收到指令后,会经历编写代码、运行测试、识别报错、自我修正、再次运行的循环,为了让机器记住此前的操作,每次调用都需要携带完整的对话历史。 比如,目前国产大模型诸如智谱GLM-5等新一代模型已经支持200K(约20万Token)的超长上下文窗口。这种多轮自我修正和工具链级联的模式,使得单次活跃会话的Token吞吐量呈几何级数增长。 另外,多模态应用的落地则进一步推高了消耗量。根据公开数据,年初爆火的Seedance 2.0视频模型生成一条10秒、1080p规格的视频,大约需要消耗35万Token。 视频生成场景单位时间内产生的Token消耗,是传统文本问答的数百倍。 “当前数万亿Token级别的调用量,已不再主要由测试性场景构成,而是由一批高频、规模化、可持续付费的商业应用所支撑。”弗若斯特沙利文(Frost & Sullivan)中国业务主管合伙人兼董事总经理陆景向经济观察报记者表示。 陆景介绍,从头豹研究院对国内大模型商业生态的调研来看,目前集中买单的领域主要包括互联网、金融、跨境电商与娱乐行业。 这些行业的共同特征是,业务流程中存在高比例的文本或多模态内容生成需求,且企业能够承接大模型服务产生的算力成本。 2026年2月10日,在郑州举行的“国产万卡算力赋能大模型发展研讨会”上,中国科学院自动化所研究员陈盈盈表示,驱动行业发展的核心动力依然是大算力、大数据与大参数。但随着模型参数量增长带来的性能提升进入瓶颈期,行业正迈向智能体、合成数据和推理计算,数据决定了人工智能的高度,环境将决定模型演进的方向。 应用模式的改变,解释了调用量为何飙升,那为何国产大模型又能在新的范式下,承接住来自全球高频的调用需求呢? 前述算力芯片厂商负责人告诉记者,目前,MiniMax M2.5、Kimi K2.5等国产模型普遍采用了“混合专家(MoE)”架构。与传统的稠密模型(Dense Model)在每次运算时都要激活全部参数不同,MoE架构通过按需激活特定的专家网络,使推理时的显存占用降低了约60%,吞吐量得到显著提升。 稠密模型的设计逻辑是,处理每一个输入请求时,神经网络中的每一个参数都必须参与计算。这意味着随着模型规模的增大,所需的算力与显存开销会同步呈线性增长。 混合专家架构则改变了这种全量运算的模式,它将模型参数划分为多个功能组,即“专家”,在执行具体任务时,路由系统会识别需求并只激活与之相关的部分参数。这种分工机制使得模型可以在保持巨大参数量的同时,大幅降低单次推理所