GLM-5 深夜发布：霸榜的“Pony Alpha”揭开面纱，Opus 4.6 让出榜首

两个小时前，智谱 AI 发布了 GLM-5。

这几天刷 OpenRouter 或 LMSYS 竞技场的人应该都注意到了一个匿名模型 "Pony Alpha"。它在过去几天里悄悄爬上了所有榜单的顶端，把上周刚发布的 Claude Opus 4.6 挤了下去。

GPT-5 偷跑？Claude 5 内测？Grok 新动作？全网猜了一圈。

答案是 GLM-5。国产模型，登顶了。

"Pony Alpha" 的真身

过去一周，一个代号 "Pony Alpha" 的匿名模型在 OpenRouter 上悄然上线，没有任何宣传，搜索和调用量却迅速冲到了第一。

开发者很快发现它在代码生成和复杂 Agent 任务上表现异常出色，长上下文的记忆保持也很扎实。

今晚智谱官方认领了它。"Pony" 这个代号是为 2026 马年埋的彩蛋——GLM-5。

Claude Opus 4.6 在 2 月 5 日发布，编程能力被广泛认可。但 GLM-5 的评测数据（来自 AICodeKing 及早期内测）直接把竞争拉到了新的水位线：

代理编程（Agentic Coding）

GLM-5 拿到 589 分，Opus 4.6 是 585 分。差距不算大，但在自主修 Bug、多文件编辑、复杂项目构建这些场景上，GLM-5 确实排到了第一。

API 成本

同等复杂度的编程任务，Opus 4.6 大约花费 6 美元以上，GLM-5 约 0.14 美元。差了 40 多倍。对于高频调用的开发者来说，这个价差很难忽视。

模型规模

GLM-5 参数量达到 7450 亿（745B），采用 MoE（混合专家）架构，相比 GLM-4 是数倍的提升。

响应速度

尽管参数量大幅增长，MoE 架构让实际推理延迟控制在了可用范围内，日常编程任务的响应体感和 Opus 4.6 接近。

GLM-5 的核心升级集中在编程和 Agent 能力上：

可以连续执行数十步操作而不丢失上下文。你丢给它一个模糊需求——"写一个愤怒的小鸟，但加上肉鸽元素"——它能从策划到代码实现到 Bug 修复，一路走完。

连接外部 API 的准确率有明显提升，对需要频繁调用工具的 Agent 场景来说是实质性改进。

年初 DeepSeek 搅动了一轮格局，Anthropic 紧接着用 Opus 4.6 回应，现在智谱用 GLM-5 拿下了榜首。这个节奏比去年快得多。

GLM-5 已在 chat.z.ai 上线，可以直接体验。

你觉得 GLM-5 能在榜首待多久？GPT-5.3 会不会很快反击？同时推出的 DeepSeek v4 和 MiniMax M2.5 又如何呢？

本文基于 2026 年 2 月 11 日晚最新发布资讯整理