随着 AI 辅助(甚至主导的)编程工具的快速发展,市面上出现了众多编码套餐产品。笔者在过去几个月内,深入使用并探索了几款主流的编码套餐,希望分享一些使用体验和对比分析——价格什么的会一笔带过,这一系列文章主要着重于这些编码套餐提供的端口及在各个运行环境(Harness)中的差异,本篇着重于笔者尝试过的编码套餐(Coding Plan),下一篇着重于它们与运行环境(Harness)的配合。
在公司的支持和各种大语言模型供应商、云厂商的活动的优惠下,从 2025 年 10 月至今,按照时间顺序,笔者主要尝试了以下几款编码套餐:
- Claude Code 订阅(Anthropic 官方的 20 刀月度订阅,还使用了大约 1000 刀按需付费的额度)
- Cursor Pro 订阅(20 刀月度订阅)
- 智谱 Z.ai GLM 的 Coding Plan(用的是轻量版,做活动时候入的年度套餐,实付 192 元,折合一个月 16 元)
- Google 的 Antigravity 提供的 Gemini 系列(主要是免费额度,偶尔体验一下,没有付费)
- OpenAI 的 Codex(主要是免费额度,偶尔体验一下,没有付费)
- 阿里云百炼的 Coding Plan(首月 2 折的 200 元人民币套餐,实付 40 元)
- 联通元景 MaaS 平台的 Coding Plan(49 元人民币套餐,首月 30 元)
- 联通云的 Coding Plan(首月免费,后续应该是 40 元每月)
这里主要从各个套餐支持的模型、上下文长度、视觉能力来进行对比分析,至于 thinking/reasoning 模式的差异,感觉并没有特别明显的区别,可能是因为大部分模型在 DeepSeek 研究出来之后,在这方面的能力都已经发展得比较成熟了。
Anthropic 的 Claude Code 套餐
这就是使用 Claude Code 的原生模型套餐了,可以使用 Haiku(最小最快)、Sonnet、Opus(最大最慢)所有三种模型的最新版本,除了 20 刀的用量限制确实不太够,但好在有按量付费的选项,虽然价格不便宜,但对于觉得自己的代码在改变世界用户来说,还是非常值得的。
最早笔者在使用的时候,三种模型都还是只支持 200K 的上下文长度,后来随着新模型(4.6 系列)的发布,出来 Haiku 模型之外,都升级到了 1M 的上下文长度了,虽然在实际使用中,Haiku 模型的速度和效率已经足够应付大部分任务了,但对于一些需要处理大量代码或者文档的任务来说,长上下文的模型还是非常有用的。
值得注意的是,Claude 的模型全线支持视觉能力,因此在一些需要处理图片或者图表的编程任务中,它们在 Claude Code 的表现也非常不错,可以直接在对话中上传图片,让模型原生地分析和理解,非常方便。
唯一的缺点就是贵和用量少,但是这可能是笔者的缺点——没钱。
Cursor 订阅
Cursor 作为以 Coding IDE 起家的公司,对各个模型供应商 OpenAI、Anthropic、Gemini 甚至 Grok 等的支持都比较丰富,但毕竟是第三方,能够提供的用量会更少。好在基于 DeepSeek 的 Composer 1.5 和基于 Kimi 的 Composer 2 的模型表现也都不错,虽然上下文长度都是在 200K 的范围,但智能对于大部分日常的编程任务来说已经足够了。如果想使用 1M 上下文的模型,就需要开启 Max 模式,然后成倍消耗用量了。不过好在 Cursor 的 tab 补全基本上是不限量的,非常方便,十分适合传统手艺人程序员。
但由于模型丰富,选择上也比较混乱,比如一个 GPT-5.1-Codex 就有十几种变体,是 Mini、Max 和 Low、High、Extra High 等思考模式的组合,如果不用自动模式,着实是难以管理和抉择。
视觉能力方面,Cursor 的模型基本上都是支持的,让人不由得怀疑列表里都是 Cursor 优选后的模型,也算是十分用心了,毕竟是一站式体验,非常让用户省心、也能保证企业用户的一致的、开箱即用的体验。
智谱 Z.ai GLM
智谱作为“大语言模型第一股”,话题度一直都挺高的,而且他们也是最早推出编码套餐的国内厂商之一了,模型本身也是开源的,用量方面也相对充足,轻量(Lite)版套餐就宣称有 3 倍的 Claude Pro 的用量。只是从 Zhipu 到 Z.ai 的国际化转型有点迷惑和突然,同事甚至还吐槽过 GLM 本身由于数据截止日期的原因,不知道 Z.ai 是什么东西。
效果上来说,笔者主用的 GLM-4.7 的生成速度还是可以的,一般都能到 80 到 100 tokens/s 的水平。上下文长度方面,GLM-4.7 是 200K,GLM-5、GLM-5.1 也都是 200K 的,和前期的的 Anthropic Claude 模型一致,所以可以很方便的直接放在 Claude Code 中假装 Claude Haiku 来使用——实际上也如此,在 Claude Code 中可以只配置 Anthropic 兼容的 API 端点和 API 密钥,无需更改模型就可以直接使用,这个之后在 Claude Code 的环境部分再细讲。
模型参数上也是平衡得相对较好的——GLM-4.7 是和 GLM-4.5 一样的 355B 参数、混合专家模型,有 32B 激活参数;而 GLM-5 来到了 744B 的参数,其中有 40B 的激活参数。个人感觉是在 MiniMax、Kimi 这三家中,参数总量和激活参数平衡的比较好的,既保证了模型的能力,又没有过度牺牲效率。而且比较值得吐槽的是,也不知道是 Anthropic 忘记了还是心虚,在指责中国厂商蒸馏 Claude 的数据的时候,没有附带上智谱。
视觉能力方面,所有近期的模型,只要不特意加 V 后缀,都是没有视觉能力的,如果是那种默认模型就该带有视觉的 IDE(比如 Trae 的自定义模型、或者 Cursor),就会出现“不支持的 API 参数”的错误。官方提供的是通过配置视觉理解 MCP 服务器来支持视觉能力的,每月限制免费调用 100 次(和 WebSearch 搜索服务、WebFetch 拉取网页服务一起计费),虽然也能用,但感觉有点麻烦了。
另外,在使用过程中值得吐槽的点有不少:
- 比如轻量版套餐用户最近才刚刚收到 GLM-5 的升级,与之一起到来的还有 GLM-5-Turbo 和 GLM-5.1 的使用,具体的模型细节还不清楚,可以之后再关注一下。
- 还有就是早期策略的问题:在 OpenClaw 刚开始火的时候,笔者尝试使用了 GLM 的套餐用来测试,效果还不错,但是几天后收到了限制使用的警告——说是只允许在编码工具中使用;虽然后来国内开始了全民养龙虾的热潮,智谱这边也就放开了限制,甚至在官方配置文档里和 OpenClaw 里明确支持了使用编码套餐来跑 OpenClaw,但对笔者来说就十分迷惑了。但不得不说,文档的质量和覆盖也是可圈可点的,除了默认给的方案是通过 npm 安装他们的自动配置 CLI 工具之外,还是非常方便用户使用的。
- 另外,由于算力资源的限制,所有套餐的并发数都限制得很死,基本上很难同时跑多任务、或者跑多个 sub-agent 了。
- 还有最近的问题就是,在 Claude Code 中使用时,由于近期 Claude 的模型已经支持了 1M 上下文,环境会默认使用 1M 上下文的模型来运行,但 GLM-5 和 GLM-5.1 的上下文长度都是 200K 的,所以在实际使用中会经常遇到类似“请求的上下文长度超过了模型的最大上下文长度”的错误,虽然可以强制模拟成 Haiku 模型来使用,但总感觉有点尴尬了。
阿里云百炼
这个套餐是在新年首月活动购入的,价格上确实非常有吸引力,原价是 200 元人民币,首月 2 折只需要 40 元,用量是每月 90000 次调用,我最终通过逆向苹果的 Rosetta 2 等用途,消耗掉了 90% 的用量。
模型方面,百炼的编码套餐目前支持了不少模型,其中最别致的就是他们自家闭源的 Qwen3.5 Plus——有 1M 的上下文、有视觉理解,生成速度也很可观,并发数也没有限制,是我主力使用的。其他的基本上都是开源模型,比如 200K 上下文的 GLM-4.7 和 GLM-5(同样无视觉能力)、200K 上下文的 MiniMax-M2.5(无视觉能力)、200K 上下文的 Kimi K2.5(原生支持视觉能力)、260K 上下文的 Qwen3 Max、Qwen3 Coder Next(原生支持视觉能力)和同样 1M 上下文的上代 Qwen3 Coder Plus 等等,虽然也都还不错,但感觉没有 Qwen3.5 Plus 那样的大上下文和均衡了。文档也相对较全,非常方便用户使用,唯一的槽点是用量监测页面很容易碰到悬停显示的账户浮窗,这时刷新按钮就会被“退出登录”按钮覆盖,很容易误触到、就需要重新登录了。
也是通过这个订阅,笔者能够测试多个开源模型供应商的模型——最主要的就是 MiniMax 和 Kimi。关于参数量:MiniMax 的 M2.5 是 229B 的混合专家、10B 激活参数,确实两边都有点太小了;而 Kimi 是 1T 总参数的混合专家、32B 的激活参数。综合来说,如果让笔者挑选开源模型来本地部署,会选择中庸的 GLM-5,但由于已经有了 GLM 自家的套餐。
最终笔者还是在 Qwen3.5 Plus 之后,选择了 Kimi K2.5 来作为这个次主力模型,它本身的带有的原生视觉能力,也非常适合在 UI 编程中用来给它提供反馈。笔者也在等一个时机(优惠),看如何购入 Kimi 的编码套餐。
Google Antigravity Gemini 系列
这个套餐本身用的就是 Antigravity 的每周免费额度,模型本身的能力还是可以的、并且还提供一些 Anthropic Claude 等的免费用量。但是 Google 家的用量是捆绑其他东西一起销售的,所以笔者和笔者公司都没有选择购入。
没有详细研究它的参数和用量,但是如果只使用 Gemini 3 Flash 来说,还是能用挺久的,而且它提供的这些模型也都支持视觉能力。笔者为 libvirt 添加 macOS Virtualization.framework 后端时,就全程使用 Antigravity 的内置模型和环境来编码,从最终实现出来的功能来看,还是不错的,但是也需要大量的人工介入,因为模型确实不太能胜任完全创新的编程任务。
OpenAI Codex
OpenAI 官方推出的 Codex 也有不少的每周免费额度,但是总觉得现在的 OpenAI 模型已经被 Anthropic 的模型拉出一定的差距了,虽然最近从 OpenAI 5.1 一路飙升至 5.4 的版本,但用起来还是和 Claude 的模型有一定的差距。用起来也是相对比较简单的,下载 Codex app 或者安装 VS Code 的 Codex 扩展、登陆认证就可以直接使用了。
联通元景 MaaS 平台
这个平台一言难尽,宣传上说的是 30 元每月(原价 49 元)就可以 GLM-5 不限量使用,但实际上是有限流策略的:“订单开通后每5小时模型最多调用3000次,相当于Claude Pro 套餐用量的 6 倍”。它的主要问题在于,最近在 Claude Code 中直接使用这个兼容 API 端点和 API 密钥,会直接提示敏感内容(可能是 Claude Code 的系统提示词问题吧),导致完全无法使用:
1 | { |
测试了一下,普通的 API 使用则没有问题:
1 | import os |
然后,笔者就把它仅仅放在 OpenClaw 中使用了。但是它的单位时间的吞吐量非常有限、并且由于服务器在国内、延迟高,基本上只能当一个智能聊天机器人来用,基本完全无法胜任真正的编码套餐的角色了。
最大的迷惑点是它的配置和监测界面:它没有快捷配置页面,用户需要自行到“模型广场”——一个列出了各种各样、五花八门的开源模型的网页,然后打开 GLM-5 模型的子页面,下翻到最后才能找到 Anthropic 兼容 API 端点;然后 API 密钥又是在一个点击很多步骤才能看到的 API 应用管理界面才能找到;最难的是完全没找到它在哪里查看 5 小时用量,只有一个 API 调用日志,但可观测性页面做的不错,甚至可以看到每次调用的输入和模型的输出,但这同时也意味着对管理员来说、用户完全没有隐私。
联通云
联通云是免费领取的单月套餐、价值 40 元每月,但是实际使用起来是最差的。首先,在配置页面就很难找到编码套餐是在哪个地理位置开的,笔者订阅时只有一个区域,现在好像又多了一个,每个区的 API 端点都是不同的,甚至有的还包含了看起来非常随机的端口号,8443 是其中最正常的了。往往需要试错才能找到正确的区域对应的 API 端点(和服务所在区域)。
其次,它的响应速度非常慢、连笔者部署在上海、给朋友用的 OpenClaw 体验都很差,后来还经常莫名其妙提示速率限制,连当作一个聊天机器人来用都不太行。
但第一个月并没有花钱,还白送了一个月 Windows 云服务器(虽然只能用他们自己的远程桌面客户端访问)、和一个月的 Linux 云服务器(两个都预装了 OpenClaw 和 OpenCode),也能看出他们是想努力通过 AI 来推广他们的云服务器的,虽然效果可能不怎么样(在笔者这里甚至起到了反效果)。
但不得不说,模型的支持上面还是挺用心的,基本上主流的模型都有支持,并且还支持了多个开源模型供应商的模型,比如 MiniMax、Kimi、Qwen 等;文档的质量和覆盖也可圈可点,非常方便用户使用 Claude Code 和 OpenClaw 这类工具。可惜由于服务质量,基本处于不可用的状态。
总结
综合来说,对于性价比之选,笔者最推荐的还是阿里云百炼的编码套餐,其次是智谱 Z.ai GLM 的轻量版套餐,最不推荐的是联通元景 MaaS 平台和联通云的编码套餐,不差钱的请直接购入 Anthropic 的 Claude Code 订阅。
下一篇将着重于它们与运行环境(Harness)的配合,敬请期待。