额度与计费
核心概念
- quota:内部计费单位。
1 USD = 500,000 quota。你在后台看余额显示的是 USD 数字,底层记的是 quota 整数。 - 令牌(token):你手上的
sk-xxx字符串。一个账号可以建多个 token,每个 token 独立计额度 / QPS / IP 白名单。 - 账号(用户):你的登录账户,决定总余额。所有 token 扣的钱最终都从账号余额扣。
- 分组(group):决定倍率。创建 token 时选。
一次调用的完整扣费路径
客户端调 api.226-ai.com
│
▼
new-api 鉴权,拿到令牌对应 user_id
│
▼
按模型 + 请求参数路由到某条上游渠道
│
▼
上游返回,统计 usage(prompt_tokens / completion_tokens /
cache_read_tokens / cache_creation_tokens)
│
▼
扣费公式:
quota = (prompt_tokens × 模型输入倍率
+ completion_tokens × 模型输入倍率 × 补全倍率
+ cache_read_tokens × 0.10 × 模型输入倍率
+ cache_creation_tokens × 1.25 × 模型输入倍率)
× 分组倍率
│
▼
从账号余额扣 quota
记录到 logs 表(channel_id / model / tokens / quota 全部留档)模型倍率从哪来
new-api 内置了 Anthropic、OpenAI、Google 官方 API 的公开定价,自动换算出倍率。举例:
- Claude Haiku 4.5 官方输入 $1/M →
model_ratio = 0.50.5是因为1 USD × 500000 quota/USD ÷ 1000000 token = 0.5 quota/token
- Claude Opus 4.7 官方输入 $15/M →
model_ratio = 7.5 - Claude 系列 补全倍率统一
5(输出 $75/M ÷ 输入 $15/M = 5 倍) - OpenAI GPT-4o 官方输入 $2.5/M →
model_ratio = 1.25
你不用背这些数字。在 console.226-ai.com → 运营设置 → 模型倍率 可以看每个模型当前的倍率。
分组倍率
内测期只启用两种:
| 分组 | 倍率 | 推荐使用 |
|---|---|---|
default | 1x(不加不减) | 内测所有用户 |
auto | 动态(new-api 按请求选最便宜通道) | 自动路由优化 |
公测后会增设阶梯(1.5x / 2.5x / 2.9x)对应不同上游渠道品质。你作为内测用户只接触 default。
一个真实扣费样本
请求:claude-sonnet-4-6,消息 "写一段 Python 快排"(约 15 token),模型回 300 token,未命中缓存。
prompt_tokens = 15
completion_tokens = 300
cache_read_tokens = 0
cache_creation_tokens = 0
模型倍率 (sonnet 4-6 输入) = 1.5 (因为 sonnet 是 $3/M,1.5 quota/token)
补全倍率 = 5
quota = (15 × 1.5 + 300 × 1.5 × 5 + 0 + 0) × 1 (default 分组)
= (22.5 + 2250) × 1
= 2272.5
≈ 2273 quota = $0.004546 ≈ 3 分钱这一条调用从你账户里扣 3 分钱。
缓存的存在感
用 Claude Code 或带 cache_control 的 SDK,typical 连续使用场景:
| 场景 | prompt | cache_read | cache_create | 扣费直观 |
|---|---|---|---|---|
| 新仓库第一次问 | 15 | 0 | 3000(写入 system+context) | 较贵(3000 × 1.25 × 1.5 = 5625 quota ≈ 1 分钱) |
| 连续问第二次 | 15 | 3000(命中) | 0 | 便宜(3000 × 0.10 × 1.5 = 450 quota ≈ 0.1 分) |
结论:Claude Code 在一次会话里问 10 个问题,前 1-2 次 cache_creation 比较贵,后 8 次都走 cache_read 非常便宜。总体比你想象的省很多。
我怎么知道扣了多少
实时
调用响应里的 usage 字段:
{
"usage": {
"prompt_tokens": 15,
"completion_tokens": 300,
"total_tokens": 315,
"prompt_tokens_details": {"cached_tokens": 0}
}
}但这个 usage 只是原始 token 数,没乘倍率。要看真实扣的 quota 去后台。
历史
console.226-ai.com → 日志。每条请求有:
- id(对应我们数据库里的 log id)
- 时间
- 模型名
- channel(走了哪条上游)
- prompt / completion / cache_read / cache_create 各自的 token 数
- quota(实际扣的)
- 总耗时
可按时间、模型、令牌过滤。
汇总
console.226-ai.com → 仪表板 看日/周/月汇总图表。
余额和充值
查余额
登 console.226-ai.com → 右上角显示当前剩余 quota(同时显示 USD 等值)。
内测期充值
不涉及。由管理员赠送,用完联系 TG 群。
公测后充值(规划中)
- 支付宝 / 微信(小额)
- 加密货币 USDT(中大额)
- 企业对公(大额,开发票)
令牌级限额
建令牌时可设:
- 总额度(token 自己的上限,从账号额度扣)
- 过期时间
- QPM 上限(每分钟请求数,防 Cursor Agent 这类狂发)
- 模型白名单(只让这个 token 用特定模型)
- IP 白名单(CIDR 格式,比如
1.2.3.0/24)
默认推荐:
- 无限额度(内测送)
- 无过期
- QPM 60(够大部分客户端)
- 模型白名单留空
- IP 白名单留空
异常扣费申诉
发现扣费数字离谱(比如短短一条请求扣了几毛钱),把 console.226-ai.com → 日志里那条记录的 ID 和截图发给管理员。内测期都是管理员赠送额度,有异常直接给你补。
公测后会有正式 SLA 定义"异常扣费"并退款。
扣费的透明承诺
我们保证:
- 扣费数字按 Anthropic / OpenAI / Google 官方公布 API 价 算(default 分组 1x)
- 不通过"虚增 token 数"方式加收(我们的成本在上游,不在于多扣用户)
- 日志里的 token 数 = 上游 API 返回的 usage
- 任何调价 / 倍率变动提前 72 小时公告
公测后如果你发现对同一请求扣费比直连官方 API 贵,直接发反馈,我们退差价 + 查 bug。
我们自己怎么赚的
透明讲:
- Claude 请求大部分走 Max 订阅($200/月扁平),我们赚"订阅无限 vs API 按量"的价差
- Gemini / 少量 Claude 冗余走商业中转,我们赚"批发 vs 零售"的价差
- 分组倍率(公测后引入)赚 "premium 通道加价"
所以我们的毛利和你用多少 token 没强关系——你用得越多,我们的订阅规模经济越好。这是正和模型,不是坑你钱。