额度与计费

核心概念

quota：内部计费单位。1 USD = 500,000 quota。你在后台看余额显示的是 USD 数字，底层记的是 quota 整数。
令牌（token）：你手上的 sk-xxx 字符串。一个账号可以建多个 token，每个 token 独立计额度 / QPS / IP 白名单。
账号（用户）：你的登录账户，决定总余额。所有 token 扣的钱最终都从账号余额扣。
分组（group）：决定倍率。创建 token 时选。

一次调用的完整扣费路径

客户端调 api.226-ai.com
        │
        ▼
new-api 鉴权，拿到令牌对应 user_id
        │
        ▼
按模型 + 请求参数路由到某条上游渠道
        │
        ▼
上游返回，统计 usage（prompt_tokens / completion_tokens /
                    cache_read_tokens / cache_creation_tokens）
        │
        ▼
扣费公式：
    quota = (prompt_tokens × 模型输入倍率
           + completion_tokens × 模型输入倍率 × 补全倍率
           + cache_read_tokens × 0.10 × 模型输入倍率
           + cache_creation_tokens × 1.25 × 模型输入倍率)
           × 分组倍率
        │
        ▼
从账号余额扣 quota
记录到 logs 表（channel_id / model / tokens / quota 全部留档）

模型倍率从哪来

new-api 内置了 Anthropic、OpenAI、Google 官方 API 的公开定价，自动换算出倍率。举例：

Claude Haiku 4.5 官方输入 $1/M → model_ratio = 0.5
- 0.5 是因为 1 USD × 500000 quota/USD ÷ 1000000 token = 0.5 quota/token
Claude Opus 4.7 官方输入 $15/M → model_ratio = 7.5
Claude 系列补全倍率统一 5（输出 $75/M ÷ 输入 $15/M = 5 倍）
OpenAI GPT-4o 官方输入 $2.5/M → model_ratio = 1.25

你不用背这些数字。在 console.226-ai.com → 运营设置 → 模型倍率可以看每个模型当前的倍率。

分组倍率

内测期只启用两种：

分组	倍率	推荐使用
`default`	1x（不加不减）	内测所有用户
`auto`	动态（new-api 按请求选最便宜通道）	自动路由优化

公测后会增设阶梯（1.5x / 2.5x / 2.9x）对应不同上游渠道品质。你作为内测用户只接触 default。

一个真实扣费样本

请求：claude-sonnet-4-6，消息 "写一段 Python 快排"（约 15 token），模型回 300 token，未命中缓存。

prompt_tokens        = 15
completion_tokens    = 300
cache_read_tokens    = 0
cache_creation_tokens = 0

模型倍率 (sonnet 4-6 输入)  = 1.5   (因为 sonnet 是 $3/M，1.5 quota/token)
补全倍率                  = 5

quota = (15 × 1.5 + 300 × 1.5 × 5 + 0 + 0) × 1       (default 分组)
     = (22.5 + 2250) × 1
     = 2272.5

≈ 2273 quota = $0.004546 ≈ 3 分钱

这一条调用从你账户里扣 3 分钱。

缓存的存在感

用 Claude Code 或带 cache_control 的 SDK，typical 连续使用场景：

场景	prompt	cache_read	cache_create	扣费直观
新仓库第一次问	15	0	3000（写入 system+context）	较贵（3000 × 1.25 × 1.5 = 5625 quota ≈ 1 分钱）
连续问第二次	15	3000（命中）	0	便宜（3000 × 0.10 × 1.5 = 450 quota ≈ 0.1 分）

结论：Claude Code 在一次会话里问 10 个问题，前 1-2 次 cache_creation 比较贵，后 8 次都走 cache_read 非常便宜。总体比你想象的省很多。

我怎么知道扣了多少

实时

调用响应里的 usage 字段：

json

{
  "usage": {
    "prompt_tokens": 15,
    "completion_tokens": 300,
    "total_tokens": 315,
    "prompt_tokens_details": {"cached_tokens": 0}
  }
}

但这个 usage 只是原始 token 数，没乘倍率。要看真实扣的 quota 去后台。

历史

console.226-ai.com → 日志。每条请求有：

id（对应我们数据库里的 log id）
时间
模型名
channel（走了哪条上游）
prompt / completion / cache_read / cache_create 各自的 token 数
quota（实际扣的）
总耗时

可按时间、模型、令牌过滤。

汇总

console.226-ai.com → 仪表板 看日/周/月汇总图表。

余额和充值

查余额

登 console.226-ai.com → 右上角显示当前剩余 quota（同时显示 USD 等值）。

内测期充值

不涉及。由管理员赠送，用完联系 TG 群。

公测后充值（规划中）

支付宝 / 微信（小额）
加密货币 USDT（中大额）
企业对公（大额，开发票）

令牌级限额

建令牌时可设：

总额度（token 自己的上限，从账号额度扣）
过期时间
QPM 上限（每分钟请求数，防 Cursor Agent 这类狂发）
模型白名单（只让这个 token 用特定模型）
IP 白名单（CIDR 格式，比如 1.2.3.0/24）

默认推荐：

无限额度（内测送）
无过期
QPM 60（够大部分客户端）
模型白名单留空
IP 白名单留空

异常扣费申诉

发现扣费数字离谱（比如短短一条请求扣了几毛钱），把 console.226-ai.com → 日志里那条记录的 ID 和截图发给管理员。内测期都是管理员赠送额度，有异常直接给你补。

公测后会有正式 SLA 定义"异常扣费"并退款。

扣费的透明承诺

我们保证：

扣费数字按 Anthropic / OpenAI / Google 官方公布 API 价 算（default 分组 1x）
不通过"虚增 token 数"方式加收（我们的成本在上游，不在于多扣用户）
日志里的 token 数 = 上游 API 返回的 usage
任何调价 / 倍率变动提前 72 小时公告

公测后如果你发现对同一请求扣费比直连官方 API 贵，直接发反馈，我们退差价 + 查 bug。

我们自己怎么赚的

透明讲：

Claude 请求大部分走 Max 订阅（$200/月扁平），我们赚"订阅无限 vs API 按量"的价差
Gemini / 少量 Claude 冗余走商业中转，我们赚"批发 vs 零售"的价差
分组倍率（公测后引入）赚 "premium 通道加价"

所以我们的毛利和你用多少 token 没强关系——你用得越多，我们的订阅规模经济越好。这是正和模型，不是坑你钱。

额度与计费 ​

核心概念 ​

一次调用的完整扣费路径 ​

模型倍率从哪来 ​

分组倍率 ​

一个真实扣费样本 ​

缓存的存在感 ​

我怎么知道扣了多少 ​

实时 ​

历史 ​

汇总 ​

余额和充值 ​

查余额 ​

内测期充值 ​

公测后充值（规划中） ​

令牌级限额 ​

异常扣费申诉 ​

扣费的透明承诺 ​

我们自己怎么赚的 ​