用 ByteSpike 搭建 AI 客服路由系统

如何用 Haiku 做客服分流、Sonnet 写回复、Opus 处理升级，全部在一把 key 后面，成本可预判。

2026年5月9日KL8 分钟阅读

客服是 AI 网关回报率最高的场景之一。每条模型能分流的工单，省人类一分钟。量大了，分钟变成一个人。但模型选择极其重要：用同一个贵模型做分流和写回复，等于让主力工程师去分信件。

第一层：Haiku 4.5 分流

Haiku 4.5 每 1M input ~$1，200ms 内分一条工单。Prompt 分三个桶：自助解决、坐席回复、升级。这一层 prompt caching 最划算。

Sonnet 4.6 每 1M input ~$3，写回复草稿让坐席审核发送。Prompt 喂工单历史和知识库。Sonnet 是中档默认值是有理由的。

标为升级的工单给 Opus 4.7，~$5/1M input，只处理 2-5% 的量。`thinking` 参数帮模型理清矛盾陈述。

比例 70/25/5，三层合计月成本约 $35-50。单旗舰模型全量处理要 $500-700。三层模式省 90%+