选对图像 / 视频模型：一份实操指南

ByteSpike 一把 key 后面有 9 个图像模型 + 8 个视频模型。它们不能互换 —— 每个都有自己擅长的题目和不擅长的题目。下面是一个能直接挂模型名的决策树。

2026年5月8日KL7 分钟阅读

图像：按 brief 选，不要按 tier 选

如果 brief 是「studio lighting, glass surfaces, 解剖正确」，hero / 2048² 用 **Nano Banana Pro** 配 `quality: hd`。**Nano Banana 2** 是上一档的正确选择，**仅当**你需要 in-image text 清晰度或小尺度的手/脸解剖 —— 那是它相对 Pro 视觉上明显提升的地方。

如果 prompt 写的是「水壶在左，杯子在右，都冒着热气」，选 **GPT-Image 2**。它对空间关系的尊重比 photoreal 系列更好。

如果 prompt 是中文 / 日文 / 韩文，且 brief 偏插画 / 美学（不是 photoreal），1024² 用 **Seedream V4**，2048² 用 **Seedream V4.5**。V5 lite 是迭代档 —— V4.x 最终稿之前的便宜 draft。

视频：先按延迟预算选，再按美学选

1080p hero 且能等 90+ 秒：cinematic / studio 用 **Sora 2 Pro**，自然世界（水、天气、野生）用 **Veo 3.1**，CJK 语境的角色动作用 **Seedance 2.0 Pro**。

30 秒 SLO + 720p 够用：**Veo 3.1 Fast** 或 **Seedance Fast**。两个都是针对 prompt 迭代和「用户盯着钟」的 UX 调过的。

需要 Pro 质量但等不到 full Pro：**Seedance 2.0 Pro Fast** —— 5-8s 片段的等待大概是 full Pro 的一半，A/B 看下来质量持平。

成本 / 延迟速查表

live rate card 在 docs.bytespike.ai/pricing —— 图像 $0.012（Seedream V5 lite 1024²）到 $0.250（GPT-Image 2 high 2048²）。视频 $0.03/s（Seedance Fast 720p）到 $0.45/s（Sora 2 Pro 1080p）。所有同步图像 4-30 秒到位；所有视频走 tasks/submit，15-180 秒完成（看档）。

图像/视频失败不计费（queued 期间取消免费；running 期间取消按部分秒数计）。submit response 里带 estimated_credits，让你在付 GPU 钱之前预览成本。