跳到正文
← 全部文章

选对图像 / 视频模型:一份实操指南

ByteSpike 一把 key 后面有 9 个图像模型 + 8 个视频模型。它们不能互换 —— 每个都有自己擅长的题目和不擅长的题目。下面是一个能直接挂模型名的决策树。

KL7 分钟阅读

图像:按 brief 选,不要按 tier 选

如果 brief 是「studio lighting, glass surfaces, 解剖正确」,hero / 2048² 用 **Nano Banana Pro** 配 `quality: hd`。**Nano Banana 2** 是上一档的正确选择,**仅当**你需要 in-image text 清晰度或小尺度的手/脸解剖 —— 那是它相对 Pro 视觉上明显提升的地方。

如果 prompt 写的是「水壶在左,杯子在右,都冒着热气」,选 **GPT-Image 2**。它对空间关系的尊重比 photoreal 系列更好。

如果 prompt 是中文 / 日文 / 韩文,且 brief 偏插画 / 美学(不是 photoreal),1024² 用 **Seedream V4**,2048² 用 **Seedream V4.5**。V5 lite 是迭代档 —— V4.x 最终稿之前的便宜 draft。

视频:先按延迟预算选,再按美学选

1080p hero 且能等 90+ 秒:cinematic / studio 用 **Sora 2 Pro**,自然世界(水、天气、野生)用 **Veo 3.1**,CJK 语境的角色动作用 **Seedance 2.0 Pro**。

30 秒 SLO + 720p 够用:**Veo 3.1 Fast** 或 **Seedance Fast**。两个都是针对 prompt 迭代和「用户盯着钟」的 UX 调过的。

需要 Pro 质量但等不到 full Pro:**Seedance 2.0 Pro Fast** —— 5-8s 片段的等待大概是 full Pro 的一半,A/B 看下来质量持平。

成本 / 延迟速查表

live rate card 在 docs.bytespike.ai/pricing —— 图像 $0.012(Seedream V5 lite 1024²)到 $0.250(GPT-Image 2 high 2048²)。视频 $0.03/s(Seedance Fast 720p)到 $0.45/s(Sora 2 Pro 1080p)。所有同步图像 4-30 秒到位;所有视频走 tasks/submit,15-180 秒完成(看档)。

图像/视频失败不计费(queued 期间取消免费;running 期间取消按部分秒数计)。submit response 里带 estimated_credits,让你在付 GPU 钱之前预览成本。