DOSIA × ByteSpike:一个 Agent,全套能力
做一套营销物料不该开 3 个 app。DOSIA 主脑现在原生具备生图、看图、视频、'换个 LLM 写'这些能力 —— 一次 OAuth 连上 ByteSpike,之后你直接说你要什么。
如果你做过一次需要 hero 图、5 秒商品短片、用另一个模型口吻写的 headline、再加一段 landing 页文案的 campaign,你知道这个问题的形状:4 个工具、4 套登录、4 个粘贴板、加上记住哪家今天哪方面强的认知负担。真正的工作不是写 prompt —— 是切换。
DOSIA 是我们对这个的答案。一个桌面 agent —— 当前 macOS 原生 —— 围绕这样的想法做:你应该只有一个主脑,这个主脑应该随着你授权而拿到工具,不用你切换面板。
一次 OAuth 连上之后就是能力
DOSIA → 设置 → 账户 → 连接 ByteSpike。浏览器开一页、你同意、toast 提示 "已连接 · N 个主脑 + M 个工具能力",整个 onboarding 就这。没有 API key 粘进输入框、没有手动模型列表、没有 "gpt-image-2 是哪家来着" 的一秒紧张。
幕后 DOSIA 找 ByteSpike 要你账户的能力集,按内置模型 registry 分桶,加载你真正有权限的工具。没买视频模型的用户不会看到灰掉的 generate_video —— 根本看不到。主脑实打实拿到你账户买了的能力面,不多不少。
三个 plugin,一个聊天框
能力以 3 个 plugin 的形式出现,但你不会把它们当 plugin 想 —— 你只是跟主脑说话。实际接上去的是这些:
- image-tools —— 文生图、图生图编辑、看图("这张照片里有人吗")
- video-tools —— 文生视频、图生视频,返回 task id,你轮询,短片回来
- text-writing-tools —— 用非主脑模型(GPT、Gemini、DeepSeek、Doubao)写,当你想要不同口吻或某段需要别家更擅长的能力
你说 "画一个红色苹果,扁平风格",主脑调 image-tools。你说 "让 GPT-5.5 把这段重写得正式一点",主脑调 text-writing-tools 带 model=gpt-5.5。你说 "用这张图做个 5 秒商品视频",主脑调 video-tools、轮询任务、把短片显示给你。你看不到路由。你不选面板。你接着打字。
数据流到底长啥样
你让 DOSIA 画东西的时候发生的事是:你的消息进主脑、主脑选对工具(generate_image)、工具按 registry 选到一个 model(比如 gpt-image-2)、请求带着你的 token 去 ByteSpike、ByteSpike 路由到 provider、provider 生成图、ByteSpike 按 per-image 费率卡从你钱包扣款 —— 顺便说,失败不计费 —— 图回到聊天里。从你这边看就是一次对话回合。
因为 ByteSpike 同时讲 Anthropic Messages 和 OpenAI Chat Completions,同一个账户就是同一把 key —— 主脑今天是 Claude、明天可能是别的、后天大概率是混着用。
ByteSpike 在这个组合里带来的是
- 一把 token,23+ 前沿模型 —— Anthropic / OpenAI / Google / DeepSeek / 豆包 / 字节图像视频栈。
- 公开 per-model 费率卡,无意外计费,失败永不计费。
- 双协议(Anthropic Messages、OpenAI Chat Completions),现有代码不改也能用同一把 key。
- 组织级钱包、按成员配额 —— IT 给十个人发 DOSIA 不需要十个 provider 账号。
怎么真的试一下
两步。先在 bytespike.ai/dosia 拿到 DOSIA —— 签过名的 macOS DMG,Apple Silicon 原生,Windows 排到后续周期。然后去 bytespike.ai 注册拿免费积分(不需要信用卡),从 DOSIA 设置里连上。从 "没听过" 到 "主脑刚给我生成了一张图" 一般 5 分钟以内 —— 只要你的 Mac 当前不太忙。
如果你一直在拿 3 个工具拼一份物料,One Agent 这套至少值这 5 分钟。