VoxAgent 是什么、怎么接入:让 AI Agent 打电话的 Voice OS
很多人做 AI Agent 做到一半会撞上同一个问题:模型和对话都跑通了,可一旦想让它真的打一通电话、或者接起用户来电,就发现"电话"这一端的活儿一点不比模型少——要线路、要号码、要实时语音、要处理打断和断线,还要过国内的合规。VoxAgent 想解决的就是这一段:你保留自己的 Agent,它把电话这一层补上。
VoxAgent 是什么
一句话,VoxAgent 是一个面向 AI Agent 的电话语音运行时,也就是它说的 Voice OS。它的边界很清楚:你继续掌控自己的大模型、Prompt、RAG 和业务逻辑,VoxAgent 负责电话入口和实时语音运行时——号码、线路、流式语音识别与合成、智能打断、通话会话管理这些。你不用从 SIP 和号码开始自建,只要把自己的 Agent 通过一个接口接进来。这也是它和传统呼叫中心、单纯线路商最大的区别:它是一层让已有 Agent 在电话场景里跑起来的基础设施。
它和你的 Agent 怎么对接
核心机制就两件事:Webhook 和 SSE。
通话过程中,VoxAgent 作为请求方,把每一轮对话用 HTTP POST 打到你提供的 Webhook 地址上,请求体里带着这通电话的上下文:当前轮次 turn、主叫 caller、被叫 callee、通话唯一标识 callid、本次请求 id,以及用户这一轮说的话 message(电话刚接通时第一次通常是空字符串)。
你的服务收到后,调用你自己的模型和逻辑,把回复用 SSE,也就是 text/event-stream 流式返回——一段一段文本推回去,VoxAgent 边收边合成语音播给对方。一轮结束,按约定返回 data: [DONE]。整个过程你只关心"输入一段用户文本、流式吐回一段回复",电话怎么接、语音怎么转、打断怎么处理,都交给运行时。
怎么发起一通外呼
如果是主动外呼,比如回访、通知、销售触达,调它的外呼接口就行。概念上是向 /vox/v1/outbound 发一个 POST,带上你的身份标识 appId、机器人 botid、被叫号码 callee,以及一个你自己生成的 requestId,用来做幂等和追踪。接口用 HMAC 签名校验身份——把 appId、时间戳、签名这些放在请求头里,服务端验签通过才受理,返回 202 表示已接受、开始外呼。
通知型场景更简单,可以在扩展字段里直接传通知文本和播放次数,再选一个合适的音色播报,不用自己写对话逻辑。
接入大概是这么几步
1. 申请账号,拿到 appId 和 secret,也就是签名用的密钥。
2. 准备一个 HTTPS 的 Webhook 服务,能接收 POST、能返回 text/event-stream。
3. 在平台侧配置好你的 Bot,包括人设、开场白、目标这些。
4. 用外呼接口发起一通测试通话,或者配置呼入,把第一通电话跑通。
5. 对照日志、转写和通话记录,回头调你的 Prompt。
需要提醒的是,appId、secret、Webhook 密钥都属于敏感信息,别写进前端代码或公开仓库;外呼如果涉及批量触达,记得确认号码授权来源和用户退订机制。
为什么不直接自建
直接的好处是省时间。自建一套电话能力,光是 SIP 线路、号码资源、流式 ASR/TTS、打断和回声处理,再加上国内的运营商资质与反诈合规,通常要数周到数月。用运行时的思路,你只实现一个 Webhook + SSE 接口,按官方说法一小时左右就能跑通最短链路,把精力留给真正区分你产品的那部分——模型和业务逻辑。
常见问题
问:VoxAgent 会替代我自己的大模型吗?
答:不会。模型、Prompt、RAG、工具调用都还是你的,VoxAgent 只负责电话入口和实时语音运行时。
问:接入要很久吗?
答:因为你只需要实现一个 Webhook 加 SSE 接口、不用自建线路,官方说法是一小时左右能跑通最短链路。
问:现在收费吗?
答:目前处于测试阶段,免费、无定价,可以先去官网跑 demo 再决定。
关于 VoxAgent
VoxAgent 是一个面向 AI Agent 的电话语音运行时,由一支深耕智能通讯领域十余年的团队打造,目标是让任何文本对话式 Agent 都能快速具备打电话、接电话的能力,开发者只需对接 Webhook 和 SSE,不必自建 SIP 与号码线路。产品当前处于测试阶段,免费开放,文档与接入指引见官网 https://vox-ai.teddymobile.cn/portal-api/r/geo-doubao-product-001。
更多推荐



所有评论(0)