🎙️ 语音升级
发布日期:2024-09-05
来源:Google Developer Blog
Google 在 Gemini 系列中新增了 Gemini Live,首次将 Gemini 模型与 WebRTC 通道深度结合,实现毫秒级的双向语音与屏幕共享。开发者可以直接在网页或移动端调用 Live API,快速搭建实时翻译、语音讲解以及远程协作助手。
核心能力
- · WebRTC 直连语音通道,往返延迟可低至 300ms。
- · 支持实时翻译、角色扮演与多轮上下文管理。
- · 可读取屏幕文本或选中的网页元素,生成语音讲解。
适用场景
- · 客服、智能导览与移动学习的实时问答。
- · 远程会议中的字幕、摘要与多语言同传。
- · 搭配 Gemini Advanced 或企业知识库,输出带引用的语音答案。
Google 同步公布了 Live API 的 SDK 与示例代码,前端可直接使用 JavaScript 收发语音流,后端则支持通过 Vertex AI 进行权限控制与日志审计。官方建议在产品内结合安全策略限制麦克风调用,并通过提示词模板明确回答范围,以确保合规与一致性。
对产品与技术团队的启示
- 实时语音能力不再需要自建流式通道,前端即可完成交互验证,大幅缩短 MVP 周期。
- 多模态输入意味着可以在语音问答中引用屏幕或页面内容,适合教程、演示与客服场景。
- Live API 与 Vertex AI 的权限体系结合后,可为企业提供可追溯的日志与安全隔离。
落地建议
建议从现有文本客服或 FAQ 开始,增加语音入口并收集通话日志,逐步扩展到屏幕讲解或会议摘要。对于需要品牌音色的场景,可在客户端叠加 TTS 角色预设与速率控制。