← 返回 AI 热点新闻 Google 发布 Gemini Live
访问首页
🎙️ 语音升级 发布日期:2024-09-05 来源:Google Developer Blog

Google 在 Gemini 系列中新增了 Gemini Live,首次将 Gemini 模型与 WebRTC 通道深度结合,实现毫秒级的双向语音与屏幕共享。开发者可以直接在网页或移动端调用 Live API,快速搭建实时翻译、语音讲解以及远程协作助手。

核心能力

  • · WebRTC 直连语音通道,往返延迟可低至 300ms。
  • · 支持实时翻译、角色扮演与多轮上下文管理。
  • · 可读取屏幕文本或选中的网页元素,生成语音讲解。

适用场景

  • · 客服、智能导览与移动学习的实时问答。
  • · 远程会议中的字幕、摘要与多语言同传。
  • · 搭配 Gemini Advanced 或企业知识库,输出带引用的语音答案。

Google 同步公布了 Live API 的 SDK 与示例代码,前端可直接使用 JavaScript 收发语音流,后端则支持通过 Vertex AI 进行权限控制与日志审计。官方建议在产品内结合安全策略限制麦克风调用,并通过提示词模板明确回答范围,以确保合规与一致性。

对产品与技术团队的启示

落地建议

建议从现有文本客服或 FAQ 开始,增加语音入口并收集通话日志,逐步扩展到屏幕讲解或会议摘要。对于需要品牌音色的场景,可在客户端叠加 TTS 角色预设与速率控制。

原文与延伸阅读