Google 发布 Gemini Live - AI热点新闻

← 返回 AI 热点新闻 Google 发布 Gemini Live

访问首页

🎙️ 语音升级发布日期：2024-09-05 来源：Google Developer Blog

Google 在 Gemini 系列中新增了 Gemini Live，首次将 Gemini 模型与 WebRTC 通道深度结合，实现毫秒级的双向语音与屏幕共享。开发者可以直接在网页或移动端调用 Live API，快速搭建实时翻译、语音讲解以及远程协作助手。

核心能力

· WebRTC 直连语音通道，往返延迟可低至 300ms。
· 支持实时翻译、角色扮演与多轮上下文管理。
· 可读取屏幕文本或选中的网页元素，生成语音讲解。

适用场景

· 客服、智能导览与移动学习的实时问答。
· 远程会议中的字幕、摘要与多语言同传。
· 搭配 Gemini Advanced 或企业知识库，输出带引用的语音答案。

Google 同步公布了 Live API 的 SDK 与示例代码，前端可直接使用 JavaScript 收发语音流，后端则支持通过 Vertex AI 进行权限控制与日志审计。官方建议在产品内结合安全策略限制麦克风调用，并通过提示词模板明确回答范围，以确保合规与一致性。

对产品与技术团队的启示

实时语音能力不再需要自建流式通道，前端即可完成交互验证，大幅缩短 MVP 周期。
多模态输入意味着可以在语音问答中引用屏幕或页面内容，适合教程、演示与客服场景。
Live API 与 Vertex AI 的权限体系结合后，可为企业提供可追溯的日志与安全隔离。

落地建议

建议从现有文本客服或 FAQ 开始，增加语音入口并收集通话日志，逐步扩展到屏幕讲解或会议摘要。对于需要品牌音色的场景，可在客户端叠加 TTS 角色预设与速率控制。

原文与延伸阅读