Meta 发布 Llama 3.3 Omni 70B，强化智能体与搜索体验

🦙 开源模型发布日期：2025-02-10 来源：Meta AI Blog

Meta 宣布 Llama 3.3 Omni 70B 正式开放下载与 API 访问，并同步推出 Llama Guard 3 安全模型与企业级检索加速套件。全新 Omni 模型提供 256K 上下文、视频帧理解与语音响应模式，旨在支撑 Meta AI 助手、WhatsApp 企业客服及第三方代理工作流。Meta 还在 Facebook 搜索与 Instagram Reels 中部署增量体验，展示大型开放模型在实时搜索场景中的可能性。

核心升级亮点

· Omni 推理引擎支持文本、语音、图像与视频输入，官方基准显示在多模态 QA 上较 3.2 版本提升 17%。
· 新增 Retrieval Boost，可直接调用 Meta 搜索索引或外部向量数据库，形成实时引用链路。
· Llama Guard 3 引入细粒度的策略标签，帮助企业在金融、教育与医疗场景落地合规审查。

生态与交付

· AWS、Azure 与 Meta 自建基础设施均提供一键推理端点，并支持使用 Nvidia Blackwell GPU。
· Meta AI Studio 发布 Workflow Preset，可将 Omni 与 Llama Guard 组合为可部署代理。
· GitHub 上同步开放新的 tokenizer 与 quantization 工具，便于移动端和边缘部署。

Meta 表示，Llama 3.3 Omni 将成为 2025 年 Meta AI 服务的底座，并继续保持开放权重策略。企业不仅可以在自有 GPU 集群运行，也可通过托管 API 直接调用多模态能力。随着 Guard 模型与检索增强工具的加入，Llama 生态的可控性与可观测性显著提升。

落地建议

针对现有使用 Llama 3.2 或 Mixtral 的业务，优先评估 Omni 的检索加速模式，验证长上下文与多模态输入对 KPI 的帮助。
在客服、客服机器人等场景，将 Llama Guard 3 集成到审核链路，建立提示词策略与违规标签的可视化监控。
结合 Meta 提供的 Workflow Preset，将 WhatsApp/Instagram 客服脚本升级为可感知最新库存与物流状态的智能体。

建议的下一步

为模型上线准备好安全测试用例，重点关注多模态输入可能带来的提示注入、隐私泄露与引用错误，确保 Omni 能与企业的合规审计流程对齐。

核心升级亮点

生态与交付

落地建议

建议的下一步

原文与延伸阅读