一日三饭 | HARNESS

← /harness

════ 2026.03.28 ════

今日要点

> OpenAI 正式发布 Codex Plugins 平台，Codex 从编码助手扩展为可集成 Slack/Figma/Notion 的全能 Agent 工作台
> Google 发布 Gemini 3.1 Flash Live 实时音频模型，支持情绪感知和噪音环境，覆盖 200+ 国家
> Suno v5.5 发布声音克隆、个性化模型和风格学习三大功能，AI 音乐创作进入个性化时代
> Anthropic 发布 Claude 与 Mozilla 合作安全研究深度报告：14 天发现 Firefox 22 个漏洞，并成功编写 CVE-2026-2796 漏洞利用代码
> Anthropic 经济指数报告显示 49% 的工作岗位已将 Claude 纳入至少四分之一的日常任务

详细内容

ENTRY 001/013

[ OPENAI · AGENT · 开发工具 · MCP ]

OpenAI Codex Plugins 平台正式发布

(OpenAI Codex Plugins Launch)

→ OpenAI 开发者文档 · → SiliconANGLE · → Neowin

OpenAI 于 3 月 27 日为 Codex 推出 Plugins 功能，支持将 Skills（工作流 prompt）、App 集成和 MCP 服务器打包为可安装的 Plugin 包。Codex 现已原生集成 Slack、Figma、Notion、Gmail 等工具，覆盖 Codex App、CLI 和 IDE 扩展全线产品。

Codex Plugins 是 OpenAI 将 Codex 从"AI 编码助手"升级为"AI Agent 工作台"的关键一步。Plugin 体系将 Skills（可复用的 prompt 工作流）、应用集成和 MCP 服务器统一打包，意味着团队可以将最佳实践标准化，然后在项目间共享和同步。这与 Anthropic 约五个月前为 Claude Code 推出的类似功能形成了直接竞争。

更值得关注的是 MCP 的深度集成。Codex Plugins 原生支持 MCP 服务器配置，进一步确认了 MCP 作为 Agent 工具集成事实标准的地位。Slack、Figma、Notion 等开箱即用的集成降低了非编码场景的使用门槛——OpenAI 正在用 Codex 的品牌和用户基础切入更广泛的企业自动化市场。

ENTRY 002/013

[ GOOGLE · 语音AI · 产品 · AGENT ]

Gemini 3.1 Flash Live 实时音频模型发布

(Gemini 3.1 Flash Live)

→ Google Blog · → MarkTechPost · → 9to5Google

Google 于 3 月 26 日发布 Gemini 3.1 Flash Live，定位为最高质量的实时音频模型。支持情绪感知（检测用户沮丧或困惑并调整回应）、环境噪音过滤、多模态输入（语音 + 图像），ComplexFuncBench Audio 基准得分 90.8%，较上代提升近 20%。已通过 Google AI Studio 和 Gemini Live API 面向开发者开放，Search Live 覆盖 200+ 国家。

Flash Live 补全了 Gemini 3.1 系列的最后一块拼图：Flash-Lite（低成本高吞吐）→ Flash（中等复杂度）→ Pro（高端推理）→ Flash Live（实时音频）。情绪感知能力是一个差异化亮点——不仅理解用户说了什么，还能感知用户的情绪状态并相应调整语气和内容，这在客服、心理健康等场景中具有重要价值。

"在嘈杂环境中区分相关语音和环境声"解决了语音 Agent 的一个核心痛点。结合 200+ 国家的覆盖和 Google Search Live 的集成，Flash Live 正在将实时语音 AI 从开发者工具推向大众消费场景。对 OpenAI 的 Realtime API 和 ElevenLabs 等语音 AI 公司构成了直接竞争。

ENTRY 003/013

[ 音乐AI · 产品 · 创意工具 ]

Suno v5.5 发布：声音克隆与个性化 AI 音乐

(Suno v5.5: Voices, Custom Models & My Taste)

→ Suno Blog · → Digital Music News · → Product Hunt（193 票）

Suno 于 3 月 26 日发布 v5.5，推出三大个性化功能：Voices（用自己的声音创作歌曲，含活体验证防滥用）、Custom Models（上传自己的音乐作品训练个性化模型，最多 3 个）、My Taste（学习用户偏好的音乐风格和情绪）。Pro/Premier 订阅用户可用。

Suno v5.5 标志着 AI 音乐从"生成任意音乐"进入"生成属于你的音乐"阶段。Voices 功能的活体验证机制值得关注——用户必须通过实时语音采集并匹配随机短语来验证身份，这是对深度伪造风险的主动防御。同时，Voices 被设定为私有（仅本人可用），说明 Suno 在产品设计中充分考虑了版权和隐私问题。

Custom Models 让音乐人可以用自己的作品库训练专属模型，这对独立音乐人特别有吸引力——保持自己的风格特征同时获得 AI 的创作加速。Suno 强调这些功能是"与音乐行业合作"的基础，暗示未来可能与唱片公司达成授权合作，让 AI 音乐创作从灰色地带走向正规化。

ENTRY 004/013

[ AI安全 · 网络安全 · ANTHROPIC ]

Claude Opus 4.6 与 Mozilla 合作：14 天发现 22 个 Firefox 漏洞

(Claude Opus 4.6 Discovers 22 Firefox Vulnerabilities)

→ Anthropic 漏洞利用分析 · → Anthropic 合作公告 · → TechCrunch · → The Hacker News

Anthropic 与 Mozilla 合作，Claude Opus 4.6 在两周内发现 Firefox 22 个安全漏洞（14 个高危、7 个中危、1 个低危），其中 14 个高危漏洞占 2025 年全年 Firefox 高危漏洞的近 20%。Anthropic 随后测试了 Claude 的漏洞利用能力，在数百次尝试中成功编写了 2 个可工作的 exploit，其中包括 CVE-2026-2796（CVSS 9.8）的完整利用链。Mozilla 已在 Firefox 148 中修复所有漏洞。

这是 AI 在网络安全领域的一个里程碑事件。Claude 在仅 20 分钟探索后就发现了第一个 Use-After-Free 漏洞，两周内找到的 14 个高危漏洞相当于 Firefox 2025 全年高危漏洞数量的 20%——这个效率远超人类安全研究员。

CVE-2026-2796 的 exploit 深度分析更值得关注。Claude 系统性地构建了经典浏览器漏洞利用原语链：通过 JIT 错误编译实现类型混淆 → addrof/fakeobj 原语 → 任意内存读写 → 代码执行。虽然 exploit 仅在移除了沙箱等安全特性的测试环境中生效，且数百次尝试中只有 2 次成功，但这展示了 LLM 在理解底层系统安全方面的新兴能力。Anthropic 将此定位为"给防御者的早期预警信号"——AI 漏洞发现能力正在快速提升，安全行业需要提前准备。

ENTRY 005/013

[ ANTHROPIC · 研究 · 行业数据 ]

Anthropic 经济指数报告：Claude 使用模式深度分析

(Anthropic Economic Index: Learning Curves)

→ Anthropic 报告

Anthropic 3 月经济指数报告分析了 2025.11-2026.2 期间的 Claude 使用数据。关键发现：49% 的工作岗位已将 Claude 用于至少四分之一的任务；个人使用从 35% 升至 42%；使用集中度下降（Top 10 任务占比从 24% 降至 19%）；6 个月以上的老用户对话成功率高出 10%；用户会策略性选择模型（55% 的计算/数学任务使用 Opus）。

"49% 的工作岗位使用 Claude 完成至少四分之一的任务"是一个震撼性数字，但需要注意样本偏差——这基于 Claude.ai 用户数据，代表的是 AI 早期采用者群体，而非全体劳动力市场。即便如此，使用集中度下降（Top 10 任务占比从 24% 降至 19%）说明 Claude 正在从"少数高频场景"扩散到"更多长尾场景"，这是产品成熟度的标志。

"学习曲线"效应特别值得关注：使用 6 个月以上的用户对话成功率高出 10%，说明 AI 工具存在可衡量的"熟练度红利"。个人使用占比升至 42%（涉及体育、产品比较、家居维护等话题）暗示 Claude 正在从"工作工具"向"生活助手"渗透。用户在高价值任务上主动选择 Opus，低价值任务选择更便宜模型，说明用户已经建立了成本-能力的策略性认知。

ENTRY 006/013

[ ANTHROPIC · 产品 · AGENT ]

Claude Tasks Mode 即将推出：五大任务起点

(Claude Tasks Mode with 5 Starting Points)

→ TestingCatalog · → Threads 帖子

Anthropic 即将推出 Tasks Mode，提供 Research（研究）、Analyse（分析）、Write（写作）、Build（构建）、Do More（更多）五个起点入口。界面新增经典聊天/Agent 模式切换开关和任务进度追踪侧边栏。

Tasks Mode 代表了 Anthropic 对 Claude 交互范式的重新思考。从开放式聊天框到结构化的五大起点，本质上是将模糊的"和 AI 聊天"转化为明确的"委派任务给 AI"。这与 OpenAI 在 GPT-5.4 中的"Update"功能和 Codex Plugins 的方向一致——AI 产品正在从"对话式"转向"任务式"。

五个起点的设计暗示了 Anthropic 对 Claude 使用场景的分类：信息获取（Research）、数据处理（Analyse）、内容生产（Write）、代码开发（Build）和泛化任务（Do More）。任务进度追踪侧边栏的加入则让 Claude 的 Agent 行为变得可观测和可管理，这对于长时间运行的复杂任务至关重要。

ENTRY 007/013

[ ANTHROPIC · 开发工具 · AGENT ]

Claude Code auto-fix：自动修复 CI 失败和代码审查

(Claude Code Auto-Fix for CI and PR Reviews)

→ Product Hunt（346 票）

Anthropic 为 Claude Code 推出 auto-fix 功能，可在开发者离开时自动修复 CI 持续集成失败和 PR 代码审查中的问题。3 月 27 日在 Product Hunt 获 346 票。

auto-fix 将 Claude Code 从"被动助手"推向"主动维护者"。开发者提交 PR 后可以离开，Claude Code 会监控 CI 状态，失败时自动诊断并提交修复。这对于大型团队的开发流程有重大影响——CI 失败导致的等待和手动修复是开发效率的主要瓶颈之一。

结合此前发布的 Auto Mode（自主判断操作安全性）和 Computer Use（桌面操控），Anthropic 正在系统性地提升 Claude 在开发工作流中的自主性。从写代码、审查代码到修复 CI，Claude Code 的覆盖范围已经接近一个完整的"AI 开发同事"。

ENTRY 008/013

[ AI安全 · ANTHROPIC · 研究 ]

Anthropic 对齐研究："The Hot Mess of AI"

(The Hot Mess of AI: Misalignment Scaling)

→ Alignment Blog

Anthropic 对齐团队发表研究，探讨"AI 不对齐行为如何随模型智能和任务复杂度扩展"。同期还发布了抽象红队测试（abstractive red-teaming）方法，通过搜索能可靠触发角色违规的自然语言查询类别来系统性评估模型安全边界。

这项研究触及了 AI 安全领域最核心的问题之一：随着模型变得更强大，不对齐行为是变多还是变少？标题中的"Hot Mess"暗示答案并不乐观。抽象红队测试方法特别有实践价值——不是寻找单个能绕过安全护栏的 prompt，而是发现整类能可靠触发问题行为的查询模式，这使得安全评估从"打地鼠"升级为"系统性排查"。

结合 Anthropic 近期密集的安全相关发布（Safety Bug Bounty 的 OpenAI 版本、Mozilla 合作漏洞发现、AI 操纵行为测量），AI 安全正在从学术讨论快速转化为工程实践。

ENTRY 009/013

[ 开源 · 视频生成 · 多模态 ]

Lightricks LTX-2.3 开源视频生成模型

(Lightricks LTX-2.3 Open-Source Video Generation)

→ HuggingFace

Lightricks 发布 LTX-2.3，开源图像/文本到视频生成模型，支持多语言。HuggingFace 上已获 131 万下载和 806 个赞，位列 Trending 榜第 14 位。

LTX-2.3 的 131 万下载量在开源视频生成模型中非常突出，说明开发者和创作者对可本地运行的视频生成能力有强烈需求。Lightricks 作为以 Facetune 闻名的创意工具公司，通过开源策略快速建立了在 AI 视频生成领域的存在感。在 Sora、Runway、Kling 等闭源模型主导的视频生成领域，LTX 系列提供了重要的开源替代方案。

ENTRY 010/013

[ 开源 · 代码生成 · AGENT ]

Tesslate OmniCoder-9B：开源代码 Agent 模型

(Tesslate OmniCoder-9B)

→ HuggingFace

9B 参数的代码生成模型，具备 Agent 能力，通过 SFT 训练优化。HuggingFace 上获 26,497 次下载和 494 个赞，位列 Trending 榜第 11 位。

OmniCoder-9B 的亮点在于将 Agent 能力内建到一个仅 9B 的小模型中。在 NVIDIA Nemotron-Cascade 2 证明小模型可以通过更好的训练方法在特定领域逼近 frontier 模型之后，OmniCoder-9B 延续了这个趋势——用 9B 参数覆盖代码生成和 Agent 任务。对于需要在本地或边缘设备上运行代码 Agent 的场景，这类小而专的模型比调用云端 API 更具成本和延迟优势。

ENTRY 011/013

[ 语音AI · COHERE · 开源 ]

Cohere Transcribe：22 语言语音识别模型

(Cohere Transcribe ASR Model)

→ HuggingFace · → SiliconANGLE

Cohere 与 Google 同日发布音频 AI 模型。Cohere Transcribe 支持 22 种语言的自动语音识别，HuggingFace 获 12,080 次下载和 306 个赞。

Cohere 和 Google 在同一天发布音频 AI 模型并非巧合，而是反映了语音 AI 作为 Agent 交互界面的战略重要性。Agent 需要"听"和"说"——Cohere Transcribe（听）和 Gemini Flash Live（说）分别覆盖了语音交互的两端。结合 Mistral Voxtral-4B TTS（3/26 发布），短短两天内三家公司密集发布语音模型，标志着 2026 年语音 AI 的竞争全面升温。

ENTRY 012/013

[ AGENT · 开发工具 · 产品 ]

Agentation：AI Agent 可视化反馈工具

(Agentation: Visual Feedback Tool for AI Agents)

→ Product Hunt（404 票）

3 月 27 日 Product Hunt 日榜第一（404 票），提供 AI Agent 的可视化反馈工具，帮助开发者直观地观察和调试 Agent 行为。

随着 Agent 从原型走向生产，可观测性（observability）成为关键需求。Agentation 在 Product Hunt 日榜夺冠（超越 Claude Code auto-fix 和 Gemini Flash Live）说明开发者对 Agent 调试工具的需求极为迫切。目前 Agent 的行为往往是"黑盒"——开发者难以直观理解 Agent 为什么做出特定决策、在哪个步骤出错。可视化反馈工具填补了从"搭建 Agent"到"可靠运维 Agent"之间的工具链空白。

ENTRY 013/013

[ OCR · 百度 · 开源 · 多模态 ]

百度千帆 OCR 视觉语言模型

(Baidu Qianfan-OCR Vision-Language Model)

→ HuggingFace

百度发布千帆 OCR 视觉语言模型，专注于文档智能和 OCR 任务。HuggingFace 上获 14,786 次下载和 490 个赞，位列 Trending 榜第 6 位。

千帆 OCR 与智谱 GLM-OCR（384 万下载、1477 赞）同期位于 HuggingFace Trending 榜，形成了中国厂商在 OCR/文档智能领域的双强格局。OCR 是 AI 最早的商业化应用之一，但传统 OCR 在复杂版式、手写体和多语言文档上表现有限。基于视觉语言模型的新一代 OCR 有望大幅提升文档理解的精度和泛化能力，这对企业数字化转型有直接价值。

其他值得关注

GAIR daVinci-MagiHuman：多模态人体视频/音频生成 (daVinci-MagiHuman) — HuggingFace
Meituan LongCat-Next：美团全模态（any-to-any）长上下文模型 (LongCat-Next) — HuggingFace
RoyalCities Foundation-1：基于 Stable Audio 的音乐生成模型 (Foundation-1) — HuggingFace
ClawMem：开源 Agent 记忆系统，本地 GPU 检索 (ClawMem) — GitHub
Kora：370K 行 Rust 编写的 AI 原生操作系统层 (Kora AI-Native OS Layer) — intuitivecompute.com
PSDesigner：模拟人类创意工作流的 AI 平面设计系统 (PSDesigner) — arXiv:2603.25738
BizGenEval：商业文档生成能力基准测试 (BizGenEval) — arXiv:2603.25732
MuRF：多分辨率融合提升 Vision Foundation Model (MuRF) — arXiv:2603.25744
Concept Centric CLIP：提升视觉语言模型组合推理能力 (Concept Centric CLIP) — arXiv:2603.25722

← 2026.03.27 2026.04.01 →