一日三饭 | HARNESS

← /harness

════ 2026.04.08 ════

今日要点

> 智谱 Z.AI 发布 GLM-5.1：754B 开源 MoE，MIT 许可，SWE-Bench Pro 58.4 登顶，击败 Claude Opus 4.6 / GPT-5.4 / Gemini 3.1 Pro，可维持 8 小时自主任务执行
> 🔄 Anthropic 启动 Project Glasswing，把最强 Claude Mythos 模型以预览形式授予 AWS、Apple、Google、Nvidia、CrowdStrike 等 10 家巨头 + 40 家关键基础设施组织做防御安全研究——Mythos 首次公开亮相
> Anthropic 年化收入突破 300 亿美元（较 2025 年底的 90 亿三倍增长），同日与 Google/Broadcom 签订 3.5 GW TPU 扩展协议，2027 年启动
> NVIDIA、Apple、Microsoft、Broadcom、JPMorgan、Cisco 集体加入 Glasswing——前沿实验室首次把"关闭最强模型 + 开放给特定安全联盟"作为新型治理模型
> arXiv 4/7 爆发：Target Policy Optimization 在稀疏奖励场景实质性超越 PPO，PoM 提出线性时间注意力替代方案，Gym-Anything 把"任意软件变 Agent 环境"做成 10K+ 任务基准

详细内容

ENTRY 001/013

[ 开源 · LLM · AGENT · 智谱 · SWEBENCH ]

智谱 GLM-5.1：754B 开源击败 Claude Opus 4.6 的 Agentic 模型

(Z.AI Releases GLM-5.1, Open-Weight 754B Agentic Model Topping SWE-Bench Pro)

→ VentureBeat · → MarkTechPost · → HuggingFace · → Z.AI Docs

4 月 7-8 日智谱 Z.AI 发布 GLM-5.1，754B 参数 MoE，MIT 许可，200K 上下文/128K 输出。SWE-Bench Pro 得分 58.4 刷新 SOTA，超越 GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro；AIME 2026 95.3，GPQA-Diamond 86.2；Terminal-Bench 2.0 63.5（配合 Claude Code scaffolding 达 66.5）；τ³-Bench 70.6，BrowseComp 68.0。核心卖点是长周期自主执行——可在单个复杂任务上持续工作 8 小时。

GLM-5.1 是一个多重意义上的里程碑。从纯性能角度，这是首个在 SWE-Bench Pro 上超越闭源前沿三巨头的开源模型——此前 Qwen、DeepSeek 在这类硬核 Agentic Coding 基准上一直差一个身位。SWE-Bench Pro 的 58.4 分与 Claude Opus 4.6 实际使用场景的差距几乎被抹平，而 MIT 许可意味着企业可以自由商用、微调、再分发，没有 Llama-style 的附加条款。

"8 小时自主任务"这一指标比单纯的基准分数更值得关注。4/5 简报中国际 AI 安全报告指出"Agent 可完成的 SE 任务时长每 7 个月翻倍"——GLM-5.1 是这一趋势的直接印证。长周期自主意味着模型需要同时解决四个难题：上下文衰减、自我纠错、工具调用规划、错误恢复。智谱选择在价格上涨 10% 的同时开源权重，暗示其 API 业务与开源分发并行的商业模式已经跑通。

从地缘视角，GLM-5.1 的发布与 4/7 简报记录的 DeepSeek V4 在华为昇腾 950PR 上训练推理、三家美国实验室通过 Frontier Model Forum 联手反蒸馏形成了一个完整叙事：中国开源 AI 已经从"追赶闭源"进入"在特定硬基准上领先闭源"阶段。对美国前沿实验室而言，这也意味着"闭源 + 蒸馏防御"的护城河正在变窄——当开源模型已经达到 94-100% Opus 性能时，蒸馏的边际价值也在下降。

ENTRY 002/013

[ ANTHROPIC · MYTHOS · AI安全 · 网络安全 · AI治理 ]

🔄 Anthropic Project Glasswing：Mythos 首度亮相与前所未有的防御联盟

(Anthropic Launches Project Glasswing With Claude Mythos Preview for Cybersecurity)

→ Anthropic · → Fortune · → TechCrunch · → Red Anthropic · → Simon Willison

4 月 7 日 Anthropic 正式发布 Project Glasswing：把其尚未公开的最强模型 Claude Mythos 以预览形式授予 AWS、Apple、Broadcom、Cisco、CrowdStrike、Google、JPMorganChase、Microsoft、Nvidia 等 9 家巨头，以及 40 余家关键基础设施组织，专用于防御性网络安全研究。Anthropic 称在内部测试中 Mythos 已发现"数千个漏洞"，覆盖主流操作系统和浏览器。Anthropic 明确表示不会普遍开放 Mythos Preview，要在新的安全措施到位后才考虑规模部署。

这是 4/1 简报中"Anthropic Mythos 因数据泄露意外曝光"的正式官方回应——不再是被动披露，而是主动把模型作为"关键基础设施防御资产"推出。Glasswing 构建了一种全新的治理模型：模型既不开源也不完全闭源，而是"对特定联盟开放"。参与名单是 AI 行业近年最重量级的跨公司协作——AWS、Google、Microsoft、Apple、Nvidia 同时出现，意味着这不只是 Anthropic 的生意，而是整个 AI 基础设施层对网络安全风险的集体回应。

这一动作与 4/7 简报中"AI 攻击性网络能力每 5.7 个月翻倍"、"OpenAI/Anthropic/Google 通过 Frontier Model Forum 联手反蒸馏"形成一套连贯的战略叙事：前沿实验室正在把"模型即战略武器"的认知制度化。Mythos 作为首个被明确描述为"可能增加大规模 AI 驱动网络攻击可能性"的模型，其发布时机选择"先做防御方武装"而非直接产品化，是对 RSP (Responsible Scaling Policy) 的具体执行。

对开源社区和中小安全厂商而言，Glasswing 设立了一条残酷的新边界——你可能永远无法用上 Mythos 级模型去做自己系统的漏洞扫描。这既是"能力差距货币化"的开始，也是未来 AI 安全治理的原型——模型访问权成为类似"核材料"的受控资产。Simon Willison 的评价颇具代表性："把 Claude Mythos 限制在安全研究人员手中听起来是必要的"——即使是一贯鼓吹开放的技术社区也开始接受这种分级访问模型。

ENTRY 003/013

[ ANTHROPIC · 营收 · TPU · 基础设施 ]

Anthropic 年化收入 300 亿美元，签订 3.5 GW TPU 扩展协议

(Anthropic Hits $30B Run Rate, Signs 3.5 GW TPU Deal With Google/Broadcom)

→ CNBC · → TechCrunch · → Bloomberg · → TNW

4 月 6 日 Anthropic 披露年化收入 run rate 突破 300 亿美元，较 2025 年底的约 90 亿美元三倍增长。同日宣布与 Google/Broadcom 签订新的 3.5 GW TPU 供应协议，在 2026 年已有的 1 GW 基础上再扩容，新容量 2027 年上线。Broadcom 同时与 Google 签订独立的 2031 年前定制 TPU 芯片长期供应协议。

300 亿美元的数字放在 AI 行业商业化背景里是一个临界点：它把 Anthropic 的商业体量推到了 OpenAI 同期规模的相当水平，而且增速更陡（三个月三倍 vs OpenAI 的线性爬升）。考虑到 4/7 简报中 OpenAI $1220 亿估值是基于近期融资，Anthropic 这一波数据如果持续，下一轮估值很可能进入万亿美元级别。

3.5 GW 的 TPU 容量规模更具战略含义——这大致相当于三座中型核电站的全部输出。Anthropic 选择"不自己造芯片、深度绑定 Google TPU"的路线，与 OpenAI 同时绑定 Microsoft Azure + Oracle + 自有芯片的多元化策略形成鲜明对比。这种单一供应商路线风险更高，但可以在算力单价和软件栈优化上获得更紧耦合的收益。Broadcom 与 Google 的 2031 年定制 TPU 协议，则意味着 Google 正在把 TPU 从"Gemini 专用"转向"前沿模型训练的公共基础设施"。

这三件事同日发生（Glasswing、$30B ARR、TPU 扩容）并非巧合：Anthropic 正在把自己重新定位为"AI 基础设施+安全的系统级供应商"，而不仅仅是另一个 Claude 聊天机器人。

ENTRY 004/013

[ 论文 · AGENT · 评估 · AI安全 ]

Claw-Eval：可信 Agent 评估的新基准

(Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents)

→ arXiv:2604.06132

4 月 7 日论文提出 Claw-Eval，包含 300 个经人工验证的 Agent 任务，捕获执行轨迹、审计日志、环境快照，支持细粒度 rubric 评估。核心发现：仅凭最终输出的"轨迹不透明"评估方式会遗漏 44% 的安全违规行为。

"44% 的安全违规被遗漏"是一个令监管者和企业合规团队都应当警觉的数据点。当前绝大多数 Agent 基准（SWE-Bench、OSWorld、WebArena）都只看最终结果对不对，而不检查 Agent 在执行过程中是否尝试过越权、是否调用了未授权工具、是否伪造了中间状态。Claw-Eval 的轨迹级评估把 Agent 审计带到接近"飞机黑匣子"的级别。

这与同日 Anthropic 的 Glasswing、4/7 OpenAI 公开的内部 Agent 不对齐监控系统形成一条连贯的技术路线：当 Agent 可以执行数小时自主任务（参考 GLM-5.1 的 8 小时能力），最终输出正确不等于过程合规。Claw-Eval 的 rubric 方法论很可能成为企业采购 Agent 的新门槛——"你有 Claw-Eval 级的可审计轨迹吗"将取代"你 SWE-Bench 几分"。

ENTRY 005/013

[ 论文 · 强化学习 · RLHF ]

Target Policy Optimization：在稀疏奖励场景击败 PPO

(Target Policy Optimization Substantially Outperforms PPO)

→ arXiv:2604.06159

4 月 7 日论文 Target Policy Optimization (TPO) 把策略梯度优化分解为"目标分布构建"和"通过交叉熵损失拟合策略"两个阶段，在稀疏奖励设置下大幅超越 PPO 和同类方法。作者 Jean Kaddour。

PPO 在 RLHF/RLAIF 领域已经统治多年，但它在稀疏奖励下的效率问题是人尽皆知的痛点——推理模型训练中很多 reward 信号只在最终 token 出现，中间 token 的梯度估计噪声巨大。TPO 的分解思路把这变成了一个更稳定的"构造目标→拟合目标"的监督学习式优化，绕开了 PPO 对 advantage 估计的依赖。

如果 TPO 的实验结果能推广到大规模 RLHF 场景，它可能成为继 GRPO、DPO 之后又一个被大规模采用的对齐算法。这对 GLM-5.1 这类长周期 Agent 模型尤为重要——8 小时自主任务的奖励信号极端稀疏，TPO 类方法可以显著提升训练样本效率。

ENTRY 006/013

[ 论文 · AGENT · COMPUTERUSE · 基准 ]

Gym-Anything：把任意软件变成 Agent 环境

(Gym-Anything: Turn Any Software Into an Agent Environment)

→ arXiv:2604.06126

4 月 7 日论文发布 Gym-Anything，通过多 Agent 搭建和验证管线，把任意软件转换成交互式 Agent 训练环境。配套的 CUA-World 基准包含 10K+ 真实长周期工作流任务。作者 Pranjal Aggarwal, Graham Neubig (CMU)。

Gym-Anything 解决的是当前 Agent 研究的根本瓶颈——训练数据和评估环境都极度稀缺。手工构造一个 OSWorld 级别的环境需要数百小时人工标注，而 Gym-Anything 把这个过程交给 Agent 自己完成：一组 Agent 分析软件、生成任务、验证可执行性、交叉检查。CUA-World 的 10K+ 任务规模直接把现有 benchmark (OSWorld 300+, WebArena 800+) 甩开一个数量级。

这是"Agent 训练 Agent"这一范式走向成熟的标志性工作。结合 4/2 简报中 CliffSearch（Agent 做科学发现）的 self-play 思路，以及 H Company Holo3 的 Computer Use 数据生产管线，整个社区正在把 Agent 数据生产工业化。对 GLM-5.1、Claude Mythos 这类需要长周期任务数据的前沿模型训练，这类工具的价值是不可替代的。

ENTRY 007/013

[ 论文 · 架构 · ATTENTION · 长序列 ]

PoM：线性时间的 Attention 替代方案

(PoM: Polynomial Mixer as Linear-Time Attention Replacement)

→ arXiv:2604.06129

4 月 7 日论文提出 Polynomial Mixer (PoM)，一种基于多项式的 token 混合器，具有线性复杂度，可作为 Attention 的 drop-in 替代品，在多个领域保持性能的同时大幅降低长序列计算成本。作者 David Picard, Nicolas Dufour。

Attention 的二次复杂度问题从 Transformer 问世起就是研究热点，过去七年有过 Linformer、Performer、Linear Attention、Mamba、RWKV 等数十种尝试，但真正成为"drop-in 替代品"的几乎没有——要么牺牲精度，要么需要完全重新训练。PoM 声称是"drop-in"这一点相当激进，如果后续验证属实，它将直接减少现有 Transformer 部署的推理成本。

这与 4/7 简报中 Google TurboQuant 和 TriAttention 形成一个完整的"推理效率栈"：TurboQuant 压缩 KV Cache，TriAttention 做 RoPE 前结构性压缩，PoM 直接把 Attention 复杂度降到线性。这三项技术理论上可以叠加使用，为 1M 上下文、Agent 场景铺平道路。值得注意的是，三者都在同一周内出现，说明"让长上下文推理经济可行"已经是本季度整个研究社区最紧迫的技术议题。

ENTRY 008/013

[ 论文 · LLM · TESTTIMECOMPUTE · 长上下文 ]

In-Place Test-Time Training：推理时动态调整权重

(In-Place Test-Time Training)

→ arXiv:2604.06169

4 月 7 日论文提出把 LLM 的 MLP 投影矩阵当作可学习的"快速权重"（fast weights），在推理时动态调整。在长上下文任务上显著优于传统方法，无需完整模型重训。

"测试时训练"这一思路过去在小模型上有过零星探索（如 Sun et al. 的 TTT），但大多被认为在大模型上不可行——梯度更新太贵。In-Place TTT 的巧妙之处是只更新 MLP 投影矩阵这一小部分参数，把计算成本控制在可接受范围。这在长上下文场景尤其有意义：模型可以根据当前上下文"自适应"地调整内部表征，而不是依赖预训练时见过的固定映射。

与 4/7 简报的 CoDE-Stop（置信度早停）、TriAttention 放在一起看，LLM 推理正在从"一次性前向传播"向"动态自适应过程"演化。这背后的哲学转变是：模型推理不再是固定函数，而是针对每个输入的轻量级优化过程。

ENTRY 009/013

[ 论文 · 多模态 · RAG · 嵌入 ]

MMEmb-R1：融合推理的多模态嵌入

(MMEmb-R1: Reasoning-Enhanced Multimodal Embedding)

→ arXiv:2604.06156

4 月 7 日论文提出 MMEmb-R1，在多模态嵌入中加入 CoT 推理的选择性调用机制——根据查询-目标难度判断是否启动推理。4B 参数模型在多模态检索基准上达到 SOTA，同时降低计算开销。

"推理增强嵌入"代表了 RAG 领域的一个新方向。此前的 embedding 模型无论查询多简单多复杂都用同一套前向传播，而 MMEmb-R1 让模型学会"什么情况下需要思考一下再嵌入"。4B 模型超越更大模型的结果很有说服力——这符合"小模型+自适应计算"这一整体趋势。

对构建企业级多模态 RAG 系统（4/2 简报中 Cohere Transcribe、Baidu Qianfan-OCR 等瞄准的场景）而言，这种选择性推理可以在保持检索质量的同时降低嵌入成本，对大规模知识库尤其重要。

ENTRY 010/013

[ 论文 · VLM · 幻觉 · 可解释性 ]

HaloProbe：VLM 幻觉的贝叶斯检测

(HaloProbe: Bayesian Detection of VLM Hallucinations)

→ arXiv:2604.06165

4 月 7 日论文提出 HaloProbe 贝叶斯框架，把视觉语言模型的幻觉成因分离为"解析错误"和"OCR 信号"两类，通过引导解码实现非侵入式缓解，无需修改模型内部。

VLM 幻觉一直是多模态应用落地的最大障碍——文档 OCR、医学影像、自动驾驶场景中的幻觉代价极高。HaloProbe 的"成因解耦"是一个有价值的视角：幻觉不是单一现象，解析错误（看错了）和 OCR 错误（认错了字）需要不同的修正策略。这与 4/7 简报中"隐藏推理模型的可解释性"论文共同构成了前沿实验室越来越重视的"内部可检查 AI"技术栈。

ENTRY 011/013

[ HUGGINGFACE · 开源 · TTS ]

GLM-5.1 HuggingFace 同步上架与 OpenBMB VoxCPM2

(GLM-5.1 on HuggingFace & OpenBMB VoxCPM2 TTS Release)

→ GLM-5.1 · → VoxCPM2

GLM-5.1 上架 HuggingFace 当日即冲到 Trending 第三，仅一天内积累 666 赞。同日 OpenBMB 发布 VoxCPM2 文本到语音模型，也进入 Trending 前列。Gemma 4 系列仍在前 20 占据 8 个席位。

GLM-5.1 的登场使 HuggingFace 榜单出现了一个有趣的现象：过去两周被 Gemma 4 系列"统治"的趋势榜突然被一个 MIT 许可的中国模型正面冲击。这进一步印证了开源 AI 市场"没有永恒的霸主"的特征——Gemma 4、Qwen3.5、DeepSeek V4（即将）、GLM-5.1 在两周内接连出现。对开发者而言，选型成本在降低但技术追踪成本在上升。

OpenBMB VoxCPM2 的上架延续了中国实验室在语音 AI 领域的密集投入（参见 4/5 Cohere Transcribe、k2-fsa/OmniVoice）。TTS 赛道正在从"能用"走向"多语言+可控+低延迟"的竞争阶段。

ENTRY 012/013

[ PRODUCTHUNT · 语音AI · AGENT · MAC ]

NovaVoice 登顶 Product Hunt 4/7：AI 语音助手的桌面化

(NovaVoice Tops Product Hunt With 547 Votes)

→ Product Hunt

4 月 7 日 PH 日榜 NovaVoice 以 547 票夺冠，主打"智能听写 + AI 助手 + 应用语音控制"。Lessie AI（437 票，AI 销售 Agent）、OpenOwl（246 票，macOS 桌面自动化 Agent）、Caret（206 票，跨 Mac 应用的智能文本补全）、Google AI Edge Eloquent（181 票，基于 Gemma 的离线听写）分列前五。前十产品中 7 个是 AI 产品。

今日 Product Hunt 榜单反映了两个微观趋势。第一，语音交互在 Mac 生态里正在形成一个新的产品层——NovaVoice、Caret、Google AI Edge Eloquent 都瞄准"用说话/文本补全替代敲键盘"的场景，与 macOS 系统级辅助输入形成竞争。第二，Google AI Edge Eloquent 登榜是 Gemma 4 在边缘端落地的第一个明显产品信号，验证了 4/5 简报中 Gemma 4 E2B/E4B 系列"为设备端 AI 生而设计"的定位。

OpenOwl 则是继 Holo3、Claude Computer Use 之后又一个直接面向消费者的桌面自动化 Agent——Computer Use 正在从研究课题快速转化为可下载的独立应用，尽管稳健性、安全性尚待验证。

ENTRY 013/013

[ ANTHROPIC · 运维 · 基础设施 ]

Anthropic Claude 4 月 6-7 日全球性服务中断

(Anthropic Claude Global Outage on April 6-7)

Anthropic Claude 服务在 4 月 6-7 日经历全球性中断，用户遭遇登录失败和错误码。时间恰好与 Project Glasswing 发布、$30B ARR 披露、3.5 GW TPU 协议签订为同一时间窗口。

Anthropic 的服务稳定性问题在过去六个月里已经多次出现，这次中断的特殊性在于时间点——恰好是公司宣布年化收入突破 300 亿美元的同一周。这提醒行业：AI 服务的运维复杂度随着并发推理量指数级上升，当前的可用性工程尚未跟上收入增长速度。与 Anthropic 刚签下 3.5 GW TPU 协议的背景对照，算力采购和运维能力扩张之间的时差正在成为新的商业风险因素。

其他值得关注

Paper Circle：开源多 Agent 研究发现与分析框架 (Paper Circle Multi-Agent Research Framework) — arXiv:2604.06170
Action Images：基于多视角视频生成的机器人策略学习 (Action Images End-to-End Policy Learning) — arXiv:2604.06168
Toward Consistent World Models：多 token 预测梯度偏差分析 (Consistent World Models with Multi-Token Prediction) — arXiv:2604.06155
Exclusive Unlearning：通过"保留域外全遗忘"做有害内容移除 (Exclusive Unlearning) — arXiv:2604.06154
Who Governs the Machine：AI 系统的机器身份治理分类体系 (Machine Identity Governance Taxonomy) — arXiv:2604.06148
Broadcom-Google 2031 年定制 TPU 长期供应协议 (Broadcom-Google Long-Term TPU Deal Through 2031) — CNBC
OpenBMB VoxCPM2 多语言 TTS 模型上榜 HuggingFace (OpenBMB VoxCPM2 TTS) — HuggingFace
Google AI Edge Eloquent：基于 Gemma 4 的离线听写应用 PH 登榜 (Google AI Edge Eloquent Offline Dictation)
OpenOwl：macOS 桌面自动化 Agent (OpenOwl Desktop Automation Agent)
DiffHDR：视频扩散模型做 LDR→HDR 再曝光 (DiffHDR Video Re-Exposure) — arXiv:2604.06161
Frontend-VisualQA：给编码 Agent "视觉眼睛" (Frontend-VisualQA for Coding Agents) — GitHub

← 2026.04.07 2026.04.09 →