════ 2026.04.08 ════
今日要点
详细内容
ENTRY 001/013
[ 开源 · LLM · AGENT · 智谱 · SWEBENCH ]
智谱 GLM-5.1:754B 开源击败 Claude Opus 4.6 的 Agentic 模型
(Z.AI Releases GLM-5.1, Open-Weight 754B Agentic Model Topping SWE-Bench Pro)
4 月 7-8 日智谱 Z.AI 发布 GLM-5.1,754B 参数 MoE,MIT 许可,200K 上下文/128K 输出。SWE-Bench Pro 得分 58.4 刷新 SOTA,超越 GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro;AIME 2026 95.3,GPQA-Diamond 86.2;Terminal-Bench 2.0 63.5(配合 Claude Code scaffolding 达 66.5);τ³-Bench 70.6,BrowseComp 68.0。核心卖点是长周期自主执行——可在单个复杂任务上持续工作 8 小时。
GLM-5.1 是一个多重意义上的里程碑。从纯性能角度,这是首个在 SWE-Bench Pro 上超越闭源前沿三巨头的开源模型——此前 Qwen、DeepSeek 在这类硬核 Agentic Coding 基准上一直差一个身位。SWE-Bench Pro 的 58.4 分与 Claude Opus 4.6 实际使用场景的差距几乎被抹平,而 MIT 许可意味着企业可以自由商用、微调、再分发,没有 Llama-style 的附加条款。
"8 小时自主任务"这一指标比单纯的基准分数更值得关注。4/5 简报中国际 AI 安全报告指出"Agent 可完成的 SE 任务时长每 7 个月翻倍"——GLM-5.1 是这一趋势的直接印证。长周期自主意味着模型需要同时解决四个难题:上下文衰减、自我纠错、工具调用规划、错误恢复。智谱选择在价格上涨 10% 的同时开源权重,暗示其 API 业务与开源分发并行的商业模式已经跑通。
从地缘视角,GLM-5.1 的发布与 4/7 简报记录的 DeepSeek V4 在华为昇腾 950PR 上训练推理、三家美国实验室通过 Frontier Model Forum 联手反蒸馏形成了一个完整叙事:中国开源 AI 已经从"追赶闭源"进入"在特定硬基准上领先闭源"阶段。对美国前沿实验室而言,这也意味着"闭源 + 蒸馏防御"的护城河正在变窄——当开源模型已经达到 94-100% Opus 性能时,蒸馏的边际价值也在下降。
ENTRY 002/013
[ ANTHROPIC · MYTHOS · AI安全 · 网络安全 · AI治理 ]
🔄 Anthropic Project Glasswing:Mythos 首度亮相与前所未有的防御联盟
(Anthropic Launches Project Glasswing With Claude Mythos Preview for Cybersecurity)
4 月 7 日 Anthropic 正式发布 Project Glasswing:把其尚未公开的最强模型 Claude Mythos 以预览形式授予 AWS、Apple、Broadcom、Cisco、CrowdStrike、Google、JPMorganChase、Microsoft、Nvidia 等 9 家巨头,以及 40 余家关键基础设施组织,专用于防御性网络安全研究。Anthropic 称在内部测试中 Mythos 已发现"数千个漏洞",覆盖主流操作系统和浏览器。Anthropic 明确表示不会普遍开放 Mythos Preview,要在新的安全措施到位后才考虑规模部署。
这是 4/1 简报中"Anthropic Mythos 因数据泄露意外曝光"的正式官方回应——不再是被动披露,而是主动把模型作为"关键基础设施防御资产"推出。Glasswing 构建了一种全新的治理模型:模型既不开源也不完全闭源,而是"对特定联盟开放"。参与名单是 AI 行业近年最重量级的跨公司协作——AWS、Google、Microsoft、Apple、Nvidia 同时出现,意味着这不只是 Anthropic 的生意,而是整个 AI 基础设施层对网络安全风险的集体回应。
这一动作与 4/7 简报中"AI 攻击性网络能力每 5.7 个月翻倍"、"OpenAI/Anthropic/Google 通过 Frontier Model Forum 联手反蒸馏"形成一套连贯的战略叙事:前沿实验室正在把"模型即战略武器"的认知制度化。Mythos 作为首个被明确描述为"可能增加大规模 AI 驱动网络攻击可能性"的模型,其发布时机选择"先做防御方武装"而非直接产品化,是对 RSP (Responsible Scaling Policy) 的具体执行。
对开源社区和中小安全厂商而言,Glasswing 设立了一条残酷的新边界——你可能永远无法用上 Mythos 级模型去做自己系统的漏洞扫描。这既是"能力差距货币化"的开始,也是未来 AI 安全治理的原型——模型访问权成为类似"核材料"的受控资产。Simon Willison 的评价颇具代表性:"把 Claude Mythos 限制在安全研究人员手中听起来是必要的"——即使是一贯鼓吹开放的技术社区也开始接受这种分级访问模型。
ENTRY 003/013
[ ANTHROPIC · 营收 · TPU · 基础设施 ]
Anthropic 年化收入 300 亿美元,签订 3.5 GW TPU 扩展协议
(Anthropic Hits $30B Run Rate, Signs 3.5 GW TPU Deal With Google/Broadcom)
4 月 6 日 Anthropic 披露年化收入 run rate 突破 300 亿美元,较 2025 年底的约 90 亿美元三倍增长。同日宣布与 Google/Broadcom 签订新的 3.5 GW TPU 供应协议,在 2026 年已有的 1 GW 基础上再扩容,新容量 2027 年上线。Broadcom 同时与 Google 签订独立的 2031 年前定制 TPU 芯片长期供应协议。
300 亿美元的数字放在 AI 行业商业化背景里是一个临界点:它把 Anthropic 的商业体量推到了 OpenAI 同期规模的相当水平,而且增速更陡(三个月三倍 vs OpenAI 的线性爬升)。考虑到 4/7 简报中 OpenAI $1220 亿估值是基于近期融资,Anthropic 这一波数据如果持续,下一轮估值很可能进入万亿美元级别。
3.5 GW 的 TPU 容量规模更具战略含义——这大致相当于三座中型核电站的全部输出。Anthropic 选择"不自己造芯片、深度绑定 Google TPU"的路线,与 OpenAI 同时绑定 Microsoft Azure + Oracle + 自有芯片的多元化策略形成鲜明对比。这种单一供应商路线风险更高,但可以在算力单价和软件栈优化上获得更紧耦合的收益。Broadcom 与 Google 的 2031 年定制 TPU 协议,则意味着 Google 正在把 TPU 从"Gemini 专用"转向"前沿模型训练的公共基础设施"。
这三件事同日发生(Glasswing、$30B ARR、TPU 扩容)并非巧合:Anthropic 正在把自己重新定位为"AI 基础设施+安全的系统级供应商",而不仅仅是另一个 Claude 聊天机器人。
ENTRY 004/013
[ 论文 · AGENT · 评估 · AI安全 ]
Claw-Eval:可信 Agent 评估的新基准
(Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents)
4 月 7 日论文提出 Claw-Eval,包含 300 个经人工验证的 Agent 任务,捕获执行轨迹、审计日志、环境快照,支持细粒度 rubric 评估。核心发现:仅凭最终输出的"轨迹不透明"评估方式会遗漏 44% 的安全违规行为。
"44% 的安全违规被遗漏"是一个令监管者和企业合规团队都应当警觉的数据点。当前绝大多数 Agent 基准(SWE-Bench、OSWorld、WebArena)都只看最终结果对不对,而不检查 Agent 在执行过程中是否尝试过越权、是否调用了未授权工具、是否伪造了中间状态。Claw-Eval 的轨迹级评估把 Agent 审计带到接近"飞机黑匣子"的级别。
这与同日 Anthropic 的 Glasswing、4/7 OpenAI 公开的内部 Agent 不对齐监控系统形成一条连贯的技术路线:当 Agent 可以执行数小时自主任务(参考 GLM-5.1 的 8 小时能力),最终输出正确不等于过程合规。Claw-Eval 的 rubric 方法论很可能成为企业采购 Agent 的新门槛——"你有 Claw-Eval 级的可审计轨迹吗"将取代"你 SWE-Bench 几分"。
ENTRY 005/013
[ 论文 · 强化学习 · RLHF ]
Target Policy Optimization:在稀疏奖励场景击败 PPO
(Target Policy Optimization Substantially Outperforms PPO)
4 月 7 日论文 Target Policy Optimization (TPO) 把策略梯度优化分解为"目标分布构建"和"通过交叉熵损失拟合策略"两个阶段,在稀疏奖励设置下大幅超越 PPO 和同类方法。作者 Jean Kaddour。
PPO 在 RLHF/RLAIF 领域已经统治多年,但它在稀疏奖励下的效率问题是人尽皆知的痛点——推理模型训练中很多 reward 信号只在最终 token 出现,中间 token 的梯度估计噪声巨大。TPO 的分解思路把这变成了一个更稳定的"构造目标→拟合目标"的监督学习式优化,绕开了 PPO 对 advantage 估计的依赖。
如果 TPO 的实验结果能推广到大规模 RLHF 场景,它可能成为继 GRPO、DPO 之后又一个被大规模采用的对齐算法。这对 GLM-5.1 这类长周期 Agent 模型尤为重要——8 小时自主任务的奖励信号极端稀疏,TPO 类方法可以显著提升训练样本效率。
ENTRY 006/013
[ 论文 · AGENT · COMPUTERUSE · 基准 ]
Gym-Anything:把任意软件变成 Agent 环境
(Gym-Anything: Turn Any Software Into an Agent Environment)
4 月 7 日论文发布 Gym-Anything,通过多 Agent 搭建和验证管线,把任意软件转换成交互式 Agent 训练环境。配套的 CUA-World 基准包含 10K+ 真实长周期工作流任务。作者 Pranjal Aggarwal, Graham Neubig (CMU)。
Gym-Anything 解决的是当前 Agent 研究的根本瓶颈——训练数据和评估环境都极度稀缺。手工构造一个 OSWorld 级别的环境需要数百小时人工标注,而 Gym-Anything 把这个过程交给 Agent 自己完成:一组 Agent 分析软件、生成任务、验证可执行性、交叉检查。CUA-World 的 10K+ 任务规模直接把现有 benchmark (OSWorld 300+, WebArena 800+) 甩开一个数量级。
这是"Agent 训练 Agent"这一范式走向成熟的标志性工作。结合 4/2 简报中 CliffSearch(Agent 做科学发现)的 self-play 思路,以及 H Company Holo3 的 Computer Use 数据生产管线,整个社区正在把 Agent 数据生产工业化。对 GLM-5.1、Claude Mythos 这类需要长周期任务数据的前沿模型训练,这类工具的价值是不可替代的。
ENTRY 007/013
[ 论文 · 架构 · ATTENTION · 长序列 ]
PoM:线性时间的 Attention 替代方案
(PoM: Polynomial Mixer as Linear-Time Attention Replacement)
4 月 7 日论文提出 Polynomial Mixer (PoM),一种基于多项式的 token 混合器,具有线性复杂度,可作为 Attention 的 drop-in 替代品,在多个领域保持性能的同时大幅降低长序列计算成本。作者 David Picard, Nicolas Dufour。
Attention 的二次复杂度问题从 Transformer 问世起就是研究热点,过去七年有过 Linformer、Performer、Linear Attention、Mamba、RWKV 等数十种尝试,但真正成为"drop-in 替代品"的几乎没有——要么牺牲精度,要么需要完全重新训练。PoM 声称是"drop-in"这一点相当激进,如果后续验证属实,它将直接减少现有 Transformer 部署的推理成本。
这与 4/7 简报中 Google TurboQuant 和 TriAttention 形成一个完整的"推理效率栈":TurboQuant 压缩 KV Cache,TriAttention 做 RoPE 前结构性压缩,PoM 直接把 Attention 复杂度降到线性。这三项技术理论上可以叠加使用,为 1M 上下文、Agent 场景铺平道路。值得注意的是,三者都在同一周内出现,说明"让长上下文推理经济可行"已经是本季度整个研究社区最紧迫的技术议题。
ENTRY 008/013
[ 论文 · LLM · TESTTIMECOMPUTE · 长上下文 ]
In-Place Test-Time Training:推理时动态调整权重
(In-Place Test-Time Training)
4 月 7 日论文提出把 LLM 的 MLP 投影矩阵当作可学习的"快速权重"(fast weights),在推理时动态调整。在长上下文任务上显著优于传统方法,无需完整模型重训。
"测试时训练"这一思路过去在小模型上有过零星探索(如 Sun et al. 的 TTT),但大多被认为在大模型上不可行——梯度更新太贵。In-Place TTT 的巧妙之处是只更新 MLP 投影矩阵这一小部分参数,把计算成本控制在可接受范围。这在长上下文场景尤其有意义:模型可以根据当前上下文"自适应"地调整内部表征,而不是依赖预训练时见过的固定映射。
与 4/7 简报的 CoDE-Stop(置信度早停)、TriAttention 放在一起看,LLM 推理正在从"一次性前向传播"向"动态自适应过程"演化。这背后的哲学转变是:模型推理不再是固定函数,而是针对每个输入的轻量级优化过程。
ENTRY 009/013
[ 论文 · 多模态 · RAG · 嵌入 ]
MMEmb-R1:融合推理的多模态嵌入
(MMEmb-R1: Reasoning-Enhanced Multimodal Embedding)
4 月 7 日论文提出 MMEmb-R1,在多模态嵌入中加入 CoT 推理的选择性调用机制——根据查询-目标难度判断是否启动推理。4B 参数模型在多模态检索基准上达到 SOTA,同时降低计算开销。
"推理增强嵌入"代表了 RAG 领域的一个新方向。此前的 embedding 模型无论查询多简单多复杂都用同一套前向传播,而 MMEmb-R1 让模型学会"什么情况下需要思考一下再嵌入"。4B 模型超越更大模型的结果很有说服力——这符合"小模型+自适应计算"这一整体趋势。
对构建企业级多模态 RAG 系统(4/2 简报中 Cohere Transcribe、Baidu Qianfan-OCR 等瞄准的场景)而言,这种选择性推理可以在保持检索质量的同时降低嵌入成本,对大规模知识库尤其重要。
ENTRY 010/013
[ 论文 · VLM · 幻觉 · 可解释性 ]
HaloProbe:VLM 幻觉的贝叶斯检测
(HaloProbe: Bayesian Detection of VLM Hallucinations)
4 月 7 日论文提出 HaloProbe 贝叶斯框架,把视觉语言模型的幻觉成因分离为"解析错误"和"OCR 信号"两类,通过引导解码实现非侵入式缓解,无需修改模型内部。
VLM 幻觉一直是多模态应用落地的最大障碍——文档 OCR、医学影像、自动驾驶场景中的幻觉代价极高。HaloProbe 的"成因解耦"是一个有价值的视角:幻觉不是单一现象,解析错误(看错了)和 OCR 错误(认错了字)需要不同的修正策略。这与 4/7 简报中"隐藏推理模型的可解释性"论文共同构成了前沿实验室越来越重视的"内部可检查 AI"技术栈。
ENTRY 011/013
[ HUGGINGFACE · 开源 · TTS ]
GLM-5.1 HuggingFace 同步上架与 OpenBMB VoxCPM2
(GLM-5.1 on HuggingFace & OpenBMB VoxCPM2 TTS Release)
GLM-5.1 上架 HuggingFace 当日即冲到 Trending 第三,仅一天内积累 666 赞。同日 OpenBMB 发布 VoxCPM2 文本到语音模型,也进入 Trending 前列。Gemma 4 系列仍在前 20 占据 8 个席位。
GLM-5.1 的登场使 HuggingFace 榜单出现了一个有趣的现象:过去两周被 Gemma 4 系列"统治"的趋势榜突然被一个 MIT 许可的中国模型正面冲击。这进一步印证了开源 AI 市场"没有永恒的霸主"的特征——Gemma 4、Qwen3.5、DeepSeek V4(即将)、GLM-5.1 在两周内接连出现。对开发者而言,选型成本在降低但技术追踪成本在上升。
OpenBMB VoxCPM2 的上架延续了中国实验室在语音 AI 领域的密集投入(参见 4/5 Cohere Transcribe、k2-fsa/OmniVoice)。TTS 赛道正在从"能用"走向"多语言+可控+低延迟"的竞争阶段。
ENTRY 012/013
[ PRODUCTHUNT · 语音AI · AGENT · MAC ]
NovaVoice 登顶 Product Hunt 4/7:AI 语音助手的桌面化
(NovaVoice Tops Product Hunt With 547 Votes)
4 月 7 日 PH 日榜 NovaVoice 以 547 票夺冠,主打"智能听写 + AI 助手 + 应用语音控制"。Lessie AI(437 票,AI 销售 Agent)、OpenOwl(246 票,macOS 桌面自动化 Agent)、Caret(206 票,跨 Mac 应用的智能文本补全)、Google AI Edge Eloquent(181 票,基于 Gemma 的离线听写)分列前五。前十产品中 7 个是 AI 产品。
今日 Product Hunt 榜单反映了两个微观趋势。第一,语音交互在 Mac 生态里正在形成一个新的产品层——NovaVoice、Caret、Google AI Edge Eloquent 都瞄准"用说话/文本补全替代敲键盘"的场景,与 macOS 系统级辅助输入形成竞争。第二,Google AI Edge Eloquent 登榜是 Gemma 4 在边缘端落地的第一个明显产品信号,验证了 4/5 简报中 Gemma 4 E2B/E4B 系列"为设备端 AI 生而设计"的定位。
OpenOwl 则是继 Holo3、Claude Computer Use 之后又一个直接面向消费者的桌面自动化 Agent——Computer Use 正在从研究课题快速转化为可下载的独立应用,尽管稳健性、安全性尚待验证。
ENTRY 013/013
[ ANTHROPIC · 运维 · 基础设施 ]
Anthropic Claude 4 月 6-7 日全球性服务中断
(Anthropic Claude Global Outage on April 6-7)
Anthropic Claude 服务在 4 月 6-7 日经历全球性中断,用户遭遇登录失败和错误码。时间恰好与 Project Glasswing 发布、$30B ARR 披露、3.5 GW TPU 协议签订为同一时间窗口。
Anthropic 的服务稳定性问题在过去六个月里已经多次出现,这次中断的特殊性在于时间点——恰好是公司宣布年化收入突破 300 亿美元的同一周。这提醒行业:AI 服务的运维复杂度随着并发推理量指数级上升,当前的可用性工程尚未跟上收入增长速度。与 Anthropic 刚签下 3.5 GW TPU 协议的背景对照,算力采购和运维能力扩张之间的时差正在成为新的商业风险因素。
其他值得关注
- Paper Circle:开源多 Agent 研究发现与分析框架 (Paper Circle Multi-Agent Research Framework) — arXiv:2604.06170
- Action Images:基于多视角视频生成的机器人策略学习 (Action Images End-to-End Policy Learning) — arXiv:2604.06168
- Toward Consistent World Models:多 token 预测梯度偏差分析 (Consistent World Models with Multi-Token Prediction) — arXiv:2604.06155
- Exclusive Unlearning:通过"保留域外全遗忘"做有害内容移除 (Exclusive Unlearning) — arXiv:2604.06154
- Who Governs the Machine:AI 系统的机器身份治理分类体系 (Machine Identity Governance Taxonomy) — arXiv:2604.06148
- Broadcom-Google 2031 年定制 TPU 长期供应协议 (Broadcom-Google Long-Term TPU Deal Through 2031) — CNBC
- OpenBMB VoxCPM2 多语言 TTS 模型上榜 HuggingFace (OpenBMB VoxCPM2 TTS) — HuggingFace
- Google AI Edge Eloquent:基于 Gemma 4 的离线听写应用 PH 登榜 (Google AI Edge Eloquent Offline Dictation)
- OpenOwl:macOS 桌面自动化 Agent (OpenOwl Desktop Automation Agent)
- DiffHDR:视频扩散模型做 LDR→HDR 再曝光 (DiffHDR Video Re-Exposure) — arXiv:2604.06161
- Frontend-VisualQA:给编码 Agent "视觉眼睛" (Frontend-VisualQA for Coding Agents) — GitHub