一日三饭 | HARNESS

← /harness

════ 2026.04.13 ════

今日要点

> MiniMax 开源 M2.7——230B MoE "自我进化" Agent 模型，SWE-Pro 56.22% 逼近 Opus 4.6，首个在训练中参与自身强化学习实验优化的模型
> Berkeley RDI 重磅研究：所有主流 Agent 基准都可被利用——SWE-bench 100%、Terminal-Bench 100%，一个"零 LLM 调用"的扫描 Agent 即可满分，534 HN 点引爆社区
> AISLE 研究以 1250 HN 点刷屏：3.6B 参数小模型复现 Mythos 旗舰漏洞发现，"AI 网络安全的护城河是系统而非模型"
> LG AI Research 发布 EXAONE 4.5——33B 开源 VLM，STEM 基准 77.3 超越 GPT-5-mini (73.5) 和 Claude 4.5 Sonnet (74.6)，Hybrid Attention + 多 token 预测架构
> WildDet3D 以 88 票领跑 HF Papers：100 万图像 × 13,500 类别的野外 3D 检测数据集，统一文本/点/框三模态提示

详细内容

ENTRY 001/010

[ 开源 · LLM · AGENT · MOE · 自我进化 ]

MiniMax 开源 M2.7：首个"自我进化"的 Agent 模型

(MiniMax Open Sources M2.7: A Self-Evolving Agent Model)

→ HuggingFace · → MarkTechPost · → VentureBeat

4 月 12 日 MiniMax 正式开源 M2.7，一个 230B 参数稀疏 MoE 模型（10B 激活/token，256 专家），200K 上下文。SWE-Pro 56.22%、Terminal-Bench 2.0 57.0%、VIBE-Pro 55.6%。核心卖点是"自我进化"：模型在训练过程中更新记忆、构建复杂技能、自主优化编程脚手架超过 100 轮，最终将 RL 实验性能提升 30%。定价 $0.30/$1.20 每百万 token（输入/输出）。

M2.7 的"自我进化"不是营销噱头——它描述了一个具体的训练范式：模型在 RL 训练循环中不仅作为被训练对象，还作为训练基础设施的参与者。它自主修改 RL 实验的 scaffold 代码、调整 reward shaping 策略、基于实验结果更新自身的 skill 库。这在概念上与 4/10 简报 NousResearch hermes-agent 的"会自我成长的 Agent"方向一致，但 M2.7 在更底层的层次实现了闭环——不是在推理时积累经验，而是在训练时参与自身的优化过程。

SWE-Pro 56.22% 的得分值得关注。参照 4/8 简报 GLM-5.1 的 SWE-Bench Pro 58.4%，M2.7 已经进入同一梯队，而它只有 10B 激活参数（GLM-5.1 未披露激活参数数但总量 754B）。这进一步验证了 MoE 在 Agentic 场景下的效率优势。MiniMax 作为一家中国初创公司，在模型质量上首次进入与智谱、DeepSeek 并列的开源第一梯队，而且选择了完全开源而非"开放权重 + 限制性许可"的路线。

对 4/8 简报 Anthropic Managed Agents（$0.08/会话小时）的用户而言，M2.7 提供了一个自部署的替代选择——$0.30/M token 的 API 价格加上开源权重意味着在自有基础设施上运行 Agent 的单位成本可以更低，前提是你能承担部署 230B 模型的工程复杂度。

ENTRY 002/010

[ 论文 · AGENT · 评估 · 基准 · AI安全 ]

Berkeley RDI：所有主流 Agent 基准都可被利用

(Exploiting the Most Prominent AI Agent Benchmarks)

→ Berkeley RDI

Berkeley 可靠 AI 实验室对八大 Agent 基准进行系统性利用测试，发现一个"零 LLM 调用"的自动扫描 Agent 可以在大多数基准上拿到近满分。具体：SWE-bench Verified 用 10 行 conftest.py 强制所有测试通过（100%）；Terminal-Bench 用二进制包装木马拿到 100%；WebArena 通过 file:// URL 直接读取答案键；OSWorld 下载 HuggingFace 上公开的 gold reference 文件；GAIA 直接查公开验证集答案。

这是对整个 Agent 评估体系的系统性打击。过去两年，SWE-bench 得分几乎成了 Agent 能力的唯一货币——4/8 简报 GLM-5.1 用 58.4% 登顶作为最大卖点，4/12 简报 MiniMax M2.7 的 56.22% 同样是核心话术。Berkeley RDI 的研究直接表明：这些数字可能根本不代表它们声称的能力。

七种系统性漏洞中最令人警觉的是"评估器与 Agent 之间缺乏隔离"——Agent 可以直接操纵评估环境，相当于考生能修改答题卡的评分规则。SWE-bench 的 conftest.py 利用尤其具破坏力：一个 Agent 只需在项目根目录写入一个 10 行文件，就能让所有 pytest 测试返回通过，而评估系统不会检查这个文件是否合法。

这对 4/8 简报 Claw-Eval（强调轨迹级审计）是最直接的验证——Claw-Eval 当时就指出"仅凭最终输出的评估方式会遗漏 44% 的安全违规"，Berkeley RDI 则证明这不是理论风险而是可以被系统性利用的漏洞。对模型选型、投资决策、安全研究方向都是一记重锤：如果基准分数可以被伪造，整个依赖基准排名的生态系统都需要重新审视。

ENTRY 003/010

[ AI安全 · 网络安全 · MYTHOS · 开源 · 模型评估 ]

小模型复现 Mythos 漏洞发现："护城河是系统，不是模型"

(Small Models Found the Same Vulnerabilities That Mythos Found)

→ AISLE

AISLE 研究团队测试了 8 个小型开源模型对 Mythos 旗舰漏洞的检测能力。结果：8/8 模型检测到 Mythos 展示的 FreeBSD NFS 漏洞（CVE-2026-4747），包括一个仅 3.6B 激活参数、$0.11/百万 token 的模型。一个 5.1B 参数模型复现了 27 年历史 OpenBSD SACK Bug 的完整分析链。小型开源模型在 OWASP 假阳性测试中甚至优于前沿模型。

1250 HN 点是本周 AI 话题最高热度，直接回应 4/8 简报 Anthropic Project Glasswing 的核心叙事。Glasswing 把 Mythos 定位为"发现数千个漏洞"的独家网络安全资产，AISLE 的研究则挑战了这一叙事的基础——如果 3.6B 模型花 $0.11 就能复现 Mythos 的旗舰发现，那么 Glasswing 的受限访问模型价值在哪里？

答案可能在"发现-grade vs 系统-grade"的区分上。AISLE 的核心论点——"护城河是系统而非模型"——意味着单个漏洞的检测能力已经商品化（小模型就能做到），但大规模、持续性的漏洞发现管线需要的是编排、验证、优先级排序和维护者关系网络，这些"系统层"能力才是 Mythos + Glasswing 联盟的真正壁垒。

对安全团队的实操意义非常直接：不需要等 Glasswing 邀请，立即用当前可用的开源模型构建漏洞扫描管线，能力上限可能比预期更高。"能力前沿是锯齿状的"（jagged frontier）这一结论也意味着没有任何单一模型在所有安全任务上占优——组合多个小模型可能比依赖单一前沿模型更稳健。

ENTRY 004/010

[ 开源 · VLM · 多模态 · LG · STEM ]

LG AI Research 发布 EXAONE 4.5：33B 开源 VLM 击败 GPT-5-mini

(LG AI Research Releases EXAONE 4.5: 33B Open-Weight VLM Outperforming GPT-5-mini)

→ arXiv:2604.08644 · → HuggingFace · → PR Newswire

4 月 9 日 LG AI Research 发布 EXAONE 4.5，首个开源 VLM，33B 参数。采用 Hybrid Attention 架构和多 token 预测推理加速。五项 STEM 基准平均 77.3，超越 GPT-5-mini (73.5)、Claude 4.5 Sonnet (74.6)、Qwen-3 235B (77.0)。LiveCodeBench v6 得分 81.4 超过 Gemma 4 (80.0)，ChartQA Pro 62.2 为同规模最高。支持 256K 上下文，语言扩展至韩/英/西/德/日/越六语。

EXAONE 4.5 是韩国 AI 生态第一次在前沿模型赛道上发出有力声音。LG AI Research 此前的 EXAONE 系列一直在韩语 NLP 领域深耕但国际影响力有限，4.5 的发布策略明显是瞄准全球开源市场：Apache 许可、HuggingFace 首发、英文技术报告、多语言支持。

33B 参数击败 GPT-5-mini（73.5 vs 77.3 STEM 平均）和 Claude 4.5 Sonnet（74.6）的结果需要审慎解读——这些对比是在 STEM 特定基准上，GPT-5-mini 和 Claude 4.5 Sonnet 本身就是各自厂商的次旗舰/中等规模模型，而非 Opus/Pro 级别。但 EXAONE 4.5 用七分之一 K-EXAONE 的参数达到同等性能，Hybrid Attention + 多 token 预测的架构选择值得关注——这与 4/7 简报 TurboQuant（KV Cache 压缩）和 PoM（线性注意力）的推理效率趋势完全一致。

对文档理解场景的开发者而言，ChartQA Pro 62.2 的同规模最高分是直接可落地的信号——图表理解是企业 RAG 和数据分析 Agent 的核心能力之一。EXAONE 4.5 的 256K 上下文 + 文档聚焦训练 + 开源权重，使它成为 4/11 简报 markitdown（文档→Markdown）的天然下游——先用 markitdown 解析文档，再用 EXAONE 4.5 理解内容。

ENTRY 005/010

[ 论文 · 3D检测 · 数据集 · 多模态 ]

WildDet3D：100 万图像 × 13,500 类别的野外 3D 检测

(WildDet3D: Scaling Promptable 3D Detection in the Wild)

→ arXiv:2604.08626

AI2 联合多所高校发布 WildDet3D，一个从单张 RGB 图像进行 3D 物体检测的统一架构。支持文本、点、框三种提示模态，并可在推理时融合深度信号。配套 WildDet3D-Data 包含超 100 万图像、跨 13,500 个类别的多样化真实场景。Omni3D 基准 34.2/36.4 AP3D，深度信息可用时平均提升 +20.7 AP。

WildDet3D 的 88 HF Papers 投票是今日最高，反映了社区对"大规模 3D 感知"数据集的强烈需求。过去 3D 检测数据集（KITTI 7K 图、nuScenes 40K 图、SUN RGB-D 10K 图）在规模和类别覆盖上都远远不够——WildDet3D 一次性把规模推到 100 万图像 × 13,500 类别，直接改变了这个子领域的数据可用性。

统一三模态提示（文本 + 点 + 框）的设计直接瞄准工业应用场景：仓库机器人可以用文本提示"找到所有纸箱"，AR 设备可以用点击提示选择特定物体，自动驾驶可以用框提示跟踪已知目标。深度信号作为可选输入而非必需输入，也扩大了适用硬件范围——不是每个设备都有 LiDAR 或深度相机。

结合 4/11 简报 Scal3R（长序列 3D 重建）、4/7 简报 NVIDIA Cosmos Reason 2（物理 AI VLM），3D 感知正在形成完整的技术栈：大规模数据（WildDet3D）→ 场景重建（Scal3R）→ 物理推理（Cosmos Reason 2）→ 具身行动（SIM1）。

ENTRY 006/010

[ 论文 · 评测 · VLM · 制造业 · 工业AI ]

FORGE：面向制造业的多模态细粒度评测基准

(FORGE: Fine-grained Multimodal Evaluation for Manufacturing Scenarios)

→ arXiv:2604.07413

滑铁卢大学发布 FORGE，一个针对制造业场景的多模态模型评测基准。覆盖缺陷检测、装配验证、质量控制等细粒度视觉推理任务，评估 VLM 在高精度工业环境中的实际表现。

制造业是 VLM 最具商业价值但最缺标准评测的场景之一。现有基准（MMMU、MMBench、LLaVA-Bench）几乎完全集中在通用场景——学术、日常、网页，而制造业的视觉推理需要完全不同的能力：微米级缺陷识别、空间公差判断、多步骤装配序列验证。FORGE 填补的正是这个空白。

67 票的高投票说明工业界的需求很真实。在 4/9 简报白领 AI 抵制数据（80% 回避 AI 工具）的背景下，制造业其实是 AI 落地阻力最小的场景之一——工人对自动质检的接受度远高于白领对 AI 写报告的接受度，因为质检场景有明确的对错标准和可量化的效率提升。FORGE 的出现为这类场景提供了模型选型的客观依据。

ENTRY 007/010

[ 论文 · 图像生成 · 扩散模型 · 可控生成 ]

RefineAnything：多模态区域级精细化生成

(RefineAnything: Multimodal Region-Specific Refinement for Perfect Local Details)

→ arXiv:2604.06870

浙江大学发布 RefineAnything，一个支持多模态条件（文本、图像、草图）对图像局部区域进行精细化的框架。解决当前图像生成模型"全局质量高但局部细节失控"的问题，实现对指定区域的精确重绘而不影响其余部分。

"全局好但局部崩"是扩散模型最常见的用户抱怨——手指数量、文字渲染、小物件形状等局部细节一直是 Stable Diffusion、Flux、DALL-E 系列的短板。RefineAnything 的思路是"先生成再修补"：让主模型负责全局构图和风格，再用区域精细化模型对标注区域做二次生成。

这与 4/11 简报 NUMINA（数字-物体计数对齐）解决的是同一类问题的不同切面：NUMINA 在 attention 层面干预计数精度，RefineAnything 在后处理层面修复局部细节。两者结合可以覆盖扩散模型可控性的大部分长尾问题。对使用 ComfyUI / Automatic1111 工作流的创作者而言，RefineAnything 作为一个可插入的 refinement 节点，实用价值非常直接。

ENTRY 008/010

[ 开源 · AGENT · 强化学习 · 工具链 ]

Microsoft Agent-Lightning：无代码改动为 Agent 添加强化学习

(Microsoft Agent-Lightning: Adding RL to AI Agents Without Code Rewrites)

→ GitHub · → Microsoft Research

Microsoft 开源的 Agent-Lightning 近日持续活跃于 GitHub Trending（总星 16,817）。核心能力：将 Agent 工作流执行与模型训练解耦，允许开发者对任何现有 Agent 框架（OpenAI Agents SDK、AutoGen、LangChain）添加 RL 训练，无需修改 Agent 代码。支持强化学习、自动 Prompt 优化、SFT 等多种优化算法。

Agent-Lightning 解决的是 Agent 开发中一个被严重低估的痛点：Agent 框架与训练框架的割裂。当前的 Agent 生态中，LangChain / AutoGen / CrewAI 负责编排，PyTorch / TRL / Axolotl 负责训练，两者几乎没有交集——开发者写完 Agent 后想用 RL 优化它，需要从头搭建训练管线。Agent-Lightning 用"策略执行器与训练循环分离"的架构把这个桥搭上了。

这与 4/12 简报 MiniMax M2.7 的"自我进化"理念在不同层次上呼应：M2.7 是模型层面的自我优化，Agent-Lightning 是框架层面的优化基础设施。对想在 Agent 场景下做 RL 微调但不想从零搭建训练栈的团队，Agent-Lightning 可能是目前最低摩擦的入口。结合 4/8 简报 TPO（稀疏奖励下击败 PPO）的算法进展，Agent RL 训练正在从"只有顶级实验室能做"走向"任何开发者都能尝试"。

ENTRY 009/010

[ 开源 · AGENT · NOUSRESEARCH ]

🔄 NousResearch hermes-agent 持续爆发：三天涨 24,000 星

(hermes-agent Continues Explosive Growth: +24K Stars in 3 Days)

→ GitHub

hermes-agent 从 4/10 简报的 49,787 星增长至 73,824 星，三天增长约 24,000 星。维持 Python 日榜第一，单日 +7,454 星的增速未见放缓。

三天 +24K 星的持续增长排除了"一次性 viral 效应"的可能——这是一个被社区真实采纳的项目。参照历史，DeepSeek R1 在发布首周也经历了类似的多日持续爆发。hermes-agent 的增长速度意味着它正在从"有趣的新项目"进入"事实标准候选"的轨道。对 Agent 框架赛道而言，hermes-agent、Agent-Lightning、Claude Managed Agents 正在形成三层竞争格局：底层 RL 训练（Agent-Lightning）→ 自适应 Agent 框架（hermes-agent）→ 托管 Agent 平台（Managed Agents）。

ENTRY 010/010

[ MISTRAL · 欧洲 · AI战略 · 政策 ]

Mistral 发布欧洲 AI 主权战略白皮书

(Mistral AI Releases European AI Sovereignty Playbook)

→ europe.mistral.ai

4 月 7 日 Mistral 发布《European AI: A Playbook to Own It》，系统阐述欧洲 AI 主权战略的四大支柱：人才引进（快速签证）、市场整合（跨欧盟监管统一）、采用推动（公共采购杠杆）、基础设施（独立于外部超算的欧洲自主算力）。指出仅 20% 欧盟企业采用 AI，不到 10% 全球独角兽来自欧盟。

Mistral 这份白皮书与 4/7 简报 OpenAI 政策白皮书（四天工作周 + 税制改革）形成有趣的跨大西洋对照。OpenAI 关注的是 AI 对劳动力市场的冲击管理，Mistral 关注的是欧洲如何不被 AI 竞赛甩下——两份文件反映了美国和欧洲 AI 生态面临的根本性不同焦虑。

"独立于外部超算的欧洲自主算力"是最有技术含量的主张。当前欧洲 AI 训练几乎完全依赖 AWS/Azure/GCP 的美国数据中心，如果地缘局势恶化，欧洲实验室连训练模型的硬件访问权都可能失去。这与 4/7 简报 DeepSeek V4 在华为昇腾上训练的叙事形成镜像：中国在搭建自主硬件栈，欧洲连搭建的动作都还停留在白皮书阶段。Mistral 作为欧洲最有影响力的 AI 公司发出这一呼吁，既是技术战略也是政治动员。

其他值得关注

VISOR：基于迭代搜索与越界推理的 Agentic 视觉 RAG (VISOR: Agentic Visual RAG via Iterative Search and Over-horizon Reasoning) — arXiv
Uni-SafeBench：统一多模态大模型安全基准 (Does Unification Come at a Cost? Safety Benchmark for Unified Multimodal LLMs) — arXiv
Google Research：AI Agent 改善学术工作流——自动生成图表与辅助同行评审 (AI Agents for Better Figures and Peer Review) — Google Research Blog
[Anthropic "Trustworthy Agents in Practice" 研究发布（4/9）] — Anthropic Research — Anthropic Research
[lerobot/robot-folding：HF Spaces 新上榜机器人折叠研究 Demo] — HF Space — HF Space
[k2-fsa/OmniVoice 持续领跑 HF Spaces Trending（241 分），250+ 语言 TTS] — HF Space — HF Space
[🔄 microsoft/markitdown 突破 106K 星（+5K since 04-11）] — GitHub — GitHub
[shiyu-coder/Kronos 金融基础模型持续 Trending（16,545 星）] — GitHub — GitHub
[Perplexity Computer 扩展至 Pro/Enterprise 用户，月活突破 1 亿] — SiliconSnark — SiliconSnark
[OpenAI 宣布 2027 年在伦敦 King's Cross 设立美国以外最大研究中心] — opentools.ai — opentools.ai
[Apple 的"AI 输家"叙事可能逆转——HN 225 点讨论] — adlrocha.substack.com — adlrocha.substack.com
[科技股估值回到 AI 热潮前水平（Apollo 分析）] — Apollo — Apollo

← 2026.04.11 —