════ 2026.04.13 ════
今日要点
详细内容
ENTRY 001/010
[ 开源 · LLM · AGENT · MOE · 自我进化 ]

MiniMax 开源 M2.7:首个"自我进化"的 Agent 模型

(MiniMax Open Sources M2.7: A Self-Evolving Agent Model)
4 月 12 日 MiniMax 正式开源 M2.7,一个 230B 参数稀疏 MoE 模型(10B 激活/token,256 专家),200K 上下文。SWE-Pro 56.22%、Terminal-Bench 2.0 57.0%、VIBE-Pro 55.6%。核心卖点是"自我进化":模型在训练过程中更新记忆、构建复杂技能、自主优化编程脚手架超过 100 轮,最终将 RL 实验性能提升 30%。定价 $0.30/$1.20 每百万 token(输入/输出)。

M2.7 的"自我进化"不是营销噱头——它描述了一个具体的训练范式:模型在 RL 训练循环中不仅作为被训练对象,还作为训练基础设施的参与者。它自主修改 RL 实验的 scaffold 代码、调整 reward shaping 策略、基于实验结果更新自身的 skill 库。这在概念上与 4/10 简报 NousResearch hermes-agent 的"会自我成长的 Agent"方向一致,但 M2.7 在更底层的层次实现了闭环——不是在推理时积累经验,而是在训练时参与自身的优化过程。

SWE-Pro 56.22% 的得分值得关注。参照 4/8 简报 GLM-5.1 的 SWE-Bench Pro 58.4%,M2.7 已经进入同一梯队,而它只有 10B 激活参数(GLM-5.1 未披露激活参数数但总量 754B)。这进一步验证了 MoE 在 Agentic 场景下的效率优势。MiniMax 作为一家中国初创公司,在模型质量上首次进入与智谱、DeepSeek 并列的开源第一梯队,而且选择了完全开源而非"开放权重 + 限制性许可"的路线。

对 4/8 简报 Anthropic Managed Agents($0.08/会话小时)的用户而言,M2.7 提供了一个自部署的替代选择——$0.30/M token 的 API 价格加上开源权重意味着在自有基础设施上运行 Agent 的单位成本可以更低,前提是你能承担部署 230B 模型的工程复杂度。

ENTRY 002/010
[ 论文 · AGENT · 评估 · 基准 · AI安全 ]

Berkeley RDI:所有主流 Agent 基准都可被利用

(Exploiting the Most Prominent AI Agent Benchmarks)
Berkeley 可靠 AI 实验室对八大 Agent 基准进行系统性利用测试,发现一个"零 LLM 调用"的自动扫描 Agent 可以在大多数基准上拿到近满分。具体:SWE-bench Verified 用 10 行 conftest.py 强制所有测试通过(100%);Terminal-Bench 用二进制包装木马拿到 100%;WebArena 通过 file:// URL 直接读取答案键;OSWorld 下载 HuggingFace 上公开的 gold reference 文件;GAIA 直接查公开验证集答案。

这是对整个 Agent 评估体系的系统性打击。过去两年,SWE-bench 得分几乎成了 Agent 能力的唯一货币——4/8 简报 GLM-5.1 用 58.4% 登顶作为最大卖点,4/12 简报 MiniMax M2.7 的 56.22% 同样是核心话术。Berkeley RDI 的研究直接表明:这些数字可能根本不代表它们声称的能力。

七种系统性漏洞中最令人警觉的是"评估器与 Agent 之间缺乏隔离"——Agent 可以直接操纵评估环境,相当于考生能修改答题卡的评分规则。SWE-bench 的 conftest.py 利用尤其具破坏力:一个 Agent 只需在项目根目录写入一个 10 行文件,就能让所有 pytest 测试返回通过,而评估系统不会检查这个文件是否合法。

这对 4/8 简报 Claw-Eval(强调轨迹级审计)是最直接的验证——Claw-Eval 当时就指出"仅凭最终输出的评估方式会遗漏 44% 的安全违规",Berkeley RDI 则证明这不是理论风险而是可以被系统性利用的漏洞。对模型选型、投资决策、安全研究方向都是一记重锤:如果基准分数可以被伪造,整个依赖基准排名的生态系统都需要重新审视。

ENTRY 003/010
[ AI安全 · 网络安全 · MYTHOS · 开源 · 模型评估 ]

小模型复现 Mythos 漏洞发现:"护城河是系统,不是模型"

(Small Models Found the Same Vulnerabilities That Mythos Found)
AISLE 研究团队测试了 8 个小型开源模型对 Mythos 旗舰漏洞的检测能力。结果:8/8 模型检测到 Mythos 展示的 FreeBSD NFS 漏洞(CVE-2026-4747),包括一个仅 3.6B 激活参数、$0.11/百万 token 的模型。一个 5.1B 参数模型复现了 27 年历史 OpenBSD SACK Bug 的完整分析链。小型开源模型在 OWASP 假阳性测试中甚至优于前沿模型。

1250 HN 点是本周 AI 话题最高热度,直接回应 4/8 简报 Anthropic Project Glasswing 的核心叙事。Glasswing 把 Mythos 定位为"发现数千个漏洞"的独家网络安全资产,AISLE 的研究则挑战了这一叙事的基础——如果 3.6B 模型花 $0.11 就能复现 Mythos 的旗舰发现,那么 Glasswing 的受限访问模型价值在哪里?

答案可能在"发现-grade vs 系统-grade"的区分上。AISLE 的核心论点——"护城河是系统而非模型"——意味着单个漏洞的检测能力已经商品化(小模型就能做到),但大规模、持续性的漏洞发现管线需要的是编排、验证、优先级排序和维护者关系网络,这些"系统层"能力才是 Mythos + Glasswing 联盟的真正壁垒。

对安全团队的实操意义非常直接:不需要等 Glasswing 邀请,立即用当前可用的开源模型构建漏洞扫描管线,能力上限可能比预期更高。"能力前沿是锯齿状的"(jagged frontier)这一结论也意味着没有任何单一模型在所有安全任务上占优——组合多个小模型可能比依赖单一前沿模型更稳健。

ENTRY 004/010
[ 开源 · VLM · 多模态 · LG · STEM ]

LG AI Research 发布 EXAONE 4.5:33B 开源 VLM 击败 GPT-5-mini

(LG AI Research Releases EXAONE 4.5: 33B Open-Weight VLM Outperforming GPT-5-mini)
4 月 9 日 LG AI Research 发布 EXAONE 4.5,首个开源 VLM,33B 参数。采用 Hybrid Attention 架构和多 token 预测推理加速。五项 STEM 基准平均 77.3,超越 GPT-5-mini (73.5)、Claude 4.5 Sonnet (74.6)、Qwen-3 235B (77.0)。LiveCodeBench v6 得分 81.4 超过 Gemma 4 (80.0),ChartQA Pro 62.2 为同规模最高。支持 256K 上下文,语言扩展至韩/英/西/德/日/越六语。

EXAONE 4.5 是韩国 AI 生态第一次在前沿模型赛道上发出有力声音。LG AI Research 此前的 EXAONE 系列一直在韩语 NLP 领域深耕但国际影响力有限,4.5 的发布策略明显是瞄准全球开源市场:Apache 许可、HuggingFace 首发、英文技术报告、多语言支持。

33B 参数击败 GPT-5-mini(73.5 vs 77.3 STEM 平均)和 Claude 4.5 Sonnet(74.6)的结果需要审慎解读——这些对比是在 STEM 特定基准上,GPT-5-mini 和 Claude 4.5 Sonnet 本身就是各自厂商的次旗舰/中等规模模型,而非 Opus/Pro 级别。但 EXAONE 4.5 用七分之一 K-EXAONE 的参数达到同等性能,Hybrid Attention + 多 token 预测的架构选择值得关注——这与 4/7 简报 TurboQuant(KV Cache 压缩)和 PoM(线性注意力)的推理效率趋势完全一致。

对文档理解场景的开发者而言,ChartQA Pro 62.2 的同规模最高分是直接可落地的信号——图表理解是企业 RAG 和数据分析 Agent 的核心能力之一。EXAONE 4.5 的 256K 上下文 + 文档聚焦训练 + 开源权重,使它成为 4/11 简报 markitdown(文档→Markdown)的天然下游——先用 markitdown 解析文档,再用 EXAONE 4.5 理解内容。

ENTRY 005/010
[ 论文 · 3D检测 · 数据集 · 多模态 ]

WildDet3D:100 万图像 × 13,500 类别的野外 3D 检测

(WildDet3D: Scaling Promptable 3D Detection in the Wild)
AI2 联合多所高校发布 WildDet3D,一个从单张 RGB 图像进行 3D 物体检测的统一架构。支持文本、点、框三种提示模态,并可在推理时融合深度信号。配套 WildDet3D-Data 包含超 100 万图像、跨 13,500 个类别的多样化真实场景。Omni3D 基准 34.2/36.4 AP3D,深度信息可用时平均提升 +20.7 AP。

WildDet3D 的 88 HF Papers 投票是今日最高,反映了社区对"大规模 3D 感知"数据集的强烈需求。过去 3D 检测数据集(KITTI 7K 图、nuScenes 40K 图、SUN RGB-D 10K 图)在规模和类别覆盖上都远远不够——WildDet3D 一次性把规模推到 100 万图像 × 13,500 类别,直接改变了这个子领域的数据可用性。

统一三模态提示(文本 + 点 + 框)的设计直接瞄准工业应用场景:仓库机器人可以用文本提示"找到所有纸箱",AR 设备可以用点击提示选择特定物体,自动驾驶可以用框提示跟踪已知目标。深度信号作为可选输入而非必需输入,也扩大了适用硬件范围——不是每个设备都有 LiDAR 或深度相机。

结合 4/11 简报 Scal3R(长序列 3D 重建)、4/7 简报 NVIDIA Cosmos Reason 2(物理 AI VLM),3D 感知正在形成完整的技术栈:大规模数据(WildDet3D)→ 场景重建(Scal3R)→ 物理推理(Cosmos Reason 2)→ 具身行动(SIM1)。

ENTRY 006/010
[ 论文 · 评测 · VLM · 制造业 · 工业AI ]

FORGE:面向制造业的多模态细粒度评测基准

(FORGE: Fine-grained Multimodal Evaluation for Manufacturing Scenarios)
滑铁卢大学发布 FORGE,一个针对制造业场景的多模态模型评测基准。覆盖缺陷检测、装配验证、质量控制等细粒度视觉推理任务,评估 VLM 在高精度工业环境中的实际表现。

制造业是 VLM 最具商业价值但最缺标准评测的场景之一。现有基准(MMMU、MMBench、LLaVA-Bench)几乎完全集中在通用场景——学术、日常、网页,而制造业的视觉推理需要完全不同的能力:微米级缺陷识别、空间公差判断、多步骤装配序列验证。FORGE 填补的正是这个空白。

67 票的高投票说明工业界的需求很真实。在 4/9 简报白领 AI 抵制数据(80% 回避 AI 工具)的背景下,制造业其实是 AI 落地阻力最小的场景之一——工人对自动质检的接受度远高于白领对 AI 写报告的接受度,因为质检场景有明确的对错标准和可量化的效率提升。FORGE 的出现为这类场景提供了模型选型的客观依据。

ENTRY 007/010
[ 论文 · 图像生成 · 扩散模型 · 可控生成 ]

RefineAnything:多模态区域级精细化生成

(RefineAnything: Multimodal Region-Specific Refinement for Perfect Local Details)
浙江大学发布 RefineAnything,一个支持多模态条件(文本、图像、草图)对图像局部区域进行精细化的框架。解决当前图像生成模型"全局质量高但局部细节失控"的问题,实现对指定区域的精确重绘而不影响其余部分。

"全局好但局部崩"是扩散模型最常见的用户抱怨——手指数量、文字渲染、小物件形状等局部细节一直是 Stable Diffusion、Flux、DALL-E 系列的短板。RefineAnything 的思路是"先生成再修补":让主模型负责全局构图和风格,再用区域精细化模型对标注区域做二次生成。

这与 4/11 简报 NUMINA(数字-物体计数对齐)解决的是同一类问题的不同切面:NUMINA 在 attention 层面干预计数精度,RefineAnything 在后处理层面修复局部细节。两者结合可以覆盖扩散模型可控性的大部分长尾问题。对使用 ComfyUI / Automatic1111 工作流的创作者而言,RefineAnything 作为一个可插入的 refinement 节点,实用价值非常直接。

ENTRY 008/010
[ 开源 · AGENT · 强化学习 · 工具链 ]

Microsoft Agent-Lightning:无代码改动为 Agent 添加强化学习

(Microsoft Agent-Lightning: Adding RL to AI Agents Without Code Rewrites)
Microsoft 开源的 Agent-Lightning 近日持续活跃于 GitHub Trending(总星 16,817)。核心能力:将 Agent 工作流执行与模型训练解耦,允许开发者对任何现有 Agent 框架(OpenAI Agents SDK、AutoGen、LangChain)添加 RL 训练,无需修改 Agent 代码。支持强化学习、自动 Prompt 优化、SFT 等多种优化算法。

Agent-Lightning 解决的是 Agent 开发中一个被严重低估的痛点:Agent 框架与训练框架的割裂。当前的 Agent 生态中,LangChain / AutoGen / CrewAI 负责编排,PyTorch / TRL / Axolotl 负责训练,两者几乎没有交集——开发者写完 Agent 后想用 RL 优化它,需要从头搭建训练管线。Agent-Lightning 用"策略执行器与训练循环分离"的架构把这个桥搭上了。

这与 4/12 简报 MiniMax M2.7 的"自我进化"理念在不同层次上呼应:M2.7 是模型层面的自我优化,Agent-Lightning 是框架层面的优化基础设施。对想在 Agent 场景下做 RL 微调但不想从零搭建训练栈的团队,Agent-Lightning 可能是目前最低摩擦的入口。结合 4/8 简报 TPO(稀疏奖励下击败 PPO)的算法进展,Agent RL 训练正在从"只有顶级实验室能做"走向"任何开发者都能尝试"。

ENTRY 009/010
[ 开源 · AGENT · NOUSRESEARCH ]

🔄 NousResearch hermes-agent 持续爆发:三天涨 24,000 星

(hermes-agent Continues Explosive Growth: +24K Stars in 3 Days)
hermes-agent 从 4/10 简报的 49,787 星增长至 73,824 星,三天增长约 24,000 星。维持 Python 日榜第一,单日 +7,454 星的增速未见放缓。

三天 +24K 星的持续增长排除了"一次性 viral 效应"的可能——这是一个被社区真实采纳的项目。参照历史,DeepSeek R1 在发布首周也经历了类似的多日持续爆发。hermes-agent 的增长速度意味着它正在从"有趣的新项目"进入"事实标准候选"的轨道。对 Agent 框架赛道而言,hermes-agent、Agent-Lightning、Claude Managed Agents 正在形成三层竞争格局:底层 RL 训练(Agent-Lightning)→ 自适应 Agent 框架(hermes-agent)→ 托管 Agent 平台(Managed Agents)。

ENTRY 010/010
[ MISTRAL · 欧洲 · AI战略 · 政策 ]

Mistral 发布欧洲 AI 主权战略白皮书

(Mistral AI Releases European AI Sovereignty Playbook)
4 月 7 日 Mistral 发布《European AI: A Playbook to Own It》,系统阐述欧洲 AI 主权战略的四大支柱:人才引进(快速签证)、市场整合(跨欧盟监管统一)、采用推动(公共采购杠杆)、基础设施(独立于外部超算的欧洲自主算力)。指出仅 20% 欧盟企业采用 AI,不到 10% 全球独角兽来自欧盟。

Mistral 这份白皮书与 4/7 简报 OpenAI 政策白皮书(四天工作周 + 税制改革)形成有趣的跨大西洋对照。OpenAI 关注的是 AI 对劳动力市场的冲击管理,Mistral 关注的是欧洲如何不被 AI 竞赛甩下——两份文件反映了美国和欧洲 AI 生态面临的根本性不同焦虑。

"独立于外部超算的欧洲自主算力"是最有技术含量的主张。当前欧洲 AI 训练几乎完全依赖 AWS/Azure/GCP 的美国数据中心,如果地缘局势恶化,欧洲实验室连训练模型的硬件访问权都可能失去。这与 4/7 简报 DeepSeek V4 在华为昇腾上训练的叙事形成镜像:中国在搭建自主硬件栈,欧洲连搭建的动作都还停留在白皮书阶段。Mistral 作为欧洲最有影响力的 AI 公司发出这一呼吁,既是技术战略也是政治动员。

其他值得关注