一日三饭 | HARNESS

[ HERO · LATEST DIGEST 2026.04.13 ]

MiniMax 开源 M2.7——230B MoE "自我进化" Agent 模型，SWE-Pro 56.22% 逼近 Opus 4.6，首个在训练中参与自身强化学习实验优化的模型
Berkeley RDI 重磅研究：所有主流 Agent 基准都可被利用——SWE-bench 100%、Terminal-Bench 100%，一个"零 LLM 调用"的扫描 Agent 即可满分，534 HN 点引爆社区
AISLE 研究以 1250 HN 点刷屏：3.6B 参数小模型复现 Mythos 旗舰漏洞发现，"AI 网络安全的护城河是系统而非模型"
LG AI Research 发布 EXAONE 4.5——33B 开源 VLM，STEM 基准 77.3 超越 GPT-5-mini (73.5) 和 Claude 4.5 Sonnet (74.6)，Hybrid Attention + 多 token 预测架构
WildDet3D 以 88 票领跑 HF Papers：100 万图像 × 13,500 类别的野外 3D 检测数据集，统一文本/点/框三模态提示

→ 2026.04.13 全文

◉ 2026.04 ◉

[ 开源 · LLM · AGENT · MOE · 自我进化 ] 04.13

MiniMax 开源 M2.7：首个"自我进化"的 Agent 模型

MiniMax Open Sources M2.7: A Self-Evolving Agent Model

→ HuggingFace Models · MarkTechPost · VentureBeat · NVIDIA

[ 论文 · AGENT · 评估 · 基准 · AI安全 ] 04.13

Berkeley RDI：所有主流 Agent 基准都可被利用

Exploiting the Most Prominent AI Agent Benchmarks

→ HN (534 points · 133 comments) · Berkeley RDI Blog

[ AI安全 · 网络安全 · MYTHOS · 开源 · 模型评估 ] 04.13

小模型复现 Mythos 漏洞发现："护城河是系统，不是模型"

Small Models Found the Same Vulnerabilities That Mythos Found

→ HN (1250 points · 329 comments) · AISLE Blog

[ 开源 · VLM · 多模态 · LG · STEM ] 04.13

LG AI Research 发布 EXAONE 4.5：33B 开源 VLM 击败 GPT-5-mini

LG AI Research Releases EXAONE 4.5: 33B Open-Weight VLM Outperforming GPT-5-mini

→ arXiv · HF Papers · PR Newswire · Seoul Economic Daily

[ 论文 · 3D检测 · 数据集 · 多模态 ] 04.13

WildDet3D：100 万图像 × 13,500 类别的野外 3D 检测

WildDet3D: Scaling Promptable 3D Detection in the Wild

→ arXiv · HF Papers (88 upvotes)

[ 论文 · 评测 · VLM · 制造业 · 工业AI ] 04.13

FORGE：面向制造业的多模态细粒度评测基准

FORGE: Fine-grained Multimodal Evaluation for Manufacturing Scenarios

→ arXiv · HF Papers (67 upvotes)

[ 论文 · 图像生成 · 扩散模型 · 可控生成 ] 04.13

RefineAnything：多模态区域级精细化生成

RefineAnything: Multimodal Region-Specific Refinement for Perfect Local Details

→ arXiv · HF Papers (31 upvotes)

[ 开源 · AGENT · 强化学习 · 工具链 ] 04.13

Microsoft Agent-Lightning：无代码改动为 Agent 添加强化学习

Microsoft Agent-Lightning: Adding RL to AI Agents Without Code Rewrites

→ GitHub Trending · Microsoft Research

[ 开源 · AGENT · NOUSRESEARCH ] 04.13

🔄 NousResearch hermes-agent 持续爆发：三天涨 24,000 星

hermes-agent Continues Explosive Growth: +24K Stars in 3 Days

→ GitHub Trending

[ MISTRAL · 欧洲 · AI战略 · 政策 ] 04.13

Mistral 发布欧洲 AI 主权战略白皮书

Mistral AI Releases European AI Sovereignty Playbook

→ HN (185 points · 112 comments) · Mistral AI

[ 论文 · AGENT · 多模态 · 工具使用 · RLHF ] 04.11

Act Wisely：多模态 Agent 的元认知工具使用

Act Wisely: Cultivating Meta-Cognitive Tool Use in Agentic Multimodal Models

→ arXiv · HF Papers

[ 论文 · 3D重建 · TESTTIMETRAINING · 空间智能 ] 04.11

Scal3R：可扩展 Test-Time Training 的大规模 3D 重建

Scal3R: Scalable Test-Time Training for Large-Scale 3D Reconstruction

→ arXiv

[ 论文 · 多模态 · GRPO · 训练方法 ] 04.11

OpenVLThinkerV2：Gaussian GRPO 训练多模态推理

OpenVLThinkerV2: Generalist Multimodal Reasoning via Gaussian GRPO

→ arXiv

[ 论文 · MOE · VLM · 诊断 ] 04.11

Seeing but Not Thinking：多模态 MoE 的路由分离现象

Seeing but Not Thinking: Routing Distraction in Multimodal Mixture-of-Experts

→ arXiv

[ 论文 · 具身智能 · SIM2REAL · 数据生成 ] 04.11

SIM1：可变形物体操作的物理对齐零样本数据放大

SIM1: Physics-Aligned Simulator as Zero-Shot Data Scaler in Deformable Worlds

→ arXiv · HF Papers

[ 论文 · 视频生成 · 扩散模型 · 可控生成 ] 04.11

NUMINA：文本到视频扩散模型的数字-对象对齐

When Numbers Speak: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models

→ arXiv

[ 量化 · 推理优化 · NVFP4 · GEMMA4 ] 04.11

NVIDIA 发布 Gemma-4-31B-IT NVFP4 量化版

NVIDIA Releases Gemma-4-31B-IT in NVFP4 Format

→ HuggingFace Models

[ 开源 · RAG · 工具链 · 文档处理 ] 04.11

microsoft/markitdown 冲破 100K 星：文档转 Markdown 工具成 RAG 生态事实标准

Microsoft markitdown Crosses 100K Stars as RAG Preprocessing Standard

→ GitHub Trending

[ 开源 · AGENT · 科研 · 技能库 ] 04.11

K-Dense-AI scientific-agent-skills：科研 Agent 的可复用能力库

K-Dense-AI scientific-agent-skills: Prebuilt Agent Capabilities for Research

→ GitHub Trending

[ GOOGLE · GEMINI · 多模态 · 可视化 ] 04.11

Google Gemini 交互式 3D 可视化输出

Google Gemini Adds Interactive 3D Model Visualizations in Chat

→ Research Blog Signals

[ ANTHROPIC · 芯片 · 产品 · 基础设施 ] 04.10

Anthropic 自研芯片 + Anthropic Labs：从模型公司到系统公司

Anthropic Explores Custom AI Chips, Launches Anthropic Labs

→ Reuters · Seoul Economic Daily · Anthropic Blog

[ ANTHROPIC · AGENT · 产品 · 企业AI ] 04.10

Anthropic Claude Managed Agents 公测：$0.08/小时的 Agent 云托管

Anthropic Launches Claude Managed Agents Public Beta

→ 9to5Mac · SiliconAngle · The Register · The New Stack · Anthropic Engineering Blog

[ GITHUB · 开源 · AGENT · NOUSRESEARCH ] 04.10

NousResearch hermes-agent 单日 +7,674 星爆红 GitHub

NousResearch hermes-agent Explodes on GitHub With +7,674 Stars/Day

→ GitHub Trending

[ 开源 · LLM · 推理 · ARCEE ] 04.10

Arcee Trinity Large Thinking：400B 开源推理模型，26 人团队的野心

Arcee AI Releases Trinity Large Thinking, 400B Open-Weight Reasoning Model

→ TechCrunch

[ 论文 · AI伦理 · 广告 · LLM ] 04.10

AI 聊天机器人中的广告偏见：LLM 推荐赞助商品贵 2 倍

Ads in AI Chatbots: LLMs Recommend Sponsored Products at 2x the Price

→ arXiv

[ 论文 · AGENT · 基准 · 评估 ] 04.10

ClawBench：Claude Sonnet 4.6 仅完成 33.3% 的日常在线任务

ClawBench: Claude Sonnet 4.6 Completes Just 33.3% of Everyday Online Tasks

→ arXiv

[ 论文 · AGENT · 开源 · WEB ] 04.10

MolmoWeb：Allen Institute 开源视觉 Web Agent 达到 SOTA

MolmoWeb: Open Visual Web Agent Achieves SOTA on Browser Benchmarks

→ arXiv

[ AI基础设施 · 政策 · 数据中心 ] 04.10

Maine 即将成为首个禁止大型数据中心的州

Maine Set to Become First US State to Ban Major New Data Centers

→ Hacker News (288 分 · 408 评论)

[ OPENAI · AI治理 · 政策 · 法律 ] 04.10

OpenAI 支持限制 AI 导致大规模死亡的责任法案

OpenAI Backs Bill Limiting Liability for AI-Enabled Mass Deaths

→ Wired · Hacker News (128 分 · 71 评论)

[ 论文 · AGENT · 多模态 · 效率 ] 04.10

Metis：Agentic 多模态模型的"元认知缺陷"

Metis: Identifying Meta-Cognitive Deficits in Agentic Multimodal Models

→ arXiv

[ ANTHROPIC · 可靠性 · HN ] 04.10

Claude "搞混谁说了什么"引发社区热议

Claude Mixes Up Who Said What — 441 Points on HN

→ Hacker News (441 分 · 337 评论)

[ 行业动态 · AI编码 · APPLE · 开发者 ] 04.10

App Store 新应用激增 84%：AI 编码工具推动

App Store Sees 84% Surge in New Apps as AI Coding Tools Take Off

→ 9to5Mac · Hacker News (65 分 · 74 评论)

[ ANTHROPIC · AGENT · 研究 · 数据 ] 04.10

Anthropic Agent 自主性测量：极端使用时长翻倍

Anthropic Research: Measuring Agent Autonomy — 99.9th Percentile Session Duration Doubled

→ Anthropic Research

[ PRODUCTHUNT · AGENT · 基础设施 ] 04.10

Product Hunt 4/9：Agent 基础设施三件套——Offsite、Grass、AgentMail

Product Hunt April 9: Agent Infrastructure Triple — Offsite, Grass, AgentMail

→ Product Hunt

[ 论文 · 可解释性 · 对齐 · LLM ] 04.10

Representation Steering Mechanics：Steering Vectors 可稀疏化 90-99%

Steering Vectors Can Be Sparsified 90-99% While Retaining Performance

→ arXiv

[ 社会影响 · 行业动态 · 舆论 ] 04.10

年轻人对 AI 日益绝望和愤怒

Study: Young Adults Grown Less Hopeful and More Angry About AI

→ New York Times · Hacker News (128 分 · 175 评论)

[ GOOGLE · AI安全 · 水印 · 研究 ] 04.10

逆向工程 Gemini SynthID 检测

Reverse Engineering Gemini's SynthID Detection

→ Hacker News (165 分 · 52 评论)

[ META · LLM · 多模态 · 闭源 · ZUCKERBERG ] 04.09

Meta Muse Spark：Superintelligence Labs 首秀，Meta 告别开源

Meta Launches Muse Spark, First Closed Proprietary Model from Meta Superintelligence Labs

→ Meta AI Blog · Fortune · CNBC · Constellation Research · Simon Willison · gHacks · CGTN · Artificial Analysis

[ 行业动态 · AI采纳 · 企业AI · 劳动力 ] 04.09

白领全面反抗 AI：80% 拒绝，54% 绕过公司部署

White-Collar Workers Rebel Against AI: 80% Refuse Adoption Mandates

→ Fortune

[ HUGGINGFACE · 开源 · 越狱 · 蒸馏 ] 04.09

HuggingFace 趋势榜：Gemma 4 越狱版与 Opus 蒸馏版同框

HuggingFace Trending Shifts: Gemma 4 Uncensored + Opus-Distilled Versions Climb

→ HuggingFace

[ 论文 · 3D · TESTTIMETRAINING · 空间智能 ] 04.09

Fast Spatial Memory：弹性 Test-Time Training 稳定长序列 3D 重建

Fast Spatial Memory with Elastic Test-Time Training

→ arXiv

[ 论文 · AGENT · 强化学习 · 移动设备 ] 04.09

Android Coach：同状态多动作 RL 提升 Agent 训练效率

Android Coach: Single State Multiple Actions for Online Agentic Training

→ arXiv

[ 论文 · 空间智能 · 数据集 · 开源 ] 04.09

OpenSpatial：300 万样本空间推理数据引擎

OpenSpatial: A Principled Data Engine for Spatial Intelligence

→ arXiv

[ 论文 · RLHF · 个性化 · 评估 ] 04.09

Personalized RewardBench：为个性化奖励模型定标

Personalized RewardBench: Evaluating Reward Models with Human-Aligned Personalization

→ arXiv

[ 论文 · AI基础设施 · 能耗 · 数据中心 ] 04.09

Generative AI 工作负载的全设施功耗画像

Measurement of Generative AI Workload Power Profiles

→ arXiv (NREL)

[ IBM · AGENT · 持续学习 · 开源 ] 04.09

IBM ALTK-Evolve：Agent 的"在岗学习"

IBM ALTK-Evolve: On-the-Job Learning for AI Agents

→ HuggingFace Blog (IBM Research)

[ PERPLEXITY · 开发者 · 资金 ] 04.09

Perplexity 10 亿美元 Build Challenge：无股权的开发者奖金

Perplexity Launches $1B Build Challenge With No Investment Terms

→ Perplexity (原始页面 403) · HN

[ GOOGLE · 视频生成 · 深度伪造 · 产品 ] 04.09

Google YouTube Shorts 让你 deepfake 自己

Google Makes It Easy to Deepfake Yourself on YouTube Shorts

→ The Verge

[ PRODUCTHUNT · AI工具 · AGENT ] 04.09

Product Hunt 4/8：Velo 以 AI 视频剪辑登顶，5/10 为 AI 产品

Velo Tops Product Hunt With AI Video Editing

→ Product Hunt

[ GITHUB · 开源 · 语音识别 ] 04.09

GitHub Trending：FunASR 与 Transformers 稳居前列

GitHub Trending: FunASR + Transformers Lead

→ GitHub Trending

[ 开源 · LLM · AGENT · 智谱 · SWEBENCH ] 04.08

智谱 GLM-5.1：754B 开源击败 Claude Opus 4.6 的 Agentic 模型

Z.AI Releases GLM-5.1, Open-Weight 754B Agentic Model Topping SWE-Bench Pro

→ VentureBeat · MarkTechPost · Dataconomy · Analytics India Magazine · Pandaily · HuggingFace

[ ANTHROPIC · MYTHOS · AI安全 · 网络安全 · AI治理 ] 04.08

🔄 Anthropic Project Glasswing：Mythos 首度亮相与前所未有的防御联盟

Anthropic Launches Project Glasswing With Claude Mythos Preview for Cybersecurity

→ Fortune · TechCrunch · SiliconAngle · CrowdStrike Blog · Simon Willison · Neowin

[ ANTHROPIC · 营收 · TPU · 基础设施 ] 04.08

Anthropic 年化收入 300 亿美元，签订 3.5 GW TPU 扩展协议

Anthropic Hits $30B Run Rate, Signs 3.5 GW TPU Deal With Google/Broadcom

→ CNBC · Bloomberg · TechCrunch · TNW · Seeking Alpha

[ 论文 · AGENT · 评估 · AI安全 ] 04.08

Claw-Eval：可信 Agent 评估的新基准

Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents

→ arXiv

[ 论文 · 强化学习 · RLHF ] 04.08

Target Policy Optimization：在稀疏奖励场景击败 PPO

Target Policy Optimization Substantially Outperforms PPO

→ arXiv

[ 论文 · AGENT · COMPUTERUSE · 基准 ] 04.08

Gym-Anything：把任意软件变成 Agent 环境

Gym-Anything: Turn Any Software Into an Agent Environment

→ arXiv

[ 论文 · 架构 · ATTENTION · 长序列 ] 04.08

PoM：线性时间的 Attention 替代方案

PoM: Polynomial Mixer as Linear-Time Attention Replacement

→ arXiv

[ 论文 · LLM · TESTTIMECOMPUTE · 长上下文 ] 04.08

In-Place Test-Time Training：推理时动态调整权重

In-Place Test-Time Training

→ arXiv

[ 论文 · 多模态 · RAG · 嵌入 ] 04.08

MMEmb-R1：融合推理的多模态嵌入

MMEmb-R1: Reasoning-Enhanced Multimodal Embedding

→ arXiv

[ 论文 · VLM · 幻觉 · 可解释性 ] 04.08

HaloProbe：VLM 幻觉的贝叶斯检测

HaloProbe: Bayesian Detection of VLM Hallucinations

→ arXiv

[ HUGGINGFACE · 开源 · TTS ] 04.08

GLM-5.1 HuggingFace 同步上架与 OpenBMB VoxCPM2

GLM-5.1 on HuggingFace & OpenBMB VoxCPM2 TTS Release

→ HuggingFace

[ PRODUCTHUNT · 语音AI · AGENT · MAC ] 04.08

NovaVoice 登顶 Product Hunt 4/7：AI 语音助手的桌面化

NovaVoice Tops Product Hunt With 547 Votes

→ Product Hunt

[ ANTHROPIC · 运维 · 基础设施 ] 04.08

Anthropic Claude 4 月 6-7 日全球性服务中断

Anthropic Claude Global Outage on April 6-7

→ Status 报告 · 多方社区讨论

[ OPENAI · ANTHROPIC · GOOGLE · 地缘政治 · AI治理 ] 04.07

OpenAI、Anthropic、Google 联手反制中国模型蒸馏

OpenAI, Anthropic, Google Unite to Combat Chinese Model Distillation

→ Bloomberg · Frontier Model Forum

[ ANTHROPIC · 并购 · 生物科技 · 药物发现 ] 04.07

Anthropic 4 亿美元收购 Coefficient Bio 进军药物发现

Anthropic Acquires Coefficient Bio for $400M

→ TechCrunch · The Information · BioSpace · Fierce Biotech

[ GOOGLE · 推理效率 · 量化 · 论文 ] 04.07

Google TurboQuant：KV Cache 6 倍压缩、零精度损失

Google TurboQuant: 6x KV Cache Compression With Zero Accuracy Loss

→ Google Research Blog · VentureBeat · TechCrunch · HPCwire

[ DEEPSEEK · 华为 · 开源 · 地缘政治 ] 04.07

🔄 DeepSeek V4 开启内测，确认原生运行华为昇腾 950PR

DeepSeek V4-Lite in API Testing, Runs on Huawei Ascend 950PR

→ Reuters · Tech Startups · 36Kr

[ OPENAI · 政策 · AI与就业 · UBI ] 04.07

OpenAI 政策白皮书：四天工作周与税制改革

OpenAI Proposes Four-Day Workweek and Tax Overhaul

→ OpenAI · 政策文件报道

[ NVIDIA · 机器人 · 多模态 · VLM ] 04.07

NVIDIA Cosmos Reason 2：物理 AI 专用推理 VLM

NVIDIA Cosmos Reason 2: Reasoning VLM for Physical AI

→ HuggingFace · NVIDIA

[ 开源 · 推理 · 混合架构 · TII ] 04.07

Falcon-H1R-7B：混合架构测试时缩放推理模型

Falcon-H1R-7B: Hybrid Model for Test-Time Scaling

→ HuggingFace · TII

[ 论文 · 推理效率 · KV压缩 ] 04.07

TriAttention：三角函数 KV 压缩实现 2.5 倍吞吐

TriAttention: Efficient Long Reasoning with Trigonometric KV Compression

→ arXiv

[ 论文 · 视觉推理 · 强化学习 · 开源 ] 04.07

Vero：通用视觉推理的开源 RL 配方

Vero: An Open RL Recipe for General Visual Reasoning

→ arXiv

[ 论文 · 定理证明 · 数学推理 · 小模型 ] 04.07

QED-Nano：4B 小模型证明奥数级定理

QED-Nano: Teaching a Tiny Model to Prove Hard Theorems

→ arXiv (LM-Provers)

[ 论文 · 推理效率 · LLM ] 04.07

CoDE-Stop：基于置信动态的推理早停

Early Stopping for Large Reasoning Models via Confidence Dynamics

→ arXiv

[ 论文 · 可解释性 · AI安全 ] 04.07

隐藏推理模型的可解释性研究

Are Latent Reasoning Models Easily Interpretable?

→ arXiv

[ 论文 · AI经济学 · 社会影响 ] 04.07

Acemoglu 论文：AI 聚合如何影响集体知识

How AI Aggregation Affects Knowledge

→ arXiv

[ 企业AI · 医疗 · 行业动态 ] 04.07

UnitedHealth 30 亿美元押注 AI 自动化

UnitedHealth Group $3B AI Push

→ STAT News

[ 阿里巴巴 · AI应用 · 电商 · AGENT ] 04.07

阿里巴巴 Accio 突破 1000 万月活

Alibaba Accio AI Sourcing Tool Hits 10M MAU

→ MIT Technology Review

[ GOOGLE · 开源 · LLM · 多模态 ] 04.05

Google Gemma 4 开源模型家族发布

Google Releases Gemma 4 Open Model Family

→ Google Blog · Engadget · The Register · Google DeepMind · Interconnects · Android Developers Blog · 新华社

[ AI安全 · 网络安全 · 研究 ] 04.05

AI 攻击性网络能力每约 6 个月翻倍

AI Offensive Cyber Capabilities Doubling Every ~6 Months

→ The Decoder · International AI Safety Report 2026 · Gnoppix Forum

[ DEEPSEEK · 开源 · LLM · 多模态 ] 04.05

DeepSeek V4 即将发布：万亿参数开源 MoE

DeepSeek V4 Imminent: 1T-Parameter Open-Source MoE

→ NxCode · 36Kr · Mule AI Blog · Evolink AI · Renovateqr

[ 行业动态 · 就业 · 开发者 ] 04.05

美国软件工程岗位三年新高，2026 年增长 30%

US Software Engineering Jobs Hit 3-Year High, Up 30% in 2026

→ TrueUp · Techmeme · Business Insider

[ NETFLIX · 计算机视觉 · 开源 · 视频编辑 ] 04.05

Netflix 开源 VOID 视频物体移除模型

Netflix Open-Sources VOID Video Object Removal Model

→ HuggingFace · arXiv

[ 腾讯 · 视频生成 · 开源 · HUGGINGFACE ] 04.05

腾讯发布 HY-OmniWeaving 视频生成模型

Tencent Releases HY-OmniWeaving Video Generation Model

→ HuggingFace

[ GOOGLE · 产品 · 视频生成 · AI工具 ] 04.05

Google Vids 2.0：免费 AI 视频创建工具

Google Vids 2.0: Free AI Video Creation Tool

→ Product Hunt

[ 开发工具 · LLM · 产品 ] 04.05

Mercury Edit 2：基于扩散 LLM 的代码编辑预测

Mercury Edit 2: Ultra-Fast Next-Edit Prediction via Diffusion LLM

→ Product Hunt

[ LLM · 产品 · AI工具 ] 04.05

OpenRouter Model Fusion：多模型融合最优响应

OpenRouter Model Fusion: Multi-Model Response Fusion

→ Product Hunt

[ COHERE · 语音AI · 开源 · HUGGINGFACE ] 04.05

Cohere Transcribe：多语言语音识别模型

Cohere Transcribe: Multilingual Speech Recognition

→ HuggingFace

[ 百度 · 计算机视觉 · 文档AI · HUGGINGFACE ] 04.05

百度千帆 OCR 视觉语言模型

Baidu Qianfan-OCR Vision-Language Model

→ HuggingFace

[ 行业动态 · 产品趋势 ] 04.05

AI Chatbot 流量增速是社交媒体的 7 倍

AI Chatbot Traffic Growing 7x Faster Than Social Media

→ The Decoder

[ 阿里巴巴 · LLM · 推理 · 训练方法 ] 04.05

阿里巴巴 Qwen 新推理强化学习算法

Alibaba Qwen New Reasoning Reinforcement Learning Algorithm

→ The Decoder

[ 论文 · LLM · 推理 · 效率 ] 04.05

批量上下文强化学习：推理 Token 效率新范式

Batched Contextual Reinforcement: Task-Scaling Law for Efficient Reasoning

→ arXiv

[ 开源 · AGENT · 开发工具 ] 04.05

AutoAgent：自动化 Prompt 优化和 Agent 调优开源库

AutoAgent: Automated Prompt Optimization & Agent Tuning Library

→ Planet AI

[ 行业动态 · 开发者 · AI质量 ] 04.05

开发者对 "AI Slop" 的不满：定性研究

Developer Frustration Over "AI Slop": Qualitative Study

→ The Decoder

[ META · 3D · 计算机视觉 · 论文 ] 04.05

Meta 大规模 Codec Avatars：百万视频训练 3D 头像

Large-scale Codec Avatars: Avatar Pretraining on 1M Videos

→ arXiv

[ LLM · 阿里巴巴 · AGENT · 产品 ] 04.02

阿里巴巴发布 Qwen3.6-Plus

Alibaba Unveils Qwen3.6-Plus for Agentic AI

→ Bloomberg · Seeking Alpha · TechBriefly · TradingView

[ 微软 · 语音AI · 图像生成 · 产品 ] 04.02

微软发布三款自研 MAI 模型

Microsoft Launches MAI-Voice-1, MAI-Transcribe-1, MAI-Image-2

→ VentureBeat · Windows Central · Decrypt · Microsoft AI Blog

[ GOOGLE · 视频生成 · 多模态 · 产品 ] 04.02

Google 发布 Veo 3.1 Lite 视频生成模型

Google Releases Veo 3.1 Lite Video Generation Model

→ Google Blog · 9to5Google · MarkTechPost · Windows Report · Android Authority

[ 开源 · AGENT · COMPUTER · HUGGINGFACE ] 04.02

H Company 开源 Holo3-35B-A3B Computer Use 模型

H Company Open-Sources Holo3 SOTA Computer Use Model

→ HuggingFace · H Company Blog · TestingCatalog · NeuraBooks

[ 开源 · 本地AI · APPLE · 开发工具 ] 04.02

🔄 Ollama v0.19：Apple MLX 集成与 Web 能力

Ollama v0.19: MLX Framework, Web Search & VS Code Integration

→ GitHub · MacRumors · Product Hunt

[ OPENAI · AGI · 行业动态 ] 04.02

OpenAI 联合创始人称 GPT 推理模型"看到了 AGI 的路径"

OpenAI Co-Founder: GPT Reasoning Models Have "Line of Sight" to AGI

→ The Decoder · llm-stats.com

[ 论文 · LLM · 推理 · AI安全 ] 04.02

"Therefore I am. I Think"：LLM 是先决策还是先推理？

Therefore I am. I Think — Do LLMs Decide Before They Reason?

→ arXiv

[ 论文 · 代码生成 · LLM · 训练方法 ] 04.02

极简自蒸馏提升代码生成

Embarrassingly Simple Self-Distillation Improves Code Generation

→ arXiv

[ 论文 · LLM · 推理 · 效率 ] 04.02

ORCA：推理校准降低 Test-Time 计算成本

ORCA: Online Reasoning Calibration via Conformal Prediction

→ arXiv

[ 产品 · 语音AI · 创意工具 ] 04.02

Noiz Easter Voice：设计有表现力的人声

Noiz Easter Voice: Design Expressive Voices

→ Product Hunt

[ 产品 · AGENT · 可观测性 ] 04.02

traceAI：AI 应用评估和可观测平台

traceAI: Evaluation, Observability & Optimization for AI Apps

→ Product Hunt

[ 论文 · AGENT · 科学发现 ] 04.02

CliffSearch：LLM Agent 驱动的科学算法发现

CliffSearch: Structured Agentic Co-Evolution for Algorithm Discovery

→ arXiv

[ META · 计算机视觉 · 开源 · HUGGINGFACE ] 04.02

facebook/sam3.1：SAM3 视频分割模型

Meta SAM 3.1 Video Segmentation

→ HuggingFace

[ 行业动态 · AI应用 · 医疗 ] 04.02

Medvi：两人公司用 AI 实现 $4.01 亿营收

Medvi: $401M Revenue with AI-Driven Telehealth, Just 2 Employees

→ New York Times · llm-stats.com

[ 论文 · AGENT · 评估基准 ] 04.02

HippoCamp 和 YC-Bench：Agent 能力评估新基准

HippoCamp & YC-Bench: New Agent Benchmarks

→ arXiv

[ AI安全 · ANTHROPIC · LLM ] 04.01

Anthropic "Mythos" 模型因数据泄露意外曝光

Anthropic "Mythos" Model Leaked via Unsecured Data Store

→ Fortune (独家) · CoinDesk · CSO Online · Euronews · Futurism

[ AI安全 · ANTHROPIC · 开发工具 ] 04.01

Anthropic Claude Code 源码经 npm 泄露

Claude Code Source Code Leaked via npm Source Map

→ The Register · VentureBeat · Fortune · Axios · CNBC · CyberSecurityNews

[ LLM · 开源 · 多模态 · 阿里巴巴 ] 04.01

Qwen3.5-Omni 全模态模型发布

Qwen3.5-Omni Native Omni-Modal Model Release

→ MarkTechPost · Analytics Vidhya · The Decoder · The Information · Product Hunt

[ OPENAI · 行业动态 · 融资 ] 04.01

🔄 OpenAI 完成 $1220 亿融资，估值达 $8520 亿

OpenAI Closes $122B Round at $852B Valuation

→ CNBC · Bloomberg · OpenAI Blog · TechCrunch

[ OPENAI · LLM · 产品 ] 04.01

GPT-5.4 Mini 和 Nano 发布

GPT-5.4 Mini and Nano Release

→ OpenAI Blog · 9to5Mac · 9to5Google · Simon Willison · The New Stack

[ OPENAI · 收购 · 开发工具 · 开源 ] 04.01

OpenAI 收购 Astral

OpenAI Acquires Astral — Ruff, uv, ty

→ OpenAI Blog · Astral Blog · CNBC · Bloomberg · Simon Willison · JetBrains Blog

[ AGENT · ANTHROPIC · 开发工具 ] 04.01

🔄 Claude Computer Use 扩展至 Claude Code CLI

Claude Computer Use Expands to Claude Code CLI

→ Product Hunt · The Tech Outlook · Claude Code Changelog

[ AI安全 · OPENAI · AGENT ] 04.01

OpenAI 公开内部编码 Agent 不对齐监控系统

OpenAI Publishes Internal Coding Agent Misalignment Monitoring Report

→ OpenAI Blog · LessWrong · Security Brief

[ ANTHROPIC · 行业动态 · AI安全 ] 04.01

Anthropic 投资 $1 亿建立 Claude Partner Network 并成立 Anthropic Institute

Claude Partner Network & Anthropic Institute Launch

→ Anthropic Blog

[ OPENAI · 产品 · AGENT · 电商 ] 04.01

OpenAI ChatGPT 购物 + Agentic Commerce Protocol

ChatGPT Shopping & Agentic Commerce Protocol

→ OpenAI Blog · Releasebot

[ 政策 · ANTHROPIC · AI安全 ] 04.01

Anthropic 与澳大利亚签署 AI 安全合作协议

Anthropic Signs AI Safety Deal with Australia

→ US News · Reuters

[ 论文 · LLM · 神经科学 ] 04.01

LLM 自发涌现类脑功能分化

Spontaneous Functional Differentiation in Large Language Models

→ arXiv

[ 论文 · LLM · MOE ] 04.01

无需训练的专家语言模型动态混合

Training-Free Dynamic Upcycling of Expert Language Models — DUME

→ arXiv

[ 开源 · 开发工具 · LLM ] 04.01

zed-industries/zeta-2 代码编辑预测模型

zed-industries/zeta-2 Next-Edit Prediction Model

→ HuggingFace

[ 产品 · AGENT · 金融 ] 04.01

Jupid：用 Claude Code 报税

Jupid: File Your Taxes with Claude Code

→ Product Hunt

[ 开源 · LLM · 边缘计算 ] 04.01

LiquidAI LFM2.5-350M 边缘部署模型

LiquidAI LFM2.5-350M Edge Model

→ HuggingFace

◉ 2026.03 ◉

[ OPENAI · AGENT · 开发工具 · MCP ] 03.28

OpenAI Codex Plugins 平台正式发布

OpenAI Codex Plugins Launch

→ OpenAI Blog · SiliconANGLE · Neowin · The New Stack · Windows Report

[ GOOGLE · 语音AI · 产品 · AGENT ] 03.28

Gemini 3.1 Flash Live 实时音频模型发布

Gemini 3.1 Flash Live

→ Google Blog · MarkTechPost · SiliconANGLE · 9to5Google · Android Central

[ 音乐AI · 产品 · 创意工具 ] 03.28

Suno v5.5 发布：声音克隆与个性化 AI 音乐

Suno v5.5: Voices, Custom Models & My Taste

→ Suno Blog · Digital Music News · Metaverse Post · Music Ally · Product Hunt

[ AI安全 · 网络安全 · ANTHROPIC ] 03.28

Claude Opus 4.6 与 Mozilla 合作：14 天发现 22 个 Firefox 漏洞

Claude Opus 4.6 Discovers 22 Firefox Vulnerabilities

→ Anthropic Red Team Blog · TechCrunch · The Hacker News · InfoQ · Axios · SC Media

[ ANTHROPIC · 研究 · 行业数据 ] 03.28

Anthropic 经济指数报告：Claude 使用模式深度分析

Anthropic Economic Index: Learning Curves

→ Anthropic Research

[ ANTHROPIC · 产品 · AGENT ] 03.28

Claude Tasks Mode 即将推出：五大任务起点

Claude Tasks Mode with 5 Starting Points

→ TestingCatalog · X (Twitter)

[ ANTHROPIC · 开发工具 · AGENT ] 03.28

Claude Code auto-fix：自动修复 CI 失败和代码审查

Claude Code Auto-Fix for CI and PR Reviews

→ Product Hunt

[ AI安全 · ANTHROPIC · 研究 ] 03.28

Anthropic 对齐研究："The Hot Mess of AI"

The Hot Mess of AI: Misalignment Scaling

→ Anthropic Alignment Blog

[ 开源 · 视频生成 · 多模态 ] 03.28

Lightricks LTX-2.3 开源视频生成模型

Lightricks LTX-2.3 Open-Source Video Generation

→ HuggingFace

[ 开源 · 代码生成 · AGENT ] 03.28

Tesslate OmniCoder-9B：开源代码 Agent 模型

Tesslate OmniCoder-9B

→ HuggingFace

[ 语音AI · COHERE · 开源 ] 03.28

Cohere Transcribe：22 语言语音识别模型

Cohere Transcribe ASR Model

→ HuggingFace · SiliconANGLE

[ AGENT · 开发工具 · 产品 ] 03.28

Agentation：AI Agent 可视化反馈工具

Agentation: Visual Feedback Tool for AI Agents

→ Product Hunt

[ OCR · 百度 · 开源 · 多模态 ] 03.28

百度千帆 OCR 视觉语言模型

Baidu Qianfan-OCR Vision-Language Model

→ HuggingFace

[ AI安全 · OPENAI · AGENT ] 03.27

OpenAI 发布 Safety Bug Bounty 计划

OpenAI Safety Bug Bounty Program

→ OpenAI Blog · Infosecurity Magazine · Help Net Security

[ AI安全 · GOOGLE · 研究 ] 03.27

Google DeepMind 发布 AI 操纵行为实证测量工具包

DeepMind AI Manipulation Measurement Toolkit

→ Google DeepMind Blog

[ LLM · XAI · 产品 ] 03.27

xAI Grok 4.20 正式退出 Beta

Grok 4.20 Exits Beta

→ Artificial Analysis · WinBuzzer · xAI Release Notes

[ AGENT · 基础设施 · MCP ] 03.27

MCP 月下载量突破 9700 万

Model Context Protocol Hits 97M Monthly Downloads

→ Digital Applied · The New Stack · Anthropic Blog

[ 机器人 · GOOGLE · 产业合作 ] 03.27

Agile Robots 与 Google DeepMind 战略合作

Agile Robots Partners with Google DeepMind

→ TechCrunch · CNBC · Agile Robots 官网

[ LLM · GOOGLE · 产品 ] 03.27

Google Gemini 3.1 Pro 发布

Gemini 3.1 Pro Release

→ Google Blog · Google Cloud Documentation

[ 开源 · LLM · 蒸馏 · HUGGINGFACE ] 03.27

Claude Opus 推理能力蒸馏进 Qwen3.5 霸榜 HuggingFace

Claude Opus Reasoning Distilled into Qwen3.5 Dominates HuggingFace

→ HuggingFace

[ 语音 · MISTRAL · 开源 ] 03.27

Mistral 发布 Voxtral-4B 多语言语音合成模型

Mistral Voxtral-4B-TTS

→ HuggingFace

[ 产品 · GOOGLE · 设计工具 ] 03.27

Stitch 2.0 by Google：AI 驱动的 UI 设计工具

Stitch 2.0 by Google

→ Product Hunt

[ ANTHROPIC · 产品 ] 03.27

Claude Import Memory：从 ChatGPT 迁移到 Claude

Claude Import Memory Feature

→ Product Hunt

[ 论文 · RAG · LLM ] 03.27

WriteBack-RAG：将知识库作为可训练组件

WriteBack-RAG: Training the Knowledge Base

→ arXiv

[ 论文 · AGENT · 工程实践 ] 03.27

Natural-Language Agent Harnesses：Agent 工程新范式

Natural-Language Agent Harnesses

→ arXiv

[ 政策 · 教育 · 美国 ] 03.27

NSF 发布 AI-Ready America 计划

NSF TechAccess: AI-Ready America Initiative

→ NSF 官网

[ 产品 · CRM · AGENT ] 03.27

Lightfield：AI 原生自建 CRM

Lightfield AI-Native CRM

→ Product Hunt

[ 开源 · AGENT · 研究基础设施 ] 03.27

OpenCLAW-P2P：去中心化 AI 形式化验证研究网络

OpenCLAW-P2P: Decentralized AI Research with Formal Verification

→ Hacker News · GitHub

[ 开源 · 工具 · LLM ] 03.27

Lightfeed Extractor：LLM 友好的网页结构化提取

Lightfeed Extractor for LLM-Ready Web Scraping

→ Hacker News · GitHub

[ AGENT · ANTHROPIC · 产品 ] 03.25

Claude 桌面端 Computer Use 发布预览

Anthropic Claude Computer Use on Mac

→ Anthropic Blog · TechCrunch · CNBC · MacRumors

[ AGENT · ANTHROPIC · 开发工具 ] 03.25

Claude Code Auto Mode 发布

Claude Code Auto Mode

→ Anthropic Blog · TechCrunch · SiliconANGLE · 9to5Mac

[ GOOGLE · 产品 · AGENT ] 03.25

Google Gemini 全面升级 Workspace AI 能力

Gemini Workspace AI Upgrade

→ Google Blog · TechCrunch · VentureBeat

[ APPLE · GOOGLE · 产品 ] 03.25

Apple Siri AI 升级由 Gemini 驱动，发布遭遇延迟

Apple Siri AI Upgrade Powered by Gemini

→ 9to5Mac · Bloomberg · TechCrunch · AppleInsider

[ OPENAI · ANTHROPIC · 行业动态 ] 03.25

OpenAI 营收突破 $250 亿，酝酿 IPO

OpenAI Revenue Surpasses $25B, Eyes IPO

→ AI News · Crescendo AI

[ OPENAI · LLM · 产品 ] 03.25

🔄 GPT-5.4 全貌：百万上下文与 Computer Use

GPT-5.4 Full Feature Set

→ OpenAI Blog · TechCrunch

[ ANTHROPIC · LLM · 产品 ] 03.25

Anthropic 1M 上下文正式 GA

Anthropic 1M Context Generally Available

→ Anthropic Blog

[ 开源 · RAG · GITHUB ] 03.25

Pathway：LLM 管道与 RAG 的流处理框架

Pathway ETL Framework for LLM Pipelines

→ GitHub Trending

[ 开源 · LLM · 行业动态 ] 03.25

中国开源模型在 HuggingFace 上超越美国

Chinese Open Models Overtake US on HuggingFace

→ HuggingFace Blog · AI News

[ AGENT · AMAZON · 产品 · 医疗AI ] 03.25

Amazon 推出 Health AI Agent

Amazon Health AI Agent for Prime

→ AI News

[ 论文 · 多模态 · 强化学习 ] 03.25

UniGRPO：推理驱动的统一视觉生成

UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation

→ arXiv

[ 论文 · AGENT · 推理优化 ] 03.25

SpecEyes：Agent 级多模态 LLM 推理加速

SpecEyes: Accelerating Agentic Multimodal LLMs

→ arXiv

[ 论文 · 机器人 · 多模态 ] 03.25

VTAM：融合触觉的视频-动作世界模型

VTAM: Video-Tactile-Action Models

→ arXiv

[ NVIDIA · AGENT · 观点 ] 03.25

NVIDIA CEO 愿景：2036 年每人配 100 个 AI Agent

Jensen Huang: 100 AI Agents Per Person by 2036

→ AI News · GTC 2026

[ ANTHROPIC · 产品 ] 03.25

Claude 新增交互式可视化能力

Claude Interactive Visualizations

→ Anthropic Blog

[ LLM · 大模型 · AGENT · 开源 ] 03.22

小米 MiMo-V2-Pro 万亿参数模型发布

Xiaomi MiMo-V2-Pro 1T Model

→ AI News · X (Twitter)

[ LLM · OPENAI · 产品 ] 03.22

GPT-5.4 Mini 向免费用户开放推理能力

GPT-5.4 Mini Free for All Users

→ AI News · X (Twitter)

[ LLM · 开源 · AGENT · NVIDIA ] 03.22

NVIDIA Nemotron 3 Super 开源最高 SWE-Bench 分数

NVIDIA Nemotron 3 Super

→ AI News · GTC 2026

[ 论文 · LLM · 强化学习 · NVIDIA ] 03.22

Nemotron-Cascade 2: 级联强化学习训练 30B MoE 模型

Nemotron-Cascade 2

→ arXiv

[ 多模态 · GOOGLE · 产品 ] 03.22

Google Gemini Embedding 2 统一多模态 Embedding

Gemini Embedding 2

→ AI News

[ AGENT · 观点 · 研究 ] 03.22

Andrej Karpathy：AI Agent 已能自主优化训练流程

Karpathy on AI Research Bottlenecks

→ AI News (The Decoder)

[ LLM · GOOGLE · 产品 ] 03.22

Gemini 3.1 Flash-Lite 效率模型发布

Gemini 3.1 Flash-Lite

→ AI News

[ 硬件 · 基础设施 · AWS ] 03.22

Amazon Trainium 芯片实验室曝光

AWS Trainium Chip Lab

→ AI News (TechCrunch)

[ OPENAI · 行业动态 ] 03.22

OpenAI 计划年底前翻倍至 8000 人

OpenAI Workforce Expansion

→ AI News (The Decoder)

[ 开源 · AGENT · GITHUB ] 03.22

LangChain 本周获 1151 Star，Agent 工程平台热度持续

LangChain Trending

→ GitHub Trending

[ 论文 · EMBEDDING · 多语言 ] 03.22

F2LLM-v2：支持 200+ 语言的多语言 Embedding 模型

F2LLM-v2 Multilingual Embeddings

→ arXiv

[ 开源 · AGENT · 工具 ] 03.22

Rowboat：开源多 Agent 系统 IDE

Rowboat Open-Source Multi-Agent IDE

→ Hacker News

[ 机器人 · NVIDIA · 产品 ] 03.22

NVIDIA GR00T N1.7 人形机器人基础模型

NVIDIA GR00T N1.7

→ AI News · GTC 2026

[ 医疗AI · 多模态 · MICROSOFT ] 03.22

Microsoft GigaTIME 癌症病理多模态模型

Microsoft GigaTIME

→ AI News

[ ANTHROPIC · 行业动态 · AI安全 ] 03.22

Anthropic 成立 Anthropic Institute 研究 AI 社会影响

Anthropic Institute

→ AI News

[ 本地AI · APPLE · 开源 ] 03.22

Apple MLX 团队 2026 年重大更新，Local AI 年

MLX 2026 Release

→ X (Twitter)