一日三饭 | HARNESS

← /harness

════ 2026.03.22 ════

今日要点

> 小米发布 MiMo-V2-Pro 万亿参数模型，由前 DeepSeek 研究员主导，主打 Agent 架构
> OpenAI 将 GPT-5.4 Mini 推理能力开放给免费用户，降低 AI 推理门槛
> NVIDIA 在 GTC 发布 Nemotron 3 Super（120B MoE），SWE-Bench 开源最高分 60.47%
> Google 发布 Gemini Embedding 2 统一多模态 Embedding 模型和 Gemini 3.1 Flash-Lite 效率模型
> Andrej Karpathy 演示 autonomous agent 自主优化训练流程，称人类已成为 AI 研究的瓶颈

详细内容

ENTRY 001/016

[ LLM · 大模型 · AGENT · 开源 ]

小米 MiMo-V2-Pro 万亿参数模型发布

(Xiaomi MiMo-V2-Pro 1T Model)

→ The Decoder

小米 AI 部门发布 MiMo-V2-Pro，万亿参数规模，支持百万 token 上下文窗口，采用 Agent-focused 架构。由前 DeepSeek 研究员罗福利主导开发。

小米以手机硬件厂商的身份进军大模型领域，一出手就是万亿参数级别，这在中国科技公司中是一个值得关注的信号。MiMo-V2-Pro 不仅在参数规模上对标 frontier model，更重要的是其 Agent-focused 架构定位——这表明小米正在押注 AI Agent 作为下一代人机交互的核心范式，而非单纯追求 benchmark 分数。

前 DeepSeek 研究员罗福利的加入也值得注意。DeepSeek 在 2025 年以极高的训练效率闻名，这种技术积累可能帮助小米在万亿参数模型的训练成本控制上取得优势。该模型最初在 OpenRouter 上免费发布但未标注来源，随后才正式公布，这种"先放再说"的发布策略在开源模型社区中越来越常见。

ENTRY 002/016

[ LLM · OPENAI · 产品 ]

GPT-5.4 Mini 向免费用户开放推理能力

(GPT-5.4 Mini Free for All Users)

→ LLM Stats

OpenAI 于 3 月 17 日发布 GPT-5.4 Mini 和 GPT-5.4 Nano，免费用户通过 ChatGPT 的 "Thinking" toggle 即可使用推理模型。Mini 在 GPQA 上得分 0.88。

这是 OpenAI 在商业策略上的重要一步。此前推理能力（如 o1/o3 系列）一直是付费用户的专属功能，GPT-5.4 Mini 向免费用户开放意味着 OpenAI 正在将推理能力"大众化"。GPQA 0.88 的分数说明这不是一个缩水版本，而是真正具备竞争力的推理模型。

同时发布的 GPT-5.4 Nano（GPQA 0.828）进一步扩展了模型矩阵。OpenAI 正在通过 Standard/Mini/Nano 三级产品线覆盖从专业开发者到普通用户的完整需求。这对 Anthropic 和 Google 的免费产品线构成了直接压力。

ENTRY 003/016

[ LLM · 开源 · AGENT · NVIDIA ]

NVIDIA Nemotron 3 Super 开源最高 SWE-Bench 分数

(NVIDIA Nemotron 3 Super)

→ Labla.org

NVIDIA 在 GTC 2026 上发布 Nemotron 3 Super，120B 参数混合专家模型，SWE-Bench 得分 60.47%，为开源权重模型最高分。已被 Perplexity、CodeRabbit、Palantir 等部署。

NVIDIA 不再只是 AI 的"卖铲人"，正在通过 Nemotron 系列直接参与模型竞争。60.47% 的 SWE-Bench 分数对于开源权重模型来说是一个重要里程碑，意味着开源模型在软件工程任务上正在逼近闭源模型的水平。

更值得关注的是其落地速度——Perplexity、CodeRabbit、Palantir、Siemens 等已经在使用。这种"发布即部署"的节奏说明 NVIDIA 在模型研发中就已与企业客户深度合作。120B MoE 架构也在效率和能力之间取得了不错的平衡，适合实际的 Agent 工作流部署。

ENTRY 004/016

[ 论文 · LLM · 强化学习 · NVIDIA ]

Nemotron-Cascade 2: 级联强化学习训练 30B MoE 模型

(Nemotron-Cascade 2)

→ arXiv:2603.19220

NVIDIA 发布开源 30B MoE 模型，在 IMO 和 IOI 竞赛中达到 Gold Medal 级别，参数量仅为同等性能 frontier 模型的 1/20。创新点在于 Cascade RL 和多领域 On-Policy Distillation。

Nemotron-Cascade 2 最引人注目的是其效率——用 1/20 的参数量达到 frontier 模型在数学和编程竞赛上的表现。这验证了一个越来越明确的趋势：通过更好的训练方法（特别是强化学习和蒸馏），中小规模模型可以在特定领域匹敌甚至超越大模型。

Cascade RL（级联强化学习）是一种新的训练范式，结合多领域 On-Policy Distillation，让小模型逐步吸收大模型在不同领域的能力。这对于模型部署来说意义重大——企业可以用更低的成本运行一个 30B 模型，同时在关键任务上获得接近顶尖模型的表现。

ENTRY 005/016

[ 多模态 · GOOGLE · 产品 ]

Google Gemini Embedding 2 统一多模态 Embedding

(Gemini Embedding 2)

→ Build Fast with AI

Google 于 3 月 15 日发布 Gemini Embedding 2，单一模型支持文本、图像、视频、音频和文档的统一 Embedding 空间。

统一多模态 Embedding 是 RAG 和搜索领域的一个关键基础设施升级。以往开发者需要为不同模态分别使用不同的 Embedding 模型（如文本用 text-embedding，图像用 CLIP），现在一个模型即可覆盖全部。这大幅简化了多模态检索系统的架构复杂度。

对于构建 AI 应用的开发者来说，这意味着可以在同一个向量空间中混合搜索文本、图片、音频和视频，实现真正的跨模态语义理解。这也进一步巩固了 Google 在 Embedding 和搜索基础设施领域的领先地位。

ENTRY 006/016

[ AGENT · 观点 · 研究 ]

Andrej Karpathy：AI Agent 已能自主优化训练流程

(Karpathy on AI Research Bottlenecks)

→ LLM Stats

Karpathy 演示了 autonomous agent 在一夜之间优化其训练设置，发现了他作为专家多年未注意到的改进点，认为人类现在是 AI 进步的瓶颈。

Karpathy 的演示具有象征意义——当 AI 系统能够自主改进自身的训练流程时，AI 研究的性质正在发生根本性变化。这不再是"AI 辅助研究"，而是"AI 主导的研究循环"。

这也呼应了 2026 年以来的一个核心趋势：Agent 的能力从"执行用户指令"升级到"自主发现和解决问题"。如果 AI 能优化训练流程，那么优化代码、优化产品设计、优化商业流程也只是场景的拓展。Karpathy 的判断"人类是瓶颈"可能过于尖锐，但其底层逻辑——AI 在特定闭环任务中的迭代速度已经超过人类——是成立的。

ENTRY 007/016

[ LLM · GOOGLE · 产品 ]

Gemini 3.1 Flash-Lite 效率模型发布

(Gemini 3.1 Flash-Lite)

→ Renovate QR

Google 推出 Gemini 3.1 Flash-Lite，响应速度比早期 Gemini 快 2.5 倍，输出生成快 45%，定价仅 $0.25/百万输入 token。

Flash-Lite 的定价策略极具攻击性。$0.25/百万输入 token 远低于市场主流定价，配合 2.5 倍的速度提升，直接瞄准了高吞吐量、成本敏感的 API 调用场景。这对于 Agent 框架中的"快速思考"环节（如路由判断、简单分类）尤其有价值。

Google 的模型矩阵策略越来越清晰：用 Flash-Lite 抢占高频低成本场景，用 Flash 覆盖中等复杂度，用 Pro 和 Ultra 应对高端需求。这种分层定价对 OpenAI 和 Anthropic 都构成了定价压力。

ENTRY 008/016

[ 硬件 · 基础设施 · AWS ]

Amazon Trainium 芯片实验室曝光

(AWS Trainium Chip Lab)

→ LLM Stats

AWS 公开其 Trainium 半导体实验室，Anthropic、OpenAI 和 Apple 已采用该芯片。此前 Amazon 向 OpenAI 投资 $50B。

Trainium 的客户名单（Anthropic、OpenAI、Apple）说明 AWS 的自研 AI 芯片正在获得真正的行业认可，不再只是 AWS 内部使用的"自用品"。特别是 OpenAI 同时使用 NVIDIA GPU 和 AWS Trainium，表明顶级 AI 实验室正在主动多元化其算力供应链。

Amazon $50B 投资 OpenAI 后开放 Trainium 实验室，战略意图明显：通过投资绑定关系，推动 OpenAI 将更多训练和推理工作负载迁移到 AWS 自研芯片上，减少对 NVIDIA 的依赖。这是云厂商与芯片厂商之间博弈的最新一章。

ENTRY 009/016

[ OPENAI · 行业动态 ]

OpenAI 计划年底前翻倍至 8000 人

(OpenAI Workforce Expansion)

→ LLM Stats

OpenAI 计划在 2026 年底前将员工数翻倍至约 8000 人，加速进入企业市场与 Anthropic 等竞争。

从约 4000 人翻倍到 8000 人，这种扩招规模在科技公司中非常激进。结合 OpenAI 近期转型为营利性公司的消息，这表明其商业化进程正在全速推进。重点方向大概率是企业销售、合规、安全团队以及 Agent/产品工程。

这也反映了 AI 行业的竞争格局正在从"模型研发竞赛"转向"商业化落地竞赛"。Anthropic 通过 Claude for Enterprise、Google 通过 Vertex AI、OpenAI 通过 ChatGPT Enterprise，三方都在争夺企业客户。人才储备的扩充是这场竞赛的基础。

ENTRY 010/016

[ 开源 · AGENT · GITHUB ]

LangChain 本周获 1151 Star，Agent 工程平台热度持续

(LangChain Trending)

→ github.com/langchain-ai/langchain

LangChain 本周在 GitHub Trending 榜上获得 1,151 个新 star，总星数达 130,578，定位从"LLM 框架"演进为"Agent 工程平台"。

LangChain 持续位于 GitHub Trending 榜上，且本周新增超过 1000 star，说明 Agent 开发生态仍在高速增长。值得注意的是其定位变化——从早期的"LLM 应用框架"到现在的"Agent 工程平台"，这反映了整个行业对 Agent 范式的拥抱。

作为 Agent 基础设施的核心项目，LangChain 的热度也是上游（模型厂商发布更强的 Agent 能力）和下游（开发者构建 Agent 应用）活跃度的指标。

ENTRY 011/016

[ 论文 · EMBEDDING · 多语言 ]

F2LLM-v2：支持 200+ 语言的多语言 Embedding 模型

(F2LLM-v2 Multilingual Embeddings)

→ arXiv:2603.19223

一系列多语言 Embedding 模型，提供 8 种尺寸，支持 200+ 语言，基于 6000 万高质量公开数据样本训练。

F2LLM-v2 在多语言 Embedding 领域填补了一个重要空白。此前的 Embedding 模型大多以英文为主，多语言支持有限。200+ 语言的覆盖和 8 种模型尺寸的选择，使其在全球化 RAG 应用中具有很高的实用价值。这与 Google Gemini Embedding 2 在同一周发布，形成了 Embedding 领域的"双重升级"。

ENTRY 012/016

[ 开源 · AGENT · 工具 ]

Rowboat：开源多 Agent 系统 IDE

(Rowboat Open-Source Multi-Agent IDE)

→ github.com/rowboatlabs/rowboat

开源的多 Agent 系统 IDE，在 Hacker News 上获得 161 分和 51 条评论，提供可视化的 Agent 编排和调试环境。

随着 Agent 开发从实验阶段进入工程阶段，开发工具链的成熟变得至关重要。Rowboat 提供了一个可视化的多 Agent 编排环境，降低了构建复杂 Agent 系统的门槛。HN 上的热度（161 分、51 条评论）说明开发者社区对这类工具有真实需求。

ENTRY 013/016

[ 机器人 · NVIDIA · 产品 ]

NVIDIA GR00T N1.7 人形机器人基础模型

(NVIDIA GR00T N1.7)

→ Labla.org

NVIDIA 在 GTC 发布 GR00T N1.7，面向人形机器人的基础模型，作为 NVIDIA Physical AI 基础设施战略的核心组件。

NVIDIA 在机器人领域的布局正在从"提供算力"扩展到"提供完整的 AI 栈"。GR00T 系列从模拟环境（Isaac Sim）到推理芯片（Jetson）再到基础模型，构建了一个端到端的人形机器人开发平台。这对 Figure、1X、Agility 等机器人初创公司来说既是赋能也是潜在威胁。

ENTRY 014/016

[ 医疗AI · 多模态 · MICROSOFT ]

Microsoft GigaTIME 癌症病理多模态模型

(Microsoft GigaTIME)

→ Build Fast with AI

Microsoft 于 3 月 15 日发布 GigaTIME，可将低成本病理切片转化为详细的空间蛋白质组学图谱，在 14,256 名患者数据上训练，覆盖 4000 万细胞。

GigaTIME 是 AI 在医疗领域的一个突破性应用。传统空间蛋白质组学分析成本高昂且耗时，GigaTIME 直接从廉价的 H&E 染色切片推断出空间蛋白质分布，有望大幅降低癌症诊断的成本和周转时间。14,256 名患者的训练数据规模也说明 Microsoft 在医疗数据积累上的投入。

ENTRY 015/016

[ ANTHROPIC · 行业动态 · AI安全 ]

Anthropic 成立 Anthropic Institute 研究 AI 社会影响

(Anthropic Institute)

→ Crescendo AI

Anthropic 宣布成立 Anthropic Institute，专注于研究高级 AI 的经济、社会和安全影响。

在其他公司忙于发布模型和产品的同时，Anthropic 成立专门的研究机构关注 AI 的社会影响，延续了其"负责任 AI"的品牌定位。这也可能是对日益增长的监管压力的前瞻性回应——通过主动进行影响研究，在政策制定中占据话语权。

ENTRY 016/016

[ 本地AI · APPLE · 开源 ]

Apple MLX 团队 2026 年重大更新，Local AI 年

(MLX 2026 Release)

→ Alex Cheema on X

Apple MLX 团队发布 2026 年首个大版本更新，pip install -U mlx-lm 带来新模型支持、Tool Calling、Reasoning 支持以及 mxfp8/nvfp4 量化格式。

MLX 是 Apple Silicon 上运行本地 AI 模型的核心框架。新增 Tool Calling 和 Reasoning 支持意味着在 Mac 上本地运行 Agent 工作流成为可能，而 mxfp8/nvfp4 量化支持则进一步优化了在有限内存下运行大模型的能力。"2026 is the year of local AI" 的判断可能过于乐观，但本地 AI 推理的可用性确实在快速提升。

其他值得关注

FinTradeBench：LLM 金融推理基准测试 (FinTradeBench) — arXiv:2603.19225
SkyPilot: 跨云 AI 工作负载平台 (SkyPilot) — github.com/skypilot-org/skypilot
VLM 是否需要 Vision Transformers？SSM 视觉编码器评估 (SSM as Vision Encoders) — arXiv:2603.19209
LVOmniBench：长音视频理解基准 (LVOmniBench) — arXiv:2603.19217

— 2026.03.25 →