════ 2026.04.02 ════
今日要点
详细内容
ENTRY 001/015
[ LLM · 阿里巴巴 · AGENT · 产品 ]

阿里巴巴发布 Qwen3.6-Plus

(Alibaba Unveils Qwen3.6-Plus for Agentic AI)
4 月 2 日,阿里巴巴发布 Qwen3.6-Plus,这是三天内发布的第三个模型。提供 100 万 token 上下文,针对 Agentic Coding 和多模态推理进行了大幅优化,覆盖从前端开发到仓库级复杂问题的解决。模型已集成到悟空(Wukong)企业 AI 平台和通义千问 App。

Qwen3.6-Plus 的发布节奏令人瞩目——三天三个模型,展现了阿里巴巴在 AI 模型迭代上的激进策略。更值得关注的是其"Agentic Coding"定位:模型不仅仅是被动地补全代码,而是能够"感知、推理、行动"——理解视觉设计稿并生成功能代码、自主导航复杂代码仓库、在多步骤工作流中持续执行。

与 Claude Code 和 OpenClaw 等第三方编码工具的兼容意味着 Qwen3.6-Plus 正在直接争夺 AI 编码市场的中间层——开发者可以在自己偏好的 IDE 和工作流中使用 Qwen 作为后端。结合 4/1 简报中 Qwen3.5-Omni 在全模态上的突破,阿里巴巴的模型产品线正在快速填补从效率到能力、从文本到全模态的完整矩阵。100 万 token 上下文对仓库级代码理解至关重要,这使 Qwen3.6-Plus 在大型代码库场景中具备与 GPT-5.4 和 Claude 直接竞争的能力。

ENTRY 002/015
[ 微软 · 语音AI · 图像生成 · 产品 ]

微软发布三款自研 MAI 模型

(Microsoft Launches MAI-Voice-1, MAI-Transcribe-1, MAI-Image-2)
4 月 2 日,微软发布三款自研模型:MAI-Voice-1(语音生成,单 GPU 一秒生成一分钟音频)、MAI-Transcribe-1(语音转录)和 MAI-Image-2(文生图,聚焦照片级真实感)。这些模型由微软超级智能团队开发,是其"AI 自给自足"战略的核心组成部分。MAI-Voice-1 已驱动 Copilot Daily 和 Podcasts 功能。

这是微软 AI 战略的一个分水岭时刻。长期以来,微软在 AI 模型层面高度依赖 OpenAI,而 MAI 系列的发布标志着微软正在系统性地构建自己的模型能力。三款模型分别覆盖语音生成、语音识别和图像生成——这些都是 Copilot 生态系统中的关键感知和输出通道。

MAI-Voice-1 的性能指标尤其惊人:单 GPU 一秒生成一分钟高保真音频,这是当前最高效的语音生成系统之一。已经部署到 Copilot Daily 和 Podcasts 说明这不是实验性项目,而是生产级产品。MAI-Image-2 专注于照片级真实感(自然光线、准确肤色),而非艺术风格生成,清晰定位为商业和企业场景。

微软与 OpenAI 的关系正在从"依赖"走向"互补"——微软在自研模型覆盖的领域减少对 OpenAI API 的调用,降低成本的同时增强对核心 AI 能力的控制。

ENTRY 003/015
[ GOOGLE · 视频生成 · 多模态 · 产品 ]

Google 发布 Veo 3.1 Lite 视频生成模型

(Google Releases Veo 3.1 Lite Video Generation Model)
3 月 31 日发布,Veo 3.1 Lite 是 Google 最具成本效益的视频生成模型,成本不到 Veo 3.1 Fast 的 50%,速度相同。支持文生视频和图生视频,16:9 和 9:16 比例,720p/1080p 分辨率,4/6/8 秒时长。通过 Gemini API 和 Google AI Studio 提供。4 月 7 日将进一步降低 Veo 3.1 Fast 定价。

Veo 3.1 Lite 的发布时机值得玩味——OpenAI 近期关闭了 Sora 独立应用(Android Authority 报道),而 Google 在同一时间推出更低成本的视频生成模型。720p 视频每秒 5 美分、1080p 每秒 8 美分的定价,加上 4 月 7 日 Veo 3.1 Fast 的进一步降价,Google 正在用价格战抢占 AI 视频生成的开发者市场。

这标志着 AI 视频生成从"技术演示"阶段进入"基础设施"阶段。成本下降到足够低时,视频生成将像图像生成一样被嵌入到各种应用中——产品展示、社交媒体内容、教育材料等。结合 3/28 简报中 Lightricks LTX-2.3 在开源端的突破,AI 视频生成的可及性正在两端同时提升。

ENTRY 004/015
[ 开源 · AGENT · COMPUTER · HUGGINGFACE ]

H Company 开源 Holo3-35B-A3B Computer Use 模型

(H Company Open-Sources Holo3 SOTA Computer Use Model)
H Company 发布 Holo3-35B-A3B,基于 Qwen3.5 架构的视觉语言模型,专为 GUI Agent 优化。在 OSWorld-Verified 上达到 77.8%,而仅使用 3B 活跃参数(MoE 架构)。支持 Web、桌面和移动端跨平台操作。Apache 2.0 开源,免费推理 API 可用。

Holo3 的核心突破在于效率:77.8% 的 OSWorld-Verified 得分已经是 SOTA,而这是用仅 3B 的活跃参数实现的——推理成本仅为大型闭源模型的一小部分。这证明了 MoE 架构在 Agent 场景中的巨大潜力:不需要激活全部参数就能完成复杂的 GUI 感知和决策。

在 Computer Use 领域,这形成了一个有趣的格局:Anthropic 的 Claude Computer Use(4/1 简报,闭源但深度集成 Claude Code)vs H Company 的 Holo3(开源、轻量、跨平台)。Holo3 基于 Qwen3.5 架构这一事实再次印证了 Qwen 系列作为开源模型基座的核心地位。Apache 2.0 许可证意味着企业可以自由部署和定制,这对于需要 Computer Use 但不愿意将数据发送到云端的场景极具吸引力。

ENTRY 005/015
[ 开源 · 本地AI · APPLE · 开发工具 ]

🔄 Ollama v0.19:Apple MLX 集成与 Web 能力

(Ollama v0.19: MLX Framework, Web Search & VS Code Integration)
3 月 30 日发布。核心更新:Apple Silicon 上基于 MLX 框架运行(需 32GB+ 统一内存)、内置 Web 搜索和网页抓取插件、VS Code 通过 GitHub Copilot 原生集成 Ollama 本地模型、支持非交互模式。目前 MLX 支持限于 Qwen3.5,更多模型将陆续接入。

Ollama v0.19 是本地 AI 的一个里程碑。MLX 集成意味着 Apple Silicon Mac 用户可以利用统一内存架构获得更高的推理效率——不再是简单地通过 llama.cpp 使用 CPU/GPU,而是通过 Apple 原生框架充分发挥硬件潜力。32GB 的内存门槛意味着 M4 Pro 及以上的 Mac 用户将是首批受益者。

Web 搜索和抓取能力的加入让 Ollama 从"本地对话"升级为"本地 Agent"——模型可以主动获取实时信息,而非局限于训练数据。VS Code 通过 Copilot 原生集成则打通了"本地模型 → IDE 工具链"的最后一环。这三个功能的组合(MLX 加速 + Web 能力 + IDE 集成)使 Ollama 成为本地 AI 开发的一站式平台,对 API 调用模式形成了有力的替代。

ENTRY 006/015
[ OPENAI · AGI · 行业动态 ]

OpenAI 联合创始人称 GPT 推理模型"看到了 AGI 的路径"

(OpenAI Co-Founder: GPT Reasoning Models Have "Line of Sight" to AGI)
4 月 2 日,OpenAI 联合创始人 Greg Brockman 公开声称 GPT 推理模型"对 AGI 有清晰的视线",并称关于纯文本模型能否实现通用智能的争论"已经解决"。同期有报道称 GPT-5.5(代号 "Spud")已完成预训练,OpenAI 可能在 Q2 发布以抢在 Claude Mythos 之前。

Brockman 的声明具有多重解读层次。"Line of sight to AGI"是一个精心措辞——不是"已经实现 AGI",而是"能看到路径"。这个声明的时间点值得注意:Anthropic 的 Mythos 模型因泄露曝光后引发了市场关注,Google Gemini 3.1 Pro 在 13/16 个基准上领先,xAI 的 Grok 4.20 以低幻觉率差异化竞争。OpenAI 需要在叙事层面保持领先地位。

GPT-5.5 "Spud" 预训练完成的消息如果属实,意味着 AI 模型的代际更迭正在加速——GPT-5.4 和 GPT-5.5 之间的间隔可能只有数月。结合 4/1 简报中 OpenAI $1220 亿的弹药库和即将到来的 IPO,OpenAI 有充足的动机加速模型发布节奏以维持估值叙事。

ENTRY 007/015
[ 论文 · LLM · 推理 · AI安全 ]

"Therefore I am. I Think":LLM 是先决策还是先推理?

(Therefore I am. I Think — Do LLMs Decide Before They Reason?)
研究提出一个关键问题:当推理模型做出选择时,它是先思考再决定,还是先决定再思考?研究发现早期编码的决策会塑造后续的思维链,暗示推理可能更多是"后合理化"而非真正的深思熟虑。

这篇论文的标题巧妙地倒转了笛卡尔的"我思故我在"(Cogito ergo sum)为"我在,故我思"(Therefore I am. I Think),直指一个令人不安的可能性:LLM 的 Chain-of-Thought 推理可能不是真正的"推理过程",而是对已经在早期层做出的决策的事后合理化。

如果这个发现成立,它对 AI 安全和可解释性的影响深远。当前的安全方法大量依赖"监控思维链"来检测不对齐行为——例如 4/1 简报中 OpenAI 的 Agent 监控系统。但如果模型的"思考"本质上是对已做决策的包装,那么监控思维链可能无法捕捉到真正的决策过程。这也与 Anthropic 对齐团队关于"模型内部功能分化"的发现形成呼应——决策可能发生在模型的特定内部区域,而非 Chain-of-Thought 的文本输出中。

ENTRY 008/015
[ 论文 · 代码生成 · LLM · 训练方法 ]

极简自蒸馏提升代码生成

(Embarrassingly Simple Self-Distillation Improves Code Generation)
研究证明 LLM 可以仅使用自身的原始输出(无需验证器、教师模型或强化学习)来提升代码生成能力。通过极简的自蒸馏方法实现了显著的性能提升。

"不需要验证器、不需要教师模型、不需要强化学习"——这个约束条件使该方法极具实用价值。大多数提升 LLM 代码能力的方法需要外部反馈信号(测试用例执行、更强模型的评估等),而自蒸馏完全自包含。这意味着任何拥有基础代码模型的团队都可以低成本地提升模型性能。

结合今天 HuggingFace 上 Qwen3.5 蒸馏系列仍占据多个 Trending 席位的现象,蒸馏(包括自蒸馏)正在成为 AI 模型训练中最活跃的方向之一——用更少的资源从现有模型中"榨取"更多能力。

ENTRY 009/015
[ 论文 · LLM · 推理 · 效率 ]

ORCA:推理校准降低 Test-Time 计算成本

(ORCA: Online Reasoning Calibration via Conformal Prediction)
提出 ORCA 框架,通过 Conformal Prediction 在测试时动态校准采样策略,在保持推理质量的同时大幅降低 test-time scaling 的计算成本。解决了当前 SOTA 推理结果需要巨额计算开销的问题。

Test-time scaling(推理时增加计算量以提升结果质量)是当前 AI 推理模型的核心策略——OpenAI 的 o-系列模型和 Claude 的 Extended Thinking 都依赖于此。但问题在于成本:对简单问题投入与困难问题相同的计算量是极大的浪费。

ORCA 的创新在于引入统计学中的 Conformal Prediction 来动态判断"这个问题需要多少思考"——简单问题少采样、困难问题多采样。这是一种"按需推理"的范式,直接回应了开发者在生产中使用推理模型时的核心痛点:成本不可控。如果 ORCA 的方法被主流推理模型采纳,可能显著降低 Agent 的运行成本。

ENTRY 010/015
[ 产品 · 语音AI · 创意工具 ]

Noiz Easter Voice:设计有表现力的人声

(Noiz Easter Voice: Design Expressive Voices)
4 月 1 日 Product Hunt 日榜第一(412 票),提供人声设计工具,让用户创建听起来像真人的表现力丰富的语音。

语音 AI 产品在 Product Hunt 持续获得高热度——从 3/28 简报中的 Gemini Flash Live(实时音频)和 Mistral Voxtral-4B(TTS),到今天微软的 MAI-Voice-1 和 Noiz Easter Voice。Voice 作为 AI 交互界面的重要性正在被市场反复验证。Noiz 的差异化在于"设计"语音而非简单克隆——用户可以定义语音的情感特征、语调风格,这在品牌化语音助手和内容创作中有明确的应用场景。

ENTRY 011/015
[ 产品 · AGENT · 可观测性 ]

traceAI:AI 应用评估和可观测平台

(traceAI: Evaluation, Observability & Optimization for AI Apps)
4 月 1 日发布,提供 AI 应用的全方位评估、可观测性和优化平台。Product Hunt 获 263 票。

AI 可观测性工具的密集出现反映了市场从"构建 Agent"向"运维 Agent"的转变。3/28 简报中的 Agentation(PH 404 票,Agent 可视化反馈)和今天的 traceAI 都在解决同一个问题:AI 应用进入生产后,如何监控、评估和优化其行为。这个赛道正在形成——从 Langfuse 到 Phoenix 再到 traceAI,可观测性基础设施是 Agent 规模化部署的必要条件。

ENTRY 012/015
[ 论文 · AGENT · 科学发现 ]

CliffSearch:LLM Agent 驱动的科学算法发现

(CliffSearch: Structured Agentic Co-Evolution for Algorithm Discovery)
提出 CliffSearch,将科学算法发现过程实现为 LLM Agent 之间的结构化协同进化:假设提出、实现、压力测试和修订由不同的 Agent 角色完成,并引入审阅者门控机制确保质量。

CliffSearch 代表了 AI for Science 的一个重要方向:不是用 AI 替代科学家,而是用 Agent 系统模拟科学发现的迭代过程。将"假设→实现→测试→修订"的循环分配给不同的 LLM Agent,并用审阅者门控确保每一步的质量,这是对 3/27 简报中"Natural-Language Agent Harnesses"理念的具体实践。

特别值得注意的是"压力测试"环节——Agent 不仅提出和实现算法,还主动寻找算法的失败边界。这种内建的对抗性机制比简单的"生成然后人工审核"流程更可靠。

ENTRY 013/015
[ META · 计算机视觉 · 开源 · HUGGINGFACE ]

facebook/sam3.1:SAM3 视频分割模型

(Meta SAM 3.1 Video Segmentation)
Meta 发布 SAM 3.1,SAM(Segment Anything Model)系列的最新版本,支持视频分割任务。在 HuggingFace Trending 榜第 16 位。

SAM 系列从 SAM(图像分割)→ SAM 2(视频分割)→ SAM 3.1,Meta 在"任意分割"方向上持续迭代。视频分割能力的提升对自动驾驶、视频编辑、AR/VR 等下游应用至关重要。SAM 系列的开源策略使其成为计算机视觉基础设施的事实标准——大量下游产品和研究直接构建在 SAM 之上。

ENTRY 014/015
[ 行业动态 · AI应用 · 医疗 ]

Medvi:两人公司用 AI 实现 $4.01 亿营收

(Medvi: $401M Revenue with AI-Driven Telehealth, Just 2 Employees)
远程医疗初创公司 Medvi 仅有两名员工,2025 年通过 AI 自动化实现 $4.01 亿销售额,预计 2026 年达到 $18 亿。纽约时报对此进行了深度报道。

两个人、四亿美元——这个数字本身就是 AI 自动化潜力的最有力证明。Medvi 的案例展示了 AI 在高度标准化的服务领域(远程医疗处方和咨询)的极端杠杆效应。当然,这也引发了关于医疗质量保障和监管合规的严肃问题——在涉及患者健康的领域,自动化的边界在哪里?

从更宏观的角度看,这是 4/1 简报中 Anthropic 经济指数报告所描述趋势的极端案例:"49% 的工作岗位已将 AI 纳入至少四分之一的日常任务"。Medvi 将这个比例推到了极限——几乎所有任务都由 AI 完成。

ENTRY 015/015
[ 论文 · AGENT · 评估基准 ]

HippoCamp 和 YC-Bench:Agent 能力评估新基准

(HippoCamp & YC-Bench: New Agent Benchmarks)
HippoCamp 评估 Agent 在个人电脑上的多模态文件管理能力,使用真实用户文件。YC-Bench 通过模拟一年的创业公司管理来评估 Agent 的长期规划能力——这是 Agent 从"单步任务"到"长期战略"的跨越。

两个 benchmark 分别瞄准了 Agent 的两个薄弱环节。HippoCamp 关注"个人化上下文"——Agent 能否理解用户的文件组织习惯、在杂乱的本地文件系统中找到正确信息?这与真实 Computer Use 场景直接相关。YC-Bench 则提出了一个更高层次的挑战:Agent 能否在长达一年的模拟中保持战略一致性,而不是每次只优化当前步骤?

这两个 benchmark 的出现反映了 Agent 评估体系的成熟化——从"能不能完成单个任务"(SWE-Bench)到"能不能处理真实环境"(OSWorld)到"能不能维持长期目标"(YC-Bench),评估维度越来越贴近真实的人类工作方式。

其他值得关注