════ 2026.03.25 ════
今日要点
详细内容
ENTRY 001/015
[ AGENT · ANTHROPIC · 产品 ]
Claude 桌面端 Computer Use 发布预览
(Anthropic Claude Computer Use on Mac)
Claude 现可在 Mac 上点击、滚动、导航应用并填写表格。当缺少 API 集成时,Claude 会像人类一样通过屏幕操作完成任务。配合 Dispatch 移动端应用,用户可从手机远程派发任务。
这是 Anthropic 在 Agent 赛道上的一个标志性产品动作。Computer Use 此前一直停留在 API 层面的技术演示,现在正式集成到面向消费者的 Claude 桌面端,意味着"AI 操作电脑"从概念验证进入了实际可用阶段。Claude 的策略很巧妙:先尝试通过 API 集成(如 Google Calendar、Slack)完成任务,API 不可用时才回退到屏幕操控——这比纯粹的屏幕操控方案更可靠也更高效。
Dispatch 移动端的配合让这个功能的使用场景大幅扩展。用户可以在通勤路上通过手机给 Claude 下达任务,让它在 Mac 上自主完成——这本质上是一个"远程 AI 助手"的产品形态。目前仅支持 Mac、仅限 Pro/Max 用户,且 Anthropic 自己也承认 Computer Use "与 Claude 的编码和文本交互能力相比仍处于早期阶段",但方向是明确的。
ENTRY 002/015
[ AGENT · ANTHROPIC · 开发工具 ]
Claude Code Auto Mode 发布
(Claude Code Auto Mode)
Auto Mode 让 Claude Code 自主判断每个操作是否安全,无需开发者逐一确认权限。内置安全分类器审核每个动作,并检测 prompt injection 攻击。Research Preview 阶段,Teams 用户可用,Enterprise/API 即将跟进。
Claude Code 的 Auto Mode 解决了 AI 编码助手面临的一个核心矛盾:安全性与流畅性。此前开发者要么频繁确认权限(打断工作流),要么直接跳过所有检查(有安全风险)。Auto Mode 引入了一个中间层——AI 安全分类器实时评估每个操作的风险等级,低风险操作自动放行,高风险操作仍需确认。
这对 Agent 范式的工程实践有示范意义。Anthropic 本质上在探索一种 "AI 自治 + 安全护栏" 的平衡模式,而不是简单的二选一。Anthropic 建议仅在沙箱环境中使用 Auto Mode,说明他们对这个功能的安全边界有清醒认识。随着 Enterprise/API 用户的接入,这可能成为 AI Agent 安全框架的一个行业参考。
ENTRY 003/015
[ GOOGLE · 产品 · AGENT ]
Google Gemini 全面升级 Workspace AI 能力
(Gemini Workspace AI Upgrade)
Gemini 可跨邮件、文件、聊天和日历综合信息,自动生成格式化文档。Sheets 支持自然语言构建完整表格。Drive 搜索新增 AI Overview,可跨文档回答复杂问题。Beta 阶段,AI Ultra/Pro 订阅用户优先。
这次升级的核心不是单个功能的改进,而是 Gemini 作为"跨应用智能层"的定位正式落地。以往 AI 助手在 Workspace 中是每个应用内的独立功能,现在 Gemini 可以从 Gmail、Calendar、Chat 等多个来源拉取信息来生成 Docs 或 Sheets——这是真正的跨应用 Agent 行为。
对于企业用户来说,"选中所有税务文件,问 Gemini 该向税务顾问问什么" 这种场景极具吸引力。Google 的优势在于它掌握了用户的完整工作上下文(邮件、日历、文件、聊天),其他 AI 厂商很难复制这种数据密度。这进一步巩固了 Google 在企业 AI 助手领域的护城河。
ENTRY 004/015
[ APPLE · GOOGLE · 产品 ]
Apple Siri AI 升级由 Gemini 驱动,发布遭遇延迟
(Apple Siri AI Upgrade Powered by Gemini)
Apple 新版 Siri 由 Google Gemini 驱动(每年约 $10 亿合作费用),具备屏幕感知、跨应用上下文理解能力。原定 iOS 26.4(3 月)发布,但内测发现一致性和集成问题,部分功能可能推迟到后续版本。
Apple 选择 Google Gemini 而非自研模型驱动 Siri 升级,是一个意味深长的战略决定。这承认了 Apple 在大模型能力上与 Google 的差距,但也是务实之举——与其花数年追赶,不如付费使用最好的模型,同时在隐私和集成体验上保持 Apple 的差异化优势。
然而反复延迟令人担忧。从最初的 2025 年目标到现在的 iOS 26.4,Siri AI 升级已经延期多次。内测中的"一致性和集成问题"暗示 AI 能力与 Apple 严格的用户体验标准之间存在张力。Apple 可能会选择逐步推出功能,而不是一次性全面升级。对于开发者来说,这意味着 Apple 生态的 AI 能力仍处于不确定状态。
ENTRY 005/015
[ OPENAI · ANTHROPIC · 行业动态 ]
OpenAI 营收突破 $250 亿,酝酿 IPO
(OpenAI Revenue Surpasses $25B, Eyes IPO)
OpenAI 年化营收超过 $250 亿,正在考虑最早于 2026 年底上市。竞争对手 Anthropic 年化营收接近 $190 亿。AI 行业的商业化速度远超预期。
$250 亿的年化营收标志着 OpenAI 已经从一家研究实验室蜕变为一家超级独角兽级别的科技公司。作为参考,Salesforce 花了约 20 年才达到这个营收规模,而 OpenAI 在商业化短短几年内就实现了。更值得关注的是 Anthropic 接近 $190 亿的数字——这意味着仅 OpenAI 和 Anthropic 两家公司就创造了超过 $440 亿的年化 AI API/产品营收。
IPO 传闻结合此前转型为营利性公司的消息,OpenAI 的资本化路径越来越清晰。上市将为其提供持续的融资渠道来支撑巨额计算开支,但也会带来公开市场的季度业绩压力。对于整个 AI 行业,OpenAI IPO 将是一个重要的估值锚点。
ENTRY 006/015
[ OPENAI · LLM · 产品 ]
🔄 GPT-5.4 全貌:百万上下文与 Computer Use
(GPT-5.4 Full Feature Set)
GPT-5.4 API 支持 100 万 token 上下文窗口(OpenAI 历史最大)。Codex 和 API 版本具备原生 Computer Use 能力。提供 Standard/Thinking/Pro 三个版本。GPT-5.1 系列已从 ChatGPT 下线。Codex for Students 面向美加高校学生发放 $100 额度。
GPT-5.4 的 100 万 token 上下文窗口是 OpenAI 对 Google(Gemini 早已支持超长上下文)和 Anthropic(Claude 刚宣布 1M 上下文 GA)的直接回应。三家主要 AI 厂商在上下文长度上趋于持平,竞争焦点正在转向上下文利用的质量和效率。
原生 Computer Use 能力意味着 OpenAI 正在与 Anthropic 展开直接的 Agent 能力竞争。两家公司几乎同时推出桌面操控功能,说明 "AI 操作电脑" 已经从一个前沿概念变成了 2026 年的产品标配。Codex for Students 则是在争夺下一代开发者用户群。
ENTRY 007/015
[ ANTHROPIC · LLM · 产品 ]
Anthropic 1M 上下文正式 GA
(Anthropic 1M Context Generally Available)
3 月 13 日起,Opus 4.6 和 Sonnet 4.6 的 100 万 token 上下文窗口正式全面可用(GA),不再是 beta 限制。
1M 上下文从 beta 转为 GA 意味着 Anthropic 对其在超长上下文下的质量和稳定性已经有足够信心。对于开发者来说,这消除了在生产环境中使用超长上下文的顾虑。结合 Claude Code Auto Mode 和 Computer Use 的同期发布,Anthropic 在 3 月密集推出了一系列产品更新,整体产品节奏明显加速。
ENTRY 008/015
[ 开源 · RAG · GITHUB ]
Pathway:LLM 管道与 RAG 的流处理框架
(Pathway ETL Framework for LLM Pipelines)
Python 流处理 ETL 框架,专注于实时分析、LLM 管道和 RAG。本周新增 2,854 star(总计 62,519),是本周 GitHub Trending 上增长最快的 AI 相关项目。
Pathway 的爆发式增长(单周 +2,854 star)反映了 AI 工程领域对"数据管道"基础设施的强烈需求。随着 RAG 从实验走向生产,开发者需要可靠的流处理框架来处理实时数据摄入、转换和向量化。Pathway 将传统 ETL 的成熟理念与 LLM 工作流深度融合,填补了一个重要的工具链空白。
相比 LangChain 这类侧重编排的框架,Pathway 更专注于数据层——从数据源到 LLM 之间的实时管道。两者形成互补,共同构成 AI Agent 应用的基础设施栈。
ENTRY 009/015
[ 开源 · LLM · 行业动态 ]
中国开源模型在 HuggingFace 上超越美国
(Chinese Open Models Overtake US on HuggingFace)
HuggingFace 2026 春季报告显示,中国开源模型在 Hub 上的采用率已超过美国,Qwen 和 DeepSeek 驱动了衍生模型的爆发式增长,中国模型占过去一年下载量的 41%。
这个数据是一个里程碑式的转折。中国在开源 AI 模型领域的崛起不再是趋势预测,而是已经发生的事实。Qwen 和 DeepSeek 不仅自身下载量巨大,更重要的是它们催生了大量衍生模型(量化版、微调版、特定领域版),形成了一个自我强化的生态系统。
这对全球 AI 格局有深远影响:开源模型的地理重心正在东移。对于开发者来说,忽视中国开源模型意味着错过了 Hub 上最活跃的模型群体。对于政策制定者来说,这数据可能进一步推动围绕开源 AI 模型的出口管控讨论。
ENTRY 010/015
[ AGENT · AMAZON · 产品 · 医疗AI ]
Amazon 推出 Health AI Agent
(Amazon Health AI Agent for Prime)
Amazon 在其网站和 App 上推出 Health AI agent,为 Prime 会员提供免费 24/7 健康指导。通过 One Medical 服务,可回答健康问题、解读化验报告、管理处方续签、预约挂号。
Amazon 将 AI Agent 与 One Medical(其 2023 年以 $39 亿收购的医疗服务)结合,创造了一个极具竞争力的健康 AI 入口。对于 Prime 会员来说,这是一个零边际成本的高价值服务,进一步提升了 Prime 会员的粘性。
但医疗 AI 的合规和责任问题不容忽视。"解读化验报告"和"管理处方续签"涉及真实的医疗决策,AI 的错误可能直接影响患者健康。Amazon 需要在便利性和安全性之间找到平衡。
ENTRY 011/015
[ 论文 · 多模态 · 强化学习 ]
UniGRPO:推理驱动的统一视觉生成
(UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation)
提出统一强化学习框架,将文本生成和图像生成的策略优化整合到同一个 Markov 决策过程中,实现推理驱动的交错图文生成。
UniGRPO 的创新在于打破了文本生成和图像生成的策略分离。传统多模态模型在生成图文交错内容时,文本和图像的生成策略是独立优化的,导致两者之间的逻辑一致性较差。通过将两者统一到单一的 RL 框架中,模型可以在生成图像时"思考"其与上下文文本的逻辑关系——这是向真正的推理驱动多模态生成迈出的重要一步。
ENTRY 012/015
[ 论文 · AGENT · 推理优化 ]
SpecEyes:Agent 级多模态 LLM 推理加速
(SpecEyes: Accelerating Agentic Multimodal LLMs)
提出 Agent 级推测加速框架,使用轻量级无工具模型作为推测规划器,通过早期终止策略减少多模态 LLM 的顺序计算开销。
Agent 工作流中多模态 LLM 的推理延迟是一个关键瓶颈。SpecEyes 的思路是在 Agent 决策循环中引入"推测执行"——用小模型快速预判下一步操作,大模型仅在必要时介入。这种分层推理架构对于需要实时响应的 Agent 场景(如 Computer Use、游戏 NPC)特别有价值。随着 Computer Use 进入产品阶段,推理加速技术将变得越来越重要。
ENTRY 013/015
[ 论文 · 机器人 · 多模态 ]
VTAM:融合触觉的视频-动作世界模型
(VTAM: Video-Tactile-Action Models)
多模态世界建模框架,在视频基础上融入触觉感知流,通过轻量微调增强预训练视频 Transformer 的物理交互理解能力。面向具身智能场景。
在视觉之外引入触觉模态,是具身智能的一个重要方向。人类的物理操作高度依赖触觉反馈(力度、质感、滑动感),纯视觉模型在精细操作上存在天然局限。VTAM 通过轻量微调而非从头训练的方式引入触觉,降低了多模态扩展的成本。这与 NVIDIA GR00T 等人形机器人平台形成上下游互补。
ENTRY 014/015
[ NVIDIA · AGENT · 观点 ]
NVIDIA CEO 愿景:2036 年每人配 100 个 AI Agent
(Jensen Huang: 100 AI Agents Per Person by 2036)
NVIDIA CEO 黄仁勋在 GTC 相关活动中提出愿景:到 2036 年,每个职场人可能拥有 100 个 AI Agent,这些不是聊天机器人,而是能全天候处理复杂任务的自主工作者。
100:1 的 Agent-人比例是一个大胆的预测,但其背后的商业逻辑对 NVIDIA 来说非常清晰——更多 Agent 意味着更多推理算力需求,直接拉动 GPU 销售。从技术可行性看,如果 Agent 主要处理结构化、重复性的工作流(邮件分类、数据录入、报告生成),100 个轻量级 Agent 的部署并非不可能。
但更有意义的问题是:什么样的 Agent 架构能让人有效管理 100 个 Agent?这指向了 Agent 编排、监控和治理工具的巨大市场机会。
ENTRY 015/015
[ ANTHROPIC · 产品 ]
Claude 新增交互式可视化能力
(Claude Interactive Visualizations)
3 月 12 日起,Claude 可直接创建交互式图表、图解和数据可视化,嵌入对话中。
交互式可视化让 Claude 从纯文本输出升级为富媒体输出,在数据分析和报告生成场景中更具实用性。这也是 Anthropic 追赶 ChatGPT Artifacts 功能(代码执行和可视化)的一步。对于分析师和数据科学家来说,能在对话中直接生成可交互的图表,减少了在 Claude 和 Jupyter/Excel 之间的切换成本。
其他值得关注
- AgentRVOS: 零样本视频物体分割 Agent 方案 (AgentRVOS: Reasoning over Object Tracks for Zero-Shot RVOS) — arXiv:2603.23489
- MedObvious: 医学 VLM 的安全分诊基准 (MedObvious: Exposing Medical Moravec's Paradox in VLMs) — arXiv:2603.23501
- WildWorld: 1.08 亿帧世界建模数据集 (WildWorld: Large-Scale Dynamic World Modeling Dataset) — arXiv:2603.23497
- Claude Code 新增代码审查功能(3/9) (Code Review in Claude Code) — Anthropic Blog
- Foveated Diffusion: 利用人眼注视模式的高效扩散生成 (Foveated Diffusion) — arXiv:2603.23491