════ 2026.04.07 ════
今日要点
详细内容
ENTRY 001/015
[ OPENAI · ANTHROPIC · GOOGLE · 地缘政治 · AI治理 ]
OpenAI、Anthropic、Google 联手反制中国模型蒸馏
(OpenAI, Anthropic, Google Unite to Combat Chinese Model Distillation)
4 月 6 日 Bloomberg 报道,三家美国前沿 AI 实验室开始通过 2023 年共同创立的 Frontier Model Forum 共享情报,检测违反服务条款的"对抗性蒸馏"行为——即中国竞争对手通过大量 API 查询提取模型输出、用于训练本土模型。这是三家公司首次在反情报层面公开协作。
这个动作的背景是过去一年里 DeepSeek、Qwen、Gemma 之外,中国开源模型在 HuggingFace 趋势榜上的份额大幅提升,其中部分被怀疑使用了来自 GPT、Claude 的蒸馏数据。4/5 简报中 Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled 这种赤裸裸的命名长期占据 HuggingFace 点赞榜第二,本身就是对前沿实验室服务条款的挑衅。
三家公司选择通过 Frontier Model Forum 而非各自法务部门协作,意味着这将是一场持续的技术对抗而非一次性诉讼——它们需要共享查询模式、用户指纹、输出水印等情报才能识别蒸馏行为。这也是 Frontier Model Forum 从"AI 安全讨论论坛"转型为"行业反情报联盟"的标志性事件。对独立研究者和中小厂来说,未来通过 API 获取前沿模型输出的合规门槛会显著提高,尤其是大批量查询和跨账号采样。
与 4/5 简报中"AI 攻击性网络能力每 5.7 个月翻倍"的趋势结合来看,前沿实验室正在把"模型即知识资产"的认知提升到和核技术类似的战略高度。
ENTRY 002/015
[ ANTHROPIC · 并购 · 生物科技 · 药物发现 ]
Anthropic 4 亿美元收购 Coefficient Bio 进军药物发现
(Anthropic Acquires Coefficient Bio for $400M)
Anthropic 以约 4 亿美元(股票)收购纽约隐身生物科技初创 Coefficient Bio。Coefficient 成立仅 8 个月、员工不足 10 人,核心团队来自 Genentech 的机器学习组。收购后将并入 Anthropic 的 Healthcare 团队,扩展 2025 年 10 月发布的 Claude Life Sciences 产品线。
4 亿美元买一家 10 人以下、成立 8 个月的公司——单人估值 4000 万美元——这已经不是传统意义上的并购,而是明显的 acqui-hire + 战略卡位。Coefficient 的核心价值是创始人 Nathan Frey 和 Samuel Stanton 此前在 Genentech 的蛋白质设计与主动学习工作,这是当前 AI 药物发现最稀缺的跨学科人才。
Anthropic 此前明确把 Safety 和 Enterprise 作为两大叙事支柱,而这次收购暗示 Life Sciences 正在成长为第三条主线。与 OpenAI 聚焦 ChatGPT 消费端、Google 聚焦 Gemini 多模态形成差异,Anthropic 在垂直领域扎根的策略更接近传统企业软件的打法。考虑到 4 月 6 日 Bloomberg 刚报道的三家联合反蒸馏,Anthropic 选择在药物发现这样数据封闭、湿实验闭环的领域加深布局,也是在规避纯文本模型越来越严重的同质化竞争。
ENTRY 003/015
[ GOOGLE · 推理效率 · 量化 · 论文 ]
Google TurboQuant:KV Cache 6 倍压缩、零精度损失
(Google TurboQuant: 6x KV Cache Compression With Zero Accuracy Loss)
Google 发布 TurboQuant 向量量化压缩算法,核心是 Quantized Johnson-Lindenstrauss (QJL) + PolarQuant:先对数据向量做随机旋转,再用 QJL 对残差做 1-bit 补偿。对 KV Cache 从 16-bit 压到 3-bit(6 倍显存减少),注意力计算加速 8 倍,精度无损。完全 training-free、data-oblivious,论文将在 4 月 23-25 日的 ICLR 2026 上正式发表。
TurboQuant 的最大价值在于"免费午餐"属性——不需要重训、不需要微调、不依赖具体数据分布就能把 KV Cache 压缩 6 倍。目前主流的 KV Cache 量化方案(KIVI、SmoothQuant、AWQ)要么需要校准数据集、要么在极低 bit 下掉精度,而 TurboQuant 号称 3-bit 零损失——如果基准测试经得起第三方验证,这将直接改变长上下文推理的经济学。
这对 4/5 简报提到的"推理 token 效率"主题是最直接的补充:Batched Contextual Reinforcement 从"共享上下文"降成本、ORCA 从"按需推理"降成本,TurboQuant 则从硬件底层把显存瓶颈拿掉一大块。对于 Anthropic Claude Mythos 这类百万上下文场景,6 倍 KV 压缩意味着同等硬件可以服务 6 倍的并发用户。PolarQuant 同期将在 AISTATS 2026 发表,说明这不是一次性 trick 而是一条新的量化理论路线。
值得注意的是,TurboQuant 是 Google 自有的闭源算法,短期内不会开源。这与 Gemma 4 的开源策略形成对比——Google 的策略是"模型开源,基础设施封闭"。
ENTRY 004/015
[ DEEPSEEK · 华为 · 开源 · 地缘政治 ]
🔄 DeepSeek V4 开启内测,确认原生运行华为昇腾 950PR
(DeepSeek V4-Lite in API Testing, Runs on Huawei Ascend 950PR)
4 月 4 日 Reuters 确认 DeepSeek V4 将完全运行在华为昇腾 950PR 芯片而非 NVIDIA GPU 上。V4-Lite 已从 4 月初开始在 API 节点内测,完整版预计 4 月下旬发布。相较 4/5 简报,本次新增的实质性进展是硬件栈的官方确认——V4 将成为首个完全基于中国半导体基础设施训练和推理的前沿模型。
硬件栈的切换是比模型本身更深远的信号。此前 DeepSeek V1-V3 仍依赖 H800 等 NVIDIA 芯片训练,V4 如果真能在昇腾 950PR 上完成万亿参数 MoE 的训练和推理,意味着中国已经有了完整的"模型 - 框架 - 硬件"垂直栈。这与美国前沿三巨头通过 Frontier Model Forum 联手反蒸馏几乎同一天发生,并非巧合——技术脱钩正在从芯片出口管制层面扩展到模型输出层面。
对开源社区而言,V4 的 Apache 2.0 许可意味着任何人都可以下载权重在任意硬件上推理,但训练基础设施的国产化是另一回事。如果 V4 训练代码也开源并针对昇腾优化,那么中国之外的实验室将第一次拥有"不依赖 CUDA 生态"训练万亿模型的完整路径。这可能直接改变全球 AI 算力版图。
ENTRY 005/015
[ OPENAI · 政策 · AI与就业 · UBI ]
OpenAI 政策白皮书:四天工作周与税制改革
(OpenAI Proposes Four-Day Workweek and Tax Overhaul)
4 月 6 日,OpenAI 发布政策白皮书,建议政府与雇主为 AI 驱动的劳动力市场变化做准备:试点四天工作周、把税负从劳动所得转向企业利润和资本利得、建立公共财富基金用以分配 AI 带来的经济收益。同时披露 ChatGPT 周活跃用户突破 9 亿,付费订阅超过 5000 万。
这份政策白皮书比 OpenAI 以往的安全声明更激进也更具体——它第一次公开承认 AI 将对就业结构产生广泛冲击,并给出明确的政策处方。这与 4/5 简报中"美国软件工程岗位 30% 增长"的数据形成有趣张力:Sam Altman 的策略似乎是一手强调"AI 正在创造工作",一手推动"为 AI 消灭工作做准备"的政策对冲。
"税负从劳动转向资本"这条建议直接触及 AI 经济学的核心矛盾——如果生产率提升主要通过资本(模型和算力)而非劳动实现,传统以劳动所得为主体的税制会自动扩大不平等。这本质上是 UBI 思路的温和版。值得注意的是 OpenAI 选择在此时发布该文件,恰好与其 ARK Invest ETF 纳入和 IPO 相关动作同期,这份白皮书也在为"AI 公司大规模资本化"提供政治叙事。
ENTRY 006/015
[ NVIDIA · 机器人 · 多模态 · VLM ]
NVIDIA Cosmos Reason 2:物理 AI 专用推理 VLM
(NVIDIA Cosmos Reason 2: Reasoning VLM for Physical AI)
NVIDIA 发布 Cosmos Reason 2,面向物理 AI 的开源推理视觉语言模型。在 Physical AI Bench 和 Physical Reasoning 榜单登顶,成为第一的开源视觉理解模型。相较第一代在空间关系、物理因果、多步骤场景推理上都有显著提升。
Cosmos Reason 2 是 NVIDIA "Physical AI" 战略的核心拼图。NVIDIA 把物理 AI 定义为区别于"数字 AI"的新赛道——前者需要理解力学、材料、碰撞等真实世界约束。这与 4/5 简报中 Netflix VOID 在视频物体移除时处理"物理合理碰撞"的工作方向一致:纯粹的 pixel-level 生成已经接近饱和,接下来的突破点是让模型理解"像素背后的物理"。
同日 NVIDIA 还联合 Pollen Robotics 发布 DGX Spark + Reachy Mini 方案,这是把 Cosmos 模型家族下沉到消费级机器人硬件的信号。机器人 + VLM 的组合正在从研究走向产品化——Physical AI Bench 榜单的存在本身就说明这已经是一个可比较、可竞争的独立赛道。
ENTRY 007/015
[ 开源 · 推理 · 混合架构 · TII ]
Falcon-H1R-7B:混合架构测试时缩放推理模型
(Falcon-H1R-7B: Hybrid Model for Test-Time Scaling)
TII (阿联酋) 发布 Falcon-H1R-7B,一个基于混合架构(Transformer + 状态空间)、针对测试时推理缩放优化的 7B 模型。在数学、编程、指令遵循、逻辑推理等基准上表现突出,配套论文 "Falcon-H1R: Pushing the Reasoning Frontiers with a Hybrid Model for Efficient Test-Time Scaling"。
Falcon-H1R 的核心价值是证明了混合架构(Mamba/SSM + Transformer)在推理任务上可以达到纯 Transformer 同规模模型的水平,同时拥有 SSM 在长序列上的效率优势。这是继 Jamba、Zamba 之后 SSM 混合架构在推理专门化赛道上的又一次跃进。
7B 规模瞄准的是"测试时缩放"(test-time compute)场景——即通过多次采样、Best-of-N、chain-of-thought 等方式用推理时算力换精度。小模型 + 大测试时算力的组合正在成为与"大模型 + 小测试时算力"并行的技术路线,4/6 arXiv 上 "Early Stopping for Large Reasoning Models via Confidence Dynamics" (CoDE-Stop) 等论文也在同一方向耕耘。TII 的加入也说明中东资本在 AI 模型层的持续投入,不再只是基础设施和资金。
ENTRY 008/015
[ 论文 · 推理效率 · KV压缩 ]
TriAttention:三角函数 KV 压缩实现 2.5 倍吞吐
(TriAttention: Efficient Long Reasoning with Trigonometric KV Compression)
4 月 6 日论文提出 TriAttention,利用 pre-RoPE query-key 的集中性质对 KV Cache 做三角函数压缩,在保持精度的前提下将长推理吞吐量提升 2.5 倍。
TriAttention 与当天发布的 Google TurboQuant 形成有趣对照——两者都聚焦 KV Cache 压缩这一瓶颈,但路径不同:TurboQuant 走的是数据无关的随机旋转 + 量化,TriAttention 走的是利用 RoPE 前的结构性特征做压缩。两者可能是正交的,未来可以叠加。
从 TriAttention + TurboQuant + 4/5 简报的 Batched Contextual RL 同时出现来看,"让长上下文推理跑得起"已经是本周整个研究社区的共同焦点。这背后的驱动力是 Agent 工作负载——当 Claude Code、Codex、DeepSeek V4 这样的 Agent 普遍需要消耗几十万到上百万 token 做仓库级推理时,KV Cache 成了部署经济学的头号拦路虎。
ENTRY 009/015
[ 论文 · 视觉推理 · 强化学习 · 开源 ]
Vero:通用视觉推理的开源 RL 配方
(Vero: An Open RL Recipe for General Visual Reasoning)
4 月 6 日论文 Vero 提出一套通用视觉推理的 RL 训练配方,在 60 万样本上使用任务路由奖励机制,用较小模型在视觉推理基准上超过更大参数量的模型。
"任务路由奖励"(task-routed rewards)是 Vero 的关键创新——不同类型的视觉推理任务(几何、图表、OCR、空间关系)需要不同的奖励塑形策略,统一奖励会导致次优。这与 4/5 简报中阿里 Qwen "推理步骤加权"的思路异曲同工,都是承认"推理任务的奖励不是一碗水端平"。
对开源社区而言,Vero 更重要的是提供了"可复现的 RL 配方"——包括数据构造、奖励设计、路由机制。当前视觉推理领域的公开进展很大程度上依赖闭源实验室的工程细节,Vero 的开源有望降低进入门槛。
ENTRY 010/015
[ 论文 · 定理证明 · 数学推理 · 小模型 ]
QED-Nano:4B 小模型证明奥数级定理
(QED-Nano: Teaching a Tiny Model to Prove Hard Theorems)
4B 参数模型通过 SFT + RL + reasoning cache 扩展,在奥林匹克数学级别的定理证明上接近专有系统的表现。
4B 模型逼近闭源专有系统的表现,对形式化数学社区是一个重要信号。定理证明一直是 LLM 的"硬核区"——不同于自然语言问答有模糊的正确标准,Lean/Coq 证明非对即错,无法靠模糊生成蒙混过关。QED-Nano 的 reasoning cache 扩展机制暗示,用推理过程本身作为训练数据可以显著放大有限数据的价值。这也呼应了 4/1 简报中 AlphaProof 系列的技术方向。
ENTRY 011/015
[ 论文 · 推理效率 · LLM ]
CoDE-Stop:基于置信动态的推理早停
(Early Stopping for Large Reasoning Models via Confidence Dynamics)
4 月 6 日论文 CoDE-Stop 提出利用中间答案置信度的动态变化判断何时终止 CoT 推理,在保持精度的前提下减少 25-50% 的推理 token。
CoDE-Stop 是对"推理过度思考"问题的直接回应——大型推理模型经常在已经得到正确答案后继续不必要的反复验证,白白消耗 token。通过监控中间答案的置信度曲线,模型可以判断"推理已经收敛,继续思考边际收益为零"。25-50% 的 token 节省意味着推理模型的单次调用成本可以近乎腰斩。
这与 4/5 简报的 ORCA(Conformal Prediction 校准采样)是同一问题的不同解法:ORCA 从"要不要多采样"入手,CoDE-Stop 从"要不要继续思考"入手。两者可以组合使用,对 Agent 场景中成百上千次推理调用的成本控制尤其重要。
ENTRY 012/015
[ 论文 · 可解释性 · AI安全 ]
隐藏推理模型的可解释性研究
(Are Latent Reasoning Models Easily Interpretable?)
4 月 6 日论文研究发现,LLM 的隐藏推理 token(latent reasoning tokens)往往是非必要的,并且大多能编码出可解释的推理过程。对于许多正确预测,可以从隐藏表示中恢复出可验证的推理轨迹。
这项研究对 AI 安全和可解释性领域有重要意义。Anthropic 等实验室一直担忧"隐藏推理"会成为模型欺骗的温床——如果模型可以在内部思考中规避对齐目标,外部监督将失效。但这项研究表明,至少在当前架构下,隐藏推理大多是"可解码的",这给 Anthropic 已公开的 "Interpretability" 研究路线提供了新的技术支撑。结合 4/5 简报提到的"国际 AI 安全报告"和 4/6 的前沿实验室联合反蒸馏,可解释性正在从学术议题变成治理基础设施。
ENTRY 013/015
[ 论文 · AI经济学 · 社会影响 ]
Acemoglu 论文:AI 聚合如何影响集体知识
(How AI Aggregation Affects Knowledge)
MIT 经济学家 Daron Acemoglu 及合作者发表论文,扩展 DeGroot 社会学习模型分析 AI 聚合器对集体知识的影响。理论结果显示:慢速更新的 AI 聚合器能改善学习,而"本地架构"在鲁棒性上优于"全局架构"。
Acemoglu(2024 年诺贝尔经济学奖得主)之前就对 AI 的宏观效应持审慎态度,这篇论文从理论层面给出了具体结论:目前主流的"中心化 AI 聚合器"(一个 ChatGPT 为所有人提供答案)在信息扩散动态上并不最优,反而会因为快速同步加剧集体认知偏差。"本地架构"(每个社区/行业拥有自己微调的模型)在理论上更鲁棒。
这与 4/5 简报中"AI Slop 公地悲剧"的定性研究完美呼应——当所有人从同一个 AI 获取相似输出时,信息生态的多样性会坍塌。Acemoglu 的论文给出的政策含义相当清晰:监管者应该鼓励模型多样性和本地化部署,而非任由几个前沿模型垄断知识分发。
ENTRY 014/015
[ 企业AI · 医疗 · 行业动态 ]
UnitedHealth 30 亿美元押注 AI 自动化
(UnitedHealth Group $3B AI Push)
4 月 6 日报道,美国最大的医疗保险公司 UnitedHealth Group 启动 30 亿美元 AI 部署计划,在运营各环节广泛使用 AI 工具。该公司同时在大量招聘数据科学和 AI 相关岗位,将 AI 嵌入核心业务运营。
医保公司部署 AI 比医院更有争议——保险公司使用 AI 做理赔审核、诊疗必要性判断、成本控制,直接影响患者能否获得治疗。UnitedHealth 此前已因 "NaviHealth" AI 系统错误拒赔老年人医疗服务而遭遇集体诉讼。30 亿美元的新投入规模意味着这种争议会进一步扩大。
这是 AI 在高风险行业部署的典型案例:技术能力已经足够,但监管框架远远滞后。与 OpenAI 同日发布的政策白皮书对照,"AI 影响就业"只是表层问题,"AI 影响关键服务决策"才是更紧迫的治理挑战。
ENTRY 015/015
[ 阿里巴巴 · AI应用 · 电商 · AGENT ]
阿里巴巴 Accio 突破 1000 万月活
(Alibaba Accio AI Sourcing Tool Hits 10M MAU)
阿里巴巴 2024 年推出的 AI 采购工具 Accio 在 2026 年 3 月月活突破 1000 万,约每 5 个阿里用户就有 1 个在用 AI 咨询产品采购决策。工具帮助小商家分析需求、挑选供应商、决定要生产什么 SKU。
Accio 的成功是"垂直 Agent"商业化的最具体案例之一。它不追求通用能力,而是把 B2B 采购这一单一高频场景做深——小商家最大的痛点是"不知道做什么产品能卖",Accio 用 AI 把阿里巴巴的全球交易数据转换成具体建议。这比 ChatGPT 等通用聊天工具更接近"解决明确商业问题"的 Agent 定义。
1000 万月活在企业 AI 工具赛道是非常可观的数字——作为对比,GitHub Copilot 在 2024 年底约 1500 万付费用户。Accio 的用户是真实的中小企业主,付费意愿和留存特征可能远好于消费级 AI 工具。这为 4/2 简报中"Qwen3.6-Plus 主打 Agentic 场景"提供了商业闭环的验证——阿里的 AI 战略正在从"模型能力"转向"场景垂直化"。
其他值得关注
- NVIDIA DGX Spark + Reachy Mini:桌面级具身智能套件 (NVIDIA + Pollen Robotics Reachy Mini) — HuggingFace Blog
- HN 热帖:对抗 LLM Agent 的经济学基准 ACE (ACE Dynamic Benchmark for Breaking AI Agents) — fabraix.com
- DocMason:运行在 Claude Code 和 Codex 中的办公文档知识库 (DocMason Agent Knowledge Base) — GitHub
- Castra:剥夺 LLM 编排权的治理二进制 (Castra Agent Governance Binary) — GitHub
- ACP:AI 编码 Agent 的治理控制平面 (Agentic Control Plane for Claude Code / OpenClaw) — agenticcontrolplane.com
- OpenHarness:支持任意 LLM 的终端编码 Agent (OpenHarness Terminal Coding Agent) — GitHub
- OpenBB 金融 Agent 平台进入 GitHub Trending (OpenBB Financial Data Platform for AI Agents) — GitHub
- Muon 动力学作为谱 Wasserstein 流的理论研究 (Muon Dynamics as Spectral Wasserstein Flow by Gabriel Peyré) — arXiv:2604.04891
- Agentic 联邦学习:LLM Agent 自主编排分布式训练 (Agentic Federated Learning) — arXiv:2604.04895
- AI 安全验证的 Kolmogorov 复杂度不完备性 (Incompleteness of AI Safety Verification via Kolmogorov Complexity) — arXiv:2604.04876
- FileGram:基于文件系统行为痕迹的 Agent 个性化 (FileGram Agent Personalization via File-System Traces) — arXiv:2604.04901