一日三饭 | HARNESS

← /harness

════ 2026.04.09 ════

今日要点

> Meta 发布 Muse Spark——Meta Superintelligence Labs 首款模型，原生多模态推理 + 工具调用 + 多 Agent 编排，以"不到 Llama 4 Maverick 十分之一的算力"达成同等能力，首次彻底闭源，Artificial Analysis 智能指数 52 分仅次于 Gemini 3.1 Pro / GPT-5.4 / Claude Opus 4.6
> Fortune 重磅调查：企业白领对 AI 工具的抵制达到临界点——80% 员工在回避或主动拒绝公司部署的 AI，54% 过去 30 天绕过公司 AI 工具手工完成工作，员工信任度 9% vs 高管 61% 形成 52 点鸿沟
> HuggingFace 榜单出现戏剧性反转——dealignai/Gemma-4-31B-JANG_4M-CRACK 与 kai-os/gemma4-31b-Opus-4.6-reasoning 登榜，Gemma 4 越狱版与 Opus-蒸馏版在同一张榜上并存
> arXiv 4/8 批次：Fast Spatial Memory 引入"弹性 Test-Time Training"解决长上下文 3D/4D 重建的稳定性-可塑性平衡，Android Coach 提出"同状态多动作"RL 范式训练移动 Agent，OpenSpatial 开源 300 万样本空间推理数据引擎
> Perplexity 抛出"10 亿美元 Build Challenge"——无投资条款、无股权要求的开发者奖金池，规则页直接就是产品 Demo

详细内容

ENTRY 001/013

[ META · LLM · 多模态 · 闭源 · ZUCKERBERG ]

Meta Muse Spark：Superintelligence Labs 首秀，Meta 告别开源

(Meta Launches Muse Spark, First Closed Proprietary Model from Meta Superintelligence Labs)

→ Meta AI · → Fortune · → CNBC · → Constellation · → Simon Willison · → gHacks

4 月 8 日 Meta 发布 Muse Spark，Meta Superintelligence Labs (MSL) 的首款模型，也是自 140 亿美元收购 Scale AI 并招揽 Alexandr Wang 组建 MSL 以来的第一个重大模型。原生多模态推理架构，支持工具调用、视觉 chain-of-thought、多 Agent 编排。自报基准：Humanity's Last Exam 58%（Contemplating 模式）、FrontierScience Research 38%。Artificial Analysis 智能指数 v4.0 得分 52，位居 Gemini 3.1 Pro / GPT-5.4 / Claude Opus 4.6 之后列第四；Terminal-Bench 2.0 明显落后同侪。Meta 声称以"比 Llama 4 Maverick 少一个数量级的算力"达到同等能力。部署于 meta.ai Web 端与 Meta AI App，私有 API 预览面向特选用户，未来几周集成进 WhatsApp、Instagram、Facebook、Messenger。关键变化：完全闭源，是 Meta 自 Llama 系列以来首次放弃开源权重策略。

Muse Spark 是 Meta AI 战略的转折点，三个层面都需要拆解。

第一是战略身份的转变。过去五年，Meta 在 LLM 叙事里最独特的身份是"最大的开源玩家"——Llama 1/2/3/4 以"前沿能力 + 开放权重"为卖点，在企业自部署和研究社区建立了庞大的事实影响力。Muse Spark 选择闭源意味着 Zuckerberg 明确接受了 Alexandr Wang 到任后的新路线：在前沿智能赛道上，闭源 + 订阅 + 端到端产品集成才是可持续的商业模式。这与 4/7 简报中"前沿实验室通过 Frontier Model Forum 联手反蒸馏"的行业共识一致——当开源模型已经能被中国实验室以数百万美元成本追平（GLM-5.1、DeepSeek V4），顶级实验室不再愿意把最强模型交到训练数据的下游。值得提醒的是，Meta 并没有宣布放弃 Llama 系列，但把 MSL 的首款旗舰产品作为闭源发布，方向已经非常清楚。

第二是效率叙事的权重调整。"比 Llama 4 Maverick 少一个数量级的算力达到同等能力"是 Muse Spark 官方文案的核心话术。这里的"同等能力"刻意保持模糊——Artificial Analysis 52 分和 Llama 4 Maverick 的确在同一区间，但 Opus 4.6 位列第一而 Muse Spark 仅第四，Meta 实际上在承认自己目前仍不是前沿第一梯队。MSL 的真正赌注是"用更少的算力快速追上"——这与 4/8 简报记录的 Anthropic 3.5 GW TPU 扩容、OpenAI 多元化算力策略形成鲜明对比：前两者选择用算力继续抬高上限，而 Meta/MSL 押注于"架构与数据效率"能让他们跳过算力军备竞赛。如果 Muse Spark 系列的下一代确实以几分之一的 FLOPs 触达 Opus 4.6 水平，整个行业的成本结构假设都会被改写；如果没有，MSL 的 140 亿美元收购故事会非常难讲。

第三是产品层的 Agent 化。Simon Willison 的第一手评测指出 meta.ai 聊天界面已经挂载 16 个工具——Web 搜索、图像生成、Python 执行、视觉定位（他让模型数出了照片里 12 根浣熊胡须和 25 只鹈鹕）、Meta 内容检索（索引 Instagram/Threads/Facebook）、子 Agent 调度等。这把 meta.ai 从"落后的 ChatGPT 克隆"直接拉到 "可用的 Agent 前端"层级。与 4/8 简报中 NovaVoice、OpenOwl 代表的消费端 Agent 趋势结合，Muse Spark 的真正战场不在 API 定价，而在"在 30 亿 Meta 用户面前直接把 Agent 送到桌前"。Zuckerberg 的意图是清楚的：即便模型本身不是第一名，只要 distribution 绝对碾压，就能把 Agent 经济的下游环节吃掉。Willison 同时挑出一个细节——meta.ai 的 Python 执行环境仍是 Python 3.9（已 EOL），这暴露了 Meta 在"把模型打造成产品"这件事上的执行速度仍比 OpenAI/Anthropic 慢半拍。

ENTRY 002/013

[ 行业动态 · AI采纳 · 企业AI · 劳动力 ]

白领全面反抗 AI：80% 拒绝，54% 绕过公司部署

(White-Collar Workers Rebel Against AI: 80% Refuse Adoption Mandates)

→ Fortune

4 月 9 日 Fortune 发布深度调查：企业员工对公司强制部署的 AI 工具开始大规模抵制，总计约 80% 在回避或拒绝采用。具体：54% 在过去 30 天内绕过公司 AI 工具、改用人工完成工作；33% 完全不使用 AI；仅 9% 员工信任 AI 处理复杂业务关键决策，与 61% 的高管形成 52 个百分点的信任鸿沟。平均数字化转型预算同比增长 38% 至 5420 万美元，但 40% 的项目因采纳失败而不达预期。WalkMe CEO 称真正有意义的 AI 使用率在多数组织低于 10%。Johns Hopkins 经济学家 Steve Hanke 直言："AI 没交付……生产率疲软，根本没发生。"Fortune 把这种现象命名为"FOBO"（Fear of Being Obsolete）与"quiet quitting"的混合体。

这份数据与近一周多份简报里"AI 正在普及"的主流叙事形成尖锐反差，值得所有 AI 产品团队审慎对待。4/8 简报中 Anthropic 300 亿美元 ARR、4/7 简报中阿里 Accio 月活 1000 万、4/5 简报中美国软件岗位增长 30% 都在描绘一幅"AI 正在被采纳"的图景——而 Fortune 这组数据在提醒：总量增长掩盖了巨大的内部分化。付费企业账号 ≠ 实际使用。公司从 IT 预算里刷卡买 Copilot / ChatGPT Enterprise / Claude for Work 的数字进入了供应商的 ARR，但员工打开工具的频率可能远低于账号总数——WalkMe CEO 引用的"低于 10% 有意义使用率"数字与 54 天/年的"技术摩擦损失"放在一起，意味着大量 AI 部署只创造了账面 KPI 而没有改变工作流。

52 点的高管-员工信任鸿沟是更深层的信号。这不仅是"技能 + 培训"的问题，而是两类人看到的是不同的 AI：高管接触的是厂商精心准备的 demo 和高级功能演示；员工接触的是被 IT 部门配置得束手束脚、集成进老旧工作流的半成品。把 Acemoglu 4/7 论文的预测放进来——"中心化 AI 聚合器会放大集体认知偏差"——Fortune 的 9% 信任率可能也在反映一个朴素的事实：真实工作中的 AI 输出，对于需要为结果负责的一线员工来说，还没有过关。

对 AI 厂商而言，这是一个"采纳天花板"的早期信号。继续用 Benchmark 数字推高模型上限很重要，但更紧迫的是解决"最后一公里"——工作流集成、上下文绑定、错误成本管理。4/8 简报的 Claw-Eval（强调轨迹级审计）和 4/7 简报的 Agent 可观测性工具潮，在此背景下从"学术兴趣"变成了"商业刚需"。OpenAI 的四天工作周白皮书（4/7）在此数据面前也显得尴尬——当企业员工连 AI 都不肯用时，谈"AI 取代劳动"还为时过早。

ENTRY 003/013

[ HUGGINGFACE · 开源 · 越狱 · 蒸馏 ]

HuggingFace 趋势榜：Gemma 4 越狱版与 Opus 蒸馏版同框

(HuggingFace Trending Shifts: Gemma 4 Uncensored + Opus-Distilled Versions Climb)

→ dealignai/Gemma-4-31B-JANG_4M-CRACK · → kai-os/gemma4-31b-Opus-4.6-reasoning · → HauhauCS/Gemma-4-E4B-Uncensored

Gemma 4 生态进入"二次加工"阶段：dealignai 的 JANG_4M-CRACK 越狱微调版已积累 831 赞并稳居 Trending 第二；HauhauCS 的 Aggressive Uncensored 系列同时覆盖 Gemma 4 E4B 和 Qwen3.5 9B；kai-os 用 Claude Opus 4.6 的推理轨迹对 Gemma 4 31B 进行蒸馏微调，延续 Jackrong 系列的跨厂商蒸馏路线。原生 google/gemma-4-31B-it 仍居榜首（153 万下载、1531 赞）。

这是 Gemma 4 生态"被社区接管"的典型进程。当 Google 在 4/2 发布 Gemma 4 时，官方权重迅速占据 Trending 榜前列；一周之后，榜单主力已经开始向"第三方重制版"迁移——越狱版、Opus 蒸馏版、量化版、"Aggressive"版……这个模式在 Llama 3、Qwen 系列上都出现过，但 Gemma 4 的时间线更短（8 天就完成官方→社区分叉），显示出开源 AI 工具链（Unsloth、Axolotl、GGUF、MLX）的成熟度在继续抬升。

跨厂商蒸馏的常态化是另一层值得警觉的信号。kai-os 的 gemma4-31b-Opus-4.6-reasoning 明显是把 Opus 4.6 的推理轨迹蒸馏到 Gemma 4 权重上——这正是 4/7 简报中 Anthropic/OpenAI/Google 通过 Frontier Model Forum 联手打击的"对抗性蒸馏"行为，而它现在大模大样地挂在 HuggingFace 榜单上。这两条趋势共同指向一个尴尬现实：即便前沿实验室联手反情报，蒸馏行为本身已经在社区内部"公开化"、"品牌化"，任何一次新闭源旗舰模型的发布都会在数周内出现带着源模型名字的社区蒸馏版本。对 Muse Spark 这样新推出的闭源模型来说，这条路径几乎是注定的——唯一的问题是时间差。

ENTRY 004/013

[ 论文 · 3D · TESTTIMETRAINING · 空间智能 ]

Fast Spatial Memory：弹性 Test-Time Training 稳定长序列 3D 重建

(Fast Spatial Memory with Elastic Test-Time Training)

→ arXiv:2604.07350

4 月 8 日论文提出"弹性 Test-Time Training"思路，通过维护 anchor 状态在长上下文 3D/4D 场景重建中平衡稳定性与可塑性，缓解长序列下的漂移累积。作者 Ziqiao Ma, Xueyang Yu。配套还有同日 Mem3R（2604.07279）采用混合记忆解耦相机追踪与几何建图。

把 In-Place TTT（4/8 简报）和今天的 Fast Spatial Memory 放在一起看，Test-Time Training 正在从"文本推理的小众技巧"走向"多模态长序列任务的标配"。文本推理里的 TTT 只需要更新 MLP 投影矩阵少量参数，因为梯度信号稀疏；而 3D/4D 重建的 TTT 天然匹配——每一帧都带来确定性强的视觉监督信号，可以驱动权重在推理过程中持续更新。"弹性"一词点出了关键问题：更新太快会忘掉早期 anchor（塑性过度），太慢则无法适应场景变化（稳定性过度）。这对空间 AI（具身智能、AR、机器人 SLAM）的实用化是直接贡献，尤其是配合 4/7 NVIDIA Cosmos Reason 2 这类物理 AI 模型时。

ENTRY 005/013

[ 论文 · AGENT · 强化学习 · 移动设备 ]

Android Coach：同状态多动作 RL 提升 Agent 训练效率

(Android Coach: Single State Multiple Actions for Online Agentic Training)

→ arXiv:2604.07277

4 月 8 日论文提出在 online RL 训练 Android Agent 时，对同一状态采样多个动作并用 critic 引导筛选，突破标准 PPO "单状态单动作" 的样本效率瓶颈。作者 Guo Gan, Yuxuan Ding。

移动端 Agent 训练的数据成本极高——每一步都要与真实 Android 环境交互、等待 UI 响应、恢复状态。"同状态多动作"是一个非常聪明的样本效率 trick：在一个已经构建好的状态上，多次 rollout 不同动作只需要复用环境快照而非重新交互。结合 4/8 简报的 Gym-Anything（把任意软件变成 Agent 环境）与 4/7 Target Policy Optimization，整个研究社区正在把 Agent 训练的三大成本（环境、数据、算法）分别打包成独立的可复用组件——这是 Agent 训练从"手工工艺"走向"工业化"的重要标志。

ENTRY 006/013

[ 论文 · 空间智能 · 数据集 · 开源 ]

OpenSpatial：300 万样本空间推理数据引擎

(OpenSpatial: A Principled Data Engine for Spatial Intelligence)

→ arXiv:2604.07296

4 月 8 日论文发布 OpenSpatial，开源空间推理数据引擎，覆盖测量、空间关系、场景理解等任务，包含 300 万样本数据集。作者 Jianhui Liu, Haoze Sun。

空间推理长期是视觉语言模型的薄弱环节——几乎所有 VLM 在"判断 A 是否在 B 上方"、"估计两物体间距"这类简单任务上都远低于人类水平。OpenSpatial 300 万样本的规模接近 LAION / COCO 级别，对训练下一代原生空间感知 VLM 至关重要。这与 NVIDIA Cosmos Reason 2 (4/7) 的物理推理榜单、Meta Muse Spark 的视觉定位能力 demo 共同指向"空间+物理"正在成为 VLM 训练的新前线。对机器人社区尤其关键：空间推理数据直接决定 Embodied Agent 的泛化能力。

ENTRY 007/013

[ 论文 · RLHF · 个性化 · 评估 ]

Personalized RewardBench：为个性化奖励模型定标

(Personalized RewardBench: Evaluating Reward Models with Human-Aligned Personalization)

→ arXiv:2604.07343

4 月 8 日论文提出 Personalized RewardBench，评估奖励模型捕捉个体用户偏好的能力，同时保持输出的通用质量。作者 Qiyao Ma, Dechen Gao。

传统 RewardBench 评估的是"平均人类偏好"——但在真实部署中，不同用户对同一回答的偏好差异巨大。个性化奖励模型是把"通用对齐"推向"个体对齐"的自然下一步，这与 4/7 Acemoglu 论文主张的"本地架构优于全局架构"在方向上一致。对企业级 Agent 而言，个性化奖励意味着模型可以按团队、角色、文化背景定制风格，而不必重新训练。这也给 Fortune 调查中"高管与员工 52 点信任鸿沟"提供了一种技术路径——如果奖励模型能理解员工个体的使用场景和心智模型，AI 工具的采纳率有望从"强推"走向"贴合"。

ENTRY 008/013

[ 论文 · AI基础设施 · 能耗 · 数据中心 ]

Generative AI 工作负载的全设施功耗画像

(Measurement of Generative AI Workload Power Profiles)

→ arXiv:2604.07345

4 月 8 日论文测量训练、微调、推理三类 AI 工作负载在高分辨率下的功耗剖面，为整座数据中心层级的基础设施规划提供数据支撑。作者 Roberto Vercellino, Jared Willard。

这是一篇很不起眼但很重要的基础设施论文。4/8 Anthropic 签订 3.5 GW TPU 协议、4/7 OpenAI 政策白皮书呼吁把税负转向资本——整个 AI 行业的算力与能耗在过去一年翻倍，而运营侧的经验数据却一直匮乏。Vercellino 来自 NREL（美国国家可再生能源实验室），论文以"设施级"视角测量 AI 的瞬时功耗，意味着数据中心规划者终于可以基于真实曲线而非厂商 datasheet 做电力-冷却容量设计。这项工作为"AI 增长是否会被电网拖后腿"的宏观讨论提供了技术锚点，对 2027 年即将上线的 GW 级 AI 数据中心波段尤为关键。

ENTRY 009/013

[ IBM · AGENT · 持续学习 · 开源 ]

IBM ALTK-Evolve：Agent 的"在岗学习"

(IBM ALTK-Evolve: On-the-Job Learning for AI Agents)

→ HuggingFace Blog

IBM Research 发布 ALTK-Evolve，让 Agent 在真实工作场景中持续学习——把每次任务结果作为训练信号，对工具调用策略做增量更新，无需离线全量微调。

"在岗学习"（on-the-job learning）是 Agent 从"即用即弃"走向"越用越好"的关键能力。当前绝大多数 Agent 在完成一次任务后完全不保留经验，下次面对同类任务仍要从零推理——这既浪费算力又让用户无法感到"AI 在为我变聪明"。ALTK-Evolve 的增量更新机制是对这一问题的直接回应，与 4/2 简报中 AutoAgent 的自动化 prompt 优化思路一脉相承，但走得更深：不是优化 prompt，而是优化策略本身。IBM 在这个方向的工作与它长期服务企业客户的基因相符——企业环境里"知识留存"比"一时聪明"重要得多。

ENTRY 010/013

[ PERPLEXITY · 开发者 · 资金 ]

Perplexity 10 亿美元 Build Challenge：无股权的开发者奖金

(Perplexity Launches $1B Build Challenge With No Investment Terms)

→ HN 讨论

Perplexity 推出"10 亿美元 Build Challenge"，主页直接是一份"条款与条件"页面——无投资条款、无股权要求，直接面向开发者的奖金池。具体金额分配、评审机制与参赛资格细节因原始页面访问受限未能完整获取。

Perplexity 选择用"无股权奖金"形式撒钱是对当前 AI 创业环境的明确回应。过去两年，Andreessen Horowitz、OpenAI Startup Fund、Anthropic 的 Anthology Fund 都在用"早期投资 + 云 credit"套路争夺 AI 应用团队——但优秀团队普遍拒绝以 5% 起步的股权换取几十万美元。Perplexity 的打法跳过投资逻辑：直接给钱、不要股权、只要你用 Perplexity 的 API 搭出好东西。如果金额为真，这将是 AI 开发者生态最激进的获客策略，类似"反向 Y Combinator"。这也与 Perplexity 近期"Comet" Agent 浏览器的推广节奏吻合——用开发者奖励构建二次分发网络。条款细节待后续跟进。

ENTRY 011/013

[ GOOGLE · 视频生成 · 深度伪造 · 产品 ]

Google YouTube Shorts 让你 deepfake 自己

(Google Makes It Easy to Deepfake Yourself on YouTube Shorts)

→ The Verge

4 月 9 日 The Verge 报道，YouTube Shorts 新上线"AI 化身"功能，用户可以创建自己的数字孪生角色并在 Shorts 里自动化生成视频内容。Google 强调同意与授权机制。

这一功能把此前仅在实验室与灰产出现的"Deepfake 自己"能力正式产品化到 YouTube 这一全球量级的平台。对创作者而言，这意味着短视频生产从"拍摄成本"解耦——一个创作者可以在睡觉时产出每天几十条以自己为主角的 Shorts。但对信息生态的后果需要警惕：当 YouTube 上"真人出镜"与"AI 生成的本人"在视觉上无法区分时，观众识别真实性的认知成本会陡增。与 4/8 简报中 Anthropic Glasswing 把 Mythos 交给防御方做对照，AI 在创作端的"民主化"和在安全端的"联盟化"正在同时发生——这两条线未来会在"内容真实性认证"这一具体产品上交汇。

ENTRY 012/013

[ PRODUCTHUNT · AI工具 · AGENT ]

Product Hunt 4/8：Velo 以 AI 视频剪辑登顶，5/10 为 AI 产品

(Velo Tops Product Hunt With AI Video Editing)

→ Product Hunt 4/8

4 月 8 日 PH 日榜 Velo 以 596 票居首，把原始屏幕录制转为"可分享的成片"。其后 Flint（341 票，AI 落地页）、MindsDB Anton（182 票，企业 BI Agent）、Browser Arena（171 票，Agent 云浏览器）、Career-Ops on Claude（136 票，求职 Agent）——前十中 5 个是 AI 产品。

Velo 的夺冠延续了 AI 视频工具的持续热度（4/5 Google Vids 2.0、4/7 Netflix VOID）——"屏幕录制→成片"是一个清晰且高频的工作流痛点，特别对独立开发者、产品经理、教育者。更值得关注的是 MindsDB Anton 和 Browser Arena——两者代表企业 Agent 部署的基础设施层："安全 BI Agent" 与"Agent 专用云浏览器"是 Agent 规模化后必然出现的运行时需求。结合 Fortune 白领抵制 AI 的数据看，Career-Ops on Claude（求职 Agent）的出现也颇具讽刺意味：员工既在拒绝公司的 AI，又在用 AI 找下一份工作。

ENTRY 013/013

[ GITHUB · 开源 · 语音识别 ]

GitHub Trending：FunASR 与 Transformers 稳居前列

(GitHub Trending: FunASR + Transformers Lead)

→ huggingface/transformers · → modelscope/FunASR

4 月 9 日 GitHub 每日趋势 AI 相关项目以基础设施与传统 ML 库为主：HuggingFace Transformers（15.9 万 star，日 +79）、Dao-AILab flash-attention（日 +27）、NVIDIA Megatron-LM、ModelScope FunASR（端到端语音识别工具包，日 +20）。

今日 GitHub 日榜 AI 项目的"平淡"本身就是信息——没有新的破圈项目，流量回到 Transformers、flash-attention、Megatron-LM 这些"基础设施常客"。这与过去两周 Gemma 4、GLM-5.1 这些重磅模型发布直接去 HuggingFace 而非 GitHub 仓库发布的趋势一致：前沿模型的影响力现在通过 HF 权重而非 GitHub 代码传播。ModelScope FunASR 的稳定增长则显示中文语音生态对开源工具包的持续需求——与 4/5 Cohere Transcribe、4/8 OpenBMB VoxCPM2 形成语音 AI 赛道的三角格局。

其他值得关注

Appear2Meaning：视觉语言模型跨文化元数据推断基准 (Cross-Cultural VLM Benchmark) — arXiv:2604.07338
MoRight：运动与相机控制的统一视频生成框架 (MoRight Unified Motion & Camera Control) — arXiv:2604.07348
TC-AE：深度压缩自编码器的 token 容量解锁 (TC-AE Token Capacity Unlocking) — arXiv:2604.07340
Mem3R：混合记忆的流式 3D 重建 (Mem3R Streaming 3D Reconstruction) — arXiv:2604.07279
Syntax Is Easy, Semantics Is Hard：LLM 的 LTL 翻译能力评估 (LLMs for Linear Temporal Logic Translation) — arXiv:2604.07321
CADENCE：上下文自适应深度估计，嵌入式端能耗降 75% (CADENCE Context-Adaptive Depth) — arXiv:2604.07286
Chatbot-Based Assessment of Code Understanding：双 Agent 代码理解对话式评估 (Conversational Code Assessment) — arXiv:2604.07304
MindsDB Anton：企业级安全 BI Agent 基础设施 (MindsDB Anton Enterprise BI Agent)
Browser Arena：Agent 专用云浏览器基础设施 (Browser Arena Cloud Browser for Agents)
[Anthropic Just Passed OpenAI in Revenue While Spending 4x Less] — The AI Corner（4/8 简报已记录 $30B ARR） — The AI Corner

← 2026.04.08 2026.04.10 →