════ 2026.04.05 ════
今日要点
详细内容
ENTRY 001/017
[ GOOGLE · 开源 · LLM · 多模态 ]
Google Gemma 4 开源模型家族发布
(Google Releases Gemma 4 Open Model Family)
4 月 2 日,Google 发布 Gemma 4,基于 Gemini 3 架构的开源模型家族,包含 4 个变体:Gemma 4-E2B-it 和 Gemma 4-E4B-it(边缘设备)、Gemma 4-26B-A4B-it(MoE)和 Gemma 4-31B-it(Dense)。Apache 2.0 许可证,支持 256K 上下文、原生视觉和音频处理、140+ 种语言。31B 和 26B 变体在 Arena AI 文本排行榜分别排第三和第六。
Gemma 4 是 Google 在开源模型战场上的重磅反击。此前中国开源模型(Qwen、DeepSeek)在 HuggingFace 上的统治地位让 Google 倍感压力——The Register 的报道标题直接点明"Google battles Chinese open weights models with Gemma 4"。四个变体覆盖从手机到工作站的完整算力谱系,26B MoE 仅 4B 活跃参数的设计在效率上与 Qwen3.5 的 35B-A3B 形成直接竞争。
HuggingFace Trending 数据印证了 Gemma 4 的冲击力:发布仅三天,gemma-4-31B-it 就登顶 Trending 榜首,加上 26B、E4B、E2B 变体及 NVIDIA、Unsloth 等第三方量化版本,Gemma 4 系列在 Top 20 中占据 6-7 个席位。Android Developers Blog 同步宣布 Gemma 4 进入 AICore Developer Preview,意味着 Gemma 4 将成为 Android 设备端 AI 的标准模型。这是 Google 将 AI 从云端推向终端设备战略的关键一步。
ENTRY 002/017
[ AI安全 · 网络安全 · 研究 ]
AI 攻击性网络能力每约 6 个月翻倍
(AI Offensive Cyber Capabilities Doubling Every ~6 Months)
4 月 5 日,安全研究人员发布研究发现 AI 的攻击性网络能力自 2024 年以来大约每 5.7 个月翻倍。同期,国际 AI 安全报告 2026 指出 AI Agent 可完成的软件工程任务时长每约 7 个月翻倍。Cloud Security Alliance 对 1,500 名安全领袖的调查也呼应了这一趋势。
这项研究为 AI 安全讨论提供了一个具体的量化指标——类似于摩尔定律之于芯片产业,"5.7 个月翻倍"为 AI 网络安全风险的增长建立了一个可追踪的基线。结合 4/1 简报中 Anthropic Mythos 泄露文件中"网络安全能力远超所有现有 AI 模型"的描述,以及 OpenAI 内部 Agent 不对齐监控报告中发现的 base64 编码绕过行为,AI 的攻防能力正在以超出多数防御者预期的速度增长。
国际 AI 安全报告中"Agent 可完成的 SE 任务时长每 7 个月翻倍"这个指标同样关键——它意味着今天 Agent 需要人类介入的任务,明年此时可能已经完全自主完成。这两个翻倍速度的差异(攻击 5.7 个月 vs 通用能力 7 个月)也暗示攻击性能力的增长可能快于通用能力。
ENTRY 003/017
[ DEEPSEEK · 开源 · LLM · 多模态 ]
DeepSeek V4 即将发布:万亿参数开源 MoE
(DeepSeek V4 Imminent: 1T-Parameter Open-Source MoE)
多个来源确认 DeepSeek V4 将于 2026 年 4 月发布。约 1 万亿参数 MoE 架构(~37B 活跃参数),100 万 token 上下文窗口(Engram 条件记忆系统),原生多模态生成(文本/图像/视频),HumanEval 94.7%,SWE-bench 81%。训练成本估计仅 $520 万。计划以 Apache 2.0 开源。36Kr 报道 DeepSeek 创始人梁文峰将在 4 月提交相关论文。
如果 DeepSeek V4 的规格属实,它将是开源 AI 领域的又一个分水岭。1 万亿参数但仅 37B 活跃参数的 MoE 设计延续了 DeepSeek 的效率哲学——V3 以极低成本训练出接近 frontier 的模型震惊了整个行业,V4 在参数规模翻倍的同时保持了这一传统。$520 万的训练成本与 OpenAI、Google 数亿美元的训练预算形成鲜明对比。
原生多模态生成(不只是理解)是 V4 最引人注目的新能力——此前开源模型在文生图/文生视频方面远落后于闭源竞品。Engram 条件记忆系统暗示 V4 在长上下文处理上采用了全新的架构方法,而非简单的位置编码扩展。结合 Gemma 4 在同一周发布,4 月正在成为开源 AI 模型的"超级发布月"。
ENTRY 004/017
[ 行业动态 · 就业 · 开发者 ]
美国软件工程岗位三年新高,2026 年增长 30%
(US Software Engineering Jobs Hit 3-Year High, Up 30% in 2026)
4 月 5 日数据显示,美国软件工程岗位空缺超过 67,000 个,2026 年以来增长 30%,创三年以来新高。这一数据与近年来"AI 将大规模取代程序员"的叙事形成显著反差。
这个数据点值得在 AI 叙事的大背景下仔细审视。4/1 简报中 Anthropic 经济指数报告称"49% 的工作岗位已将 AI 纳入至少四分之一的任务",而 4/2 简报中 Medvi 两人公司创造 $4 亿营收的案例暗示极端自动化的可能。然而,67,000 个岗位和 30% 的增长率讲述了一个不同的故事:AI 工具的普及不仅没有减少对开发者的需求,反而可能在扩大它——更多的 AI 应用需要更多的开发者来构建、维护和集成。
当然,这些岗位的性质可能正在发生变化。AI Agent 的崛起意味着开发者越来越多地扮演"指挥者"而非"执行者"的角色。岗位数量的增长与 AI 能力的增长并行,可能反映了 AI 正在创造比它消灭的更多的工作——至少在技术领域如此。
ENTRY 005/017
[ NETFLIX · 计算机视觉 · 开源 · 视频编辑 ]
Netflix 开源 VOID 视频物体移除模型
(Netflix Open-Sources VOID Video Object Removal Model)
Netflix 发布 VOID(Video Object and Interaction Deletion),在 HuggingFace Trending 排名第 7。该模型能够在视频中进行物理合理的物体移除和交互删除——不仅移除物体本身,还能正确处理碰撞、遮挡等复杂交互效果。使用 VLM 识别目标对象,结合视频扩散模型实现一致性修复。
Netflix 进入开源 AI 模型领域本身就是新闻。作为全球最大的流媒体平台,Netflix 对视频处理的需求驱动了 VOID 的开发——在后期制作中移除不需要的物体(品牌 logo、路人、穿帮道具)是一个高频且耗时的人工任务。VOID 的创新在于"交互感知":当移除一个正在与其他物体碰撞的对象时,模型能正确重建物理上合理的场景,而非简单地"涂抹"空白。
结合 4/2 简报中 Google Veo 3.1 Lite(视频生成成本减半)和本周 Tencent HY-OmniWeaving(视频生成),AI 视频技术正在从"生成"和"编辑"两个方向同时成熟。VOID 的开源意味着独立电影制作者和小型工作室也能获得此前只有大型视效公司才拥有的后期处理能力。
ENTRY 006/017
[ 腾讯 · 视频生成 · 开源 · HUGGINGFACE ]
腾讯发布 HY-OmniWeaving 视频生成模型
(Tencent Releases HY-OmniWeaving Video Generation Model)
腾讯发布 HY-OmniWeaving,基于 HunyuanVideo-1.5 的视频生成微调模型,在 HuggingFace Trending 排名第 17。标记为 diffusers 框架兼容。
HunyuanVideo 系列是腾讯在 AI 视频生成领域的核心产品线。从 HunyuanVideo 到 HunyuanVideo-1.5 再到 OmniWeaving 微调版本,腾讯在中国 AI 视频生成市场与阿里(Qwen3.5-Omni 视频能力)、字节(豆包视频)形成三足鼎立。OmniWeaving 选择在 HuggingFace 开源说明腾讯正在寻求全球开发者社区的采纳,而非仅限于国内生态。
ENTRY 007/017
[ GOOGLE · 产品 · 视频生成 · AI工具 ]
Google Vids 2.0:免费 AI 视频创建工具
(Google Vids 2.0: Free AI Video Creation Tool)
4 月 4 日 Product Hunt 日榜第一(400 票)。Google Vids 2.0 提供免费的 AI 驱动视频创建、编辑和分享功能,新增多项 AI 特性。
Google Vids 2.0 以"免费"策略登顶 Product Hunt 日榜,这是 Google 在 AI 视频工具领域的典型打法——用免费产品建立用户基础,然后在 Workspace 企业版中收费。结合同周发布的 Veo 3.1 Lite(API 视频生成降价)和 Gemma 4(开源模型),Google 在 4 月的产品节奏明显加速。视频创建/编辑/生成已成为 AI 公司的必争之地。
ENTRY 008/017
[ 开发工具 · LLM · 产品 ]
Mercury Edit 2:基于扩散 LLM 的代码编辑预测
(Mercury Edit 2: Ultra-Fast Next-Edit Prediction via Diffusion LLM)
4 月 4 日发布,使用扩散语言模型实现超快速的代码"下一步编辑预测"。Product Hunt 获 168 票。
Mercury Edit 2 代表了 AI 编码辅助的一个有趣方向:不是"补全"而是"预测编辑"。与 4/1 简报中 Zed 编辑器的 zeta-2 模型类似,这类工具试图理解开发者的编辑意图而非简单地根据光标位置生成代码。扩散模型在代码编辑场景中的应用是一个新颖的技术选择——扩散模型天然适合"从噪声到结构"的生成过程,这与"从当前代码状态到目标代码状态"的编辑任务有类似的数学结构。
ENTRY 009/017
[ LLM · 产品 · AI工具 ]
OpenRouter Model Fusion:多模型融合最优响应
(OpenRouter Model Fusion: Multi-Model Response Fusion)
4 月 4 日发布,将用户的 prompt 同时发送到多个 LLM,然后融合各模型的最佳响应生成最终输出。Product Hunt 获 126 票。
Model Fusion 是"模型路由"概念的进化版。此前的路由方案(如 OpenRouter 自身)只是选择单个最佳模型,而 Fusion 将多个模型的输出进行合成。这与本周 arXiv 论文"No Single Best Model for Diversity"(学习路由器为不同查询选择最优模型)的研究方向一致。随着模型数量爆炸式增长(仅本周 HuggingFace 就有数十个新模型上榜),如何高效利用多模型的互补优势正在成为一个独立的产品赛道。
ENTRY 010/017
[ COHERE · 语音AI · 开源 · HUGGINGFACE ]
Cohere Transcribe:多语言语音识别模型
(Cohere Transcribe: Multilingual Speech Recognition)
Cohere Labs 发布 cohere-transcribe-03-2026,多语言自动语音识别模型,HuggingFace Trending 排名第 4。下载量超 12 万,获 796 个赞。
语音识别/转录市场正在经历激烈竞争。4/2 简报中微软发布了 MAI-Transcribe-1,现在 Cohere 也推出了自己的转录模型,加上此前 OpenAI 的 Whisper 系列和 Assembly AI 等专业玩家。Cohere 的差异化在于企业级多语言支持——Cohere 一直将企业 RAG 和搜索作为核心产品线,转录能力是对"语音→文本→检索"完整管线的补全。
ENTRY 011/017
[ 百度 · 计算机视觉 · 文档AI · HUGGINGFACE ]
百度千帆 OCR 视觉语言模型
(Baidu Qianfan-OCR Vision-Language Model)
百度发布 Qianfan-OCR,文档智能和 OCR 专用视觉语言模型,HuggingFace Trending 排名第 5。获 961 个赞、3.7 万下载。
百度在 HuggingFace 上发布专用 OCR 模型,反映了中国 AI 公司在垂直领域模型上的布局策略。文档智能(Document Intelligence)是企业 AI 的高价值场景——合同解析、发票识别、财报提取等任务有明确的商业回报。百度选择将 Qianfan-OCR 开源到 HuggingFace 而非仅限于百度智能云,说明其在全球开发者社区的影响力竞争中不甘落后于阿里的 Qwen 系列。
ENTRY 012/017
[ 行业动态 · 产品趋势 ]
AI Chatbot 流量增速是社交媒体的 7 倍
(AI Chatbot Traffic Growing 7x Faster Than Social Media)
4 月 5 日报道,AI 聊天机器人的使用量增速是社交媒体的 7 倍,尽管总流量仍落后于社交平台。
7 倍的增速差异标志着用户交互范式的转变。社交媒体是"人与人"交互,AI chatbot 是"人与 AI"交互——后者的增速如果持续,意味着人们花在与 AI 对话上的时间将逐渐逼近甚至超过社交媒体。结合 4/1 简报中 OpenAI ChatGPT 购物功能和 Agentic Commerce Protocol 的发布,AI 聊天界面正在从"信息获取"扩展到"交易执行",进一步拉动流量增长。
ENTRY 013/017
[ 阿里巴巴 · LLM · 推理 · 训练方法 ]
阿里巴巴 Qwen 新推理强化学习算法
(Alibaba Qwen New Reasoning Reinforcement Learning Algorithm)
4 月 5 日,阿里巴巴发布新的强化学习方法,通过对推理步骤进行加权来提升模型的推理深度,改善 Qwen 系列模型的推理表现。
继 4/2 简报中 Qwen3.6-Plus 聚焦 Agentic Coding 之后,阿里巴巴在推理训练方法上的投入表明其对"推理能力"的战略优先级。推理步骤加权是对标准 RLHF/GRPO 的改进——不是所有思考步骤同等重要,对关键推理跳跃给予更高权重可以引导模型更深入地思考。这与本周 arXiv 上 SRPO(通过样本路由统一 GRPO 和自蒸馏)的研究方向异曲同工。
ENTRY 014/017
[ 论文 · LLM · 推理 · 效率 ]
批量上下文强化学习:推理 Token 效率新范式
(Batched Contextual Reinforcement: Task-Scaling Law for Efficient Reasoning)
提出单阶段训练范式,让模型在共享上下文中同时解决 N 个问题。在保持准确率的同时,token 使用量减少 15.8%-62.6%。
这篇论文直击推理模型的核心痛点:token 消耗过高。4/2 简报中的 ORCA(通过 Conformal Prediction 动态校准采样策略)从"按需推理"角度减少开销,而 Batched Contextual Reinforcement 从"共享上下文"角度减少重复计算。62.6% 的 token 节省意味着推理模型的运行成本可以降至不到一半。这对于大规模部署推理模型(如 Agent 场景中的连续多步推理)具有直接的经济价值。
ENTRY 015/017
[ 开源 · AGENT · 开发工具 ]
AutoAgent:自动化 Prompt 优化和 Agent 调优开源库
(AutoAgent: Automated Prompt Optimization & Agent Tuning Library)
4 月 5 日报道,AutoAgent 开源库允许开发者自动化 prompt 优化和 agent 调优工作流,可在夜间无人值守运行。
Prompt 优化的自动化是 AI 工程从"手艺"走向"工程"的标志。目前大多数 prompt 调优仍依赖开发者的直觉和手动 A/B 测试,AutoAgent 将这一过程自动化——设定目标、提供评估数据、让系统自动搜索最优 prompt 和 agent 配置。这与 4/2 简报中 traceAI(AI 应用评估和可观测平台)形成互补:traceAI 负责监控和评估,AutoAgent 负责自动优化。
ENTRY 016/017
[ 行业动态 · 开发者 · AI质量 ]
开发者对 "AI Slop" 的不满:定性研究
(Developer Frustration Over "AI Slop": Qualitative Study)
4 月 5 日,一项定性研究探讨了开发者如何看待低质量 AI 生成内容("AI slop"),将其描述为"公地悲剧"——每个人都在使用 AI 生成内容,但集体结果是信息环境质量的下降。
"AI slop"这个术语的流行本身就说明了问题的严重性。HN 上"Tired of AI: When will this era end?"(27 分)和"Client took over development by vibe coding"(60 分、42 评论)的讨论与这项研究互相印证。当 AI 生成内容的边际成本趋近于零时,信息环境面临"劣币驱逐良币"的风险。这项研究的"公地悲剧"框架提供了一个有用的思考模型——个体理性(使用 AI 降低成本)导致集体非理性(信息质量整体下降)。
ENTRY 017/017
[ META · 3D · 计算机视觉 · 论文 ]
Meta 大规模 Codec Avatars:百万视频训练 3D 头像
(Large-scale Codec Avatars: Avatar Pretraining on 1M Videos)
Meta 发布研究,展示通过在 100 万个野外(in-the-wild)视频上进行预训练/后训练,生成高保真 3D 头像模型,可泛化到全球规模的人群。支持高效的前馈推理。
Meta 在 3D 头像技术上的持续投入服务于其元宇宙战略。从 Codec Avatars 到 SAM 系列(4/2 简报中 SAM 3.1 视频分割)再到大规模头像预训练,Meta 正在构建从"感知真实世界"到"重建虚拟世界"的完整技术栈。100 万个视频的预训练规模使模型能够处理各种肤色、年龄、表情的面部,这对于 Quest 头显上的虚拟化身体验至关重要。
其他值得关注
- 🔄 Qwen3.5 蒸馏系列继续霸榜 HuggingFace (Qwen3.5 Distilled Models Still Dominating HuggingFace)
- LiquidAI LFM2.5-350M:轻量级边缘模型 (LiquidAI LFM2.5-350M Edge Model) — HuggingFace
- k2-fsa/OmniVoice:零样本多语言语音克隆 (OmniVoice Zero-Shot Voice Cloning) — HuggingFace
- NVIDIA Gemma-4-31B-IT-NVFP4:4-bit 量化 (NVIDIA NVFP4 Quantized Gemma 4) — HuggingFace
- Open Claude in Chrome:逆向工程 Claude 浏览器自动化 (Open Claude in Chrome) — Product Hunt(117 票)
- Google 研究:标准评估方法未能捕捉人类标注变异性 (Google Study on Benchmark Human Disagreement)
- 好莱坞制作团队在成本压力下加速采纳 AI (Hollywood Staff Adopting AI for Production)
- Vibe Coding 争议:HN 热帖讨论客户用 AI 替代工程团队 (Vibe Coding Debate: Client Replaced Engineering with AI) — HN 60 分
- Steerable Visual Representations:自然语言可控的视觉表征 (Steerable Visual Representations) — arXiv:2604.02327