HuggingFace 论文日报 · 2025年5月20日

今天 HuggingFace 榜单上有 8 篇论文值得关注。覆盖强化学习训练优化、推理效率、AI 视频生成、图像生成缩放、3D 地球建模、大模型技术报告、词向量更新以及视觉感知新范式。下面逐一用大白话解读。

1. GSPO：让大模型的强化学习训练更稳定

研究机构：阿里巴巴 Qwen 团队

现在训练聪明的 AI，光靠「喂数据」已经不够，越来越多人用「奖励信号」来进一步提升模型表现——这就是强化学习（RL）。但强化学习训练出了名地不稳定，尤其是把 MoE（混合专家，一种超大模型架构）拉进来训练，常常容易崩。

Qwen 团队提出的 GSPO（分组序列策略优化）换了一个思路：以往方法在「每个词」这个细粒度上算权重，GSPO 把粒度提升到「整个回答序列」。直觉上很好理解——评价一段话好不好，没必要逐字打分，看整体更稳。

实验结果显示 GSPO 比此前主流的 GRPO 算法训练更稳定、效率更高，已被用于最新的 Qwen3 模型。1

适合深读的人：在做 LLM RL 训练或研究 Qwen3 实现细节的研究者。

2. MUR：让模型「想够就停」，不再无效过度思考

研究机构：西安交通大学、南洋理工大学、北京大学、新加坡国立大学

大语言模型做推理任务时，有一种做法叫「测试时缩放」（Test-Time Scaling，TTS）——让模型在回答之前多想一会儿。这确实能提升准确率，但问题是模型很容易「想停不下来」，白白消耗算力。

MUR（动量不确定性引导推理）从物理学借了个概念：动量。它的核心思想是：如果模型在某个推理步骤上「不确定」，就多想一步；如果已经比较确定了，就顺着势头往前推进，不要绕弯。而且这套方法不需要额外训练，可以直接套在现有模型上用。2

适合深读的人：关注推理效率、想在不改模型参数前提下压缩推理 token 的工程师或研究者。

3. Captain Cinema：从文字描述到一段短片

研究机构：约翰斯·霍普金斯大学、字节跳动 Seed、斯坦福大学、香港中文大学

给一段文字情节，让 AI 直接生成一部短片——这是视频生成领域的长期挑战。难点在于：一段故事有多个场景、多个角色，如何保证前后连贯，角色长相不变、场景不穿帮？

Captain Cinema 的方案分两步走：

自上而下规划：先生成一组「关键帧」，把故事的视觉主线定下来（谁长什么样、场景是哪里）；
自下而上合成：以关键帧为锚点，再用视频模型逐段生成两帧之间的动态画面，且视频模型支持「长上下文学习」，能记住上文的视觉风格。

这套思路本质上是把「长视频连贯性」问题拆解成「先定骨架再填肉」，与人类导演的分镜思路颇为相似。3

适合深读的人：做视频生成、故事板自动化、长视频一致性研究的团队。

4. TTS-VAR：给图像生成模型加上「多想一会儿」的能力

研究机构：香港大学、通义实验室（阿里巴巴）、香港中文大学

前面的 MUR 是给语言模型加「测试时缩放」，TTS-VAR 做的是同一件事，只不过对象换成了视觉自回归（VAR）图像生成模型。

VAR 是一类按「从粗到细」顺序生成图像的模型。TTS-VAR 把图像生成的过程建模为「路径搜索」——在每一步生成时，不是走一条路，而是探索多条路，再选出效果最好的继续走。为了不让搜索开销失控，他们设计了「自适应下降」机制，根据当前的生成质量动态调整探索深度。4

适合深读的人：研究图像生成质量提升、VAR 模型或测试时计算分配的研究者。

5. EarthCrafter：用 AI 生成逼真的 3D 地形

研究机构：阿里巴巴 DAMO Academy、复旦大学

卫星图和地形数据有了，但要生成「长什么样都说得通的三维地球地表」，还是个难题。EarthCrafter 用一种叫「双稀疏隐扩散」的方法来解决这个问题：

「稀疏」 是因为地形数据天然稀疏（大部分地方是空气），用稠密格式存储太浪费；
「双」 指同时处理语义信息（这里是森林还是城市）和几何信息（地表高低起伏）；
「隐扩散」 是说在压缩后的潜空间里做扩散生成，比在原始 3D 空间里算快得多。

支持输入语义条件（比如「在这个区域生成山地」），也可以无条件随机生成地理场景。5

项目主页：EarthCrafter

适合深读的人：做三维场景生成、地理信息系统、游戏地形生成或遥感数据处理的研究者。

6. TeleChat 技术报告：T1 是中国电信的推理模型

研究机构：中国电信 TeleAI

这篇是一份模型家族技术报告，介绍了 TeleChat2、TeleChat2.5 和 T1 三个版本的训练过程。

几个值得关注的信息点：

TeleChat2 在 10 万亿 token 上预训练，随后经过 SFT（监督微调）和 DPO（直接偏好优化）；
TeleChat2.5 和 T1 在此基础上加入了领域特定数据的「持续预训练」；
T1 进一步引入强化学习，是该系列的推理增强版本，对标 DeepSeek-R1 类模型。

架构改动不大，性能提升主要来自数据和训练策略的改进——这在大模型圈是越来越普遍的路子。6

适合深读的人：关注国产大模型进展、研究 post-training 策略的从业者。

7. 新版 GloVe：词向量迎来 2024 年更新

研究机构：斯坦福大学 NLP 组

GloVe 是 2014 年推出的一套英文词向量，时至今日仍被大量 NLP 研究和轻量级应用使用。但问题是：「covid」这个词 2014 年根本不存在，原始 GloVe 里当然也就没有它的表示。语言在变，词义在偏移，旧词向量跟不上了。

斯坦福 NLP 组用新数据重新训练了 GloVe，并补齐了原版缺失的文档（原来连训练数据的精确版本都没有记录）。新版词向量适合两类场景：一是需要高效轻量客户端模型的应用（不需要上 BERT/GPT），二是可解释性研究（词向量是稠密向量中最直观可检查的表示之一）。7

适合深读的人：做轻量 NLP 应用开发、词表示研究或可解释性方向的研究者。

8. Spelke 分割：像婴儿一样感知物体

研究机构：斯坦福大学、OpenAI、Noetik Inc.

这篇论文的出发点来自发展心理学的一个观察：婴儿在学会任何概念之前，就已经知道哪些东西会一起动——被推动时同步移动的部分，自然是一个「物体」。这个感知框架叫做 Spelke 对象原则。

计算机视觉里常见的分割（Segmentation）依赖语义标注——模型要知道「这是一只猫」，才会把猫的轮廓圈出来。而 Spelke 分割完全不管语义，只问：如果戳一下这里，什么东西会跟着动？

作者做了三件事：

构建了 SpelkeBench 数据集，收录自然图像中的 Spelke 分割标注；
训练了 SpelkeNet，一类预测「未来运动分布」的视觉世界模型；
在 3DEditBench 上验证：以 Spelke 分割作为操作目标，各类物体操纵模型的成功率都有提升。

SpelkeNet 在 SpelkeBench 上超越了 SegmentAnything（SAM）——一个已经被广泛认为「很强」的有监督分割基线。8

适合深读的人：做机器人操纵、3D 场景编辑、无监督视觉感知或具身智能的研究者。

以上 8 篇论文均来自 HuggingFace Papers 2025 年 5 月 20 日 trending 榜单 9。每篇解读仅基于摘要信息，建议点击标题链接阅读原文后再决定是否深入。