
HuggingFace 论文日报 · 2025年5月20日
今日 HuggingFace 8 篇 trending 论文通俗解读:Qwen 团队的 GSPO 强化学习优化、MUR 推理效率、Captain Cinema 短片生成、TTS-VAR 图像生成缩放、EarthCrafter 3D 地形生成、TeleChat 模型家族技术报告、新版 GloVe 词向量,以及 Spelke 分割的视觉新范式。

Research Brief
今天 HuggingFace 榜单上有 8 篇论文值得关注。覆盖强化学习训练优化、推理效率、AI 视频生成、图像生成缩放、3D 地球建模、大模型技术报告、词向量更新以及视觉感知新范式。下面逐一用大白话解读。
1. GSPO:让大模型的强化学习训练更稳定
研究机构:阿里巴巴 Qwen 团队
现在训练聪明的 AI,光靠「喂数据」已经不够,越来越多人用「奖励信号」来进一步提升模型表现——这就是强化学习(RL)。但强化学习训练出了名地不稳定,尤其是把 MoE(混合专家,一种超大模型架构)拉进来训练,常常容易崩。
Qwen 团队提出的 GSPO(分组序列策略优化)换了一个思路:以往方法在「每个词」这个细粒度上算权重,GSPO 把粒度提升到「整个回答序列」。直觉上很好理解——评价一段话好不好,没必要逐字打分,看整体更稳。
实验结果显示 GSPO 比此前主流的 GRPO 算法训练更稳定、效率更高,已被用于最新的 Qwen3 模型。1
适合深读的人:在做 LLM RL 训练或研究 Qwen3 实现细节的研究者。
2. MUR:让模型「想够就停」,不再无效过度思考
研究机构:西安交通大学、南洋理工大学、北京大学、新加坡国立大学
大语言模型做推理任务时,有一种做法叫「测试时缩放」(Test-Time Scaling,TTS)——让模型在回答之前多想一会儿。这确实能提升准确率,但问题是模型很容易「想停不下来」,白白消耗算力。
MUR(动量不确定性引导推理)从物理学借了个概念:动量。它的核心思想是:如果模型在某个推理步骤上「不确定」,就多想一步;如果已经比较确定了,就顺着势头往前推进,不要绕弯。而且这套方法不需要额外训练,可以直接套在现有模型上用。2
适合深读的人:关注推理效率、想在不改模型参数前提下压缩推理 token 的工程师或研究者。
3. Captain Cinema:从文字描述到一段短片
研究机构:约翰斯·霍普金斯大学、字节跳动 Seed、斯坦福大学、香港中文大学
给一段文字情节,让 AI 直接生成一部短片——这是视频生成领域的长期挑战。难点在于:一段故事有多个场景、多个角色,如何保证前后连贯,角色长相不变、场景不穿帮?
Captain Cinema 的方案分两步走:
- 自上而下规划:先生成一组「关键帧」,把故事的视觉主线定下来(谁长什么样、场景是哪里);
- 自下而上合成:以关键帧为锚点,再用视频模型逐段生成两帧之间的动态画面,且视频模型支持「长上下文学习」,能记住上文的视觉风格。
这套思路本质上是把「长视频连贯性」问题拆解成「先定骨架再填肉」,与人类导演的分镜思路颇为相似。3
适合深读的人:做视频生成、故事板自动化、长视频一致性研究的团队。
4. TTS-VAR:给图像生成模型加上「多想一会儿」的能力
研究机构:香港大学、通义实验室(阿里巴巴)、香港中文大学
前面的 MUR 是给语言模型加「测试时缩放」,TTS-VAR 做的是同一件事,只不过对象换成了视觉自回归(VAR)图像生成模型。
VAR 是一类按「从粗到细」顺序生成图像的模型。TTS-VAR 把图像生成的过程建模为「路径搜索」——在每一步生成时,不是走一条路,而是探索多条路,再选出效果最好的继续走。为了不让搜索开销失控,他们设计了「自适应下降」机制,根据当前的生成质量动态调整探索深度。4
适合深读的人:研究图像生成质量提升、VAR 模型或测试时计算分配的研究者。
5. EarthCrafter:用 AI 生成逼真的 3D 地形
研究机构:阿里巴巴 DAMO Academy、复旦大学
卫星图和地形数据有了,但要生成「长什么样都说得通的三维地球地表」,还是个难题。EarthCrafter 用一种叫「双稀疏隐扩散」的方法来解决这个问题:
- 「稀疏」 是因为地形数据天然稀疏(大部分地方是空气),用稠密格式存储太浪费;
- 「双」 指同时处理语义信息(这里是森林还是城市)和几何信息(地表高低起伏);
- 「隐扩散」 是说在压缩后的潜空间里做扩散生成,比在原始 3D 空间里算快得多。
支持输入语义条件(比如「在这个区域生成山地」),也可以无条件随机生成地理场景。5
项目主页:EarthCrafter
适合深读的人:做三维场景生成、地理信息系统、游戏地形生成或遥感数据处理的研究者。
6. TeleChat 技术报告:T1 是中国电信的推理模型
研究机构:中国电信 TeleAI
这篇是一份模型家族技术报告,介绍了 TeleChat2、TeleChat2.5 和 T1 三个版本的训练过程。
几个值得关注的信息点:
- TeleChat2 在 10 万亿 token 上预训练,随后经过 SFT(监督微调)和 DPO(直接偏好优化);
- TeleChat2.5 和 T1 在此基础上加入了领域特定数据的「持续预训练」;
- T1 进一步引入强化学习,是该系列的推理增强版本,对标 DeepSeek-R1 类模型。
架构改动不大,性能提升主要来自数据和训练策略的改进——这在大模型圈是越来越普遍的路子。6
适合深读的人:关注国产大模型进展、研究 post-training 策略的从业者。
7. 新版 GloVe:词向量迎来 2024 年更新
研究机构:斯坦福大学 NLP 组
GloVe 是 2014 年推出的一套英文词向量,时至今日仍被大量 NLP 研究和轻量级应用使用。但问题是:「covid」这个词 2014 年根本不存在,原始 GloVe 里当然也就没有它的表示。语言在变,词义在偏移,旧词向量跟不上了。
斯坦福 NLP 组用新数据重新训练了 GloVe,并补齐了原版缺失的文档(原来连训练数据的精确版本都没有记录)。新版词向量适合两类场景:一是需要高效轻量客户端模型的应用(不需要上 BERT/GPT),二是可解释性研究(词向量是稠密向量中最直观可检查的表示之一)。7
适合深读的人:做轻量 NLP 应用开发、词表示研究或可解释性方向的研究者。
8. Spelke 分割:像婴儿一样感知物体
研究机构:斯坦福大学、OpenAI、Noetik Inc.
这篇论文的出发点来自发展心理学的一个观察:婴儿在学会任何概念之前,就已经知道哪些东西会一起动——被推动时同步移动的部分,自然是一个「物体」。这个感知框架叫做 Spelke 对象原则。
计算机视觉里常见的分割(Segmentation)依赖语义标注——模型要知道「这是一只猫」,才会把猫的轮廓圈出来。而 Spelke 分割完全不管语义,只问:如果戳一下这里,什么东西会跟着动?
作者做了三件事:
- 构建了 SpelkeBench 数据集,收录自然图像中的 Spelke 分割标注;
- 训练了 SpelkeNet,一类预测「未来运动分布」的视觉世界模型;
- 在 3DEditBench 上验证:以 Spelke 分割作为操作目标,各类物体操纵模型的成功率都有提升。
SpelkeNet 在 SpelkeBench 上超越了 SegmentAnything(SAM)——一个已经被广泛认为「很强」的有监督分割基线。8
适合深读的人:做机器人操纵、3D 场景编辑、无监督视觉感知或具身智能的研究者。
以上 8 篇论文均来自 HuggingFace Papers 2025 年 5 月 20 日 trending 榜单 9。每篇解读仅基于摘要信息,建议点击标题链接阅读原文后再决定是否深入。
References
- 1Group Sequence Policy Optimization (arXiv)
- 2MUR: Momentum Uncertainty guided Reasoning (arXiv)
- 3Captain Cinema: Towards Short Movie Generation (arXiv)
- 4TTS-VAR: Test-Time Scaling for Visual Auto-Regressive Generation (arXiv)
- 5EarthCrafter: Scalable 3D Earth Generation (arXiv)
- 6Technical Report of TeleChat2, TeleChat2.5 and T1 (arXiv)
- 7A New Pair of GloVes (arXiv)
- 8Discovering and using Spelke segments (arXiv)
- 9HuggingFace Daily Papers
Add more perspectives or context around this Post.