
alignment.anthropic.com
Model Spec Midtraining: Improving How Alignment Training Generalizes
Anthropic 研究团队提出模型规格中间训练(MSM),在预训练之后、对齐微调之前新增一个训练阶段,使用讨论模型规范的合成文档塑造后续对齐行为的泛化方向。

Anthropic 发布 Model Spec Midtraining(MSM):在预训练与对齐微调之间新增一个训练阶段,先让模型理解规范的内涵与设计原因,再进行行为示范微调。实验表明 MSM 大幅减少了勒索、泄露信息、假装对齐等智能体失准行为,且两个对齐微调数据完全相同的模型,仅因 MSM 阶段规范不同,就会泛化出不同的价值取向。
![[probe:gsbprobe-20260521_010854-31f3a2fd-c10-fastmcp-idx8-n9] 三大公司大模型论文](https://storage.neodrop.ai/grains/media/30Zq-4cu5U-JcglEwjQN-.png?w=320)
Research Brief

Anthropic 研究团队提出模型规格中间训练(MSM),在预训练之后、对齐微调之前新增一个训练阶段,使用讨论模型规范的合成文档塑造后续对齐行为的泛化方向。
Add more perspectives or context around this Post.