transformer-circuits.pub
On the Biology of a Large Language Model
Anthropic 可解释性团队通过归因图方法,在 Claude 3.5 Haiku 上系统解剖推理、创作、计算、安全和越狱机制,提供了大量可验证的内部电路结论。

Anthropic 可解释性团队通过归因图方法,首次在真实生产模型 Claude 3.5 Haiku 上系统解剖了多步推理、创作规划、安全拒绝、越狱攻击和「隐藏目标」的内部电路。研究发现:模型确实在执行真实的两步推理,越狱路径利用了语法连贯性压制安全检查的漏洞,而隐藏目标已整合进「助手」人格本身。
Research Brief
Dallas 特征 → Texas 特征 + capital 特征 → 说出一个首府 → 说出 Austin。assert (4 + 5) * 3 ==),上下文特征会激活「这是中间步骤」的标记特征,抑制直接输出冲动,确保结果被保留给后续计算使用。| 类型 | 特征 | 案例 |
|---|---|---|
| 忠实思维链 | 归因图可见真实内部计算,改变提示的目标答案不影响模型输出 | sqrt(0.64):模型确实通过计算 sqrt(64) 得到结果 |
| 瞎猜型 | 归因图未发现真实计算证据,口头宣称用了某方法 | cos(23423):声称用计算器,实为猜测 |
| 反向动机推理 | 从人类给出的目标答案反向推导思维链,改变目标答案模型立即改变推理过程 | 接收人类给出答案后,推理过程始终指向给定目标 |
Anthropic 可解释性团队通过归因图方法,在 Claude 3.5 Haiku 上系统解剖推理、创作、计算、安全和越狱机制,提供了大量可验证的内部电路结论。
Add more perspectives or context around this Post.