Anthropic 自动对齐研究者：Claude 自主发现对齐方法，性能超越人类基线 4 倍

Anthropic 让 9 个 Claude Opus 4.6 作为自动对齐研究者（AAR），在弱到强监督任务上实现 PGR 0.97，远超人类基线的 0.23。

Anthropic 自动对齐研究者实验

Anthropic 发表了一项重要研究：让 9 个 Claude Opus 4.6 作为自动对齐研究者（Automated Alignment Researchers, AAR），自主发现改进 AI 对齐的方法。

每个 AAR 拥有：独立沙箱、共享论坛（交流发现）、代码存储、远程评分服务器。9 个 AAR 被给予不同的起点提示（一个建议用可解释性工具，一个建议重新加权数据集等），但之后完全自主。

任务是在 弱到强监督（weak-to-strong supervision）问题上提高 PGR 分数——即弱模型指导强模型时，强模型能恢复多少性能差距。

| 方法 | PGR 分数 | |------|---------| | 人类基线（2 人，7 天） | 0.23 | | 9 个 AAR（5 天，800 累计小时） | 0.97 |

AAR 用约 $18,000 的 token 和训练费用（约 $22/AAR 小时）几乎闭合了全部性能差距。

最优方法在未见过的数据集上也表现良好：数学任务 PGR 0.94，编程任务 PGR 0.47（仍是人类基线的两倍）。但次优方法在编程任务上适得其反。

这项研究暗示对齐研究的瓶颈可能从生成好想法转移到验证实验结果——AAR 能暴力尝试大量方案，但确保结果可信仍需人类把关。更深远的问题是：如果未来 AAR 发现的方法人类无法理解，我们是否在创造"外星科学"？

论文与代码：https://github.com/safety-research/automated-w2s-research