突发！Anthropic呼吁全员停止AI研究

2026年06月05日 09:48:05 • 国际资讯 • 阅读 6

　　炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！

突发！Anthropic呼吁全员停止AI研究-第1张图片

（来源：量子位）

突发！Anthropic呼吁全员停止AI研究-第2张图片

重要发现：AI的自进化，开始了。

突发！Anthropic呼吁全员停止AI研究-第3张图片

这是Anthropic刚刚在长文博客中，发表的暴论。

并非「危言耸听」，看了下文章，Anthropic是真的实打实地用数据在说话——

截止今年5月，80%以上的Anthropic代码，都是Claude写的。

而在Claude Code发布之前，这个数字还仅是个位数。

与此同时，Anthropic工程师平均每季度交付的代码量，是2021-2025年的8倍。

更重要的是质量——

在最开放、最模糊、连答案长什么样都不确定的编程任务上，Claude的成功率现在是76%，六个月前才26%。

50个百分点的跳升。半年。

Anthropic内部已经有不少工程师觉得，Claude写的代码质量和人类打平了。

预计年内会超过。

Anthropic还强调，如果这个趋势持续下去，AI自己设计和构建下一代AI ，是完全可能的。

因此，Anthropic带头呼吁：

如果存在一个可验证的机制，能保证AI实验室确实都没偷偷卷，我们愿意减速、甚至暂停。

除此之外，Anthropic的这篇博客里，还放出了蛮多有意思的观点和事实。

以下是经过整理，更方便大家阅读的版本。

Enjoy。

AI圈的摩尔定律来了

Anthropic创建了个全新的衡量维度，叫「AI能独立完成的任务时长」。

2024年3月，Claude Opus 3能搞定人类大概需要4分钟的软件任务。

一年后，Claude Sonnet 3.7 ，1.5小时。

又一年，Claude Opus 4.6，12小时。

而最新的Mythos ，在内测中的表现是：

能连续工作「至少」16小时，已经到了METR测试框架能衡量的上限了。

这个翻倍速度，从原来的每7个月翻一倍，加速到了每4个月翻一倍。

如果趋势不变，2027年，可能是好几周。

Claude编写了大部分Anthropic代码

这种变化，也体现在工程师的工作方式上。

在 Anthropic 的最初四年，工程师每天Merge的代码行数基本保持不变。

2025年， Claude开始自己写代码，merge数突然开始飙升。

如今，2026年第二季度，工程师每天merge的代码量是2024年的8倍。

不过，代码量上去了，代码质量是不是注水了？

Anthropic说，这一年来，工程师纠正Claude的次数，越来越少了。

这一点，在benchmark中可见一斑，如下图所示。

所有难度类型的任务中，Claude的成功率，无一例外的一路暴增。

所以，Anthropic现在干脆用Claude来review代码。

是的，所有提交到代码库的改动，都会先过一遍Claude自动审查，检查bug 、安全漏洞和其他缺陷。

他们回溯分析发现，如果之前每次改动都有这道自动审查，大约三分之一导致claude.ai线上事故的bug，上线之前就会被拦下来。

要知道，写那些代码的工程师，已经是全世界造AI系统最顶尖的一批人了。

Claude在抓他们的错误。

创造力的放大镜

接下来是Claude在研究层面的参与程度。

Anthropic有个惯例，每次发新模型，都会给Claude一段训练小型AI模型的代码，让它在保证正确性的前提下，把运行速度优化到最快。

2025年5月，Claude Opus 4交出的答案是：加速3倍。

2026年4月，Claude Mythos Preview做到了52倍。

作为参考，一个熟练的人类研究员，需要4到8个小时才能勉强达到4倍。

不到一年的时间，Claude超过了人类。

2026年4月，Anthropic丢给Claude一个AI安全研究，大意是「一个弱模型能不能可靠地监督一个强模型」，然后让Claude自己提假设、跑实验……

这次先说人类的表现吧，两个人类研究员花了大约一周时间，把gap缩小了23%。

而Claude，在大约800小时、花了大约18000美元的算力之后——

缩小了97%。

我们何去何从？

到这里为止，结论已经很清楚了。

代码，Claude写了。代码review，Claude做了。实验执行，Claude快了人类一个数量级。实验设计，Claude开始自己来了……

人类现在最后的比较优势，是研究品味和判断力。

但这个优势能守多久？

Anthropic在博客里说，他们也不确定。

一种可能是，「研究品味」就像之前AI不会的其他东西一样，先是做不到，然后突然就做到了。

就像AI理解幽默、展示心智理论、解语言谜题，都经历了同样的曲线。

另一种可能是，即便Claude永远学不会真正的研究品味，仅靠现在的加速趋势，每个人类研究员能同时指挥的工作量已经大了好几倍。

你不需要AI完全替代你思考，它只要把所有「执行」的活全干了，你就只需要做那5%的方向选择。

RSI的三种未来

博客结尾，Anthropic描绘了关于这次「自进化」趋势三个可能演化方向。

1、停滞。

那些指数曲线其实是S曲线。

也许研究判断力这个东西就是没法靠scale解决，需要一种全新的架构突破。

或者，瓶颈在能源、在芯片、在算力的物理供应链上。

不过，即便AI的能力就停滞在今天的水平，也会发生对世界带来重大变化。

前段时间的Project Glasswing，Mythos Preview在上线头几周就发现了超过一万个高危和严重级别的软件漏洞，遍布全球最关键的系统。

2、AI持续加速，但人类仍然把着方向盘。

组织效率会指数级提升，100人的公司做1万甚至10万人的活。知

Anthropic觉得我们大概率正在走进这个场景。

但他们也发现了一个有意思的现象，就是阿姆达尔定律在组织里的体现_

Claude把代码写得飞快了，结果代码review变成了新瓶颈。各种新想法、新工具、新实验爆炸式涌现，远超组织的消化能力。

瓶颈不会消失，只是转移到下一个环节。

3、AI实现完全的递归自我提升，开始自己造下一代自己。

这个场景下，AI的发展速度完全取决于算力了。人类退到监督、验证、审核的位置。

如果真的发生，这种能力大概率会迁移到其他科学领域，医学、材料、能源，全线起飞。

当然，另一种未来，是对齐失败。

这种情况下，偏差会在AI自我迭代的过程中逐步累积，最终——完全失控。

以上，便是Anthropic此次关于自进化，最关键的几个观点。

说实话，最开始我其实没太当回事，毕竟Anthropic马上就要IPO了，这一波不是典型的「Anthropic式」公关？

你别说，这次，可能真的有点不一样。

因为就在几天前，OpenAI也发布了类似的博客：

奇点，似乎来得比所有人预想的都要快。

博客：https://www.anthropic.com/institute/recursive-self-improvement

参考链接：

[1]https://x.com/kimmonismus/status/2062517474277675102

[2]https://x.com/anthropicai/status/2062568873321513443

辽宁新增20例本土(辽宁新增20例本土其中葫芦岛19例)
2026/06/05 11:24:15

_开封关于近期疫情防控有关事项的通告(2022年4号)〖壹〗、开封市新冠肺炎疫情防控指挥部办公室2022年4月27日2022年3月15日，开封市疫情防控指挥部办公室发布的最新消息：开封市新冠肺炎疫情防控指挥部办公室关于近期疫情防控管理有关...[原文链接]
今天的金价(今天的金价是什么费用)
2026/06/05 11:21:17

今天成都的金价多少成都今日黄金费用为325元每克。国家公布的9999金价标准为3155元每克。今天成都的金价大概在560-570元/克左右（2025年7月数据）。具体要看你是买首饰金还是投资金条，周大福、老凤祥这些品牌店会贵个20-30...[原文链接]
美国真实感染人数(美国真实感染人数是近来数倍)
2026/06/05 11:18:13

美国艾滋病疫情现状〖壹〗、美国罗德岛州2024年新增艾滋感染者数量高于平均水平，具体原因尚未明确，可能与检测发现滞后、特定群体感染风险较高及结构性不平等因素有关。以下是详细分析：新增病例统计情况罗德岛州公共卫生部（RIDOH）官员Jose...[原文链接]
东曜药业-B建议委任德勤为新核数师
2026/06/05 11:16:02

　　东曜药业-B（01875）发布公告，罗兵咸永道（罗兵咸永道）将于应届股东周年大会结束后其现任任期届满时退任本公司核数师。　　董事会根据董事会审计与关联方交易审核委员会的推荐意见，已决议建议委任德勤•关黄陈方会计师行（德勤）为本公司于...[原文链接]
上海返沪人员最新规定/上海返沪来沪新规定
2026/06/05 11:15:10

上海五一出行后返沪需要隔离吗〖壹〗、上海五一出行后返沪是否需要隔离，取决于出发地是否为国内疫情中高风险地区。具体如下：来自或途经国内疫情高风险地区：应在抵沪后尽快且不得超过1两小时向所在居村委和单位（或所住宾馆）报告。一律实施14天集中隔...[原文链接]