数学的边界:陶哲轩谈生成式 AI 的真实潜力(The Atlantic)
陶哲轩认为 AI 在数学上已进入可协作阶段:短期擅长“长尾易题”,长期价值在于人机交互式研究与更大规模数学探索。
数学的边界:陶哲轩谈生成式 AI 的真实潜力
原文链接:https://www.theatlantic.com/technology/2026/02/ai-math-terrance-tao/686107/
媒体:The Atlantic
作者:Matteo Wong
发布时间:2026-02-24
![]()
图片说明:Illustration by The Atlantic. Source: Kimberly White / Getty Images
导语(中文翻译)
过去几个月,几位研究者陆续提出了同一个颇具挑衅性的说法:他们用生成式 AI 工具解出了此前无人解答的数学问题。
最激进的承诺——例如“AI 将攻克数学中最艰深的问题”——很可能最终只是炒作。但也确实有一批由 AI 写出的证明在核验后成立,尽管这些问题的分量远低于顶级难题。它们涉及的是埃尔德什问题(Erdős Problems)中的一部分:这是匈牙利数学家保罗·埃尔德什提出的 1000 多道数学题。包括 ChatGPT 在内的生成式模型都参与了这类尝试。OpenAI 也很快将其视为进展:公司总裁 Greg Brockman 在 2026 年 1 月发文称,GPT-5.2 Pro 又解出了一道公开的埃尔德什问题,并称“这将是数学和科学飞跃的一年”。(OpenAI 与 The Atlantic 之间存在公司层面的合作关系。)
这波讨论之所以格外受关注,很大程度上是因为这些 AI 证明的审核者是陶哲轩(Terence Tao)——UCLA 教授,普遍被认为是当代最顶尖的在世数学家之一。他的背书看起来在某种程度上为生成式 AI 最宏大的承诺增添了合法性:推动人类知识与文明边界。
但当作者在本月早些时候与陶哲轩通话时,后者的态度更克制。陶哲轩认为,AI 解出的这些埃尔德什问题“确实令人印象深刻”,但还谈不上压倒性突破;更准确地说,模型目前拿到的多是一些“低垂果实”式的胜利。
作者还提到:陶哲轩长期关注 AI 在数学中的可能性,但一直保留审慎态度。2024 年秋季他曾把聊天机器人比作“水平一般、但不至于完全不行的研究生”;约半年后,他认为模型在某些高阶数学推理上已经变强,但创造性不足,也容易犯细微错误。到了最近一次对话,他的判断明显更积极:AI 或许还远未到“解决所有重大数学难题”的阶段,但已经到了可以与人类数学家协作的门槛,并正在打开一种不同的“做数学方式”。
访谈翻译(Q&A)
Wong:最近很多人都在讨论 ChatGPT 解出部分埃尔德什问题。你怎么看过去一年生成式 AI 在数学能力上的演进?
陶哲轩: 现在有一大群人特别希望看到 AI 成功故事;与此同时也有另一群同样强烈的人,倾向于否定 AI 的所有进展。真实情况其实在这两端之间,更复杂、更细腻。
就埃尔德什问题而言,里面有少数真正高价值、大家都想攻克的核心难题,也有一条很长的“长尾”——很多相对冷门的问题。AI 现在特别擅长的是系统性地扫这条长尾,把最容易的那批先做掉。这和人类的工作风格很不一样:人类通常不会把 1000 道题都过一遍,再挑最容易的 12 道去解;但 AI 正在这么做。
这些问题的难度差距其实极大。就目前 AI 独立解出的题来看,很多属于“用了标准套路”的类型:如果请一位专家花半天看一下,也可能做出来。更复杂的成果通常仍是“AI 辅助”而非纯 AI 完成。我判断短期内我们还会看到很多纯 AI 在简单题上的快速进展;再往后几个月,则会出现各种人机混合贡献。
我自己也会从这些证明里学到东西。我喜欢读这些解法——例如它可能用了某篇 1960 年代论文里的技巧,而我此前并不知道。它未必非常有创造性,但确实带来新信息,也能在某些点上突破人类专家先前的判断。
Wong:你写过,人类数学家即便没有解出问题,探索过程本身也会产出可复用洞见;而 AI 证明往往缺这一层。为什么会这样?
陶哲轩: 你可以把这些问题想象成远方的目的地。过去你得徒步过去,途中会留下路标、画地图,后来者可以沿着你的轨迹继续前进。
AI 工具更像是“用直升机把你空投到目的地”。你跳过了旅程本身的价值。你虽然抵达了结果,但“抵达”其实只是解题价值的一部分。
Wong:除了让非数学专业者有机会处理更高阶问题外,这些模型现在还能给数学研究带来什么?
陶哲轩: 数学里有大量非常繁琐、我们并不喜欢做的工作,所以人类常常想办法绕开它们。但 AI 对这些繁琐计算几乎没有心理负担,会直接硬推过去。把 AI 融入人类工作流后,我们可以更平滑地越过这些障碍。
我也认为,数学家将开始在更大尺度上做数学。可以类比科学研究里“个案研究”和“总体调查”的区别。18 世纪如果研究罕见病,可能只能围绕一个患者详细记录症状;而在 21 世纪,你可以做千人规模临床试验并做统计分析,从而更精确评估疗效。
今天的数学研究仍很像“个案研究”:一篇论文往往围绕一两个问题进行高度手工化、密集式深挖。这是我们的传统风格。但 AI 工具让“总体研究”式的方法成为可能。
Wong:你对 AI 数学能力的进展速度感到意外吗?
陶哲轩: 有一点意外。很多事情本来就在我的预期里,只是发生得比我预计的稍微快了一些,但不是数量级上的超预期。
比如 2023 年我给微软写过一篇文章,预测到 2026 年 AI 会成为“可被信任的共同作者”——其贡献可达到技术论文共同作者的水平。那篇文章反响两极:有人觉得我过于乐观,也有人觉得我过于保守。现在看,进度几乎就是我当时设想的节奏。今天 AI 的贡献,已经接近我对“初级人类共同作者”的预期,尤其在大量繁琐工作和案例展开方面。
Wong:未来一两年你最希望生成式 AI 改进什么?
陶哲轩: 我们需要在“鼓励负责任使用”和“抑制不负责任使用”之间找到中间地带,这条线很难走。但这不是第一次。数学家今天也普遍用计算机做数值工作。早年计算机辅助证明刚出现时也遭遇过强烈反弹:你怎么相信代码?后来我们花了 20 到 30 年建立起方法与规范。问题是现在时间窗口被大幅压缩了,我们得在几年内把标准建立起来,而学术共同体通常并不以这种速度运转。
一个特别基础、但非常关键的改进是:AI 回答问题时,通常不会给出可靠的置信度信号,甚至经常表现得“百分之百确定”。人类交流里,是否有把握本身就是重要信息。你可以提出一个暂时不确定的想法,但必须明确标注不确定性。AI 目前在自我置信度评估上并不准确,这会显著降低它的实用性。我们需要更“诚实”的 AI。
此外,很多 AI 公司过度迷恋“一键全自动”流程:把任务交给 AI,你去喝杯咖啡,回来问题就解决了。对困难问题而言,这并不理想。真正有效的方式是人机对话式协作,而现有产品并没有很好支持这一点。
如果能有一些科技公司愿意构建更具交互性的研究平台,这会更容易被研究社区接受。我们不希望自己只剩“按按钮”这一种角色。
一句话总结
陶哲轩的核心判断不是“AI 将立刻替代数学家”,而是:AI 正在把数学研究从少量手工个案,推向更大规模的人机协作与系统化探索。
Jim