1月6日,第十届世界华人数学家大会闭幕前夜,菲尔兹奖得主丘成桐与数学家们在上海向全球AI大模型出题,并按照难度高低分为三档,试图通过AI探求“人类知识边界”。
“与人脑计算相比,AI在高维计算中具备一定优势,但数学家更适合解决长期悬而未决的深度问题。”丘成桐表示,AI应与人类合作,弥补想象力不足,携手跨越数学界的“奇点”难题。
国产AI拿下高分
去年7月,在2025年世界人工智能大会上,丘成桐现场命题,上海人工智能实验室、商汤、阶跃星辰和MiniMax四款大模型同台解题,屏幕实时展示AI推理过程,首次向公众展示AI在数学方面的解题能力。
仅仅半年时间,国产AI大模型的数学能力就实现了快速迭代。
记者在现场看到,上海人工智能实验室的书生模型,在攻克一道涉及矩阵递归的前沿引理时,投入了长达数小时的深度推理。字节跳动Seed团队则采用强化学习训练,解题过程中正确证明获得奖励,错误则扣分,实现持续优化,每一步推理都必须符合逻辑规范,从根源上杜绝了“幻觉”现象。
通义千问模型在解答抽象代数难题时,推导过程中会主动自我验证,意识到自身推导中的逻辑漏洞,主动推翻了之前的结论,转而调用另一种方法进行交叉验证。而商汤的日日新模型则展现出了类似数学家的直觉,在解决复杂的广义积分时,没有采用暴力计算的方案,而是意识到函数的对称性,将难题化繁为简。
目前,国产AI大模型在各大数学竞赛中拿到高分。比如,字节Seed团队在国际数学奥林匹克竞赛中表现亮眼,博士级抽象代数题的解决率达到33%。在中国数学奥林匹克冬令营中,书生模型斩获102分的优异成绩,远超78分的金牌分数线。通义千问在考研数学题评测中,凭借纯文本单次推理拿到146.8分,若搭配代码工具辅助解题,在竞赛级题目中甚至能达到满分水平。
经典算法仍有生命力
“现在的AI参数已超万亿级了,正逼近极限,在这一时刻,数学经典算法理论更显重要。”在丘成桐看来,数学界还有很多“祖师爷”级别的经典算法,能给AI的底层算法突破带来希望。
丘成桐表示,AI计算和数学其实早有渊源。
上世纪60年代,计算机处理信号的复杂度被卡在了物理层面。随着数据量增加,计算时间呈指数级爆炸,那是硬件无法逾越的鸿沟。“当时大家觉得没路走了,直到1965年,库利和图基重新发现了快速傅里叶变换。这一下子就改变了整个工业界,没有它,就没有今天的互联网。”丘成桐表示,AI计算和数学其实早有渊源。
1976年,数学家借助计算机首次完成了困扰数学界百年的“四色定理”证明,即任何平面地图只需四种颜色就能让相邻区域颜色不同。这一证明的关键难点在于1800多种特殊验证工作过于繁琐,人力难以完成,而计算机则精准完成了逐一枚举验证。
随着算法和算力进步,计算机开始处理更复杂的数学问题。2016年,数学家再次通过智能计算解决了“布尔毕达哥拉斯三元组问题”。这一证明过程的计算量极为庞大,相当于一台高性能电脑连续运行4年,产生的原始数据量高达200TB,如此海量且复杂的计算任务,显然是人力难以企及的。
AI难寻数学“奇点”
“能解决奥数难题,就说AI替代数学家,这还为时过早,AI无法找到能够控制整个学问的‘奇点’。这需要依靠人脑和AI的结合。”丘成桐一针见血指出,AI可以解题,可以统计归纳海量数据,但无法提出宏大的数学猜想,提炼出原创性的理论和定理。
上海市人工智能行业协会秘书长钟俊浩也表示,AI擅长高强度的重复计算,可以将数学家从重复性的脑力劳动中解放出来,以便进行更高维度的思考。
目前,上海正围绕数学与AI融合的基础理论突破、AI辅助数学研究、产业场景转化三大前沿方向布局。费夫曼实验室(fefferman lab)与希钦-吴实验室(hitchin-ngo lab)两个菲尔兹奖获得者冠名实验室已在上海落地。
据悉,此次发布的三道数学题,不仅是一份考卷,更是上海向全球AI行业发出的“英雄帖”,分为初探、突破和拓界三种难度,前两种分别对应本科生和硕博难度,拓界则是面向全人类的终极猜想。
附:三道全球数学征解
初探:面向本科生的逻辑迷宫
突破:面向硕博的结构洞察
拓界:面向全人类的终极猜想
原标题:《时隔半年,上海再发“数学之问”,三道数学难题挑战AI极限》
栏目主编:李晔
本文作者:解放日报 查睿
题图来源:上观题图