在半导体行业,有一种共识:做出一颗芯片可能需要三年,但让开发者愿意在这颗芯片上写代码,往往需要十年。英伟达CUDA的成功,本质上是软件栈与开发者生态的胜利。对于国产GPU而言,单纯对标算力参数已不足以维系长期的竞争力,真正的挑战在于如何建立起一套软硬深度融合、且能让全球开发者无感迁移的统一架构。

在12月20日举行的摩尔线程2025 MUSA开发者大会上,我们清晰地感受到了这种对生态突围的共鸣。这不是一场闭门造车的技术发布,而是一场千人规模的“MUSA嘉年华”。 在大约1000平米的沉浸式展区内,从AI大模型与 Agent 的智能交互,到具身智能的物理演进,再到空间智能与科学计算的深度融合,MUSA 生态的触角已经延伸至工业智造、智慧医疗、数字文娱等每一个真实的应用场景。

支撑这场“嘉年华”的,是摩尔线程过去五年交出的硬核成绩单:5颗芯片,超43亿元研发投入,高达77%的研发人员占比,超20万的活跃开发者生态。这些数字共同印证了其在全功能GPU领域的技术厚度、产品完整度与生态影响力,不仅凸显了摩尔线程在国内该赛道中的稀缺地位,也为其持续引领自主算力进化奠定了扎实的体系化基础。

MUSA:不止是一个软件

很多人误把MUSA仅仅认为是“一个软件”,这其实低估了它的定位。

如同英伟达的CUDA一样,CUDA 是英伟达围绕自家GPU 打造的一整套并行计算平台 + 编程模型 + 软件栈 + 生态体系,它长得像软件,但它和硬件能力是强绑定的。

MUSA也不仅仅是一个软件包,MUSA(Meta-computing Unified System Architecture)是摩尔线程自主研发的元计算统一系统架构,覆盖从芯片架构、指令集、编程模型到软件运行库及驱动程序框架等的全栈技术体系。这是一个可以让开发者在摩尔线程 GPU 上“写代码、迁移代码、跑框架、做调优、规模化落地”的整套平台。

再直观一点的对比是,你不能把Android理解成“一个APK安装器”;也不能把Windows 理解成“一个EXE启动器”。它们都是平台,生态在平台之上长出来。

摩尔线程的所有软硬件产品,均基于MUSA架构,MUSA完整定义了从芯片设计到软件生态的统一技术标准。

全功能GPU:跨越范式更迭的“万能算力底座”

回望过去三十年,GPU的创新史本质上是一部算力范式的进化史。从上世纪末的图形加速,到本世纪初可编程GPU的出现,走向通用计算,并推动我国“天河一号”超级计算机的诞生,再到深度学习浪潮中的AI爆发。今天,我们正从感知AI迈向生成式AI、Agentic AI,再到物理AI,在所有这些进化过程中,GPU始终处于计算革命的风暴眼。

这正是摩尔线程坚持“全功能GPU”的初衷——既踏攀登路,必闯最高峰。所谓“全功能GPU”,并非仅具备图形渲染或AI训练能力,而是同时实现图形图像处理、AI张量计算、物理仿真和超高清视频编解码等多种任务协同处理能力。这种架构的芯片,不仅面向AI模型训练、智算中心部署,也能支撑游戏图形、视频渲染等大众级应用场景,具备高度通用性与生态承载力。

在计算范式的每一次迭代中——从CNN到Transformer,再到未来的世界模型,GPU始终能够立于不败之地,因为它是一个性能和灵活度的“甜点”。我们正处于一个高速发展的创新试验场里,底层架构哪怕大框架没变,新型算子也在不断出现。我们需要足够的灵活度让技术继续演进。

全功能GPU的优势在于“图算结合”。未来的世界将是多模态的,既需要AI计算理解世界,又需通过图形渲染构建世界,甚至需要支持超高清视频传输。全功能GPU正是能够跨域支持这些多样化计算需求的核心技术。无论计算范式如何变迁,所有创新都将在GPU的灵活性中诞生。

五年五代架构,算力进化的“步进器”

自2022年起,摩尔线程保持着每年发布一代新架构的惊人节奏:从解决信创PC GPU国产化关键问题的“苏堤”S10,到首款国产消费级显卡架构“春晓”MTT S80,再到助力大规模AI训推一体的智算卡、千卡集群的“曲院”S4000,乃至支持万亿参数规模的“平湖”MTT S5000。

而今,最新一代的“花港”架构正式登场。

“花港”架构基于新一代指令集架构及MUSA处理器架构,算力密度提升50%,计算能效实现10倍提升。在原有MTFP8的技术下,新增MTFP6/MTFP4及混合低精度端到端加速技术。该架构提供了新一代的异步编程模型加速技术,全面优化异步编程模型、任务与资源调度机制,提升并行执行效率。通过自研高速互联MTLink技术,可支持十万卡以上规模智算集群。图形方面,“花港”提供一种全新的AI生成式渲染架构AGR,用AI加速图形渲染流水线,集成全新光追硬件加速引擎,能够完美支持DirectX 12 Ultimate。

摩尔线程在过去的5年中,持续不断深耕架构自研,“花港”架构也是全栈自研,安全可控。截至今年6月30日,摩尔线程已经申请专利1000余件,其中授权专利高达500余件,发明专利468件,专利数量在国内 GPU 企业中排名领先。

另外,“花港”架构中,摩尔线程也自研并集成了完善的安全策略,通过4层安全架构(安全域、信任域、保护域和功能域),时刻为芯片提供安全守护。

拳头产品:华山练AI,庐山绘世界

“一个好的架构要有好的产品才能够为更多的开发者服务。”张建中表示,基于“花港”架构,摩尔线程正在研发两款GPU芯片。

(一)华山,AI训推一体芯片

第一款芯片——华山,是一款AI训推一体、智算融合的GPU产品。华山芯片对标国外顶尖厂商的BXXX和HXXX芯片,在算力、通信和访存带宽等方面具有明显优势。

为了解决传统GPU任务分配不均导致的算力闲置问题,“华山”集成了新一代异步编程模型:通过 Persistent Kernel 及自动化调度机制,将负载智能平衡到每一个计算单元,同时赋予了开发者近乎“无感”的高效开发体验。

此外,华山还集成了新一代Tensor Core,专为AI应用中的Tensor计算优化。特别是在FP8、FP6和FP4等低精度设计单元的改良上,华山为特定应用场景创造了新的技术解决方案——TCE-PAIR。这种技术允许两个Tensor计算引擎共享数据,避免重复数据调度,大幅提高算力效率。

更重要的是,华山芯片内部集成了专为大语言模型(LLM)定制的加速引擎,针对 Transformer架构及LLM的各个环节,摩尔线程将核心算法逻辑固化至硬件单元中。这种设计确保了每一个软件模块都有对应的硬件引擎驱动,使大模型训练和推理的速度与效率达到极致。

为了满足用户对超大规模算力的需求,华山提供了超十万卡级别的“AI工厂”技术,专注于Scale-up和Scale-out的扩展能力。在提升算力规模的同时,通过本地支持Scale-up,确保多GPU协同工作时的高效性能。

华山不仅支持摩尔线程的MTLink 4.0,同时开放支持多种以太网协议,使其能够兼容国内外各种硬件生态。通过对不同协议的支持,华山能够适配更多的Scale-up Switch和应用场景,并通过支持SHARP协议,提高通信效率,确保数据传输的高速和稳定。

在集群能力方面,华山的Scale-up系统使得单个超节点能够支持高达1024个GPU的扩展,为大规模计算提供了强大的带宽和处理能力。此外,华山内置的RAS2.0技术(包括ECC和SRAM校验)保障了芯片底层的准确性与稳定性。自动检测、上报与隔离机制确保在集群中任何芯片出现问题时能够及时处理,保证集群整体的安全性和稳定性。

尤为值得一提的是,华山集成了ACE2.0异步通信引擎,这也是摩尔线程的一项独特创新。与ACE1.0相比,ACE2.0通过在每个计算单元内设计小型ACE引擎,实现通信与计算的高度并行化,大幅提升了整体效率。这一技术的引入,配合RAS2.0和新一代Scale-up系统,使得华山在大模型训练中的集群能力更加出色,能够满足超大规模和高参数量的用户训练需求。

(二)庐山,高性能图形渲染芯片

庐山,是一款专为专业图形计算设计的芯片。得益于“花港”架构,庐山在图形计算和AI能力上展现了极大的优势。与S80相比,庐山在3A游戏性能上提升了15倍,AI计算性能提升64倍,几何处理性能提升16倍,让更复杂的图形细节得以完美呈现。此外,庐山在纹理填充、光线追踪和原子访存方面分别提升了4倍、50倍和8倍,显存容量也提升了4倍,这使得庐山不仅能够应对3A级游戏,还能完美支持CAD、CAE等专业应用场景。

一个重要的创新是庐山内置的AI生成式渲染功能,从几何与网格着色、像素着色、光线追踪、后处理乃至 MTSS 等环节,每一步渲染都由AI计算加速引擎支持,提升了图形处理效率。此外,庐山独创的统一任务引擎管理框架,使得GPU的每个计算单元都能实现高度并行计算。无论有多少核心或GPU,任务都能得到最优分配,从而大幅提升整体工作效率。

夸娥十万卡集群:打造AGI时代的“AI工厂”

有了顶尖芯片,如何应对超大规模算力需求?在AI智算领域,摩尔线程正实现从千卡、万卡向十万卡集群的跨越。

如中国工程院院士、清华大学计算机系教授郑纬民所说,打造国产万卡或十万卡系统非常困难,它不仅是将卡片连接起来并通电,更是要确保系统既能用,又好用。实现十万卡系统面临三大难题:一是如何连接这么多卡;二是如何保证系统在卡出现故障时仍能持续运行;三是如何解决大规模集群的能耗和散热问题。

为此,摩尔线程推出了超十万卡级AI工厂技术,突破了传统GPU集群的瓶颈,支持Scale-up系统,可以扩展至1024个GPU,满足大规模AI计算任务的需求:

新一代MTLink 4.0技术支持多种协议与设备的兼容,具备1314 GB/s的片间互联带宽,极大提升了数据传输效率;同时,ACE 2.0(异步通信引擎)进一步优化了GPU之间的协同工作,提升了计算与通信的并行效率,支持更高效的任务调度与资源分配;RAS 2.0则增强了芯片的容错能力和可靠性,提供了更强的错误检测、调试能力以及ECC内存保护,确保超大规模集群的高稳定性和高可用性;此外,超节点解决方案MTT C256,支持256个GPU的超节点集群,能够在亿级拓扑互联层下高效互通,进一步提升大规模训练集群的效率。

MUSA 5.0:全栈软件栈的全面升级

如果说硬件是算力的骨架,软件栈则是算力的灵魂。摩尔线程本次大会正式宣布MUSA 5.0 全面升级,这不仅是版本的更迭,更是其软件栈迈向成熟期、全场景覆盖的重要里程碑。MUSA 5.0通过对全功能GPU四大引擎的深度适配,实现了从AI训练、3D图形渲染到科学计算的无缝支撑,为全场景应用提供了统一的技术底座。

MUSA 5.0 的核心竞争力在于其“无边界”的适配能力。它不仅完美兼容国际主流 CPU 操作系统,更实现了对国产 CPU 及开发环境的深度优化,这种“双轮驱动”的策略,确保了 MUSA 能够充分吸纳国内外生态优势,助力“云-边-端”系列产品在统一的软件栈下获得一致的性能表现。

具体来说,MUSA 5.0的升级包括三个主要部分:

编程模型:MUSA C是核心编程模型,除了兼容扩展,还引入了TileLang,以支持更广泛的AI软件开发。此外,还集成了北京智源研究院的FlagOS和Triton框架,进一步提升开发效率。

性能优化:在计算方面,MUSA 5.0大幅提升了芯片设计的集成效率,在HGEMM算子效率中达到了98%,通信效率达97%。这些优化使得开发者能够更加高效地利用GPU资源,获得显著的性能提升。

开源支持与工具:MUSA 5.0推出了多个开源工具,包括MT DeePEP(用于并行策略的自由搭建)、夸娥管理软件(用于更高效的管理与调度),并计划在明年上半年开放MTX,让开发者能精细操作GPU资源。此外,特别为3D图形与AI结合的应用场景推出了muLang编程语言,支持开发者更灵活地进行跨域编程。

MUSA 5.0的触角正在向更前沿的领域延伸。针对量子计算,MUSA-Q 框架通过经典计算与量子框架的耦合,探索混合计算的商业化落地;在半导体制造端,muLitho致力于通过 GPU加速OPC计算,为国产半导体工艺的迭代提速。

这一系列升级计划于明年上半年正式规模化落地。MUSA 5.0 正在通过这种“全栈化、高性能、开放式”的软件哲学,不仅大幅提升开发者的工程效率,更在加速补齐国产 GPU 生态最后一块拼图。

入局具身智能:以“长江”AI SoC构筑物理AI基石

具身智能是摩尔线程开辟的又一战略高地。据预测,到2050年全球机器人数量将达10亿部,而这场变革的核心挑战在于:如何构建一套大型物理AI基础设施,确保智能体能够在复杂现实中安全、可靠地与人类交互。

在具身智能的开发逻辑中,Sim to Real(仿真到现实)的迁移效率决定了智能体的进化速度。对此,摩尔线程正式发布具身智能仿真训练平台 MT Lambda,它深度整合了物理、渲染与AI三大核心引擎,旨在为开发者提供一套从场景构建、数据合成到仿真训练的高效工作流。

此外,具身智能还需要一个强悍的边缘侧内核。摩尔线程首颗AI SoC芯片“长江”正式亮相,这标志着摩尔线程算力布局从 GPU 延伸到了高度集成的芯片系统。“长江”集成了 CPU、GPU、NPU、VPU、DPU、DSP 和 ISP 等多维算力核心。无论是具身智能机器人,还是下一代 AIBOOK、AICube,均可通过“长江”获得原生 AI 算力。

为了打通具身智能的最后一公里,摩尔线程推出了完整解决方案——MT Robot。其中,基于KUAE智算集群提供的强大云端算力作为“大脑”,处理大规模训练与复杂决策;依托内置“长江”芯片的 MTT E300模组作为敏捷“小脑”,实现端侧的低延迟响应与实时避障。

摩尔线程在具身智能领域的入局,本质上是其全功能GPU能力的向下延伸与横向拓扑。通过MT Lambda仿真平台解决“虚实迁移”的效率难题,凭借“长江”AI SoC在边缘侧构筑强大的计算内核,再通过MT Robot方案实现“云端大脑”与“端侧小脑”的无缝协同——摩尔线程不仅提供了算力,更提供了一套从虚拟训练到物理落地的全栈自主路径,让AI真正具备了行走于物理世界的行动力。

开发者,才是国产GPU生态的“压舱石”

英伟达CUDA的成功史证明了一个铁律:真正决定芯片厂商生死存亡的,不是单纯的算力参数,而是是否有足够多的开发者愿意在你的架构上写代码。

对于国产GPU而言,要跨越“生态鸿沟”,必须解决三大痛点:迁移成本高、工具链不够成熟、社区与文档不够完善。但目标路径也很清晰——从“能用”到“好用”,再到“愿意用”。开发者体验做顺了,生态才会自发增长。摩尔线程的MUSA,本质上就是面向CUDA生态的一次国产化实践。

摩尔线程的MUSA软件栈也是围绕“如何让GPU既‘好用’又‘用得好’出发”。在圆桌论坛中,摩尔线程联合创始人、CTO张钰勃提到,“好用”和“用得好”看起来天然有张力:好用意味着更高层、更标准化、更贴近主流抽象;而要用得好、要突破,就必须把底层微架构的创新发挥出来。对此,MUSA的思路是:先对齐主流生态的使用习惯——编程模型、编程方式、加速库能力尽量与国际主流保持一致,让开发者以最低学习成本、最低迁移成本把国产 GPU 先“用起来”。同时,AIBOOK作为MUSA生态的核心入口,通过深度集成统一架构和开发者工具链,为开发者提供了从本地开发到云端扩展的无缝体验,进一步降低了生态参与门槛。

而真正的突破点在下一步:底层架构创新怎么“露出来、用起来”。他们提出两条路径

1. 用更高层抽象的 DSL/编译技术,把底层优势显性化。例如通过支持 Triton,甚至未来基于 TAL 的编程方式,让编译器把细粒度的硬件创新转化为开发者可直接获得的性能收益;

2. 生态共建。软硬协同不是单打独斗,仅靠一家厂商的软件栈不够,需要与开发者与平台型伙伴深度协作。比如与硅基流动在平台上做联合优化,通过通用 AI 基础平台推进软硬件协同设计,形成“1+1>2”的效果。这一协同已初见成效,例如在推理侧。与硅基流动对MTT S5000深度优化后,在DeepSeek 671B全量模型的实际推理中,MTT S5000单卡Prefill吞吐突破4000 tokens/s,Decode吞吐突破1000 tokens/s,树立国产推理在低延迟和高吞吐的新标杆。

结语

“算力就是国力。” 在这场关于通用算力的长跑中,没有捷径可走。从MUSA架构的底层深耕,到十万卡集群的布局,再到具身智能的入局,摩尔线程正以全功能GPU为笔,在国产算力的长卷上,勾勒出一座属于未来的“算力长城”。这座长城,不仅由硬核的半导体晶体管筑就,更由数十万活跃开发者手中的每一行代码汇聚而成。在这场AGI时代的进击中,全栈自研的底气,正是我们通往算力自由的最强脊梁。