九九久久精品这里久久网,亚洲激情在线,久久精品国产综合精品

金磊發(fā)自凹非寺

量子位 | 公眾號 QbitAI

上市后的僅15天，?摩爾線程，便將首個大動作直接指向了生態(tài)的核心——開發(fā)者。

在這次首屆、也是國內(nèi)首個聚焦全功能GPU的開發(fā)者大會中，圍繞著MUSA這個關(guān)鍵詞，新品可謂是目接不暇：

一個全新GPU架構(gòu)：花港，密度提升50%，效能提升10倍。

三款新芯片：華山、廬山、長江，分別聚焦AI訓推一體、圖形渲染和智能SoC。

一個智算集群：夸娥萬卡集群（KUAE2.0），定位國產(chǎn)自主研發(fā)的AI Foundry。

兩款硬件產(chǎn)品：專為開發(fā)者打造的AIBOOK和AICube。

這并非零散的產(chǎn)品更新，而是摩爾線程用一套從云到端、從算力到生態(tài)的組合拳。

在長達2個多小時的發(fā)布中，最直觀的感受就是，摩爾線程，已經(jīng)把國產(chǎn)GPU推向了下一個level。

接下來，我們就從最最最核心的全新GPU架構(gòu)花港為起點，對此次開發(fā)者大會一探究竟。

MUSA，已經(jīng)成了全功能GPU架構(gòu)的代名詞

什么是MUSA？

它的全名叫做Meta-computing Unified System Architecture，是摩爾線程自主研發(fā)的元計算統(tǒng)一計算架構(gòu)。

該怎么理解？可以說，從芯片架構(gòu)、指令集、編程模型，到軟件運行庫及驅(qū)動程序框架，都屬于MUSA的范疇。

歷經(jīng)五年的發(fā)展，MUSA已經(jīng)完整定義了全功能GPU從芯片設(shè)計到軟件生態(tài)的統(tǒng)一技術(shù)標準，并且支持AI計算、圖形渲染、物理仿真和科學計算、超高清視頻編解碼等全場景高性能計算。

若是縱觀MUSA硬件架構(gòu)這幾年的迭代，從蘇堤、春曉、曲院，再到平湖，每一次的升級都是在探索著GPU算力的邊界。

最新發(fā)布的第五代全功能GPU架構(gòu)花港，亦是如此：

算力密度提升50%：在同等芯片面積下，可部署更多計算單元；

計算能效提升10倍：單位瓦特性能大幅優(yōu)化，為大規(guī)模智算集群提供綠色底座；

新增FP4計算：從FP4、FP6、FP8到FP16、BF16乃至FP64，實現(xiàn)全精度端到端計算，覆蓋AI、HPC、圖形等全場景需求；

支持十萬卡集群：通過MTLink高速互聯(lián)，為超大規(guī)模模型訓練鋪平道路。

尤為值得關(guān)注的是，花港在低精度計算上的深度優(yōu)化。架構(gòu)新增了MTFP6/MTFP4及混合低精度端到端加速技術(shù)，專為未來AI主流場景——低比特訓練與推理而生。

在Attention機制的關(guān)鍵路徑上，花港原生支持矩陣rowmax計算，大幅提升混合精度SIMT吞吐量，并內(nèi)置在線量化/反量化、隨機舍入等硬件加速能力，為下一代Transformer引擎（如MT Transformer Engine）提供底層支撐。

如果說硬件架構(gòu)是能力的基石，那么軟件棧，就是將這些能力交到開發(fā)者手中的具體路徑。

除了架構(gòu)本身之外，摩爾線程這次還同步推出了MUSA軟件棧5.0，構(gòu)建從編譯器、算子庫到AI框架的全棧工具鏈：

AI框架廣泛適配：除PyTorch、PaddlePaddle外，新增對JAX、TensorFlow的支持；

訓練生態(tài)擴展：在Megatron、DeepSpeed基礎(chǔ)上，新增強化學習訓練框架MT VeRL；

推理引擎豐富：深度優(yōu)化自研MTT推理引擎與TensorX，同時適配SGLang、vLLM、Ollama等新興推理框架；

核心庫極致優(yōu)化：muDNN實現(xiàn)GEMM/FlashAttention效率超98%，通信效率達97%，編譯器性能提升3倍；

編程語言創(chuàng)新：推出面向AI+渲染融合的muLang，兼容TileLang、Triton，原生支持MUSA C，并發(fā)布GPU中間表示語言MTX 1.0，提升開發(fā)者調(diào)優(yōu)自由度。

更關(guān)鍵的是，摩爾線程宣布將逐步開源MATE算子庫、MUTLASS、MT DeepEP通信庫、KUAE云原生工具包等核心組件，向開發(fā)者社區(qū)開放底層能力，加速生態(tài)構(gòu)建。

不難看出，MUSA并未將自身定位為單純的AI加速器，而是以“全功能 GPU”為錨點，將 AI 能力深度嵌入圖形渲染、物理仿真、量子計算等高價值垂直場景。

這種從通用底座向產(chǎn)業(yè)縱深延伸的架構(gòu)哲學，使其區(qū)別于純粹的大模型訓練卡，而更接近英偉達 CUDA 生態(tài)早期“以通用可編程性撬動多元應(yīng)用”的戰(zhàn)略路徑。

可以說，MUSA 不僅是中國首個全功能GPU架構(gòu)，更是對“下一代 AI 基礎(chǔ)設(shè)施應(yīng)長什么樣”的一次系統(tǒng)性回答——

它不再只是算力的提供者，而是多模態(tài)智能、具身智能乃至物理AI時代的關(guān)鍵使能平臺。在這一意義上，摩爾線程的架構(gòu)創(chuàng)新，已不僅是技術(shù)突破，更是對未來 AI 產(chǎn)業(yè)格局的一次主動定義。

而圍繞著新升級的MUSA，摩爾線程這次還祭出了更多重磅產(chǎn)品。

三個新芯片，兩個新硬件，一個萬卡集群

首先基于花港架構(gòu)，摩爾線程發(fā)布了兩款芯片路線。

第一個便是聚焦在AI訓推一體及高性能計算的GPU——華山。

它的核心亮點可以總結(jié)為：

全精度支持：從 FP4 到 FP64，覆蓋低精度訓練與高精度科學計算；

MTFP4/MTFP6 混合低精度加速：Attention 計算從 BF16 向 FP8 甚至 FP6 演進，大幅提升 Transformer 吞吐；

硬件級優(yōu)化：原生支持矩陣 rowmax 計算、在線量化/反量化、隨機舍入等算法，專為大模型訓練定制；

新一代異步編程模型：支持常駐核函數(shù)、線程束特化，極大提升并行效率。

并且從浮點算力、訪存寬帶、訪存容量和高速互聯(lián)寬帶等維度來看，華山正在追趕英偉達的系列產(chǎn)品。

華山的推出，標志著摩爾線程正式具備支撐萬億參數(shù)大模型訓練的能力，為國產(chǎn)AI基礎(chǔ)設(shè)施補上關(guān)鍵一環(huán)。

如果說華山主攻A 算力，那么接下來的GPU——廬山，則專為圖形計算而生。

相比上一代產(chǎn)品，其AI計算性能提升了驚人的64倍，3A游戲渲染性能提升15倍。

廬山引入了AI生成式渲染架構(gòu)（AGR）和硬件光追引擎，支持DirectX 12 Ultimate。這意味著，國產(chǎn)顯卡正式邁入“光追+AI渲染”的新范式，不僅僅是“算”畫面，更是“生成”畫面。

除此之外，在端側(cè)，摩爾線程還首次推出了智能SoC芯片——長江。

據(jù)了解，長江芯片不局限于傳統(tǒng)PC或服務(wù)器，而是面向具身智能、車載、AI計算終端等端側(cè)場景，提供50 TOPS的異構(gòu)AI算力。

有了芯片，自然要有承載的載體。

基于長江芯片，摩爾線程這次還發(fā)布了兩個非常亮眼的硬件產(chǎn)品。

首先就是MTT AIBOOK。

這個算力本是專門為AI學習與開發(fā)者打造的個人智算平臺，運行基于Linux內(nèi)核的MT AIOS操作系統(tǒng)，具備多系統(tǒng)兼容能力，并預(yù)置完整AI開發(fā)環(huán)境與工具鏈，通過虛擬化和安卓容器，可無縫運行Windows與安卓應(yīng)用。

如此一來，你就可以直接在上面跑大模型、搞Agent開發(fā)。

MTT AIBOOK內(nèi)置的智能體小麥，還支持2K高清渲染、本地大模型（如 MUSAChat-72B）、端側(cè) ASR/TTS，這就讓它從工具變成了超級個體助手。

并且MTT AIBOOK還預(yù)裝了智源悟界Emu3.5多模態(tài)模型，開箱即可文本生圖、編輯圖像。

除此之外，針對端側(cè)場景，摩爾線程還推出了桌面上的AI小鋼炮——AICube。

它更像是一個高性能的AI計算魔方，讓開發(fā)者在桌面上就能輕松獲取算力支持，處理復雜的推理任務(wù)。

最后，也是最重磅的——夸娥（KUAE 2.0）萬卡智算集群；畢竟在大模型領(lǐng)域，萬卡集群是公認的入場券。

摩爾線程此次宣布，其萬卡集群在Dense大模型上的算力利用率（MFU）達60%，在MOE大模型上達40%，有效訓練時間占比超過90%。

最硬核的消息是：摩爾線程已完整復現(xiàn)了DeepSeek V3的FP8訓練。依靠S5000對低精度算子的優(yōu)化，其自研FP8 GEMM算力利用率高達90%。

在這次大會上，摩爾線程還前瞻性地披露了下一代高密硬件基石——MTT C256超節(jié)點。

這款產(chǎn)品采用了計算與交換一體化的高密設(shè)計。它的出現(xiàn)，是為了系統(tǒng)性地提升萬卡集群在超大規(guī)模智算中心里的能效比和訓練效能。

這個量級的表現(xiàn)，意味著它已經(jīng)具備了正面硬剛國際主流Hopper架構(gòu)AI GPU的底氣，是未來超大規(guī)模大模型訓練和實時推理的國產(chǎn)標準答案。

并且就在最近，摩爾線程還和硅基流動（SiliconFlow）聯(lián)合宣布：

基于硅基流動高性能推理引擎，雙方已在摩爾線程MTT S5000 GPU上成功完成對DeepSeek V3 671B滿血版大模型的深度適配與性能驗證。

在FP8低精度推理技術(shù)加持下，MTT S5000單卡實測Prefill吞吐突破4000 tokens/s，Decode吞吐超1000 tokens/s，創(chuàng)下當前國產(chǎn)GPU在大模型推理場景下的新高。

這一成果不僅刷新了國產(chǎn)GPU的推理性能基準，更傳遞出一個關(guān)鍵信號：

在成熟軟件工程體系（如MUSA架構(gòu)與硅基流動推理引擎）的協(xié)同優(yōu)化下，國產(chǎn)算力硬件正從“能跑”邁向“跑得快、跑得穩(wěn)、跑得值”。

換句話說：單位算力的有效利用率，正在成為國產(chǎn)AI芯片真正落地的關(guān)鍵指標——而摩爾線程，這次交出了一份高分答卷。

生態(tài)，生態(tài)，還得看生態(tài)

在全球算力競爭日益白熱化的今天，單一芯片的性能優(yōu)勢已不足以構(gòu)建護城河。

真正的壁壘，在于軟件生態(tài)、硬件協(xié)同、場景落地與開發(fā)者信任的綜合能力。

摩爾線程深諳此道，它的選擇也非常清晰：不走局部替代路線，而是以“MUSA架構(gòu)+國產(chǎn)GPU+全場景產(chǎn)品”三位一體，打造一個從底層指令集到上層應(yīng)用的完整生態(tài)閉環(huán)。

這不僅包括人才生態(tài)，更涵蓋繁榮的軟件開發(fā)生態(tài)——從自研編譯器、高性能算子庫，到對主流AI框架的廣泛適配，摩爾線程提供了釋放算力所需的全套軟件工具鏈；同時，通過AIBOOK等面向開發(fā)者的硬件入口產(chǎn)品，讓開發(fā)者能夠隨時隨地接入并高效使用MUSA算力，真正實現(xiàn)軟硬協(xié)同、端云一體的全場景覆蓋。

但除此之外，開發(fā)者和開發(fā)生態(tài)，亦是其中非常關(guān)鍵的一環(huán)。

這便是摩爾線程打造摩爾學院（MUSA開發(fā)者的成長平臺）的原因了。

截止2025年12月，摩爾學院已經(jīng)匯聚了20萬名開發(fā)者。摩爾線程的目標更宏大：培育百萬規(guī)模的MUSA開發(fā)者社群。

為此，他們不僅提供了從入門到大師的專業(yè)課程，還把根扎到了人才源頭——走進全國200所高校。通過產(chǎn)教融合、聯(lián)合實驗室以及“繁星計劃”等競賽，摩爾線程正在從象牙塔開始，培養(yǎng)屬于自己的、懂國產(chǎn)架構(gòu)的原生代開發(fā)者。

這也印證了中國工程院院士、清華大學計算機系教授鄭偉民的觀點：“國產(chǎn)GPU的關(guān)鍵，在于要從能跑到愿意用。”

整體來看，當別人還在爭論“國產(chǎn) GPU 能不能用”時，摩爾線程已經(jīng)通過從軟件棧工具、硬件入口到人才培育的全鏈路布局，讓開發(fā)者問出另一個問題：“我的下一個項目，能不能全在 MUSA 生態(tài)里完成？”

這，或許才是真正的突破。

一鍵三連「點贊」「轉(zhuǎn)發(fā)」「小心心」

歡迎在評論區(qū)留下你的想法！

—?完?—

點亮星標

科技前沿進展每日見

一道本在线视频_亚洲人成色77777_亚洲精品555_亚洲制服丝袜av_日日干夜夜骑_国产精品亚洲аv天堂网_爱高潮www亚洲精品_鬼打鬼之黄金道士1992林正英_岛国av在线播放_日日狠狠久久偷偷四色综合免费