英偉達(dá)發(fā)布最強(qiáng)GPU B200,能否引領(lǐng)AI行業(yè)“新摩爾定律”?

剛剛在斯坦福商學(xué)院SIEPR經(jīng)濟(jì)峰會(huì)上提出“在未來的10年里,英偉達(dá)將會(huì)把深度學(xué)習(xí)的計(jì)算能力再提高100萬倍?!焙姥詨颜Z的黃仁勛,憑借一顆B200又一次“沸騰”了整個(gè)AI行業(yè)。

在當(dāng)?shù)貢r(shí)間3月18日的演講中,英偉達(dá)的黃仁勛發(fā)表了題為《見證AI的變革時(shí)刻》的主題演講,介紹了英偉達(dá)在最新研發(fā)進(jìn)展方面的成果。他圍繞五大板塊,分別是新的產(chǎn)業(yè)發(fā)展、Blackwell平臺(tái)、創(chuàng)新軟件NIMs、AI平臺(tái)NEMO和AI工坊服務(wù),以及仿真平臺(tái)Omniverse和適用于自主移動(dòng)機(jī)器人的Isaac Robotics平臺(tái)展開了介紹。

英偉達(dá)“史上最成功的產(chǎn)品”

其中,最為炸場的,莫過于黃仁勛首次揭示了英偉達(dá)的最新一代AI芯片Blackwell GPU,即B200,這一GPU平臺(tái)也是黃仁勛口中“英偉達(dá)史上最成功的產(chǎn)品”。

據(jù)介紹,Blackwell GPU以數(shù)學(xué)家David Harold Blackwell的名字命名,該芯片采用臺(tái)積電的4納米工藝,擁有2080億個(gè)晶體管,同樣沿用了英偉達(dá)此前推出的Hopper架構(gòu),可以支持多達(dá)10萬億個(gè)參數(shù)的AI模型。據(jù)介紹,B200能夠提供高達(dá)20 PFlops的FP4八精度浮點(diǎn)運(yùn)算能力,較之前的產(chǎn)品性能有了質(zhì)的飛躍。此外,黃仁勛還展示了基于B200的GB200加速卡,帶來了巨大的性能提升和效率提高。此外,Blackwell 架構(gòu)還采用了第五代NVLink高速互聯(lián)、第二代Transformer引擎等多方位全面升級。

不僅單塊GPU性能大幅提升,兩個(gè)B200 GPU與Grace CPU結(jié)合就成為GB200超級芯片,通過900GB/s的超低功耗NVLink芯片間互連技術(shù)連接在一起,成為一個(gè)Blackwell計(jì)算節(jié)點(diǎn)。

在NVLink Switch支持下,英偉達(dá)暴力地將72塊B200連接在一起,最終成為“新一代計(jì)算單元”GB200 NVL72。一個(gè)像這樣的“計(jì)算單元”機(jī)柜,F(xiàn)P8精度的訓(xùn)練算力就高達(dá)720PFlops,直逼H100時(shí)代一個(gè)DGX SuperPod超級計(jì)算機(jī)集群(1000 PFlops)。與相同數(shù)量的72個(gè)H100相比,GB200 NVL72對于大模型推理性能提升高達(dá)30倍,成本和能耗降低高達(dá)25倍。

英偉達(dá)還透露,這一全新的芯片將在2024年晚些時(shí)間上市。目前,亞馬遜、戴爾、谷歌、Meta、微軟、OpenAI、特斯拉都已經(jīng)計(jì)劃使用Blackwell GPU。

除了硬件創(chuàng)新,英偉達(dá)還在軟件領(lǐng)域取得了新的進(jìn)展。NIM微服務(wù)是其中的一項(xiàng)亮點(diǎn),它可適用于優(yōu)化英偉達(dá)生態(tài)系統(tǒng)中的20多個(gè)AI模型,為企業(yè)提供定制化的AI應(yīng)用開發(fā)和部署服務(wù)。此外,黃仁勛還介紹了英偉達(dá)的仿真平臺(tái)Omniverse和Isaac Robotics平臺(tái),展示了英偉達(dá)在機(jī)器人領(lǐng)域的前瞻性布局和創(chuàng)新成果。

AI行業(yè)的“新摩爾定律”

在大模型引領(lǐng)的人工智能的熱潮之下,憑借著GPU的算力以及帶寬領(lǐng)域的優(yōu)勢,以及自身的CUDA生態(tài)優(yōu)勢,不僅讓英偉達(dá)成為AI領(lǐng)域最賺錢的企業(yè)之一,同時(shí)也讓黃仁勛在AI時(shí)代有了更大的“野心”。在英偉達(dá)2023年財(cái)報(bào)中,截至9月數(shù)據(jù)中心的收入為150億美元,到了2023年底,其收入同比增長了279%。

剛剛在斯坦福商學(xué)院SIEPR經(jīng)濟(jì)峰會(huì)上提出“在未來的10年里,英偉達(dá)將會(huì)把深度學(xué)習(xí)的計(jì)算能力再提高100萬倍?!?/strong>

如果將這一目標(biāo)解構(gòu),便可以粗略得出英偉達(dá)每年要將算力提升為前一年的4倍。這意味著,如果英偉達(dá)的目標(biāo)真正實(shí)現(xiàn),這家公司將成為引導(dǎo)AI行業(yè)“新摩爾定律”發(fā)展的奠基者。

眾所周知,“摩爾定律”是英特爾創(chuàng)始人之一戈登·摩爾的經(jīng)驗(yàn)之談,其核心內(nèi)容為:集成電路上可以容納的晶體管數(shù)目在大約每經(jīng)過18個(gè)月到24個(gè)月便會(huì)增加一倍。而對于英偉達(dá)而言,“每12個(gè)月將AI算力提升4倍”的目標(biāo),相比摩爾定律,無疑顯得更加樂觀與激進(jìn)。

要知道,此前8年時(shí)間的時(shí)間里,AI算力的增長也僅僅在以“千”為量級。

根據(jù)英偉達(dá)現(xiàn)場發(fā)布的公開資料,新一代AI芯片B200在處理支持人工智能的模型方面表現(xiàn)出了顯著的性能提升。與之前的H100相比,B200在開發(fā)技術(shù)的過程(預(yù)訓(xùn)練階段)以及技術(shù)運(yùn)行過程(推理)中的速度都提高了數(shù)倍。

具體來說,以前訓(xùn)練一個(gè)擁有1.8萬億參數(shù)的模型需要8000個(gè)H100GPU和15兆瓦的功率。而如今,使用新的B200芯片,同樣的模型只需要2000個(gè)GPU就可以完成訓(xùn)練,同時(shí)功耗僅為4兆瓦,相當(dāng)于原先功耗的約四分之一。這意味著在相同的任務(wù)下,使用B200芯片進(jìn)行訓(xùn)練不僅速度更快,而且能夠顯著降低能源消耗,提高效率。

可以說,從性能與能效表現(xiàn)的角度來看,英偉達(dá)新一代AI芯片B200確實(shí)的有了長足的進(jìn)步。不過,大模型之家也注意到,盡管第五代NVLink Switch高速互聯(lián)技術(shù)為每個(gè)GPU 提供了1.8TB/s雙向吞吐量,確保多達(dá)576個(gè)GPU之間的無縫高速通信,同時(shí)大幅節(jié)約了能耗。

但面對4nm工藝制程即將達(dá)到極限,英偉達(dá)選擇提升算力的方式非常的粗暴,通過堆砌運(yùn)算單元規(guī)模,實(shí)現(xiàn)性能的大幅提升。這意味著,在大模型訓(xùn)練算力6個(gè)月翻一番的預(yù)期之下,想要實(shí)現(xiàn)算力的持續(xù)供給,需要不斷更新迭代硬件設(shè)備,甚至不斷擴(kuò)建更大的算力集群。

這意味著,英偉達(dá)將核心發(fā)力點(diǎn)放在了“更大”與“更強(qiáng)”之上,通過不斷探索AI算力的極限,在開辟加速計(jì)算領(lǐng)域的“新摩爾定律”的同時(shí),收割頭部AI企業(yè)對于算力增長的需求。

寫在最后

在Blackwell芯片的背后,我們可以看到“新摩爾定律”并非遙不可及,但也要注意到盡管NVIDIA將可擴(kuò)展的GPU架構(gòu)與摩爾定律相結(jié)合,但硬件性能的提升現(xiàn)在更多依賴于芯片之間的互聯(lián)。此外,硬件性能的提升并非像宣傳中所說的那樣夸張,而是通過不斷提升數(shù)據(jù)精度實(shí)現(xiàn)的,從最初的高性能計(jì)算到現(xiàn)在的FP64、FP32、FP16、FP8以及FP4,這也預(yù)示著隨著半導(dǎo)體行業(yè)逐漸逼近物理極限,大模型對于算力的提升也要尋找新的突破方式。

同時(shí),GB200 NVL72的液冷機(jī)架以及“超級盒子”DGX SuperPOD的發(fā)布,也為大型模型公司提供了更便捷的“批發(fā)”選擇,極高的性能背后,其不菲的價(jià)格也將進(jìn)一步提振英偉達(dá)未來的營收預(yù)期。

但不可否認(rèn)的是,英偉達(dá)此次發(fā)布的一系列設(shè)備,使得IT部門能夠?yàn)楦饔脩艉凸ぷ髫?fù)載提供出色的性能,成為AI數(shù)據(jù)中心基礎(chǔ)設(shè)施的典范。在更強(qiáng)大算力的支撐之下,人工智能領(lǐng)域的新一輪突破也將指日可待。

(0)
上一篇 2024年3月19日 11:34
下一篇 2024年3月19日 12:09