今天凌晨,英偉達CEO黃仁勛帶來了名為"I AM AI"的線上主題演講,正式宣布推出采用 NVIDIA Hopper 架構的新一代加速計算平臺,同時發(fā)布其首款基于 Hopper 架構的 GPU — NVIDIA H100。
即使告別了我們熟悉的廚房,但黃仁勛照樣給我們端上多道"硬核大菜"。先是搭載全新Hopper架構的H100 GPU,接著是Grace超級芯片,然后依次談到了機器人、自動汽車以及其他軟件更新。
總得來看,英偉達再度將GPU的算力推向了極致,借此加強自身在AI、汽車等領域的實力。同時,英偉達已經為下一波AI浪潮以及無限幻想的元宇宙做好了準備。
800億晶體管的"算力怪獸"
作為AI算力的保障,以及英偉達的"老本行",全新GPU自然是GTC 2022最值得關注的新品。
首先帶來的新品是H100 GPU,該芯片由800億個晶體管構建而成,采用了專為英偉達加速計算需求而優(yōu)化的TSMC 4N工藝,單個H100最大支持40TB/s的IO帶寬。
用黃仁勛的話來說:20塊H100 GPU就可承托全球互聯(lián)網的流量。這足以看出這塊芯片的恐怖算力。
H100同時還集多個首個于一身,包括首款支持PCIe 5.0的GPU,首款采用HBM3標準的GPU,以及全球首款具有機密計算功能的GPU。
相比于上一代Ampere架構的A100,H100帶來了6項突破性的創(chuàng)新:
1、目前世界最先進的芯片。 2、搭載最新Transformer引擎,速度提升至上一代的6倍。 3、第二代安全多實例,可以同時處理不同類型的任務。 4、具備機密計算功能,此前隱私計算只能在CPU上實現(xiàn),但H100成為第一個實現(xiàn)該功能的GPU,可以保護AI模型和正在處理的客戶數(shù)據。 5、支持第4代NVlink,每個NVlink Switch網絡最多可以連接多達256個H100,相較于上一代產品,帶寬高出9倍。 6、Hooper架構引入了名為DPX的新指令集,可加速動態(tài)規(guī)劃,算法速度有了顯著提升。
在H100的幫助下,研究人員和開發(fā)者可以訓練龐大的模型。比如包含3950億個參數(shù)的混合專家模型,訓練速度加速高達9倍,訓練時間從幾周縮短到幾天。
值得一提的是,黃仁勛并沒有過多介紹Hopper架構。該架構以美國計算機領域的先驅科學家Grace Hopper 的名字命名,被單獨用作計算加速使用,而未來推出的RTX 40系列顯卡使用的GPU將基于Ada Lovelace架構。
雖然此次公布的H100與此前的爆料略有縮水,但不妨礙其成為超算界最強引擎,這也稱得上英偉達進一步擴大在AI計算領域領導力的體現(xiàn)。
世界上最快的AI 超級 計算機
借助DFX POD架構與NVlink連接,8塊H100構成了一個巨型AI系統(tǒng)——NVIDIA DGX H100。該系統(tǒng)可以滿足大型語言模型、推薦系統(tǒng)、醫(yī)療健康研究和氣候科學的大規(guī)模計算需求。
你以為這個系統(tǒng)已經很強大了?
基于DGX H100,英偉達推出全球運行速度最快的AI超級計算機——NVIDIA EOS。該超級電腦共配備576臺DGX H100系統(tǒng),共計4608塊DGX H100 GPU,顯存帶寬高達768TB/s,有望成為全球運行速度最快的 AI 系統(tǒng)。而整個互聯(lián)網不過只有100TB/s。
據悉,NVIDIA EOS預計將提供18.4 Exaflops的AI計算性能,這比目前運行速度最快的日本Fugaku超級計算機還快4倍。
為了將數(shù)量龐大的H100連接起來,英偉達還推出了NVlink Switch網絡系統(tǒng)和更強的DFX superPOD架構,這樣就可以連接32個結點、256個H100 GPU。你可以想象成一個"加強版"的DGX H100系統(tǒng)。
黃仁勛說:"對于英偉達的OEM和云計算合作伙伴來說,EOS將成為先進AI基礎設施的藍圖。"
未來,該系統(tǒng)可以為汽車、醫(yī)療健康、制造、通信、零售等行業(yè)提供開發(fā)大型模型所需的AI性能。
未來,該系統(tǒng)可以為汽車、醫(yī)療健康、制造、通信、零售等行業(yè)提供開發(fā)大型模型所需的AI性能。
最強大的AI專屬CPU
在去年GTC大會上,英偉達透露了首款數(shù)據中心專屬CPU Grace,而在今年,這款面向AI基礎設施和高性能計算的超級CPU正式亮相。
這次的Grace有兩個版本,第一個版本叫做Grace-Hopper,是"CPU+GPU結合體,使用NVlink技術連接,帶寬高達900GB/s。
而名為"Grace CPU超級芯片"的版本則由兩個CPU芯片封裝組成,它們之間通過NVlink-C2C連接。整個超級芯片總計144個CPU內核(基于ARMv9指令集),緩存容量396MB,支持LPDDR5X ECC內存,帶寬高達1TB/s。
性能方面,Grace CPU超級芯片的SPECint 2017得分為業(yè)內領先的740分,黃仁勛表示這個性能沒有什么產品可與之媲美,稱贊為"最強大的CPU"。
據悉,借助帶有糾錯碼的LPDDR5x內存組成的子系統(tǒng),Grace CPU 超級芯片可以實現(xiàn)速度與功耗的最佳平衡,帶寬高達1TB/s,整體功耗僅500W。
有趣的是,這套芯片系統(tǒng)展示了NVlink-C2C的強大擴展性,加之英偉達早些時候發(fā)布的UCIe標準(通用小芯片互連傳輸通道),未來用戶采用英偉達產品時,可以像搭積木一樣靈活選擇CPU和GPU的組合。
One More Thing
· Omniverse平臺
在去年CTC大會上,黃仁勛就重點介紹了Omniverse平臺。該平臺為3D設計師提供了一個共享的虛擬世界,他們可以從不同的軟件應用程序和不同的地理位置進行協(xié)作。
今年,英偉達專注于讓個人和企業(yè)更廣泛地使用Omniverse平臺。新的Omniverse Cloud使創(chuàng)作者能夠即時訪問Omniverse,即使他們沒有基于Nvidia RTX的系統(tǒng)。同時推出的Omniverse OVX則是一個旨在滿足大規(guī)模仿真需求的計算系統(tǒng)。
·自動駕駛汽車
作為英偉達在AI領域的重要探索,汽車產品線將在未來六年內增加至超過110億美元。
本次,英偉達推出了最新版本的Hyperion 9自動駕駛平臺,這既是Nvidia DRIVE Orin平臺的基本架構,也是英偉達用于自動駕駛汽車的硬件架構。據悉,該平臺將有14個攝像頭、9個雷達、3個激光雷達和20個超聲傳感器,將于2026年投入使用。
有趣的是,黃仁勛透露了已經采用DRIVE Orin平臺的廠商,其中,中國廠商占據了不少席位,而比亞迪也將從2023年上半年開始采用DRIVE Orin平臺。
結語
除了上述更新外,英偉達還推出了機器人平臺、AI計算基礎架構、醫(yī)療儀器平臺以及六款使用Ampere架構的全新RTX GPU,產品線可謂十分豐富,這里就不再過多介紹。
總得來看,英偉達一直在緊跟兩條主線前行,一條是AI,另一條則是Omniverse平臺。
雖然這次黃仁勛并沒有直接點名元宇宙,但無處不在的TJ(黃仁勛數(shù)字替身)還是展示出英偉達對于元宇宙的重視程度。