AMD EPYC(霄龍)處理器提供了絕佳的PCI-E和內存帶寬,幫助加速了大型強子對撞機的亞原子粒子研究
科學是依據實驗數據對理論進行檢驗的過程。但是,如果測試設備包含歐洲核子研究組織(CERN)大型強子對撞機 (LHC)的粒子探測器,則原始碰撞數據每秒將多達40TB。許多碰撞數據無關緊要,因此,首先要做的是在信息到達時進行篩選,并提取出最有可能提供關鍵洞察數據的相關結果。這是一項繁重的高性能計算任務,需要使用盡可能最強大的服務器硬件。
“借助 AMD EPYC(霄龍)CPU,我們能夠持續(xù)數天顯示來自服務器的每秒 1 TB 以上的數據。在服務器上而不是像過去那樣需要超級計算機才能實現這一過程是種重大進步?!?/p>
Niko Neufeld,CERNLHCb在線計算項目負責人
CERN為即將在2021年進行的大型強子對撞機重啟已經做了很長時間的準備,并且一直在尋找能夠滿足海量數據吞吐量處理需求的硬件平臺。CERN LHCb在線計算項目負責人Niko Neufeld解釋說:“我們需要將每臺服務器的數據保存到每臺服務器上。這就像拼圖一樣。在拼完一塊圖之后,必須對所傳入的全部數據進行此項操作。這對I/O帶來了棘手的挑戰(zhàn)?!庇谑牵琋eufeld選擇了第二代AMD EPYC處理器,原因是該產品能夠提供實驗所需的處理性能、內存速度和帶寬。
完成美麗的拼圖
Neufeld進行的實驗名為LHCb。Neufeld解釋說:“字母B表示beauty(美麗)。這是自然界中六類夸克之一,也是我們研究的主要目標之一。”夸克是一種基本粒子,是物質的基本組成部分??淇私Y合在一起,形成稱為強子的復合粒子,其中最穩(wěn)定的元素是質子和中子。
LHCb實驗旨在調查大爆炸后發(fā)生了什么,使物質得以生存,并形成了我們今天所知道的宇宙。觀察美夸克衰變的行為有助于解釋為什么宇宙主要由物質而非反物質構成。Neufeld補充說:“在美夸克中,這種差異要比其他夸克更為明顯。”
實驗通過將強子與LHCb檢測器碰撞而產生了美夸克,但它們壽命很短,必須迅速收集數據才能對其行為進行檢測。原始數據流首先由進行初始詮釋的定制FPGA卡處理。Neufeld說:“每臺服務器都映射到不同地理位置的檢測器。檢測器劃分為不同的部分,然后,每臺服務器以點對點方式連接到檢測器的這一部分。但是,接下來需要將所有數據片段放在同一個位置,因為只有這樣才能對這些內容進行有意義的計算。”
Neufeld繼續(xù)說:“單臺服務器無法完成數據處理任務,因此,您需要進行數據的全交換。”這項活動需要快速處理數據,采用高帶寬訪問大量內存,以及與負責將服務器彼此連接的I/O設備快速連接。對于后一種情況,LHCb的每臺服務器使用四個Mellanox 200Gbit InfiniBand適配器,而這些適配器需要通過盡可能最快的互連而實現全容量運行。Neufeld表示:“數據來自不同方向,而且這些數據由不同的服務器處理,然后,這些數據必須匯總在一起?!?/p>
AMD+LHCb案例研究
AMD EPYC處理器提供了超高速I/O和內存
“目前,沒有可與AMD EPYC設計相媲美的商用替代設備,也沒有其他平臺能夠提供這么多具有Gen4能力的插槽以及如此強大的運行能力。因此,第二代AMD EPYC CPU平臺具有架構優(yōu)勢?!?/p>
Niko Neufeld,CERN LHCb在線計算項目負責人
LHCb過去曾經使用過AMD Opteron處理器,而且Neufeld已經在工作流的最后階段測試了基于第一代AMD EPYC處理器的服務器,其中來自收集器的數據通過打包以供與LHCb實驗相關的各級研究機構使用。這次嘗試提供了積極的經驗,而且第二代AMD EPYC CPU對產品規(guī)格進行了改進,使其成為更密集數據采集階段的極具吸引力的解決方案。
AMD EPYC CPU的高內核數對于數據處理非常有益,而對128個PCI Express 4.0通道的支持更是一項出色的功能,使每臺服務器中的四個Mellanox網卡能夠無瓶頸地運行。Neufeld說:“借助 AMD EPYC(霄龍)CPU,我們能夠持續(xù)數天顯示來自服務器的每秒 1 TB 以上的數據。在服務器上而不是像過去那樣需要超級計算機才能實現這一過程是種重大進步?!?/p>
Neufeld表示:“系統(tǒng)總內存池也很重要。傳入的數據量非常多。數據無法從FPGA卡直接傳輸到網卡,而是必須進入主內存然后返回。另外,我們還需要大量的內存。”LHCb的每臺服務器采用512GB內存。Neufeld繼續(xù)說:“Rome平臺滿足這一需求,因為它提供了多個內存通道,并且支持極快帶寬。這是一個高度平衡的平臺。”由于采用8TB 3200MHz DDR4,第二代AMD EPYC CPU可完美滿足RAM要求,與PCI Express總線的能力相當。
AMD EPYC CPU的擴展空間
從2019年5月到9月,CERN對第二代AMD EPYC CPU平臺進行了認證,然后選擇將其作為LHCb實驗的解決方案。Neufeld解釋說:“該解決方案使我們將服務器數量減少了三分之一。這不僅節(jié)省了成本,而且在構建高速、低延遲的網絡時減少服務器數量也是一個優(yōu)勢。更大規(guī)模的網絡會遇到更多的沖突問題。系統(tǒng)越緊湊就越好。”
AMD EPYC CPU將為LHCb提供進行進一步開展試驗所需的升級途徑?!拔覀儾痪邆銰oogle或Facebook的計算能力,但AMD EPYC CPU使我們能夠在相對較小而且緊湊的系統(tǒng)中進行所需的處理工作。這在10-15年前是不可能實現的?,F在,我們有了擴展的空間。借助相同的EPYC技術,我們可以在同一空間內將容量增加一倍。在接下來的幾年,我們的計劃是增加探測器和傳感器的數量。這將為我們提供很大的擴展空間。EPYC使我們能夠做更多事情?!?/p>
Neufeld總結說:“目前,沒有可與AMD EPYC設計相媲美的商用替代設備,也沒有其他平臺能夠提供這么多具有PCIe Gen4能力的插槽以及如此強大的運行能力。因此,第二代AMD EPYC CPU平臺具有架構優(yōu)勢?!?/p>