在高效能運算(HPC)領域,除了歷史最久、也最廣為人所知的TOP500排行榜,以及隨著節能減碳趨勢、能見度日益提高的Green500排行榜,隨著AI、機器學習等應用帶來的龐大資料集存取需求,I/O效能成為影響高效能運算應用的關鍵環節,因此針對儲存效能的IO500排行榜,日漸受到重視,可望成為HPC領域的重要指標之一。

了解高效能運算應用4大必看的排行榜

隨著HPC應用面向的變化,陸續出現了不同的效能排行指標,以便更精準的衡量HPC系統面對不同應用情境的表現。目前最重要的排行榜有這4個:TOP500、Green500、Graph500與IO500。

TOP500是其中歷史最久、知名度也最高的高效能運算排行榜,每半年發布一次,以浮點運算能力來為全球的超級電腦排名。TOP500不僅是HPC領域最重要的排行指標,許多非專業人士也十分關注這個排行榜的變化,甚至還帶有政治意含,被視為國家威望的象徵與指標之一。

其次是Green500,不同於單純以運算能力論高低的TOP500,Green500電力消耗效率來排名,也就是每瓦功率消耗所能得到的運算能力,同樣是每半年發布一次。

接下來是Graph500,同樣也是為了因應TOP500排行榜的不足而誕生。基本上,TOP500衡量運算能力的基準是浮點運算效能,但隨著大量資料的處理,在HPC領域的應用不斷增加,涉及不同的運算需求,連帶也誕生了以圖形探索效能(graph exploration performance)為基準的新指標,也就是Graph500,每半年發布一次。

最後,是歷史最短的IO500,目的是評估HPC系統的儲存系統效能,包括當期大會榜單、總榜單與10節點測試榜單等類別,每半年發布一次。

IO500指標的興起

在高效能運算的4大排行指標中,IO500堪稱最另類,因為,TOP500、Green500與Graph500等3個指標雖然各有側重點,但評比基準都是圍繞著運算能力為核心,IO500則不同,是以評估I/O處理能力為目的。

而且,IO500之所以受重視,與AI、機器學習在HPC應用的興起密不可分。因為,這類涉及龐大資料集的反覆讀取與分析,例如GPT-3訓練模型的原始資料集,資料量便高達45TB之譜,也極為考驗處理系統的I/O效能,所以,儲存系統的效能,也在這類應用中,成為決定整體效能的關鍵,然而以往的HPC排行指標,並無法反映I/O面向的效能表現。

對此,HPC領域的專業社群The Virtual Institute of I/O(簡稱VI4IO),在2017年11月制定出一套衡量HPC系統儲存效能的基準測試,也就是我們這次主要介紹的IO500。

這套基準測試主要評估兩大指標:頻寬(GiB/s)、meta-data的I/O處理效能(KIOPS),前者針對的是大型檔案持續高速傳輸能力,後者則涉及不同類型資料的隨機存取能力。為了反映實際應用的情境,IO500還執行一項10節點測試項目,針對用戶端節點數量不超過10個的情況下,來評估儲存系統的表現。

儲存業界競爭的新焦點

相較於TOP500,IO500在專業領域之外並沒有太多知名度,但在HPC儲存系統業界,IO500已成為權威標準,而且,ㄧ些新創儲存廠商,也藉由在IO500的突出表現而聞名。例如,這2、3年來聲勢大漲的WekaIO,便是以SC19大會取得IO500榜首成績而聲名大噪。

另一方面,IO500也是完全不同於TOP500的生態系,因為,在這份榜單中,並沒有多少TOP500超級電腦的身影,而且,IO500針對的大資料分析處理應用,與TOP500著重的傳統高效能運算負載,有很大差異。

在IO500榜單中扮演要角的儲存供應商中,包含Intel、DDN、Dell EMC等傳統ㄧ線大廠,以及WekaIO、Vast Data、Qumulo等新創廠商,另一個近來值得注意的現象,則是中國廠商在IO500的崛起。

在2019年以前,IO500榜單中還沒有許多中國廠商,在2019到2020年間,IO500的焦點是兩家廠商的競爭:WekaIO在SC19大會奪得IO500榜首,Intel則在ISC20大會重奪第一。中國雖然有浪潮在10節點項目取得不錯成績,但整體來說,還不顯眼。

但接下來從SC20大會開始,中國廠商與研究單位便占據IO500的顯著位置。在最新的SC21與ISC21的IO500排行榜中,前3名都是中國研發的系統,例如,榜首是中國鵬城實驗室(Pengcheng Laboratory)的Cloudbrain-II (鵬城雲腦Ⅱ)系統,第2、3名分別是華為打造的Athena與OceanStor Pacific。

事實上,在當前IO500的前15名,中國廠商或研究單位就占6席,這也反映了與其他HPC排行榜相同的趨勢,那就是:唯有經費資源充分的單位,才能在這個領域立足。

臺灣廠商方面,則有雲達(QCT)基於Intel DAOS打造而成的QCT DevCloud,在SC21的IO500排行榜,取得第16名的成績(採用10節點測試),也算是相當傑出的表現。

根據今年11月SC21大會發布的IO500排行榜,前4名都是中國相關機構或廠商打造的系統,例如,位居第1的是中國鵬城實驗室的鵬城雲腦Ⅱ。第2、3名都是華為基於OceanFS打造的系統,位居第4的華為雲也是中國的系統。

 

從IO500看儲存架構的消長

除了儲存供應商勢力的消長,我們從IO500榜單也能看出HPC領域的儲存架構演變,特別是在儲存作業系統,以及傳輸介面等兩個方面來分析,態勢更為顯著。

幾年前,Intel主推的DAOS與Lustre,是IO500最普遍使用的兩種儲存作業系統,然後是基於IBM GPFS/ SpectrumScale的系統;而網路介面則是以InfiniBand居多,Omnipath次之,然後才是乙太網路。

然而,到了現在,情況已改變不少。以SC21發布的IO500榜單來看,Intel DAOS與Lustre仍是IO500使用最普遍的檔案系統,採用的系統占整份榜單的比例近40%,但使用這兩種系統的排名,已經較前幾年大為降低。回顧1、2年前,基於DAOS的系統曾多次取得榜首,基於Lustre的系統也曾拿下第3名。而到了SC21,使用DASO與Lustre的系統中,最佳名次分別只達到第5名與第12名。而這2年來聲名大噪的WekaIO WekaFS,最高名次也只拿到第9。

當前位居第1的是MadFS檔案系統,由中國清華大學電腦科學與技術系存儲系統團隊研發,並將其應用在鵬城雲腦Ⅱ。接下來2、3名的系統,則都是基於華為OceanFS。

關於網路介面的搭配,最值得關注的是乙太網路的崛起,使用的系統數量已超過Omnipath,事實上,榜單前3名的系統,全都是使用乙太網路。在IO500榜單使用乙太網路的送測系統中,至少有4套是使用100Gb乙太網路,這些現象也顯示乙太網路在HPC領域興起的趨勢,與TOP500近來的情況一致。

但受限於IO500榜單提供的資訊完整度不足,我們難以對各系統的網路介面規格作進一步的統計(IO500對送測系統的資訊記載頗為凌亂,對同ㄧ檔案系統有不同名稱,規格細節也不統一,許多送測系統未完整登錄規格,只簡單標出乙太網路或InfiniBand,而沒有進一步標出使用的是哪種規格的乙太網路與InfiniBand)。

 

 


熱門新聞

Advertisement