<acronym id="bjpda"></acronym>
      <span id="bjpda"><output id="bjpda"><nav id="bjpda"></nav></output></span>
    1. <span id="bjpda"><blockquote id="bjpda"></blockquote></span>

    2. 大量硬件故障,無法上線!美國世界第一超算遇到大麻煩

      2022-10-09 12:03:17 來源:EETOP

      建造一臺超級計算機總是具有挑戰性的,但創造業界首個百億億級(E級)系統更是會遇到完全出乎意料的遭遇,需要在硬件和軟件方面進行大量工作。不幸的是,這種情況發生在了目前全球超算排名第一的橡樹嶺國家實驗室(Oak Ridge National Laboratory)Frontier超級計算機上,它幾乎每天都會出現大量硬件故障。

      圖片

      ORNL的Frontier是業界首個設計用于提供高達1.685 FP64 ExaFLOPS峰值性能的系統,使用AMD的64核EPYC Trento處理器、Instinct MI250X計算GPU和HPE的Slingshot互連,功率為21兆瓦(2萬千瓦)HPE 構建了系統并使用了 Cray EX 專為橫向擴展應用設計的架構,主要用于超高速超級計算機。

      雖然從紙面上看,Frontier超級計算機看起來特別好,而且機器系統的硬件部分已經交付,但似乎硬件方面的問題一直在阻止機器上線,并且無法提供給需要大約 1 FP64 ExaFLOPS 性能的研究人員使用。

      橡樹嶺領導力計算設施(OLCF)的項目主管Justin Whitt在接受InsideHP的采訪時表示:“我們正在解決硬件方面的問題,并確保我們理解具體是什么問題。為何會遇到如此規模的失敗,導致這種規模的系統的平均故障間隔時間是幾個小時,而不是幾天。"

      關于Frontier的潛在硬件故障的傳言已經流傳了很久。根據InsideHPC的另一篇報道,有人說該系統在Slingshot互連上遇到了問題。此外,還有人表示,AMD的Instinct MI250X計算GPU今年并不像預期那樣可靠。請記住,擁有更多流處理器和高時鐘的X版本只向特定客戶提供。

      Whitt沒有證實該系統遇到了 Instinct 或 Slingshot 的任何特定問題,但他強調該機器存在許多硬件問題。

      “很多挑戰都集中在這些 GPU 上,但這并不是我們所看到的大部分挑戰?!?OLCF的負責人說。"在零部件故障的常見罪魁禍首中,這是一個相當好的分布,因為GPU是一個很大的組成部分。我不認為在這一點上,我們對AMD的產品有太多擔憂。"

      到目前為止,橡樹嶺國家實驗室的 Frontier 超級計算機并不是唯一一個使用 HPE Cray EX 架構和 Slingshot 互連、AMD EPYC(霄龍)CPUAMD Instinct 計算 GPU 的系統。例如, 芬蘭的 Lumi 超級計算機 (Cray EX、EPYC Milan、Instinct MI250X 計算 GPU)提供了 550 PetaFLOPS 的峰值性能,并被 正式列為 世界第三強大的超級計算機。

      只有時間才能證明最初承諾于 2022 年上線的 Frontier 超級計算機是否會在 2023 年開始提供給研究人員,因為它仍未正式部署。

      原文:

      https://www.tomshardware.com/news/worlds-fastest-supercomputer-cant-run-a-day-without-failure

      1. EETOP 官方微信

      2. 創芯大講堂 在線教育

      3. 創芯老字號 半導體快訊

      相關文章

      全部評論

      • 最新資訊
      • 最熱資訊
      @2003-2022 EETOP

      京ICP備10050787號   京公網安備:11010502037710

      亚洲无码免费看

        <acronym id="bjpda"></acronym>
          <span id="bjpda"><output id="bjpda"><nav id="bjpda"></nav></output></span>
        1. <span id="bjpda"><blockquote id="bjpda"></blockquote></span>