- 1 : 2025/10/16(木) 21:41:55.26 ID:fnqBFQSq0
なぜサーバーを冷やすか、富岳のCPUボード「2~3日に1個は故障」
なぜサーバーを冷やすか、富岳のCPUボード「2~3日に1個は故障」データセンターの冷却技術について取材する中で、印象的な話を耳にした。理化学研究所と富士通が開発したスーパーコンピューター「富岳」のCPU(中央演算処理装置)が載るメインボードは、およそ2~3日に1個の頻度で偶発的に壊れているというのだ。xtech.nikkei.com- 2 : 2025/10/16(木) 21:42:18.64 ID:fnqBFQSq0
- データセンターの冷却技術について取材する中で、印象的な話を耳にした。理化学研究所と富士通が開発したスーパーコンピューター「富岳」のCPU(中央演算処理装置)が載るメインボードは、およそ2~3日に1個の頻度で偶発的に壊れており、その都度、富士通のサービスエンジニアが交換しているというのだ。
もちろん、富岳に信頼性の問題があるという趣旨の話ではない。2021年に稼働した富岳は、約16万個のCPUを使う巨大システムである。メインボードで想定される故障が数百年に1度というまれな事象であったとしても、16万個ものCPUが同時に動いていれば、2~3日に1個は故障が発生するという話である。
サーバーの「親玉」とも言えるスパコンを例にこう説明するのは、富士通の前田秀樹氏(ミッションクリティカルシステム事業本部サステナブルテクノロジー事業部シニアディレクター)。一般的なサーバーとスパコンである富岳とでは事情が異なる部分もありそうだが、データセンターにおける冷却の重要性を理解する上で、興味深い話だと感じた。
昨今、データセンターではAI(人工知能)向けのサーバーを中心に、消費電力の増大が見込まれている。米NVIDIA(エヌビディア)の最新のGPU(画像処理半導体)を搭載するAIサーバーは、1ラック当たり100kWを超えるとの話も出てきたほどだ。
そうした背景から、サーバーメーカー各社は冷却性能を強化した水冷モデルの拡充を図っている。サーバーの高密度化や省エネルギー化といったメリットをアピールする。
当初、筆者はそれらの宣伝に気を取られていたが、コンピューターを冷却する第一の目的を考えてみると、まずは故障せず、正常に稼働し続けることのはずである。恥ずかしながら、取材の過程で気付かされた。
- 3 : 2025/10/16(木) 21:42:53.79 ID:fnqBFQSq0
- スパコンってすげぇ贅沢な仕様なんだな
早々壊れる様なパーツって印象無いんだけどな - 4 : 2025/10/16(木) 21:44:41.29 ID:1zhUqvvQ0
- 富岳の故障頻度、たしかに気になるけど、半導体の微細化と熱密度を考えれば避けられない宿命とも言えるかもな
- 5 : 2025/10/16(木) 21:45:59.33 ID:E4lKc4eAM
- エレクトリックマイグレーションとチップの微細化とかあるんですかね
- 6 : 2025/10/16(木) 21:46:43.09 ID:yaRfJk4T0
- 富士通?
なんの会社なの?
本当に物を作ってるの? - 7 : 2025/10/16(木) 21:47:20.72 ID:fnqBFQSq0
- ボードのコンデンサとかにすげぇ負荷掛かってんのかな?
- 9 : 2025/10/16(木) 21:47:50.70 ID:QoyCNAH40
- そりゃ何万とあるんだからそうなる
- 10 : 2025/10/16(木) 21:48:16.15 ID:g51Wo9/a0
- 凄い勢いで壊れるんだな
欠陥品では? - 11 : 2025/10/16(木) 21:48:16.53 ID:HllsphwA0
- 最後に役に立ったの見たのって飛沫やエアロゾルの飛散の様子ぐらいしか記憶にない
- 13 : 2025/10/16(木) 21:49:26.18 ID:hQd7u2fT0
- 冷却水の電気代を考えれば安いとかなんじゃないの?(´・ω・`)
- 15 : 2025/10/16(木) 21:51:33.23 ID:nhWttcCN0
- データセンターが僻地に設置できない理由がこれ
電力以外にもめちゃくちゃ部品を食い続ける - 29 : 2025/10/16(木) 22:45:24.18 ID:TdrsBoWW0
- >>15
?
在庫しとけばいいだけじゃん - 30 : 2025/10/16(木) 22:45:38.16 ID:/LRDCZRA
- >>15
べつに壊れてから部品発注して海外まで調達に行くような「今出ました」の世界ではないので
破損が見込まれるパーツはセンター内に確保して運用するに決まってるし
破損率もメーカー側の主張するMTBFとか鵜呑みにせずに自前で統計取ってストックどれだけ確保するかとかシビアな世界 - 17 : 2025/10/16(木) 21:56:30.92 ID:Z6ILb0ue0
- 16のマ●コ
- 20 : 2025/10/16(木) 22:01:22.75 ID:N/ac2rTK0
- 冷却と言えばオーバークロック
- 21 : 2025/10/16(木) 22:06:06.85 ID:TeJQmGN3M
- 16万個で2~3日で1個壊れてるなら、
単体だと1000年に一度壊れるCPUじゃないの? - 23 : 2025/10/16(木) 22:14:17.66 ID:YJ5ceL820
- どうぶつ王国
- 24 : 2025/10/16(木) 22:15:43.02 ID:/3dmQ78p0
- わざとじゃねーよな?
- 25 : 2025/10/16(木) 22:17:28.88 ID:jhG8nceV0
- で、富岳って何をそんなに計算してんの?マジで。
- 26 : 2025/10/16(木) 22:30:33.77 ID:Mv6SiUjz0
- ただの金食い虫?
- 27 : 2025/10/16(木) 22:35:48.11 ID:g9YIy2dq0
- 富嶽さえ間に合っていればアメリカとソ連に勝てたのに
- 28 : 2025/10/16(木) 22:40:55.37 ID:/LRDCZRA
- >>1
自動で検出してアラートが飛んで、交換用のシステムボード抱えたエンジニアが24h385dいつでも飛んできて
CPUボードさえ活線挿抜で交換するやつだろ昔からあるよ、メインフレームなら珍しくもない。AS400とか懐かしい
日本が誇るスーパーコンピュータ【富岳】2~3日に一個はCPUボードが破損
嫌儲


コメント