ふと疑問に思ったことはありますか?
数十万もする AI アクセラレーションカードで、数千億パラメーターの大規模モデルのトレーニングをフルパワーで実行中、電力網がたった 50 ミリ秒揺れただけで、何が起こるのでしょうか?
「画面が一瞬止まった」程度では済みません。トレーニングの進捗がゼロにリセットされ、3 日間の努力が水泡に帰すのです。
これは大げさな話ではありません。国内の大手クラウド企業が昨年公表したデータによると、電力供給品質の問題によるトレーニングクラスターの中断は、1 回あたり平均約 17 時間の有効トレーニング時間の損失を引き起こします。計算力コストに換算すると、1000 基規模のクラスターが 1 回中断するだけで、高級ミッドサイズセダン 1 台分の費用が飛びます。
今日はこの観点から、AI チップがいかに「電力にうるさい」か、そしてなぜ地味なホール閉ループ電流センサーが、この連鎖の最後の防衛線を担う重要な部品になるのかを解説します。

まず、電源業界の用語である「電圧リップル許容度」を説明します。
家庭用エアコンや冷蔵庫といった一般家電は、供給電圧が定格値の ±10% 変動しても、基本的に使用に影響はありません。サーバー用電源は基準が高く、動的応答はミリ秒レベルが求められます。しかし、AI トレーニングチップとなると、状況は一変します。
現在主流の AI トレーニングカードを例に挙げます。
換算すると、1V 供給時の ±1% リップル許容幅は ±10 ミリボルトになります。イメージしやすく言うと、スマートフォンの充電ケーブルの接触不良で生じる電圧変動でさえ、この幅を超える可能性があります。
これが AI チップに「電圧潔癖症」と呼ばれる理由です。消費電力は莫大だが、電力の品質に極めてうるさい「電力を食らう虎」なのです。少しでも条件が合わなければ、軽微な演算エラーやデータの静かな破損、最悪の場合チップが保護機能を作動させて停止します。
大規模モデルのトレーニングで最も恐れるのは、電気代の高さではなく、トレーニング開始から 15 日目に電圧の瞬間変動でチェックポイントが全て無効になり、最初からやり直しになることです。
多くの人は、UPS を「大型モバイルバッテリー」—— 商用電源が途絶えた時に代わりに電力を供給するもの、と認識しています。
この理解は正しい部分もありますが、完全ではありません。
AI データセンターにとって、UPS の真の価値は「電気を供給すること」ではなく、「純粋な電気を送り出すこと」です。商用電力網の波形には、高調波、サージ、過渡変動などのノイズが多く含まれています。UPS はこれらのノイズを除去し、後段の機器にきれいな正弦波を出力する役割を担います。
UPS の内部動作は、簡単に言うと 3 ステップです。交流入力 → 直流に整流 → きれいな交流に逆変換して出力
最も負荷がかかる工程は「逆変換」です。インバーターはリアルタイムで「現在の出力電流はいくらか?波形は正常か?歪みはないか?後段の負荷が急激に電流を引き上げたら、追従できるか?」を把握する必要があります。
これらの情報を提供するのが ——電流センサーです。
センサーが電流信号を取得してコントローラーに送り、コントローラーはこの信号を基にスイッチング素子の導通時間を調整します。この一連の閉ループ制御は、速いもので数十マイクロ秒、遅いものでも数百マイクロ秒ごとに実行されます。
問題は、センサーが取得する信号が不正確、遅延、高温でドリフトする場合、コントローラーは正しく調整できなくなることです。
センサーの検出精度低下 → コントローラーの調整不良 → 出力波形の歪み → AI チップの故障
この連鎖の各段階で誤差が増幅され、最終的に高価な演算ハードウェアに影響を及ぼします。だから電流センサーは UPS の「神経末端」と言えるのです。電力を出力するわけではないが、電力の品質を決定する部品なのです。
電流検出方式には、シャント抵抗式、開ループホール式、閉ループホール式などがあり、それぞれ適用場面が異なります。しかし、ハイエンド UPS の逆変換出力部では、閉ループホールセンサーが第一選択であるという業界の共通認識があります。
理由を比較で説明します。
精度が磁心材料の B-H 曲線に依存します。温度が上昇すると磁心の特性が変化し、出力信号がドリフトします。また、大電流時の非線形誤差が顕著で、制御ソフトウェアに複雑な補償アルゴリズムを実装する必要があり、手間がかかる上に精度が保証できません。
** 磁気平衡原理(ゼロ磁束原理)** を採用しています。一次電流が発生する磁場に対し、二次コイルに逆方向の電流を流し、一次側の磁場を完全に打ち消します。ホール素子は磁場の強さを直接測定するのではなく、「磁場がゼロになったかどうか」を検出します。二次電流は一次電流に比例し、精度は巻数比とサンプリング抵抗で決まり、磁心の非線形性の影響をほとんど受けません。
この原理による 2 つの大きなメリット:
精度が磁心に依存しない磁心は常にゼロ磁束点付近で動作するため、B-H 曲線の影響を回避できます。直線性に優れ、全測定範囲で精度を ±0.3%、±0.5% に実現できます。
温度ドリフトが極めて小さい原理上、温度の影響を受けにくいため、開ループ式のように温度補償を追加する必要がありません。AI データセンターは 24 時間フル稼働し、UPS キャビネット内部は常時 40~50℃の高温環境です。低温ドリフトにより、年間を通じてサンプリング信号の安定性が保たれます。
さらに見落とされがちな点:閉ループ式は応答速度が速く、帯域幅は 200kHz クラスに達します。大規模モデルのトレーニング時は負荷変動が激しく、瞬間電流の変化幅が大きく速度も速いため、センサーの追従性能がコントローラーの即時応答を左右します。
自社製品について説明します。芯森には、この用途に最適な複数の閉ループホールセンサーをラインナップしています。
選定は UPS の容量クラスとコスト予算に基づきますが、核心的な考え方は同じです。AI データセンターの電力供給機器では、センサーの精度を削るべきではないということです。
実験室で比較試験を実施した結果、同じ UPS プラットフォームで開ループ式と閉ループ式を同じ恒温槽で運用し、常温から 55℃まで昇温した場合、開ループ式は出力偏差が明らかに増大したのに対し、閉ループ式はほぼ変化しませんでした。これは原理の違いによる差であり、パラメータ調整で補えるものではありません。
業界には「AI の最終形は演算力、演算力の最終形は電力」という言葉が広く流れています。
私はこの言葉に、1 文を追加したい。「電力の最終形は、精密な検出と制御」。
多くの人が演算インフラについて議論する際、チップ、光モジュール、液冷といったホットワードばかり話題にします。しかし、現場で運用に携わるエンジニアは知っています。クラスター全体がダウンする原因の多くは、チップの故障やネットワークの断線ではなく、地味な電力供給部品の不具合 —— 例えば、UPS の電流サンプリング信号がドリフトし、出力波形が歪んで下流機器の保護機能を作動させた、というケースです。
この種の故障は調査が最も難しく、見落とされやすいトラブルです。
だから、大規模モデルが驚くべきトレーニング結果を達成した時、キャビネットの奥で 24 時間電流変動を監視し続けるセンサーの存在を思い出してみてください。演算力を生み出すわけではないが、演算力を安定稼働させるために欠かせない部品なのです。
これが精密検出の意義 ——目に見えないが、離れられない存在です。