ACROFAN

2世代Xeonスケーラブルプロセッサ技術概要

記事公開日時 : April 23, 2019, 11:50 pm
ACROFAN=權 容滿 | yongman.kwon@acrofan.com | SNS
Intelは3月5、6日の両日間米国Oregon州HillsboroのIntel Jones Farm Campusで「Intelデータセントリックプレスワークショップ(Intel Data-Centric Press Workshop )」を開き、データ主導時代のためのIntelのソリューションポートフォリオを紹介した。この場では次世代Xeon ScalableプロセッサとOptane DC Persistent Memoryなど、次世代プロセッサとプラットフォームの技術的な特徴が紹介された。

IoTとクラウド、5Gと人工知能に至るまでさまざまなIT技術の変化は爆発的なデータの増加傾向を作り出しており、このデータを扱う能力が競争力に接続されている。これと共にITインフラもまたクラウドコンピューティングへの移動とAI、分析の活用増加、ネットワークとエッジのクラウド化などが変化の需要を導いている。Intelはこの「データ主導」時代に総規模2000億ドルの歴代最大規模の市場機会があると予想し、この市場に対応するためにすべてのことを処理しより多くのことを保存して、より迅速に移すことができる、ソフトウェアとシステムレベルに最適化されたソリューションを提供するという計画を紹介した。

Intelはこの「データ主導」時代のための新しいポートフォリオとして、2世代Xeon Scalableプロセッサと新しいXeon Dプロセッサ、Agilex FPGA、Optane DC Persistent MemoryとOptane DC SSD、QLC 3D NANDベースのDCシリーズSSD、 800シリーズのイーサネットアダプタなどを紹介した。新しいXeonプロセッサScalableプロセッサとOptane DC Persistent Memory、Optane DC SSD、イーサネット技術などはシステムレベルで緊密に結合され、ソフトウェアレベルの最適化により多様なワークロードで優れた性能と効率を提供することができるものと期待されて、検証された最適化構成の「Intelセレクトソリューション」を通じてこれらの技術革新をさらに迅速に享受できるようにすると発表した。

▲コード名「Cascade Lake」として知られている2世代のXeonスケーラブルプロセッサ

▲「Cascade Lake」のリードアーキテクトを務めたIan Steiner

▲2世代のXeonスケーラブルプロセッサの主な技術的特徴

コード名「Cascade Lake」として知られている2世代のXeonスケーラブルプロセッサについての説明は、2世代のXeonスケーラブルプロセッサのリードアーキテクトを務めたIan Steinerが務めた。彼はまず7年前に「Sandy Bridge」ベースのXeon E5-2600シリーズが披露されたときと今の状況を比較すると、その当時にはクラウド化の初期段階であれば今はすべての領域にクラウドが活用されており、当時は電力消費量が重要であった反面今はこのような部分まで全て「費用」で計算していると紹介した。また、集中的に演算能力を必要とするところはHPC以外にも分析とAIなどで増えて、ワークロード最適化カスタムプロセッサもまた活用が増えたと付け加えた。

2世代のXeonスケーラブルプロセッサは既存の「Skylake」アーキテクチャが持つ特徴やプラットフォームをベースにより強化された性能と拡張性、効率などを提供することが特徴である。メモリサポートの場合16Gb DDR4支援によって従来より支援容量が二倍に増え、メモリコントローラの動作速度はDDR4-2933まで高まった。これと共にAVX-512 VNNIとDL Boost技術を通じてAI推論性能を大幅に高めた。この他にもOptane DC Persistent Memoryのサポートや今まで知られているメルトダウン、スペクターなどの脆弱性に対するハードウェアレベルの対応が適用され、14nmプロセスを使用しているがより高い動作速度と電力効率を達成できるように改善があったと付け加えた。

2世代のXeonスケーラブルプロセッサは8200シリーズでは最大28コア構成を、9200シリーズでは最大56コア構成を提供し、キャッシュ構成やダイ間接続のための最大3つの10.4GT/s UPI接続し最大48レーンPCIe接続などの特徴はそのまま維持される。メモリの場合6チャンネルDDR4-2933試演で動作速度が高まり、16Gb DDR4支援で最大支援容量も高くなり、Optane DC Persistent Memoryを使用する場合プロセッサあたり最大4.5TBメモリ構成をサポートする。ベクトル演算ではAVX-512を通じて単一サイクルに16 DP、32 SP、DL Boostを活用した128 INT8 MACsの処理が可能である。

2世代のXeonスケーラブルプロセッサ製品群で初めて披露するXeonプラチナム9200シリーズプロセッサは一つのパッケージに2つのプロセッサダイを構成し、これをUPIで結ぶ形である。最大2つのプロセッサ構成をサポートするXeonプラチナム9200シリーズはデュアルプロセッサ構成時に論理的には従来の4ソケットシステムと同様だが、遅延時間の面やより小さなフォームファクタでより高いコンピュート密度を構成できるという点などで利点を持つ。メモリコントローラの場合二つのダイの両方を活用したプロセッサあたり12チャネル構成で最大281GB/sの帯域幅を提供する。Xeonプラチナム9200シリーズはマザーボードにBGAで接合された形で供給されてTDPは250〜400W程度に達する。

▲VNNIは既存の3サイクルがかかっていた推論関連演算を1サイクルで終了できるようにする

▲ソフトウェア最適化とハードウェアサポートを通じて大幅な推論性能向上を期待することができる

ディープラーニング環境で主に使用される行列の掛け算は多数の行と列を掛けた値を一つの値で集める作業である。そして伝統的なHPCやAIトレーニングワークロードではここに浮動小数点演算を使用したが、この場合可能な値の範囲が大きいのが性能の足を引っ張る要因であった。そして推論にFPの代わりにINT8を活用する場合は考慮すべき値の範囲自体が大幅に小さくなり、より少ない掛け算を通じたより高い電力効率、キャッシュとメモリサブシステムの負担軽減などが利点と選ばれた。2世代XeonスケーラブルプロセッサでAVX-512とVNNIを使用する場合、INT8値を受けてINT32に出力する演算でAVX2対比4倍の性能向上が可能なほどだ。

従来はINT8値を入力してINT32の結果を得るが、掛け算とアップコンバート、蓄積(accumulate)の三段階を経て結果を取り、最大128個のMACをコアごとに2つのポートと3サイクルを使用して処理することになる。しかしDL BoostのVNNIを使用する場合、この三段階を一つの命令語で1サイクルに処理することができて理論的には三倍の性能向上が可能である。IntelはMKL-DNNライブラリを活用したとき、FP32をAVX-512ベースのINT8に切り替える場合は1.33倍の性能向上が可能であり、AVX-512ベースのINT8をVNNIベースINT8に切り替える場合は3倍の性能向上を期待するできると説明した。

IntelはMKL-DNNのマイクロベンチマークシナリオでVNNIを活用することにより単位消費電力当たり性能を大幅に向上させることができると紹介した。VNNI使用時にソケットあたりの電力消費量はFP32と同様のレベルを見えるが、大幅に向上された性能を示すほど単位性能あたり電力使用量は大幅に低くなる。また、DL Boost技術使用時にプロセッサのL2キャッシュミスの確率もFP32に比べ大きく低下する姿を見せて、メモリ帯域幅の使用量も削減される様子を見せると付け加えた。

▲「Intelリソースディレクター技術」にはメモリ帯域幅割り当て機能が追加された

▲主にネットワークのワークロードに特化「N-シリーズ」製品に適用される「スピードシフト」技術の類型

▲データセンターのための特化製品「Y-シリーズ」製品に適用される「スピードシフト」技術の類型

2世代Xeonスケーラブルプロセッサから正式支援する「Optane DC Persistent Memory」はDRAMをキャッシュとして使用して全体のメモリ容量を拡張する形の「メモリモード」、DRAMとOptane DC Persistent Memoryをアプリケーションが直接各自の目的に合わせてアクセスできるワークロード最適化形態の「アプリダイレクトモード」で活用することができる。 DDR4インターフェースに互換できて128〜512GBのモジュールがリリースされる予定だ。これと共にIntelはこの「Optane DC Persistent Memory」の開発で、開始段階からプロセッサとモジュールが一緒に開発された点を強調した。

Intelリソースディレクター技術(RDT:Resource Director Technology)にも新しい技術が追加された。このリソースディレクター技術を活用すれば、プロセッサの領域を分けてそれぞれの仕事性能に影響を与えないようにすることもでき、作業の優先順位を付与し処理することによってSLAレベルを遵守しながらシステムの活用度を最大限することができる。そしてリソースディレクター技術ではL3キャッシュとメモリ帯域幅の「モニタリング」と「制御」が可能であるが、2世代Xeonスケーラブルプロセッサでは「メモリ帯域幅割り当て(Memory Bandwidth Allocation)」技術が追加され、特定作業でメモリ帯域幅を割り当てあるいは制限することでシステム全体で特定作業の性能影響を最小限にしSLAを遵守できるようにする。

ワークロード最適化された環境のための「Intelスピードセレクト技術(SST:Speed Select Technology)」は大きく3つの細部技術に構成されており、製品群によって適用される技術が違う。このうちSST-CPは優先順位の作業により高い動作速度を維持し他の優先度の低い作業でのプロセッサ動作速度を落とし、SST-BF(Base Frequency)は特定コアを高い動作速度に設定してここに特定ワークロードを割り当てるというふうに動作する。これらの技術を通じて動作速度に敏感なワークロードとそうでないワークロードの両方に最適の環境を提供しながらも全体電力消費量は一定レベルに維持することができる。

SST-PPはプロセッサの選択とサーバー運営の柔軟性を確保できるようにしてくれて、1つの製品で最大3つのプロファイルを通じて活性化されたコア数、動作速度、TDPや最大温度などをすべて異なるように設定できる。これを通じてプロセッサの活性コア数を減らして動作速度を上げた設定、動作速度を下げて活性コア数を最大化した設定などを置いて、状況に応じてこれを選択して利用することができる。この技術の活用面ではオープンスタックのベアメタルプロビジョニングシステムであるIronicでこのSST-PPのプロファイルを選択しサーバーを起動、ワークロードをプロビジョニングすることができると紹介された。この技術を通じた効果では互いに異なる性格と変化の多いワークロードを扱うインフラで柔軟性を強化できるという点が挙げられた。

▲「Xeonプラチナム9200」シリーズプロセッサのデュアルプロセッサ構成は論理的に従来の4ソケット構成と一致する

続いてIntelデータセンターグループのKartik AnanthがXeonプラチナム9200シリーズプロセッサとプラットフォームについて紹介した。このプロセッサの最大の特徴と言えば二つの2世代Xeonプロセッサスケーラブルプロセッサのダイ二つを一つのプロセッサとソケットに構成することにより、優れたソケットあたりのプロセッサ性能を見せるという点である。また、2つのダイの構成を通じてプロセッサごとに2倍のメモリ帯域幅を得ることができ、それにも各ダイ間のアクセスは単一のホップレイテンシーに実装したという点が挙げられた。ここにコンピューティング力量の「密度」が重要な場合、従来の4ソケット構成よりもっと少ない面積で同等の力量を確保できると付け加えた。

Xeonプラチナム9200プロセッサは一つのプロセッサに2つのダイがUPIを通じて接続された構成である。そして最大2つのプロセッサ構成をサポートし、このとき実質的には従来の4ソケット構成と論理的に同じ形になり、各ダイごとに3つのUPIが他のダイと直接接続される様子である。ダイあたりに6チャンネルのDDR4メモリコントローラを持つことになってプロセッサ単位では12チャンネルDDR4メモリコントローラになる。プロセッサパッケージには0.99mmピッチを使用する5903個接点のBGAで、このプロセッサの場合メインボードと一緒にシステムレベルで供給される予定である。Xeonプラチナム9200シリーズのデュアルプロセッサ構成を提供する「IntelサーバーシステムS9200WK」は最大80個のPCIe 3.0レーンを提供する。

Xeonプラチナム9200シリーズプロセッサは32、48、56コア構成で提供され、すべてのプロセッサで12チャンネルDDR4メモリコントローラを備えてメモリ性能集中ワークロードに優れた性能を見せる。Intelのテスト結果ではデュアルプロセッサ構成で最大407GB/s STREAM-TRIAD性能を出し、コアあたりの性能は56コアプロセッサではコアあたり3.6GB/s、32コアプロセッサではコアあたり6.2GB/s程度が割り当てられ、HPCアプリケーションなどのメモリ帯域幅に敏感なアプリケーションに有利な環境を提供する。この他にもすべての製品群で単一放熱板で全体TDPを消化することができる。

▲「Xeonプラチナム9200」のための「IntelサーバシステムS9200WK」の主な特徴

▲「Xeonプラチナム9200」シリーズプロセッサはシステムレベルの提供が基本である

Xeonプラチナム9200シリーズプロセッサは「IntelサーバシステムS9200WK」製品と一緒に提供され、これはメインボードにBGA実装される製品の特徴に応じたものでもある。「S9200WK」は2Uラックフォームファクタで、ノード構成に応じて最大4つの独立コンピュートノードを備えることができ、各ノードはウォームスワップ(Warm-Swap)が可能である。メモリはプロセッサごとに12個DIMMで12チャネル構成を使用することができ、ストレージは2Uコンピュートモジュールでモジュールごとに2つのホットスワップU.2 NVMe SSDを使用することができる。パワーサプライはシャーシにホットスワップ2100Wや1600Wの3つを使用し、クーリングは空冷だけでなく水冷オプションもある。

コンピュータノードは1U、半分の幅の水冷使用モジュール、2U、半分の幅の水冷、空冷構成がある。ホットスワップストレージは2Uコンピュートモジュールでのみ使用でき、NVMeは1Uではノードごとに2つのM.2、2Uでは2つのM.2、2つのU.2を持っている。PCIe拡張は1Uではノードごと2つのLP PCIeを、2Uではノードごとに4つのLP PCIeカードを使用することができる。「IntelサーバシャーシFC2000」はIntelの「分離型(disaggregated)サーバー」の構成でパワーとクーリングは共有の形で提供し、1600Wや2100Wの3つのパワー構成で高可用性を確保し、空冷あるいは水冷クーリングオプションを提供する。

ソフトウェアアーキテクチャ次元の最適化の面でXeonプロセッサプラチナム9200プロセッサはCPUIDのマルチチップパッケージングに関する追加情報が入った。これにより2つのプロセッサに見ることができる複数のダイ構成のXeonプロセッサプラチナム9200プロセッサであるが、論理的に一つの物理的なパッケージとして認識して動作させることができるようにする。また、2世代XeonプロセッサスケーラブルプロセッサのDL Boost技術やAVX-512の支援、AIなどのための様々なソフトウェア最適化などを通じた利益もXeonプラチナム9200プロセッサを通じて同様に得ることができ、Xeonスケーラブルプロセッサの発売初期時点に比べXeonプラチナム8280プロセッサの推論性能は14倍向上され、Xeonプラチナム9282の場合この向上幅が30倍に達すると付け加えた。


Copyright ⓒ Acrofan All Right Reserved
 

Acrofan     |     Contact Us : guide@acrofan.com     |     Contents API : RSS

Copyright © Acrofan All Right Reserved