事業項目 Work Packages
JHPC-quantum
03.
量子・HPC連携スケジューラおよび
量子・HPC連携ソフトウェアのカップリング技術の研究開発
量子コンピュータとスーパーコンピュータのハイブリッド連携を実現する「夢のソフトウェア」
概要overview
東京大学情報基盤センターは、ヘテロジニアスな構成を有するWistereia/BDEC-01システム上で「計算・データ・学習」融合のための革新的ソフトウェア開発基盤「h3-Open-BDEC」を開発し、様々なアプリケーションに適用し、新しい科学的発見を実現しました。本研究では、これらの成果に基づき、量子コンピュータ(QC)・スーパーコンピュータ(HPC)のハイブリッドな連携を効率的に実現するソフトウェア群を開発します。遠隔地に分散した複数の計算機資源を同時に利用できるジョブスケジューラ(QHScheduler)、両者の連携・通信・データ転送をオンライン・リアルタイムで効率的に実施するカップリング技術(h3-Open-BDEC/QH)を開発し、QC-HPCハイブリッド連携による新しい科学の開拓に貢献します。
事業内容detail
目的
量子コンピュータ(QC)とスーパーコンピュータ(HPC)の連携(QC-HPCハイブリッド連携)を効率的に実施するためには、遠隔地に分散した複数の計算機資源を同時に利用できるジョブスケジューラと、両者間の通信、データ転送をオンライン・リアルタイムで効率的に実施し、統合するためのカップリング技術が必要です。本研究では、まずQC-HPCハイブリッド連携を効率的に実施するためのジョブスケジューラ(QHschedule)の研究開発、整備を実施します。更に、 QC-HPC間のデータ高速転送を実現するQC-HPCハイブリッド連携アプリケーション開発基盤(h3-Open-BDEC/QH)を開発します(Fig.1)。
量子機械学習と計算科学シミュレーションを連携させることによって、シミュレーションの効率化を図る「AI for HPC」型のワークロードを、ターゲットアプリケーションとして想定しています。
Fig.1 遠隔地に分散した複数の量子コンピュータ(QC),スーパーコンピュータ(HPC),スーパーコンピュータ上の量子シミュレータ(QC Sim. on HPC)
背景
東京大学情報基盤センターでは「計算・データ・学習(Simulation, Data, Learning,S+D+L)」融合を実現するスーパーコンピュータシステム(Big Data & Extreme Computing: BDEC)の構築を目指して、2015年頃から様々な研究開発を進めてきました。2021年5月に運用を開始した国内最大級の規模を有する「Wisteria/BDEC-01」はBDEC構想に基づく最初のシステムであり、「富岳」と同じ汎用CPU(A64FX)を搭載したシミュレーションノード群(Odyssey)と、NVIDIA A100 Tenso Coreを搭載したGPUクラスタによるデータ・学習ノード群(Aquarius)で構成され、総ピーク性能は33.1ペタフロップスです。Wisteria/BDEC-01はシミュレーション向け、データ解析・機械学習向けの、異なるアーキテクチャを組み合わせた、スーパーコンピュターシステムとしては世界初のものです(Fig.2)。Aquariusの各ノードは大容量通信回線で外部ネットワークに直接接続可能され、SINET等を介してリアルタイムに観測データ等を取得可能です。同じく東大情報基盤センターで開発された革新的ソフトウェア基盤「h3-Open-BDEC」は、Wisteria/BDEC-01のような不均質なシステムにおいて、最大限の能力を引き出しつつ計算量・消費エネルギーを最小限に抑え、「計算・データ・学習」融合を実現します。
Fig.2 Wisteria/BDEC-01(東京大学情報基盤センター)
h3-Open-BDECは、ヘテロジニアスな構成を有する「Wisteria/BDEC-01」システムのシミュレーションノード群(Odyssey)とデータ・学習ノード群(Aquarius)間の通信・データ転送をMPIライクなインタフェースでサポートするh3-Open-SYS/WaitIO、シミュレーション・機械学習のリアルタイム連携(学習・推論)を実現するカプラー(h3-Open-UTIL/MP)等の機能を提供し、Wisteria/BDEC-01上での地震シミュレーション・リアルタイムデータ同化融合、全球雲物理シミュレーション・機械学習の融合などの先進的なシミュレーションに適用されています。また、Wisteria/BDEC-01上では、シミュレーションノード群、データ・学習ノード群のジョブを同時に実行できるような、ジョブスケジューラが整備されています。 本研究では、これらを発展させ、QC-HPCハイブリッド連携スケジューラ(QHScheduler)、QC-HPCハイブリッド連携アプリケーション開発基盤(h3-Open-BDEC/QH)を開発します。
実施内容
QHScheduler、h3-Open-BDEC/QHは、様々なアーキテクチャに基づくスーパーコンピュータ(汎用CPU、GPU)と様々なタイプの量子コンピュータ(シミュレータを含む)のハイブリッド連携をリアルタイムにシームレスに実現するための環境を提供し、複数のスパコン、複数のQC間の連携も可能とします。各スパコン、QCは独立したサイトに設置され、SINET経由等で通信することを前提としますが、様々な状況を考慮し、システム内ノード間ネットワークによる通信、ファイルシステム経由でのデータ転送と同じインタフェースで実施可能とします。
2023年度、2024年度は、Wisteria/BDEC-01のシミュレーションノード群(Odyssey)をスーパーコンピュータ群、データ・学習ノード群(Aquarius)を量子コンピュータ群と仮定し、h3-Open-BDECを使用した様々な実験を実施しQHScheduler、h3-Open-BDEC/QHのプロトタイプを開発、検証します(Fig.3)。
Fig.3 QHscheduler,h3-Open-BDEC/QHのプロトタイプ開発・検証のための環境(Wisteria/BDEC-01のシミュレーションノード群(Odyssey)をスーパーコンピュータ群、データ・学習ノード群(Aquarius)を量子コンピュータ群と仮定)
QHSchedulerは、QC、HPC、及び専用サーバーから起動することができ、QC、HPCのジョブスケジューラを制御するメタスケジューラとしての役割を有します。各スーパーコンピュータには、QC-HPCハイブリッド連携のための専用リソースグループを設定する予定ですが、より柔軟で効率的な運用を実施するため、Fig.4に示すような資源管理手法も併せて検討します。ここでは、QC-HPCハイブリッド連携ワークロードを優先ジョブと見なし、HPC上の計算機資源が不足している場合は、優先度の低いジョブを一旦停止し、QC-HPCハイブリッド連携ワークロード終了時に、チェックポイントファイルを使用して再開します。これを実現するためには、各アプリケーションがチェックポイントの機能を有している必要があるため、それを容易に実現するためのライブラリの開発も必要です。
h3-Open-BDEC/QHは、h3-Open-BDEC/QH-WaitIOとh3-Open-BDEC/QH-MPから構成されます。h3-Open-BDEC/QH-WaitIOは、QC・HPC上で稼働するアプリケーション間のデータ転送・通信ライブラリであり、MPIに似たインタフェースで呼び出すことができます。内部・外部ネットーワーク経由の他、ファイルシステム経由でも使用することができます。本来のWaitIOライブラリは、Fortran、C/C++向けですが、量子コンピュータとの通信を考慮し、Python向けインタフェースも開発します。
Fig.4 チェックポイントリスタートを利用したスーパーコンピュータにおける柔軟な資源管理手法
h3-Open-BDEC/QH-MPは、 QC・HPC上で連携して稼働する複数のアプリケーションの制御を実施し、複数のコンポーネントを協調させ、効率的にデータ転送等を実施するカプラーであり、内部でh3-Open-BDEC/QH-WaitIOを呼び出しています。h3-Open-BDEC/QH-WaitIOは各アプリケーションから直接呼び出すことも可能です。
本研究では、特に、スパコン上の計算科学シミュレーションとQC上の量子機械学習をリアルタイムに連携させることによって、シミュレーションの効率化を図る「AI for HPC」型のワークロードに主眼を置くとともに、様々な観測データ等も効率的に利用可能とします。
更に、QHScheduler、h3-Open-BDEC/QH-MPを、富岳、HPCI第二階層を構成する各情報基盤センターのスパコン、各QCにデプロイします。計算科学シミュレーションと量子機械学習を連携する「AI for HPC」型のワークロードの他、NISQマシンにおける誤り訂正、既に多数の事例、試みがある量子物理シミュレーション、物質シミュレーションへの適用についても検討します。
異なるサイトに設置された複数のスパコン、量子コンピュータをリアルタイムにハイブリッド連携させる試みは世界に先駆けた先端的研究です。
QHScheduler、h3-Open-BDEC/QHを公開、国内外のスパコンにデプロイすることによって、多くの研究者・技術者が容易に量子コンピュータを利用することが可能となり、QC-HPC連携が促進されます。
スケジュール
(4-1)QC-HPCハイブリッド連携スケジューラ(QHScheduler)
2023年度:基本設計、Wisteria/BDEC-01上での予備的評価
2024年度:2023年度の予備的評価の成果に基づき、Wisteria/BDEC-01上での設計・プロトタイプ開発・実装を完了し、複数のスパコン、複数の量子コンピュータの動作をシミュレートする環境を開発します。
2025年度:QC-HPCハイブリッド連携環境(複数のスパコン、1量子コンピュータ実機)での動作試験を行い、試験運用を行います。
年度後半からは、アプリケーション開発者に提供し、本運用・評価を開始します。
2026年度:QC-HPCハイブリッド連携環境での本運用を継続して実施し、アプリケーション開発者とともに評価・改良を行います。
2027年度:本運用を継続的に行い、評価・改良を行うとともに、複数の量子コンピュータ(実機1台+シミュレータ)、複数のスパコン(理化学研究所、東京大学、大阪大学)を連携した試験を行います。
2028年度:本運用を継続的に行い、評価・改良を実施します。
(4-2)QC-HPCハイブリッド連携アプリ開発基盤(h3-Open-BDEC/QH)
2023年度:基本設計、Wisteria/BDEC-01上での予備的評価
2024年度:Wisteria/BDEC-01上で、複数のスパコン、複数の量子コンピュータの動作をシミュレートするような、通信ライブラリ及びカプラーのプロトタイプ開発、検証を実施するとともに、QHSchedulerと連携した動作試験を実施、完了します。
2025年度:通信ライブラリ及びカプラーを使用したアプリケーションを、QHSchedulerと連携させ、QC-HPCハイブリッド連携環境(複数のスパコン、1量子コンピュータ実機)での動作試験を実施、完了します。
2026年度:QHSchedulerと連携したQC-HPCハイブリッド連携環境での本運用・評価を実施し、量子機械学習・シミュレーション連携による検証をSINET環境上(量子シミュレータ使用)で実施します。 複数の量子コンピュータ(実機1台+シミュレータ)、複数のスパコン(理化学研究所、東京大学、大阪大学)を連携するための予備的評価を実施します。
2027年度:事業項目②と連携して、ソフトウェア改良を継続する他、QHSchedulerと連携して複数の量子コンピュータ(実機1台+シミュレータ)、複数のスパコンを連携した試験を行います。
2028年度:ソフトウェア改良を継続する他、QHSchedulerとの連携に関する検証をQC-HPCハイブリッド連携環境で継続する。更に事業項目②と連携して、ソフトウェア改良を継続して実施します。
(4-3)その他
2024~2027年度:事業項目④と協調して、QC-HPCハイブリッド連携アプリケーションのデータ入出力、通信を模擬できるようなスケルトン型アプリケーションを整備します。そのために、実機(超伝導型、Ion-Trap型)と同じインタフェースを有するシミュレータを整備します。QCシミュレータをプログラムがC/C++、Fortran及びPythonで記述されている場合に対応します。
2028年度:オープンソース・ソフトウェアとしてパッケージ化するなど、成果のとりまとめを行い、プロジェクト終了後の展開への準備を行います。
プロジェクトメンバーproject members
東京大学
プロジェクトリーダー
- 中島 研吾
- 情報基盤センター スーパーコンピューティング部門
- Artem Lysenko
- 情報基盤センター スーパーコンピューティング部門
- 胡 曜
- 情報基盤センター スーパーコンピューティング部門
- 住元 真司
- 情報基盤センター スーパーコンピューティング部門
- 角田 達彦
- 情報基盤センター スーパーコンピューティング部門
- 山崎 一哉
- 情報基盤センター スーパーコンピューティング部門