電気は食うわ、「熱」出すわ、「体調」崩すわ… スパコン「京」お世話係の苦闘と誇り (1/2ページ)

「京」がトラブルで停止した時間
「京」がトラブルで停止した時間【拡大】

  • 理研計算科学研究機構(AICS)運用技術部門長の庄司文由さん

 私たちの仕事は、世界トップクラスの性能を持つスーパーコンピューター「京(けい)」の、いわばお世話係といえるかもしれない。ここ理化学研究所計算科学研究機構では、「京」が消費する大量の電力を安定的に供給したり、「京」から出る膨大な熱を効率的に冷やしたり、「京」にさまざまなソフトウエアを入れて利用しやすい環境を整えたり、「京」に投入される大量のジョブがスムーズに処理されるよう調整したりする仕事に、総勢30人を超えるスタッフが日々取り組んでいる。

 「京」は8万2944台ものコンピューターの集合体である。その規模の大きさと複雑さから、通常のコンピューターでは想定できないことが起き、それが大規模な障害につながることが少なくない。システム全体が停止するようなトラブルが起きた時は、一刻も早く復旧させるために迅速に原因を特定し、効果的な対策を取らなければならない。

 しかし実際には、限られた時間の中で得られる情報は多くなく、原因の特定にまで至らない状況下で決断を迫られることが多い。責任者としてはプレッシャーがかかるシーンだが、そのおかげで決断力が随分と磨かれた気もする。

 障害の発生を完全に抑えることは難しく、原因が特定できても問題を根治させるには膨大な時間と手間がかかるケースも多い。そこで私たちは現実的な対応として、障害の影響を運用の工夫で回避する方法を探すことにも力を入れた。その結果、共用開始してから急増していたトラブルによる停止時間は平成26年度以降減少に転じ、今年度1月末時点で26年度同期の3分の1以下に激減させることに成功している。

陳腐化どころか今も現役バリバリの京