結局OSを入れ替えた
先日、計算機が不調であることをこちらで報告しました。
これですが、様々なウェブサイト、ブログなどを参考にして解決を試みたのですが、結局解決することができませんでした。OSもCentOS 7からScientific Linux 6(CentOS 6と事実上同じ)に戻すことで決着とすることにしました。
Cent OS 7利用のままでは解決できなかった以上、皆様の参考になることは書けないのではありますが、この問題についてちょっと書いてみようと思います。
まず、計算機ハード(nagatoと名付けております)の構成の主な部分は、以下の通りです。
- CPU:Core i7 4930K(ハイパースレッディングはオフ)
- メモリ:64GB(8GB × 8)
- グラフィックカード:ELSA Geforce 650 Ti × 2
- HDD:1TB × 2(ソフトウェアRAID(RAID1))
- 一時ファイル書き込み用HDD1TB × 1
- その他データ退避用HDD1TB × 1
ですが、今回はインストールの段階でいくらか問題があったため、以下のハード構成とし、様子を見てみました。
- CPU:Core i7 4930K(ハイパースレッディングはオフ)
- メモリ:64GB(8GB × 8)
- グラフィックカード:ELSA Geforce 650 Ti × 1
- HDD:150GB × 1(試験用HDDで、これに入れる場合、ホストネームをasakuraとしております。)
大分構成を単純にしました。なお余談ですが、このCPUにはグラフィック機能はついておりません。この構成でうまくいったら最初の構成に戻してやってみるという寸法です。
試験機で行うことは次の2つです。
この2点が問題なく解決するのであれば、元の構成に戻して計算機を元通りにするのであります。なお、CentOSのサイトとCUDAツールキットのサイトのリンクを張っておきます。
CUDA Toolkit | NVIDIA Developer
症状として気になった点は主に2つです。
一点目は
CentOS 7のインストール後、最初の再起動の段階から既に、カーネル選択画面からOS起動からログイン画面になるまでの間において次のメッセージが2回出る。再起動しても症状は同じである。
「EFI Plobrem loading in-kernel X.509 certificate (-129)」
これについてはFedoraプロジェクトなどのフォーラムなどではバグとしての報告があるようですが…まあ、動くようですが少し気持ちが悪いです…
二点目は
CUDAのインストールにおいて、NVIDIAドライバのインストールの段階で、次のメッセージが出る。
「EDAC sbridge: ECC is disabled. Aborting.」
「EDAC sbridge: Couldn't find mci handler.」
「EDAC sbridge: Failed to register device with error -19.」
NVIDIAドライバは「インストールされた」となったんですけど...あとその他、ライブラリが見つからないとか出た気がしました。libGLU.soとかなんとか。いや「/usr/lib64」にありましたけど?
その後、[startx]コマンドなどでX Window Systemを起動させようとした時にも上記のメッセージが出まして、結局そこで止まったと記憶しています。(ここら辺の症状、たまに再現性が無い気がします。)ということは、ドライバが認識されてない?
インストールするCUDAのバージョンについて「7.5」「8.0 GA2」「9.1」と試し、すべて「nvidia-uninstall」でデバイスをアンインストールした後に再インストールという手続きを取りましたが状況は同じでした。
マザーボードのBIOSのバージョンが古いか?とも思い、バージョンアップも行いましたが、症状は同じでした。
なお、Linux機におけるCUDA(NVIDIAドライバ)のインストール手順は、CUDA toolkitのウェブサイトと下記のサイトを参考にしました。nouveauの扱いが大変です。
で、思いました。「あきらめよう。でもCUDAは使えるようにしておきたい」私が利用しようとしているプログラムの中にはGPGPUによる恩恵があるプログラムがありますので、この点は避けたくないなとも思っていました。
から考えると、前のバージョンをクリーンインストールするのが現状における最善の策であろうとなりました。ですが、ちょっとひねくれて、いかにも「科学計算用OS」という名前の「Scientific Linux 6」を利用することにいたしました。これを利用するのは久しぶりです。
で、OSのインストールと、その後CUDA 9.1のインストールとを行いましたところ、先のメッセージが出力されることなく、すんなり...(え~!?)
そして[startx]としてウィンドウシステムを起動したら...じゃじゃ~んときめ細やかな解像度で画面に出力されたのであります。次のコマンド打ってちゃんとドライバが読まれているっぽいことを確認してみます。
> lsmod | grep -e nouveau -e nvidia
すると、nouveauは読まれておらず、nvidiaのドライバーが読まれているっぽい。
元のハード構成の計算機にて同じことを行い、少しずつではありますが、復旧のめどが立ってきました。
まだまだ、ライブラリや計算プログラムのコンパイル、インストール作業を行わなければならないのでちょっと大変ではありますが、早く元に戻して、こき使いたいものです。