surga Lab

開発したい!!

EC2の機械学習環境が突然壊れる現象について

全く原因はわかっていませんが、何度か発生したので記します。

現象

EC2内の仮想環境(venv)で突然ライブラリ等の環境が無くなっている

経緯

AWS EC2 DeepLearning AMIの環境にssh接続していた場合、計算が終わればexitで抜けててインスタンスを止めますよね?

その後再度利用する際にはインスタンスを起動してssh接続をしています。

しかし稀に、再度接続してpythonファイルを実行した際にモジュールが無いと怒られます。
もちろん以前は動いていた環境です。

そのためpipで入れ直すと、今度はTensorflowが見つからないと怒られます。(仮想環境は"tensorflow_p36")

pipでTensorflowを入れても怒られたままです(何かしらの依存関係?)

そこからは面倒なので、いつも一度ファイルをローカルに落として再度環境構築しています。

対策

わかりません。

私のインスタンスの切り方が悪いのかなと思っていますが、インスタンスを止めなくても起きていたので謎です。

感覚的に、通信不良や強制的にsshを切った時に発生しやすい印象はありますが、、どうなんでしょう。