본문 바로가기
잡다한 코딩이야기

[Docker] cuda tensorflow GPU 세팅

by 김예비석사 2022. 11. 28.

https://huhji2newv.tistory.com/6

 

Docker CUDA Image 가져와서 딥러닝 환경 세팅까지

기존 서버 : Ubuntu 18.04 CUDA 10.2 NVIDIA RTX 2080 Ti 위에 CUDA 10.0 도커를 구동해야 하는 상황이 왔다. 학습용 코드가 tensorflow-gpu==1.13.1, keras==2.2.4를 지원하는데 버전을 맞추기 위해서는 CUDA 10.0버전이 필

huhji2newv.tistory.com

이 분 티스토리 참고해서 내 작업 환경에 맞춰서 작성


환경

Ubuntu 20.04

Cuda 11.5

NVIDIA DGX-1


https://hub.docker.com/r/nvidia/cuda/tags

 

Docker Hub

 

hub.docker.com

docker image download

docker pull nvidia/cuda:11.5.2-cudnn8-runtime-ubuntu20.04
docker tag nvidia/cuda:11.5.2-cudnn8-runtime-ubuntu20.04 kim:cuda11.5
docker run -it --name="kim_cuda" --gpus "device=2" -p 32805:22 -p 32609:8888 kim:cuda11.5 /bin/bash

container name: kim_cuda

 

docker 실행

docker start kim_cuda
docker attach kim_cuda
apt-get update
apt-get install sudo
sudo apt-get install vim
apt-get install net-tools vim openssh-server
vim /etc/ssh/sshd_config

# PermitRootLogin prohibit-password  -> PermitRootLogin yes

vim 명령어

esc 누르고 ZZ (저장 후 종료) 

passwd root
ssh -p 32805 root@ip_address

setting

sudo apt-get -y install python3-pip
apt-get update
alias pip=pip3
pip install tensorflow-gpu==2.4.0
pip install keras
pip install opencv-python
pip install protobuf==3.20.*

python에서 확인

import tensorflow as tf
tf.test.is_gpu_available()

언제나 내가 만지는 코드는 호락호락하지 않으므로

False가 떴다.

Error

tensorflow/stream_executor/platform/default/dso_loader.cc:60] Could not load dynamic library 'libcusolver.so.10'; dlerror: libcusolver.so.10: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /usr/local/nvidia/lib:/usr/local/nvidia/lib64

 

export LD_LIBRARY_PATH=/usr/local/cuda-11.5/lib64
cd $LD_LIBRARY_PATH
sudo ln libcusolver.so.11 libcusolver.so.10

LD_LIBRARY_PATH 를 'libcusolver.so.10'가 있는 위치로 세팅해줘야하는데

나에게는 libcusolver.so.11만 있으므로 그 파일이 있는 위치로 세팅해주면 된다.

(모로가도 서울만 가면 된다는 마인드 ^^)

https://github.com/tensorflow/tensorflow/issues/44777

 

Could not load dynamic library 'libcusolver.so.10' - TF-2.4.0RC, Cuda,CudNN, RTX 3080 · Issue #44777 · tensorflow/tensorflow

Please make sure that this is a build/installation issue. As per our GitHub Policy, we only address code/doc bugs, performance issues, feature requests and build/installation issues on GitHub. tag:...

github.com

일단 셋업까지 어찌저찌 해냄!

이제 모델 학습만 잘 되면 완성^^