이 문서는 ubuntu 22.04 + NVidia RTX 4080 H/W 하에서 진행하였다.
Stable Diffusion을 웹인터페이스 학습시킬 수 있는 kohya_ss 프로젝트가 존재한다. 여러가지 보조 기구를 제공해주고, 이미지가 있으면 자동으로 설정을 하고 학습까지 시켜준다. 단 아래는 전체 학습은 아니고 LoRA 즉 소규모의 부분 튜닝만 해주는 방법이다.
(그정도만으로도 꽤 성능이 향상된다고 알려져있다.)
https://github.com/bmaltais/kohya_ss
0. 아래를 먼저 진행한다
우선 다음을 준비할 필요가 있으며, CUDA와 cudnn은 아래 링크를 참조하여 설치한다. https://infoengineer.tistory.com/96
1. CUDA 11.8
2. python 3.10.9이상~3.11미만
3. cudnn 8.7.0
따라서 용량이 충분한 디렉토리에서 아래와 같이 입력한다.
$ conda create -n kohya_ss python=3.10
$ conda activate kohya_ss
$ git clone https://github.com/bmaltais/kohya_ss
$ cd kohya_ss
$ sudo apt update -y && sudo apt install -y python3-tk #python3-tk를 필요로 하는데 일반적으로 미설치되어있다
$ ./setup.sh
Skipping git operations.
Ubuntu detected.
Python TK found...
Switching to virtual Python environment.
22:33:35-474863 INFO Python version is 3.10.14 (main, Mar 21 2024, 16:24:04) [GCC 11.2.0]
..
22:36:35-016860 INFO Configuring accelerate...
22:36:35-017576 WARNING Could not automatically configure accelerate. Please manually configure accelerate with the option in the menu or with:
accelerate config.
위와 같은 accelerate warning이 뜨면 직접 실행해준다.
$ cd venv/bin
$ ./accelerate config
------------------------------------------------------------------------------------------------------------------------------------------------------In which compute environment are you running?
This machine
-------------------------------------------------------------------------------------------------------------------------------------------------------Which type of machine are you using?
No distributed training #GPU가 여러개일 경우만 분산선택
Do you want to run your training on CPU only (even if a GPU / Apple Silicon / Ascend NPU device is available)? [yes/NO]: #계속엔터입력
Do you wish to optimize your script with torch dynamo?[yes/NO]:
Do you want to use DeepSpeed? [yes/NO]:
What GPU(s) (by id) should be used for training on this machine as a comma-seperated list? [all]:all
-------------------------------------------------------------------------------------------------------------------------------------------------------Do you wish to use FP16 or BF16 (mixed precision)?
fp16
accelerate configuration saved at /home/xxxx/.cache/huggingface/accelerate/default_config.yaml
$ cd ../..
$ ./gui.sh
22:53:19-311775 INFO Kohya_ss GUI version: v23.0.15
22:53:19-399403 INFO Submodule initialized and updated.
22:53:19-402531 INFO nVidia toolkit detected
22:53:20-026297 INFO Torch 2.1.2+cu118
22:53:20-029252 ERROR Could not load torch: cuDNN version incompatibility: PyTorch was compiled against (8, 7, 0) but found runtime version (8, 5,
0). PyTorch already comes bundled with cuDNN. One option to resolving this error is to ensure PyTorch can find the bundled
cuDNN.Looks like your LD_LIBRARY_PATH contains incompatible version of cudnnPlease either remove it from the path or install
cudnn (8, 7, 0)
---------------------------------------------------------------------------------------------------------------------------
혹시 위와 같은 cudnn 라이브러리 오류가 나면 cudnn 8.7.0 for CUDA11.8을 NVIDIA에서 다운받아 설치해주자.
CUDA 폴더에 cudnn의 파일만 잘 복사해주면 된다.
$ tar xvfz cudnn-linux-x86_64-8.7.0.84_cuda11-archive.tar.xz #nvidia 사이트에서 cudnn archive 다운로드가능
#아래와 같이 파일을 복사하여 설치한다.
$ sudo cp -P cudnn-linux-x86_64-8.7.0.84_cuda11-archive/include/cudnn.h /usr/local/cuda-11.8/include/
$ sudo cp -P cudnn-linux-x86_64-8.7.0.84_cuda11-archive/lib/libcudnn* /usr/local/cuda-11.8/lib64/
$ sudo chmod a+r /usr/local/cuda-11.8/lib64/libcudnn*
---------------------------------------------------------------------------------------------------------------------------
cudnn 버전 오류가 없다면 아래와 같이 gui.sh를 실행해서 웹서버를 띄우고, 웹에 접속한다.
$ ./gui.sh
0:35:53-556439 INFO Kohya_ss GUI version: v23.0.15
00:35:53-578951 INFO Submodule initialized and updated.
00:35:53-579987 INFO nVidia toolkit detected
00:35:54-373093 INFO Torch 2.1.2+cu118
00:35:54-377101 INFO Torch backend: nVidia CUDA 11.8 cuDNN 8700
...
Running on local URL: http://127.0.0.1:7860
실행 상태에서 브라우저를 띄워 http://127.0.0.1:7860 에 접속한다.
드디어 kohya_ss의 web UI가 뜬다.
이제 본격적인 학습을 위해 이미지를 준비하고 이 이미지의 script를 구할 차례다.
1. 학습에 추가시킬 이미지를 마련한다.
대략 500*500 이상 해상도로 준비해두면, 자동으로 caption을 생성해서 학습에 사용할 수 있다. 특정 폴더에 모아두고, 시험목적이라면 10장 정도면 되겠다.
2. 자동으로 captioning(이미지별 설명을 담은 txt 파일 자동 생성)을 해보자.
아래와 같이 Utilities->Captioning의 BLIP Captioning에서 image folders를 선택 한 후 맨 오른쪽 아래 Caption Images를 실행한다. 해당 폴더에 이미지와 같은 이름의 txt파일이 생겼음을 알 수 있다.
3. 이제 LoRA탭/Training중간의 Dataset Preparation으로 가보자. 오른쪽 화살표를 클릭해서 열자.
Dataset Preparation설정 들 중에서 Instance prompt에는 튜닝할 파일의 이름을 적당히 넣고, Class prompt는 나중에 호출할때 쓸 적절한 명칭, 그리고 가장 중요한 학습할 이미지의 폴더를 입력해주고, 이 모든 학습의 중간 데이터 등을 저장할 폴더를 하나 추가로 지정해주자(Destination training directory).
그리고 차례로 하단의 'Prepare training data'버튼과 'Copy info to Folder Tab'버튼을 각기 차례대로 누르면, 학습할 이미지가 해당 destination folder로 이동되어 준비되고, 이 설정들이 상단의 Traing정보로 복사된다(캡춰 화면에서는 보이지 않는 위쪽에 반영된다)
3. Parameters를 변경한다
그 다음은 이제 Parameters 를 열어서(Dataset Preparation바로 위) 아래와 같이 Presets를 sd15 - EDG_LoraOptiSettings로 예시 선택해보자. Epoch을 필요하면 약간 늘려준다. 4080으로 1 epoch당 몇분이 소요됨을 가정하자. 학습 진행 중에 대략 10GB전후의 GPU메모리가 사용되었다.
4. 맨 상단의 설정을 최종으로 정하자.
그리고 맨 상단의 Pretrained model name은 적절히 기본 모델을 선택하자. 여기서는 sd-v1-5.safetensors 를 복사해두고 적용했다. 이 모델은 Stable Diffusion 유명한 기본 모델이며. 다른 모델을 써도 당연히 된다.
이제 맨 하단의 Start training을 누르면 학습이 시작된다.
상기 케이스의 경우는 destination folder(/work2/kohya_ss/dest/)의 model 폴더에 75mb정도 크기의 safetensors형태의 LoRA모델이 생겼음을 알 수 있다. 이 만들어진 LoRA는 이제 Stable Diffusion에 잘 알려진 방법대로 원래 모델(여기서는 sd-v1-5.safetensors)과 함께 넣어 사용하면 되겠다. civit.ai의 LoRA들이 모두 이런 방식의 학습에 의해서 제공된다.
'머신러닝AI' 카테고리의 다른 글
AI/LLM 등을 위한 linux 버전 이야기, GPU, NVidia driver, cuda, cudnn, ... 어떻게 맞출까? (0) | 2024.04.27 |
---|---|
ollama를 통해 linux ubuntu에서 간단히 llama3를 돌려보자. (1) | 2024.04.20 |
LLM이 바꿀 세상, 개인비서, API화될 웹사이트 (0) | 2024.03.01 |
Google Gemma 파인튜닝 해보기 (0) | 2024.02.23 |
SOLAR 10.7B 모델, 한글 megastudy 모델을 HuggingFace에서 받아 langchain으로 간단히 구동해보자 (0) | 2024.01.13 |