상세 컨텐츠

본문 제목

듀얼 GPU로 VRAM 48GB 확보.

AI

by KimUH 2024. 6. 4. 19:10

본문

AI 추론용 가성비 GPU에 대한 예전 포스트(https://kmuh.tistory.com/98)에서 언급한 엔비디아 테슬라 P40을 저렴하게 2개 장만해서 VRAM 48GB를 확보했다.

 

 

AI용 가성비 GPU

ChatGPT처럼 대규모 언어 AI모델을 LLM이라고 통칭한다.개인정보나 영업비밀등 외부로 유출할 수 없는 정보를 다루면서 AI의 도움을 받으려면 ChatGPT 같은 외부 서버를 이용한 서비스를 이용하면 안

kmuh.tistory.com

 

이제 메타 Llama 3 70B 모델의  4비트 K_M 양자화 버전을 모두 GPU VRAM에 올려서 실행할 수 있게 되었다.

 

2개의 GPU 모두 VRAM 용량 한계까지 꽉 찬다.

실행 속도는 초당 대략 3~4개의 토큰을 생성한다.

 

GPU와 CPU에 나누어서 실행하던 때에는 1초에 토큰 0.5~1개 가량 처리했는 데, 몇 배나 빨라졌다.

출시된 지 10년이 되어가는 구형 GPU로 최신 70B 모델을 이 정도로 실행할 수 있다니 놀라울 따름이다.

 

다만, 써보니 생각보다 너무 쓸만해서, 애초에 RTX 3090으로 갈 걸 그랬나? 싶기도 하다.

(3090은 초당 12토큰 이상 나온다고 한다.)

 

관련글 더보기