AI 추론용 가성비 GPU에 대한 예전 포스트(https://kmuh.tistory.com/98)에서 언급한 엔비디아 테슬라 P40을 저렴하게 2개 장만해서 VRAM 48GB를 확보했다.
AI용 가성비 GPU
ChatGPT처럼 대규모 언어 AI모델을 LLM이라고 통칭한다.개인정보나 영업비밀등 외부로 유출할 수 없는 정보를 다루면서 AI의 도움을 받으려면 ChatGPT 같은 외부 서버를 이용한 서비스를 이용하면 안
kmuh.tistory.com
이제 메타 Llama 3 70B 모델의 4비트 K_M 양자화 버전을 모두 GPU VRAM에 올려서 실행할 수 있게 되었다.
2개의 GPU 모두 VRAM 용량 한계까지 꽉 찬다.
실행 속도는 초당 대략 3~4개의 토큰을 생성한다.
GPU와 CPU에 나누어서 실행하던 때에는 1초에 토큰 0.5~1개 가량 처리했는 데, 몇 배나 빨라졌다.
출시된 지 10년이 되어가는 구형 GPU로 최신 70B 모델을 이 정도로 실행할 수 있다니 놀라울 따름이다.
다만, 써보니 생각보다 너무 쓸만해서, 애초에 RTX 3090으로 갈 걸 그랬나? 싶기도 하다.
(3090은 초당 12토큰 이상 나온다고 한다.)
엔비디아 테슬라 GPU 장착에 필요한 BIOS 세팅 (0) | 2024.06.06 |
---|---|
엔비디아 테슬라 GPU는 WSL 2 미지원. (0) | 2024.06.06 |
Continue - Visual source code에서 AI 사용 (0) | 2024.06.03 |
superbooga v2로 RAG 맛보기. (0) | 2024.06.02 |
PCI-E 슬롯 확보 방안. (0) | 2024.06.01 |