AI용 가성비 GPU

AI

by KimUH 2024. 5. 1. 13:56

ChatGPT 같은 AI는 편리하지만 개인정보나 영업비밀등 정보 유출 위험이 있다.

안전하게 AI를 이용하려면 온디바이스 AI (자기 컴퓨터에서 실행하는 AI)를 이용해야 한다.

온디바이스 AI는 AI 모델의 용량이 클수록 똑똑해진다.

용량이 큰 AI는 CPU로 실행하면 도저히 못 쓸 수준으로 느려진다.

AI 모델을 GPU VRAM에 띄운 후 실행해야 쓸만한 속도가 나오는 데, 용량이 큰 AI 모델을 VRAM에 띄우려면 VRAM 용량이 매우 커야 한다.

그래서, 온디바이스 AI를 실행할 때 제한된 예산 하에서

연산 성능이 높지만 VRAM 용량이 적은 최신 GPU보다는

연산 성능이 느리더라도 VRAM용량이 큰 GPU가 유리하다.

(연산 성능이 높고, VRAM용량도 큰 GPU가 좋지만 일반인이 부담하기에 너무 비싸다.)

GPU VRAM을 저렴하게 확보하는 방법은 엔비디아 테슬라 GPU 구형 모델을 중고로 구매하는 것이다.

엔비디아 테슬라 GPU는 연산 전용 데이터 센터 서버용 제품이라서 여러가지 주의점이 있다.

- 연산 전용 제품이라서 모니터 연결 단자가 없다.

a. 화면 출력을 위해서는 별도의 GPU(혹은 화면 출력 기능이 내장된 CPU)가 필요.

b. AI실행에만 써먹을 수 있고, 게임 실행에 전혀 도움이 되지 않는다.

- GPU에는 팬이 달려있지 않으므로, 전용 팬을 추가 장착해야 함.

- 전원 연결단자 모양이 달라서 전용 아답터가 필요하다.

- 너무 오래된 모델은 AI모델 실행에 필수적인 기능이 빠져있다.

- 메인보드 BIOS에서 'Above 4G Decoding', ' Resizable BAR' 기능을 지원해야 하므로 구형보드는 장착이 안 될 수 있다.

구형 Nvidia GPU 중에서 K80(케플러 아키텍처), M40(맥스웰 아키텍처)는 VRAM 용량이 24GB로 비교적 크고, 가격도 매우 저렴하지만, 호환성 문제로 인해서 AI 실행이 어려울 수 있다.

지금도 Nvidia드라이버가 정식 지원되는 가장 저렴하고 오래된 GPU 아키텍처는 '파스칼 아키텍처'이다.

파스칼 아키텍처 중에서 AI 실행에 쓸만한 것은 P40, P100이다.

- P40 : VRAM 24GB. 16비트 실수연산 성능이 심각하게 느린 단점이 있다.

- P100 : VRAM 16GB. 16비트 실수연산 성능 양호

GPU 4개를 장착할 수 있다면 P100의 성능이 더 우수하고,

GPU 1~2개만 장착하려면 VRAM용량이 더 큰 P40이 더 유리하다.

엔비디아 테슬라 GPU 장착에 필요한 BIOS 세팅 : https://kmuh.tistory.com/124

P40용 Flash Attention 적용 : https://kmuh.tistory.com/131

추가> 이 포스트를 작성한 이후 P40의 가격이 2배 가량 폭등하였다.

AI 추론용 구형 GPU 가격 폭등 : https://kmuh.tistory.com/167

PCI-E 슬롯 확보 방안. (0)	2024.06.01
Nvidia GPU 온도 모니터링 하기. (0)	2024.06.01
다국어 특화 Aya 23 35B 모델 (0)	2024.06.01
Nvidia GPU 전력 사용량 제한. (0)	2024.05.30
text-generation-web-ui 중간에 멈추는 증상 해결 (0)	2024.04.29