상세 컨텐츠

본문 제목

AI용 가성비 GPU 2편

AI

by KimUH 2024. 6. 8. 10:31

본문

엔비디아 테슬라 P40 GPU는 AI 추론에 뛰어난 가성비를 제공하지만, 몇 가지 주의사항이 있다.

(AI용 가성비 GPU 1편 : https://kmuh.tistory.com/98)

 

설치할 때 문제가 되는 부분은

- 메인보드 바이오스에서 'PCI 4G 이상 디코딩' 지원 필요.

- 전원 공급 커넥터가 표준 8핀 케이블과 호환되지 않아 전용 아답터 케이블 필요.

- 냉각팬이 없어서 별도의 전용 쿨러 필요.

- 냉각팬에 따라 장착 후 전체 길이가 400mm가 넘는 경우도 있으므로, 이에 맞는 큼직한 본체 케이스 필요.

 

사용 상의 문제가 되는 부분은

- 그래픽 출력 포트가 없어서 게임 실행에 활용 불가.

- 16비트 부동소숫점 연산 속도가 낮아 추가 학습이나 최적화등에 부적합. (추론에만 유용함)

- EXL2, AWQ 같은 최신 포맷 미지원.

- ExaLlama, vLLM등 고성능 실행 플랫폼 (공식적으로는) 미지원.

 

팬 포함 400mm(!)가 넘는 길이 때문에 케이스 찾기도 힘들다.

 

설치를 마친 후 실제 사용할 때 느끼는 가장 큰 불편함은 온도 관리이다.

충분한 냉각을 위해서 팬 회전 속도를 높이면 (마치 전투기가 이륙하는 듯한) 엄청난 굉음이 발생한다.

그렇다고 해서, 팬 회전 속도를 너무 낮추면 GPU가 과열되어서 작동을 멈춘곤 한다.

 

개별 독립 조절식이 더 세밀한 조정이 가능해서 좋을 것 같지만, 실제로 써보면 일괄적으로 조절하는 방식이 더 편리하다.

 

AI 실행 부하에 따라서 온도가 계속 바뀌므로, 소음과 냉각 성능 사이의 균형을 유지하는 팬 회전 속도를 찾기가 쉽지 않다.

그래서, 견딜 수 있는 정도의 소음 수준으로 팬 회전 속도를 높인 후, 과열되면 GPU 동작 클럭을 낮추는 방법이 차선책이다.

온도에 따라 GPU 동작클럭을 조정하는 앱을 작성했다.

(GPU 온도 자동 관리 : https://kmuh.tistory.com/137)

 

여러 단점에도 불구하고, P40를 두 개 장착하면  VRAM 48GB을 확보하여 70B 이상의 고용량 LLM 모델을 실행하며, 낮은 비용으로 개발 생산성을 크게 향상시킬 수 있다.

 

예산에 여유가 있고,  온디바이스 AI 실행에 대한 효용성을 확신한다면, RTX 3090이 P40보다 더 나은 선택일 수 있다.

온도 관리도 편하고, 소음도 덜 하고, 호환성도 좋고, 게임 실행도 가능하고, AI 실행 속도도 빠르다.

 

최근 P40은 Flash Attention 1이 지원되면서 소프트웨어적으로 실행 성능이 약간 높아졌다.

혹은 (비공식 패치를 통해서) vLLM을 이용해서 리눅스 환경에서 병렬 연산을 통해서 성능을 높일 여지도 있다.

 

엔비디아 테슬라 GPU용 BIOS 세팅 추가 설명  : https://kmuh.tistory.com/124

P40용 Flash Attention 적용 : https://kmuh.tistory.com/131

P40용 vLLM 설치 : https://kmuh.tistory.com/212

 

관련글 더보기