Ollama를 사용할 때 유용한 설정 환경 변수 모음
# Flash Attention 활성화 (속도 향상)
OLLAMA_FLASH_ATTENTION=1
# Flash Attention이 활성화 된 상태에서 컨텍스트 캐쉬 메모리 절약
OLLAMA_KV_CACHE_TYPE=q8_0
# 5분마다 GPU메모리를 비우지 않고, 로딩한 상태 유지. 재로딩 딜레이 해결. 대신 전력 소모량은 늘어남.
OLLAMA_KEEP_ALIVE=-1
AI + MCP = 자동 매매 시스템? (4) | 2025.03.31 |
---|---|
P40 vLLM 설치. (0) | 2025.03.29 |
Qwen2.5-Coder 사용기 (0) | 2025.03.28 |
쿼드 GPU로 VRAM 96GB 확보 (4) | 2025.03.26 |
AI 추론용 구형 GPU 가격 폭등. (2) | 2025.02.15 |