Скачали LLaMA 3, запустили — и компьютер завис. Оперативной памяти хватило, а видеокарта «захлебнулась». Дело в VRAM: локальные нейросети живут в видеопамяти, и её нужно много.
VRAM — память, в которой живёт нейросеть
VRAM (Video RAM) — это память видеокарты. Когда вы запускаете локальную нейросеть через Ollama или Stable Diffusion, модель загружается именно в VRAM. Чем больше видеопамяти — тем крупнее модель поместится.
Представьте, что VRAM — это рабочий стол. Чем он больше, тем больше документов вы можете разложить одновременно. Маленький стол — и приходится постоянно убирать одно, чтобы открыть другое.
Сколько VRAM нужно
LLaMA 3 8B — 8 ГБ VRAM. LLaMA 3 70B — 40+ ГБ (нужна профессиональная карта или несколько потребительских). Stable Diffusion XL — 8 ГБ VRAM. Flux — 12+ ГБ. Для квантованных моделей (сжатых) требования ниже: LLaMA 3 8B Q4 — 4–5 ГБ.
Кстати, NVIDIA RTX 4060 с 8 ГБ — минимальная карта для комфортной работы. RTX 4070 Ti Super с 16 ГБ — золотая середина. RTX 4090 с 24 ГБ — для тех, кто хочет запускать большие модели.
Что делать, если VRAM не хватает
Используйте квантованные модели — они сжаты до 4–5 бит и требуют в два раза меньше памяти. Ollama автоматически подбирает формат. Или запустите модель на CPU — будет медленнее, но работать будет. Главное — достаточно оперативной памяти (16+ ГБ).