Ollama: как запустить ИИ-модель локально на своём компьютере

Запустить языковую модель у себя на компьютере звучит как задача для инженеров — на деле же это занимает несколько минут. Ollama — инструмент, который скачивает модель, разворачивает её локально и даёт общаться с ней через простую команду. Никакого облака, подписок и отправки ваших запросов на чужие серверы.

В этой статье разберём по шагам, что такое Ollama, как её поставить на любую из трёх основных систем, как выбрать ollama модели под своё железо и какими командами всё запускается. Точные значения зависят от вашей конфигурации, поэтому где нужно — описываю обобщённо, без выдуманных чисел, и отсылаю к официальной документации.

Что такое Ollama и зачем она нужна

Ollama — это локальный «движок» для запуска открытых языковых моделей. Он берёт на себя то, что раньше требовало возни с зависимостями: скачивание весов модели, их хранение и запуск с учётом вашего процессора или видеокарты.

Работает это так: вы указываете имя модели, Ollama её загружает один раз, а дальше вы общаетесь с ней локально — в терминале или через приложение, которое подключается к Ollama по локальному API. Модель живёт на вашем диске, а запросы никуда не уходят.

Зачем это нужно? Причин несколько:

Приватность. Ваши данные и переписка не покидают устройство — это ключевой аргумент, если вы работаете с личными заметками, кодом или рабочими документами.
Работа офлайн. После загрузки модели интернет не нужен.
Без подписок и лимитов. Вы не платите за токены и не упираетесь в дневные ограничения.
Простота. Вместо ручной настройки окружения вы оперируете двумя-тремя командами, а вся сложность спрятана внутри.

Главный смысл всей затеи — запустить ИИ локально так, чтобы это было не сложнее запуска обычной программы.

Установка: Windows, macOS и Linux

Ollama ставится как обычное приложение и официально поддерживает все три платформы. Порядок везде похожий, отличия — в способе установки.

Windows. Скачайте установщик с официального сайта проекта и запустите его как любую другую программу. После установки Ollama работает в фоне и доступна через терминал (PowerShell или командную строку).

macOS. Скачайте приложение с официального сайта, перенесите его в папку с программами и запустите. Дальше Ollama так же висит в фоне и принимает команды в терминале.

Linux. На Linux обычно используют установочный скрипт с официального сайта. Конкретную команду установки всегда сверяйте с актуальной документацией проекта — она может меняться от версии к версии, и я намеренно не привожу её здесь дословно, чтобы не давать устаревший вариант.

Общий принцип одинаков для всех систем: после установки Ollama запускается фоновым сервисом и готова принимать команды. Никакой дополнительной настройки для первого запуска не требуется.

Проверка установки

Прежде чем качать модели, убедитесь, что Ollama установлена корректно. Самый простой способ — спросить версию:

ollama --version

Если команда отвечает номером версии, значит всё в порядке и фоновый сервис работает. Если терминал пишет, что команда не найдена, — перезапустите терминал (а иногда и компьютер), чтобы система подхватила новый путь, или переустановите приложение.

Заодно можно сразу посмотреть, какие модели уже скачаны — на свежей установке список будет пустым:

ollama list

Выбор модели под VRAM и железо

Главный практический вопрос — какую модель потянет ваш компьютер. Решает в первую очередь объём памяти: для видеокарты это VRAM, при запуске на процессоре — обычная оперативная память.

Логика простая: чем больше у модели параметров, тем больше памяти и вычислений она требует, и тем медленнее отвечает на слабом железе. Ниже — ориентировочная таблица. Это именно ориентир, а не точные требования: реальные цифры зависят от квантизации модели, размера контекста и вашей системы, поэтому конкретную модель всегда сверяйте с её карточкой в каталоге Ollama.

Класс модели	Ориентировочно памяти	Под какое железо
Компактная (несколько млрд параметров)	примерно от 4–8 ГБ	ноутбук без дискретной видеокарты, запуск на CPU
Средняя	примерно от 8–16 ГБ VRAM	средняя дискретная видеокарта
Крупная	примерно от 24 ГБ VRAM и выше	мощный десктоп, много VRAM

Цифры в таблице — приблизительный ориентир, а не гарантия. Всегда проверяйте требования конкретной модели.

Как выбирать на практике:

Скромное железо (ноутбук без мощной видеокарты). Берите компактные модели — они легче и отвечают быстрее, пусть и проще в рассуждениях.
Средняя дискретная видеокарта. Подойдут модели среднего размера — разумный баланс качества и скорости.
Много VRAM или мощный десктоп. Можно запускать крупные модели, ближе по качеству к облачным.

Хорошая стратегия — начать с модели поменьше, убедиться, что всё работает и отвечает с комфортной скоростью, и только потом пробовать что-то крупнее. Общее сравнение локального и облачного подходов мы разбирали в статье про локальную модель против облака.

Базовые команды: pull, run и list

С Ollama вы работаете несколькими основными командами.

Первая — загрузка модели. Она скачивает веса один раз и сохраняет их локально:

ollama pull <model>

Вместо <model> подставляется имя нужной модели из каталога Ollama. После загрузки модель доступна офлайн.

Вторая команда — запуск и общение:

ollama run <model>

Она поднимает модель и открывает диалог прямо в терминале. Если модель ещё не скачана, Ollama обычно загрузит её автоматически перед запуском, так что для первого знакомства часто достаточно одной этой команды.

Посмотреть, какие модели у вас уже установлены, можно командой списка:

ollama list

Этого набора — pull, run, list — хватает, чтобы скачать модель, запустить её и видеть, что лежит на диске.

Чат и выход

После ollama run <model> вы попадаете в интерактивный диалог: пишете сообщение, нажимаете Enter — модель отвечает. Это и есть локальный llm в чистом виде: всё происходит на вашей машине.

Чтобы выйти из диалога обратно в терминал, используется специальная команда внутри чата:

/bye

Также из интерактивного режима можно выйти стандартным сочетанием Ctrl + D. После выхода модель выгружается, а в следующий раз вы снова запускаете её той же командой ollama run.

Размер контекста и настройки

Один параметр стоит понимать с самого начала — размер контекста. Это объём текста, который модель удерживает «в голове» за один разговор: и ваши сообщения, и её ответы. Чем он больше, тем длиннее диалог или документ модель учитывает целиком, но и памяти при этом расходуется больше.

Менять подобные настройки можно. Ollama позволяет задавать параметры запуска модели и создавать собственные конфигурации на базе готовой модели — описав их в отдельном файле настроек модели. Конкретные ключи и синтаксис лучше смотреть в актуальной документации проекта: она обновляется, и я не буду приводить флаги, в которых нельзя быть уверенным.

Общий принцип такой: для длинных текстов имеет смысл больший контекст, для быстрых коротких ответов хватает и стандартного. Помните, что увеличение контекста повышает расход памяти — на скромном железе это может заметно замедлить ответы.

Подключение к приложениям и личному ИИ

Сам по себе запуск модели — это половина дела. Голая модель в терминале не помнит вас между сессиями и ничего не знает о ваших задачах. Ценность локального запуска раскрывается, когда поверх него появляется приложение с памятью и контекстом.

Технически это работает так: Ollama поднимает локальный API, к которому подключаются сторонние программы. Поэтому одну и ту же скачанную модель может использовать и терминал, и ваше приложение — без повторной загрузки весов.

Именно так устроена Persona: она подключается к локальной модели через Ollama, добавляет долговременную память и работает с вашими файлами — при этом данные остаются на вашем устройстве. Получается приватный ассистент, который знает именно вас и не зависит от облака. Подробнее о таком подходе — в статье про приватный ИИ локально.

А когда наберётся достаточно примеров ваших «хороших» ответов, следующим шагом может стать своя дообученная модель, которую тоже удобно крутить локально через ту же Ollama.

Типичные проблемы и решения

Не хватает VRAM или памяти. Самая частая беда — модель не помещается в видеокарту или оперативную память. Симптомы: ошибка при запуске, вылет или резкое замедление. Решение — взять модель меньшего размера или более «лёгкую» (сильнее квантованную) версию той же модели. Иногда помогает закрыть другие тяжёлые программы, которые занимают память.

Модель отвечает медленно. Если ответы идут по слову в секунду, скорее всего, модель велика для вашего железа и часть вычислений уходит на процессор. Попробуйте модель поменьше, уменьшите размер контекста и не держите открытыми ресурсоёмкие приложения.

Команда не найдена после установки. Перезапустите терминал, а при необходимости — компьютер, чтобы система подхватила Ollama. Проверьте установку командой ollama --version.

Приложение не видит модель. Убедитесь, что фоновый сервис Ollama запущен и модель действительно скачана — проверьте список через ollama list.

Частые вопросы

Нужен ли интернет, чтобы пользоваться моделью?

Интернет нужен только один раз — чтобы скачать модель командой ollama pull (или при первом ollama run). Дальше модель работает полностью офлайн.

Можно ли запустить Ollama без видеокарты?

Да. Ollama умеет работать на процессоре, используя обычную оперативную память. На CPU стоит брать компактные модели — крупные будут отвечать слишком медленно.

Сколько места занимают ollama модели?

По-разному: от нескольких гигабайт у компактных моделей до десятков гигабайт у крупных. Точный размер указан в карточке модели в каталоге Ollama. Скачанные модели можно посмотреть командой ollama list.

Как выбрать первую модель новичку?

Начните с компактной модели, чтобы убедиться, что всё запускается и отвечает с комфортной скоростью. Если железо тянет легко — переходите к более крупной. Так вы быстрее поймёте предел своего компьютера.

Безопасно ли это для приватных данных?

Да, в этом и смысл локального запуска: запросы и ответы не уходят на внешние серверы. Приватность ещё выше, если использовать модель через приложение, которое тоже хранит данные локально.

Вывод

Запустить ИИ-модель локально сегодня реально без глубоких технических знаний: установить Ollama под свою систему, проверить её командой ollama --version, выбрать модель под своё железо и запустить её парой команд ollama pull и ollama run. Это даёт приватность, работу офлайн и независимость от подписок.

А чтобы превратить локальный llm в полноценного личного ассистента с памятью и доступом к вашим файлам, поверх модели нужен инструмент вроде Persona. Тогда запустить ИИ локально — это не разовый эксперимент в терминале, а удобный приватный помощник на каждый день.