Готовые модели вроде GPT, Llama или Qwen умеют почти всё — но звучат как «средний интернет». Они не знают вашего стиля, вашей терминологии и того, какие ответы вы лично считаете хорошими. Самый глубокий способ это изменить — не промпт и не память, а своя модель ИИ: вы берёте открытую нейросеть и дообучаете её под себя на собственных примерах.
Звучит как занятие для исследовательской лаборатории, но порог входа за последние пару лет резко упал. Сегодня обучить ИИ под себя реально на одной видеокарте — а если своей нет, то и на бесплатной облачной. Ниже — честный разбор: что такое дообучение нейросети и LoRA простыми словами, откуда брать данные, как выглядит процесс по шагам, какое нужно железо и — главное — где у этого подхода реальные границы. Без приукрашивания: компактная локальная модель не станет умнее топового облака, и важно понимать, что вы получаете, а что нет.
Зачем вообще своя модель
Сначала стоит понять, чем дообучение отличается от других способов персонализации, и вообще что такое личный ИИ как идея.
Есть три уровня настройки модели под себя, и они не конкурируют, а дополняют друг друга:
- Промпт — вы каждый раз объясняете модели, как себя вести. Быстро и бесплатно, но хрупко: длинные инструкции раздувают контекст, и модель про них «забывает».
- RAG (поиск по своим данным) — модель на лету подтягивает нужные документы и отвечает с опорой на них. Отлично для фактов и базы знаний, но не меняет манеру речи.
- Fine-tune (дообучение) — вы меняете саму модель «изнутри», зашивая нужное поведение прямо в её веса. Дороже по усилиям, зато результат стабилен и не требует длинных промптов.
Сравним их по существу:
| Критерий | Промпт | RAG | Fine-tune / LoRA |
|---|---|---|---|
| Что меняет | поведение «на лету» | доступ к фактам | стиль и поведение «навсегда» |
| Стоимость старта | нулевая | низкая | средняя (нужна GPU) |
| Меняет стиль речи | слабо | почти нет | сильно |
| Добавляет свежие факты | да, вручную | да, автоматически | плохо, и рискованно |
| Работает офлайн | зависит | зависит | да, полностью |
| Когда выбрать | разовая задача | большая база знаний | свой устойчивый стиль |
Своя дообученная модель имеет смысл, когда вам важно:
- Свой стиль и тон. Ответы звучат как ваши, а не усреднённо-нейтрально.
- Своя предметная область. Модель уверенно держит вашу терминологию и форматы.
- Стабильность без длинных промптов. Не нужно каждый раз объяснять «отвечай вот так».
- Автономность и приватность. Дообученная компактная модель работает локально и офлайн, данные не уходят наружу.
Если же вам нужен разовый ответ на общий вопрос — дообучение избыточно, хватит обычной модели или хорошего промпта.
Что такое fine-tune и LoRA простыми словами
Fine-tune (дообучение) — это когда уже обученную модель «доучивают» на новых примерах, чтобы сместить её поведение в нужную сторону. Модель не учится с нуля (полное обучение с нуля стоит миллионы долларов и требует кластера) — она лишь аккуратно корректирует то, что уже умеет.
Проблема классического fine-tune: у современных моделей миллиарды параметров, и менять их все — дорого по видеопамяти и по времени. Чтобы дообучить даже не самую большую модель «целиком», нужно держать в памяти и сами веса, и их градиенты, и состояния оптимизатора — это требует серьёзного профессионального железа.
Тут на сцену выходит LoRA (Low-Rank Adaptation) — техника, которая сделала дообучение нейросети доступным обычному человеку.
Идея LoRA проста и изящна: не трогаем исходные веса модели вообще, а добавляем рядом небольшие дополнительные слои-«адаптеры» и обучаем только их. Это как не переписывать толстую книгу целиком, а вклеить в неё свои закладки и пометки на полях. Сама книга остаётся прежней, но читается уже «по-вашему».
LoRA-адаптер обычно весит десятки мегабайт против десятков гигабайт у самой модели — и обучается на одной видеокарте, а не на кластере.
Почему это меняет всё:
- Дёшево по памяти. Обучается крошечная доля параметров, остальное «заморожено».
- Быстро. Цикл обучения сокращается с дней до часов или даже минут на компактных моделях.
- Удобно. Один и тот же базовый чекпойнт можно держать на диске один раз и подключать к нему разные адаптеры — отдельно «рабочий», отдельно «личный».
Есть и QLoRA — вариант, где базовая модель дополнительно сжимается (квантизуется), и тогда LoRA влезает в ещё более скромную видеопамять. Именно связка LoRA/QLoRA превратила «свою модель» из корпоративной роскоши в выходной проект для одного человека.
Какой датасет нужен и откуда его брать
Дообучение хорошо ровно настолько, насколько хорош ваш датасет. Это набор примеров в формате «запрос → желаемый ответ», на которых модель учится вашему поведению. Никакая хитрая настройка не спасёт, если примеры плохие: модель честно выучит ровно то, что вы ей показали, включая ваши ошибки и противоречия.
Где брать примеры:
- Ваши реальные диалоги. Лучшие ответы из переписок, чатов с ассистентом, рабочих документов — то, что уже отражает вашу манеру.
- Оценки качества 👍/👎. Когда вы помечаете ответы пальцем вверх или вниз, «лайки» естественным образом копятся в датасет хороших примеров, а «дизлайки» подсказывают, чего избегать. Так это и устроено в Persona: оценки 👍/👎 накапливаются и становятся готовым материалом для будущей LoRA — вам не нужно собирать данные отдельно, они набираются сами в повседневной работе.
- Выделенные фрагменты. Если вы помечаете в ответах удачные куски — точные формулировки, нужный формат, верный тон, — из них получаются эталонные примеры высокой пробы.
- Ручная разметка. Несколько десятков аккуратно написанных «золотых» ответов часто полезнее тысячи случайных строк из лога.
Главное правило: качество важнее объёма. Сотня чистых, по-настоящему «ваших» примеров обычно даёт больше, чем десять тысяч шумных и противоречивых. Объём измеряют скорее сотнями-тысячами примеров, чем миллионами, — но точное число всегда зависит от задачи и чистоты данных, так что относитесь к любым «магическим числам» с осторожностью. Подробно про сбор, формат и очистку — в отдельной статье о том, как собрать датасет.
Пошаговый процесс в общих чертах
Не вдаваясь в конкретные команды (они зависят от инструмента и версий), путь к своей модели выглядит так:
- Выбрать базовую модель. Открытую и компактную — например, из семейств Llama, Qwen, Mistral или Gemma. Чем меньше модель, тем дешевле обучение и запуск; для первого опыта берут самые маленькие варианты.
- Собрать и почистить датасет. Привести примеры к единому формату «запрос → ответ», убрать дубли, мусор и противоречия. На этом шаге решается 80% успеха.
- Настроить обучение LoRA. Задать ключевые параметры — ранг адаптера, скорость обучения, число проходов по данным (эпох). Здесь помогают готовые инструменты вроде Unsloth, Axolotl или библиотеки PEFT, где разумные значения уже выставлены по умолчанию.
- Запустить дообучение. На своей видеокарте или в облаке. Для компактной модели и небольшого датасета это обычно от десятков минут до нескольких часов.
- Проверить результат. Сравнить ответы «до» и «после» на отложенных примерах, которых не было в обучении. Это единственный честный способ понять, стало лучше или вы просто переучили модель под сам датасет.
- Подключить адаптер. Готовую LoRA «приклеивают» к базовой модели и запускают локально — например, через Ollama.
Важно понимать: это не разовое действие, а итеративный цикл. Дообучили → проверили → нашли слабые места → дополнили датасет → повторили. С первой попытки идеального результата почти никогда не выходит, и это нормально.
Железо и бесплатные GPU как вариант
LoRA нетребовательна по меркам обучения, но видеокарта всё же нужна — обучать на процессоре практически бессмысленно по времени. Грубые ориентиры по видеопамяти:
| Размер модели | Видеопамять с LoRA (порядок величины) | Где запускать |
|---|---|---|
| 1–3B | примерно 6–8 ГБ | домашняя GPU, бесплатный Colab |
| 7–8B | примерно 12–16 ГБ | хорошая игровая GPU, аренда в облаке |
| 13B и выше | от 24 ГБ | аренда / профессиональное железо |
Эти цифры — приблизительные и сильно зависят от настроек: квантизация (QLoRA заметно снижает требования), длина контекста, размер батча, ранг адаптера. Воспринимайте их как порядок величины, а не как точное требование — реальная потребность может оказаться и ниже, и выше.
Если своей мощной карты нет, это не повод отступать. Google Colab и Kaggle дают доступ к GPU бесплатно (с ограничениями по времени сессии), а почасовая аренда облачной видеокарты стоит недорого для разовой задачи и оплачивается только за реальные минуты обучения. Для первой LoRA на компактной модели бесплатного тарифа обычно хватает с запасом.
Как подключить адаптер локально
Когда LoRA обучена, её нужно как-то запускать у себя. Самый простой массовый путь — через Ollama, локальный «движок» для запуска моделей. В общих чертах схема такая: вы берёте базовую модель, указываете в её конфигурации обученный адаптер (или заранее «вплавляете» LoRA в веса, получая единый файл модели), и дальше пользуетесь ей так же, как любой другой локальной моделью — из чата, приложения или по API.
Преимущество подхода: базовая модель лежит на диске один раз, а адаптеры — лёгкие. Можно держать несколько «личностей» одной модели и переключаться между ними. Всё работает офлайн, без интернета и без передачи данных наружу. Технические детали локального запуска и форматов разобраны в гайде про Ollama и локальный запуск.
Ограничения и реалистичные ожидания
Здесь важно быть честным, потому что вокруг fine-tune много завышенных ожиданий. Дообучение настраивает стиль и поведение, но не превращает маленькую модель в интеллект уровня топового облака.
Что стоит держать в голове:
- Компактная локальная модель не догонит топ-облако. Своя дообученная 7–8B-модель не обгонит флагманское облако по сложным рассуждениям, коду или редким энциклопедическим знаниям. У них разные «весовые категории», и LoRA этого разрыва не закрывает.
- LoRA меняет стиль сильнее, чем фактологию. Дообучение отлично сдвигает тон, формат и манеру, но плохо «вкладывает» в модель новые точные факты — и при этом может усилить уверенные ошибки (галлюцинации). Для свежих и точных данных надёжнее RAG, а не fine-tune.
- Качество датасета важнее объёма. Маленький грязный или противоречивый датасет способен сделать модель хуже исходной, а не лучше. Мусор на входе — мусор на выходе.
- Это итеративный труд. Хороший результат набирается циклами, а не одной кнопкой. Закладывайте несколько подходов.
Поэтому разумная стратегия — не «заменить облако», а закрыть конкретную нишу: ваш устойчивый стиль, ваши форматы, ваша приватная предметная область, работающие локально и без интернета. Где именно проходит граница между локальным и облачным, подробно разобрано в статье локальная модель против облака.
Частые вопросы
Чем fine-tune отличается от RAG?
RAG подкладывает модели нужные документы в момент ответа — это про доступ к фактам и базе знаний. Fine-tune меняет саму модель и её манеру отвечать. Для свежих и точных данных выбирайте RAG, для устойчивого «вашего» стиля — дообучение. Часто их совмещают: LoRA задаёт тон, RAG поставляет факты.
Сколько примеров нужно для LoRA?
Зависит от задачи, но порядок — скорее сотни-тысячи качественных примеров, чем миллионы. Чистые и согласованные данные важнее количества: сотня выверенных «ваших» ответов обычно полезнее десяти тысяч случайных. Точных универсальных чисел не существует — проверяйте результат на отложенных примерах.
Можно ли обучить модель без своей видеокарты?
Да. Бесплатные Google Colab и Kaggle дают доступ к GPU с ограничениями по времени, а почасовая аренда облачной карты стоит недорого. Для первой LoRA на компактной модели этого достаточно — платить за дорогое железо ради старта не нужно.
Своя модель будет умнее ChatGPT?
Нет, и обещать обратное было бы нечестно. Компактная локальная модель уступает топовым облачным по сложным рассуждениям и широте знаний. Её сила в другом: ваш стиль, приватность, работа офлайн и точность в узкой нише, под которую вы её обучили.
LoRA добавит модели новые знания?
Слабо и ненадёжно. LoRA хорошо меняет стиль и формат, но плохо «вшивает» точные факты и может усилить выдумки. Если нужны конкретные знания (документы, база, цифры) — это задача для RAG, а не для дообучения.
Вывод
Своя модель ИИ — это не магия и не замена топовым облачным нейросетям, а инструмент точечной персонализации. LoRA сделала дообучение нейросети доступным одному человеку: нужен открытый базовый чекпойнт, чистый датасет из ваших примеров и видеокарта (пусть даже бесплатная облачная). Ожидания держите трезвыми — компактная локальная модель не догонит топ-облако, LoRA меняет стиль сильнее фактов, а качество данных решает больше, чем их объём. Начните с малого: компактная модель, сотня по-настоящему качественных примеров, одна итерация — и вы получите ассистента, который звучит именно как вы. А самый простой способ накопить датасет, чтобы однажды обучить ИИ под себя, — просто честно оценивать ответы 👍/👎 в повседневной работе.