Что такое RAG и зачем он бизнесу

RAG (Retrieval-Augmented Generation) — AI-агент, который перед ответом ищет релевантные фрагменты в вашей базе знаний. Не «знания» из интернета, а ваши регламенты, каталог, FAQ, история переписки. Типичные задачи: корпоративный помощник по внутренним документам, поддержка клиентов по базе продуктов, юридический помощник по базе договоров.

Архитектура RAG: как это работает

Индексирование: документы нарезаются на чанки 300–500 токенов → каждый чанк конвертируется в вектор через embedding-модель → векторы сохраняются в Qdrant или pgvector.

Ответ на запрос: вопрос пользователя конвертируется в вектор → находятся топ-K похожих чанков → чанки добавляются в контекст LLM → модель генерирует ответ на основе реальных данных.

Инструменты: что выбрать

Embedding: OpenAI text-embedding-3-small (хороший баланс), Cohere multilingual (лучше для русского), Nomic embed (open-source, бесплатно). Векторная БД: Qdrant (наш выбор — фильтрация по метаданным, cloud, production-ready), pgvector (если уже используете Postgres), Chroma (для прототипов). Оркестрация: LlamaIndex для RAG-специфичных задач, bare API для простых сценариев.

Кейс: 8 000 страниц каталога медоборудования

Задача: 1 500 позиций, менеджеры тратили 8–15 минут на поиск характеристик. Решение: RAG на LlamaIndex + Qdrant + Claude + Telegram-бот. Источники: PDF-каталоги, таблицы сравнения — 450 документов. Результат: поиск ответа сократился до 15–30 секунд, за 2 месяца обработано 3 200 запросов без обращения к человеку.

Типичные ошибки при построении RAG

Плохая нарезка чанков: разрезать посередине предложения — контекст теряется. Нарезайте по смысловым блокам. Нет метаданных: без источника и даты нельзя фильтровать поиск. Один поиск для сложных вопросов: многошаговые вопросы требуют multi-step retrieval или HyDE. Старые данные: настройте автоматическое обновление индекса при изменении документов.

Обсудите задачу с нами — оставьте заявку, разберём ваш кейс бесплатно.