29.мая.2026
Почему RAG — это не просто «добавить поиск»: latency, качество и выбор стратегии retrieval
Когда говорят про RAG, его часто описывают как простой способ улучшить LLM‑систему: добавить поиск по внешним данным, найти релевантный контекст, передать его модели и получить более точный ответ.На уровне идеи это действительно выглядит логично.Но в реальной системе RAG — это не только способ обогатить ответ. Это отдельный операционный слой, который влияет на задержку, размер prompt, количество input tokens, стоимость запроса, качество ответа, SLA и требования к наблюдаемости системы.Я хотел посмотреть на это не в формате общих рассуждений, а на небольшом локальном стенде: где именно появляется дополнительная нагрузка, какие параметры сильнее всего влияют на latency, почему больше контекста не всегда означает лучшее качество и почему стратегия retrieval должна зависеть от типа вопроса и структуры данных.Это не промышленный benchmark и не попытка получить универсальные цифры. Скорее серия контролируемых экспериментов: посмотреть на механику RAG pipeline и компромиссы, которые часто остаются за кадром, когда RAG описывают просто как «поиск + LLM». Читать далее
Название: Почему RAG — это не просто «добавить поиск»: latency, качество и выбор стратегии retrieval
Ссылка на источник:
https://habr.com/ru/articles/1040938/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1040938