15.июн.2026
Как тестировать LLM-фичи: пишем автоэвалы и гоняем их в CI
У нас в проде живёт бот, который отвечает на вопросы по документации продукта — обычный RAG. Первые месяца три мы катили его, как все: поправил промпт, прогнал пяток вопросов руками, поставил в голове галочку «вроде стало лучше» и выкатил. Закончилось это предсказуемо. Коллега подкрутил промпт ретривера под свой кейс и по дороге сломал мой, причём заметили мы это через две недели по жалобе пользователя.После того случая мы построили себе автоэвалы. Читать далее
Название: Как тестировать LLM-фичи: пишем автоэвалы и гоняем их в CI
Ссылка на источник:
https://habr.com/ru/articles/1047690/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1047690