Купить в 1 клик

Не хватает прав доступа к веб-форме.

Спасибо за заказ!
Ошибка!
В ближайшее время наш менеджер свяжется с вами.

Мы работаем для Вас!

Время работы:  Пн-Пт   10 -17; Сб.-Вск  выходной

1280x800 532x281
06.апр.2026

Evals: мегастатья для фаундера, чей AI-агент работает как попало

Через несколько дней будет 16 лет, как я на Хабре. Это моя первая статья.Я делаю десктопный AI-ассистент для встреч. Агент суммаризирует транскрипты — и делал это плохо: галлюцинирует решения, теряет задачи, путает кто что сказал. Полгода я чинил промпты по ощущениям — менял слово, смотрел глазами на пару примеров, говорил «вроде лучше», деплоил. Это называется vibes-based development, и это тупик.Потом я разобрался с evals — по сути, тестами для недетерминированных систем. Перелопатил Hamel Husain, Eugene Yan, гайды Anthropic, доку Mastra. Написал всё в одном месте: мегастатья от ручного разбора ошибок до self-improving loops, где агент улучшает себя сам за ночь. С кодом, граблями и метафорами про пиццу. Читать далее

Название: Evals: мегастатья для фаундера, чей AI-агент работает как попало
Ссылка на источник:  https://habr.com/ru/articles/1019834/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1019834

Возврат к списку