#AI: Агенты ломаются - виновата не модель ⚙️

💡 Ставишь Claude, GPT, Gemini - лучшее из доступного. А агент все равно падает. Каждый запуск для него как первый день на работе: без памяти, без роли, без маршрута.

Где реально ломаются агентные системы:
Компании зациклены на точности модели и игнорируют инфраструктурный слой - именно там тихо разваливается все: пайплайны данных, логика оркестрации, retrieval-системы, downstream-воркфлоу. По данным исследований, более 80% ИИ-внедрений проваливаются в первые 6 месяцев - и почти всегда проблема не в модели. Если агент надежен на 85% на каждом шаге, 10-шаговый воркфлоу успешно завершится только в ~20% случаев. Не потому что модель ошиблась - потому что система не умеет делать checkpoint, восстанавливаться после частичного сбоя или продолжить с места остановки

LLM по природе stateless: каждая новая сессия начинается с нуля пока история явно не передается при каждом вызове. Базово подключенная нейросеть - это не агент. Это умный стажер которому каждый день заново объясняют где задачи, где контекст, где правила и почему нельзя трогать прод без проверки

Что нужно агенту чтобы работать по-настоящему:
Память - что сделано, что провалилось и почему, чтобы не повторять одни ошибки
Роль и права - что брать в работу, что не трогать, где граница полномочий
Маршрутизация - какую задачу в какой ситуации взять и кому передать
Проверка результата - кто и как подтверждает что сделано правильно
Уборка контекста - как не тащить старый мусор в новую задачу

Microsoft в 2025 выпустил whitepaper по таксономии провалов агентов: goal hijacking, злоупотребление инструментами, отравление памяти, каскадные отказы в multi-agent системах. Это не ИИ-специфика - это классические проблемы надежности распределенных систем которые давно решены в инженерии. Anthropic отдельно опубликовали гайд по управлению контекстом для агентов - потому что контекст это операционка агента, не просто удобство

Модель - двигатель. Операционка вокруг агента - машина. Без руля, тормозов и навигации получаешь ревущий мотор на полу гаража. Мощно звучит - ехать невозможно

Еще год назад спорили какой промпт написать чтобы агент наконец заработал. Сейчас важнее другой вопрос: что агент помнит, какую роль выполняет, какие задачи имеет право брать и куда складывает результат. Вот почему я сейчас так много ковыряю не сами модели, а skills, Notion, память, роутинг и роли. Со стороны выглядит как задротство - "Mat, ну просто поручи агенту задачу". Но "просто поручить" работает один раз. Если повезло. Мне нужна повторяемость: система которая завтра снова увидит контекст, возьмет правильную карточку, сделает результат, положит его в нужное место и не сломает соседний процесс. Вот это и есть реальная автономность - не когда агент красиво болтает, а когда его работу можно проверить

⭐️ Jeff Bezos, основатель Amazon:

"Good intentions don't work. You have to have a mechanism to make it work"

🎯 Перестань ждать модель которая сама все поймет. Начни строить среду в которой агенту есть что понимать - и тогда любая следующая модель станет лучше автоматически

Instagram | YouTube | Threads