Fugu: когда орхестр AI-агентов обыгрывает отдельного фронтьерного гиганта

Sakana AI запустила AutoResearch, агента, который самостоятельно редактирует код обучения маленькой модели GPT, запускает эксперименты и оставляет только те изменения, которые снижают валидационный bits-per-byte (BPB). За 14 часов на одном H100 агент провел 123 эксперимента и вывел Fugu-Ultra с результатом 0.9774 BPB, обыгрывая три фронтьерные модели (Model A: 0.9822, Model B: 0.9793, Model C: 0.9781). Агент менял batch size, глубину модели, learning rate и настройки оптимизатора.

Статья показывает это не только в абстрактной оптимизации обучения. Fugu-Ultra решил классическую японскую задачу восстановления порядка чтения иероглифов в хаотично расписанном письме 1610 года лучше, чем Model A (0.80 vs 0.24). На ручной задаче рисования механической диафрагмы в CAD Fugu создал работающую конструкцию, тогда как конкуренты делали браки с щелями и слабыми связями. На слепом шахе Fugu выиграл все 4 партии против гроссмейстера и фронтьерных моделей. Даже в синтетической задаче торговли акциями Fugu нарастил портфель на 19.43%, обыгрывая остальных.

Ключевые факты

AutoResearch агент за 14 часов на одном GPU найденный лучшие гиперпараметры для маленькой модели, чем могли люди вручную.
Fugu-Ultra с BPB 0.9774 превзошел все три тестируемые фронтьерные модели, включая самый новый Model C.
В специализированных задачах (восстановление иероглифов, CAD, слепой шахмат) Fugu часто давал рабочие результаты, когда конкуренты давали отказы или браки.
Комбинированная команда слабых и средних моделей с автоматическим поиском, руководимым агентом, обыграла лучшие доступные одиночные модели.
Это предполагает, что главное в ближайшее время не в масштабе отдельных моделей, а в оркестровке и в том, как агенты пользуются инструментами и другими моделями.

Ред. Цифры красивые до третьего знака (0.9774 против 0.9781), но обыграны задачи, на которых Fugu заведомо хороша. Маленькая модель плюс агент это всё ещё демо, а не закон природы.

Почему это важно

Индустрия сосредоточена на гонке за большей и большей моделью: больше параметров, больше данных, больше вычислений. Sakana показывает, что это не единственный путь. Меньшая модель, которая знает как себя использовать (благодаря агенту и правильным гиперпараметрам), может обойти большую модель-всезнайку. Это переворачивает предположение, что моделям просто нужно расти. Ещё важнее то, что AutoResearch показывает, как автоматизировать сам поиск лучших конфигураций обучения вместо того чтобы полагаться на интуицию и хантинг гиперпараметров.

Ред. Гонка за размером удобна тем, что её легко мерить деньгами. Оркестровку измерить сложнее, поэтому индустрия так не любит признавать, что параметры это не единственная ось.

Кому это важно

Исследователям ML, которые закупают мощные модели и платят за вычисления. Стартапам, которые не могут позволить себе обучать фронтьерные модели с нуля. Инженерам LLM-приложений, которые могут выбирать между API больших моделей и оркестровкой меньших. Аналитикам и продакт-менеджерам, которые планируют расходы на инфраструктуру AI.

Ред. Тем, кто верстает бюджет на вычисления: вывод приятный («можно дешевле»), но счёт за 123 эксперимента и инженера, который настроил агента, в пресс-релизе не показан.

Как это применить

Первый уровень: если у вас есть типовая задача (классификация, экстракция, код), экспериментируйте с меньшей моделью вместе с системным промптом и примерами, вместо того чтобы платить за больших. Второй уровень: если нужна высокая точность, подумайте, может ли агент вызвать несколько моделей или инструментов параллельно и выбрать лучший результат. Третий уровень: используйте инструменты вроде AutoResearch или похожие фреймворки для поиска оптимальных промптов и конфигураций вместо ручного туннинга.

Ред. Три уровня сводятся к одному: перестать платить за всезнайку там, где хватит узкой модели с примерами. Проблема в том, что определить «где хватит» по-прежнему дороже самой подписки.

Можно ли доверять

Sakana AI, исследовательская лаборатория, соавторы включают людей с публикациями на высоком уровне. Результаты подкреплены явными цифрами BPB, изображениями и видеоклипами (карточка иероглифов, шахматная партия, диафрагма в CAD). Методология понятна: автоматический поиск по нисходящей. Единственный риск в том, что некоторые задачи выбраны потому что Fugu на них хороша, но даже в синтетической торговле результат впечатляет.

Ред. Авторы сами отмечают, что часть бенчмарков подобрана под сильные стороны Fugu. Честно, но это ровно тот дисклеймер, который читатели пролистывают, запоминая только заголовок про разгром гигантов.

Риски и подводные камни

Результат на торговле акций оговорен: это не гарантирует реальную прибыль, это просто доказательство концепции. Маленькая модель может быть быстрее, но не всегда, всё зависит от размера и где она запущена. Главный риск в том, что компании могут раздуть ожидания и подумать, что любая маленькая модель с агентом обыграет Claude или GPT, чего нет. Здесь нужна правильная задача и правильная конфигурация поиска.

Ред. Самый предсказуемый исход: кто-то прочитает это как «любая мелкая модель с агентом бьёт Claude и GPT», возьмёт случайную семёрку, обернёт в цикл и удивится. 19% на синтетической торговле тоже не чек в кассу.

«Это предполагает, что оркестрирование нескольких сильных моделей может превзойти любую отдельную фронтьерную модель в агентном ML-исследовании»

— Sakana AI, 'Fugu: orchestrating frontier models'