Гарри Тан представил gstack — систему с открытым исходным кодом, которая предназначена для планирования, проверки кода, контроля качества и выпуска. Она объединяет функции Claude Code в 8 специализированных рабочих навыков, поддерживаемых постоянной средой выполнения в браузере.
Основные команды
В настоящее время репозиторий gstack предоставляет 8 основных команд:
* `/plan-ceo-review` — планирование на уровне продукта;
* `/plan-eng-review` — планирование архитектуры, потока данных, режимов отказа и тестов;
* `/review` — проверка производственных рисков и кода;
* `/ship` — подготовка готовой ветки, синхронизация с основной, запуск тестов и открытие PR;
* `/browse` — предоставление агенту доступа к браузеру;
* `/qa` — систематическое тестирование затронутых маршрутов и потоков;
* `/setup-browser-cookies` — импорт файлов cookie из локального браузера в безголовый сеанс;
* `/retro` — инженерные ретроспективы.
Каждая команда соответствует определённому режиму работы.
Постоянный браузер — основная система
Наиболее важной технической частью gstack является не умение работать с Markdown. Это браузерная подсистема. gstack предоставляет Claude Code постоянный браузер, и это сложная часть, в то время как всё остальное — в основном Markdown.
Вместо запуска нового браузера для каждого действия gstack запускает долго работающий безголовый демон Chromium и взаимодействует с ним через localhost HTTP. Это сделано для снижения задержки и сохранения состояния.
Как gstack связывает автоматизацию браузера с контролем качества
Архитектура демона важна для контроля качества и разработки с использованием браузера. В gstack доступ к браузеру является частью основного рабочего процесса.
Требования к установке и структура проекта
Для работы gstack требуются Claude Code, Git и Bun v1.0+. Проект использует Bun вместо более традиционной настройки Node.js по нескольким причинам:
* скомпилированные двоичные файлы;
* прямой доступ к SQLite;
* нативное выполнение TypeScript;
* встроенный HTTP-сервер с Bun.serve().
Эти решения практичны, а не косметичны.
Google DeepMind представляет Aletheia: агент искусственного интеллекта, который движется от математических соревнований к полностью автономным открытиям в профессиональных исследованиях
Команда Google DeepMind представила Aletheia — специализированного агента искусственного интеллекта, предназначенного для преодоления разрыва между математикой уровня соревнований и профессиональными исследованиями.
Архитектура: агентская петля
Aletheia работает на базе усовершенствованной версии Gemini Deep Think. Она использует трёхкомпонентную «агентскую упряжь» для повышения надёжности:
* Генератор: предлагает решение исследовательской задачи.
* Верификатор: неформальный механизм проверки на естественном языке, который выявляет недостатки или галлюцинации.
* Ревизер: исправляет ошибки, выявленные верификатором, до тех пор, пока окончательный результат не будет утверждён.
Такое разделение обязанностей имеет решающее значение; исследователи обнаружили, что явное разделение проверки помогает модели распознавать недостатки, которые она изначально не замечает при генерации.
Ключевые технические выводы
Разработка Aletheia позволила сделать несколько выводов о том, как ИИ обрабатывает сложные рассуждения:
* Масштабирование во время вывода: предоставление модели дополнительных вычислительных ресурсов во время запроса — «более длительное обдумывание» — значительно повышает точность.
* Производительность: Aletheia достигла точности 95,1% на IMO-Proof Bench Advanced, что стало значительным прорывом по сравнению с предыдущим рекордом в 65,7%.
* Использование инструментов: чтобы предотвратить галлюцинации с цитированием, Aletheia использует Google Search и веб-браузер.
Этапы исследования
Aletheia уже внесла свой вклад в несколько рецензируемых публикаций:
* Полностью автономный (Feng26): Aletheia сгенерировала исследовательскую статью, вычисляющую структурные константы, называемые собственными весами, без какого-либо участия человека.
* Совместная работа (LeeSeo26): агент предоставил общую дорожную карту и «общую стратегию» для доказательства границ независимых множеств, которые авторы-люди затем превратили в строгое доказательство.
* Гипотезы Эрдеша: Aletheia была задействована для решения 700 открытых задач, нашла 63 технически правильных решения и самостоятельно разрешила 4 открытых вопроса.
Таксономия для автономности ИИ
DeepMind предложила стандарт для классификации математических вкладов ИИ, аналогичный уровням, используемым для автономных транспортных средств.
| Уровень | Описание | Значение (пример) |
| — | — | — |
| Уровень 0 | В основном человеческий | Незначительная новизна (уровень олимпиады) |
| Уровень 1 | Человеко-ИИ сотрудничество | Незначительная новизна (Erdős-1051) |
| Уровень 2 | По сути автономный | Опубликуемые исследования (Feng26) |
Ключевые выводы
* Введение исследовательского ИИ-агента: Aletheia — это математический исследовательский агент, который выходит за рамки решения задач на уровне соревнований и может автономно генерировать, проверять и исправлять математические доказательства на естественном языке.
* Значительные успехи благодаря масштабированию во время вывода: исследователи DeepMind обнаружили, что предоставление модели дополнительного «времени на обдумывание» во время вывода даёт существенный прирост точности.
* Вехи в автономных исследованиях: система достигла нескольких «первых», включая исследовательскую статью (Feng26), сгенерированную полностью без участия человека в области арифметической геометрии.
* Критическая роль использования инструментов и проверки: чтобы бороться с «галлюцинациями», такими как фабрикация цитат в статьях, Aletheia в значительной степени полагается на Google Search и веб-браузер.
* Предложение новой таксономии автономности: в документе предлагается стандартизированная система для документирования результатов, полученных с помощью ИИ, с осями для автономности (от уровня H до уровня A) и математической значимости (от уровня 0 до уровня 4).
1. Какие основные функции предоставляет система gstack и как они могут быть полезны для разработчиков?
Система gstack предоставляет 8 основных команд, которые помогают в планировании, проверке кода, контроле качества и выпуске. Например, команда `/plan-ceo-review` используется для планирования на уровне продукта, а `/review` — для проверки производственных рисков и кода. Эти функции могут быть полезны для разработчиков, так как позволяют автоматизировать рутинные задачи и сосредоточиться на более сложных аспектах разработки.
2. Какие технические решения используются в проекте gstack для обеспечения его эффективности?
В проекте gstack используются следующие технические решения:
* постоянный браузер в качестве основной системы;
* безголовый демон Chromium для взаимодействия с браузером;
* использование Bun v1.0+ вместо традиционной настройки Node.js.
Эти решения позволяют снизить задержку, сохранить состояние и обеспечить эффективную работу системы.
3. Какие ключевые технические выводы были сделаны при разработке Aletheia и как они влияют на будущее ИИ в научных исследованиях?
При разработке Aletheia были сделаны следующие ключевые технические выводы:
* масштабирование во время вывода значительно повышает точность;
* Aletheia достигла точности 95,1% на IMO-Proof Bench Advanced;
* использование инструментов, таких как Google Search и веб-браузер, помогает предотвратить галлюцинации с цитированием.
Эти выводы указывают на значительный прогресс в области ИИ и его потенциал для научных исследований.
4. Какие уровни автономности ИИ были предложены DeepMind и как они классифицируются?
DeepMind предложила стандарт для классификации математических вкладов ИИ, аналогичный уровням, используемым для автономных транспортных средств. Уровни автономности включают:
* Уровень 0: в основном человеческий (незначительная новизна).
* Уровень 1: человеко-ИИ сотрудничество (незначительная новизна).
* Уровень 2: по сути автономный (публикуемые исследования).
Эта классификация позволяет стандартизировать результаты, полученные с помощью ИИ, и оценить их автономность.
5. Какие примеры использования Aletheia в научных исследованиях были приведены в статье?
В статье приведены следующие примеры использования Aletheia:
* полностью автономный (Feng26): Aletheia сгенерировала исследовательскую статью без участия человека;
* совместная работа (LeeSeo26): агент предоставил общую дорожную карту и стратегию для доказательства границ независимых множеств, которые авторы-люди затем превратили в строгое доказательство;
* гипотезы Эрдеша: Aletheia была задействована для решения 700 открытых задач, нашла 63 технически правильных решения и самостоятельно разрешила 4 открытых вопроса.
Эти примеры демонстрируют потенциал Aletheia для научных исследований и её способность генерировать, проверять и исправлять математические доказательства.