Гарри Тан выпускает gstack: система кода Claude с открытым исходным кодом для планирования, проверки кода, контроля качества и выпуска

Гарри Тан представил gstack — систему с открытым исходным кодом, которая предназначена для планирования, проверки кода, контроля качества и выпуска. Она объединяет функции Claude Code в 8 специализированных рабочих навыков, поддерживаемых постоянной средой выполнения в браузере.

Основные команды

В настоящее время репозиторий gstack предоставляет 8 основных команд:
* `/plan-ceo-review` — планирование на уровне продукта;
* `/plan-eng-review` — планирование архитектуры, потока данных, режимов отказа и тестов;
* `/review` — проверка производственных рисков и кода;
* `/ship` — подготовка готовой ветки, синхронизация с основной, запуск тестов и открытие PR;
* `/browse` — предоставление агенту доступа к браузеру;
* `/qa` — систематическое тестирование затронутых маршрутов и потоков;
* `/setup-browser-cookies` — импорт файлов cookie из локального браузера в безголовый сеанс;
* `/retro` — инженерные ретроспективы.

Каждая команда соответствует определённому режиму работы.

Постоянный браузер — основная система

Наиболее важной технической частью gstack является не умение работать с Markdown. Это браузерная подсистема. gstack предоставляет Claude Code постоянный браузер, и это сложная часть, в то время как всё остальное — в основном Markdown.

Вместо запуска нового браузера для каждого действия gstack запускает долго работающий безголовый демон Chromium и взаимодействует с ним через localhost HTTP. Это сделано для снижения задержки и сохранения состояния.

Как gstack связывает автоматизацию браузера с контролем качества

Архитектура демона важна для контроля качества и разработки с использованием браузера. В gstack доступ к браузеру является частью основного рабочего процесса.

Требования к установке и структура проекта

Для работы gstack требуются Claude Code, Git и Bun v1.0+. Проект использует Bun вместо более традиционной настройки Node.js по нескольким причинам:
* скомпилированные двоичные файлы;
* прямой доступ к SQLite;
* нативное выполнение TypeScript;
* встроенный HTTP-сервер с Bun.serve().

Эти решения практичны, а не косметичны.

Google DeepMind представляет Aletheia: агент искусственного интеллекта, который движется от математических соревнований к полностью автономным открытиям в профессиональных исследованиях

Команда Google DeepMind представила Aletheia — специализированного агента искусственного интеллекта, предназначенного для преодоления разрыва между математикой уровня соревнований и профессиональными исследованиями.

Архитектура: агентская петля

Aletheia работает на базе усовершенствованной версии Gemini Deep Think. Она использует трёхкомпонентную «агентскую упряжь» для повышения надёжности:
* Генератор: предлагает решение исследовательской задачи.
* Верификатор: неформальный механизм проверки на естественном языке, который выявляет недостатки или галлюцинации.
* Ревизер: исправляет ошибки, выявленные верификатором, до тех пор, пока окончательный результат не будет утверждён.

Такое разделение обязанностей имеет решающее значение; исследователи обнаружили, что явное разделение проверки помогает модели распознавать недостатки, которые она изначально не замечает при генерации.

Ключевые технические выводы

Разработка Aletheia позволила сделать несколько выводов о том, как ИИ обрабатывает сложные рассуждения:
* Масштабирование во время вывода: предоставление модели дополнительных вычислительных ресурсов во время запроса — «более длительное обдумывание» — значительно повышает точность.
* Производительность: Aletheia достигла точности 95,1% на IMO-Proof Bench Advanced, что стало значительным прорывом по сравнению с предыдущим рекордом в 65,7%.
* Использование инструментов: чтобы предотвратить галлюцинации с цитированием, Aletheia использует Google Search и веб-браузер.

Этапы исследования

Aletheia уже внесла свой вклад в несколько рецензируемых публикаций:
* Полностью автономный (Feng26): Aletheia сгенерировала исследовательскую статью, вычисляющую структурные константы, называемые собственными весами, без какого-либо участия человека.
* Совместная работа (LeeSeo26): агент предоставил общую дорожную карту и «общую стратегию» для доказательства границ независимых множеств, которые авторы-люди затем превратили в строгое доказательство.
* Гипотезы Эрдеша: Aletheia была задействована для решения 700 открытых задач, нашла 63 технически правильных решения и самостоятельно разрешила 4 открытых вопроса.

Таксономия для автономности ИИ

DeepMind предложила стандарт для классификации математических вкладов ИИ, аналогичный уровням, используемым для автономных транспортных средств.

Ключевые выводы

* Введение исследовательского ИИ-агента: Aletheia — это математический исследовательский агент, который выходит за рамки решения задач на уровне соревнований и может автономно генерировать, проверять и исправлять математические доказательства на естественном языке.
* Значительные успехи благодаря масштабированию во время вывода: исследователи DeepMind обнаружили, что предоставление модели дополнительного «времени на обдумывание» во время вывода даёт существенный прирост точности.
* Вехи в автономных исследованиях: система достигла нескольких «первых», включая исследовательскую статью (Feng26), сгенерированную полностью без участия человека в области арифметической геометрии.
* Критическая роль использования инструментов и проверки: чтобы бороться с «галлюцинациями», такими как фабрикация цитат в статьях, Aletheia в значительной степени полагается на Google Search и веб-браузер.
* Предложение новой таксономии автономности: в документе предлагается стандартизированная система для документирования результатов, полученных с помощью ИИ, с осями для автономности (от уровня H до уровня A) и математической значимости (от уровня 0 до уровня 4).

1. Какие основные функции предоставляет система gstack и как они могут быть полезны для разработчиков?

Система gstack предоставляет 8 основных команд, которые помогают в планировании, проверке кода, контроле качества и выпуске. Например, команда `/plan-ceo-review` используется для планирования на уровне продукта, а `/review` — для проверки производственных рисков и кода. Эти функции могут быть полезны для разработчиков, так как позволяют автоматизировать рутинные задачи и сосредоточиться на более сложных аспектах разработки.

2. Какие технические решения используются в проекте gstack для обеспечения его эффективности?

В проекте gstack используются следующие технические решения:
* постоянный браузер в качестве основной системы;
* безголовый демон Chromium для взаимодействия с браузером;
* использование Bun v1.0+ вместо традиционной настройки Node.js.

Эти решения позволяют снизить задержку, сохранить состояние и обеспечить эффективную работу системы.

3. Какие ключевые технические выводы были сделаны при разработке Aletheia и как они влияют на будущее ИИ в научных исследованиях?

При разработке Aletheia были сделаны следующие ключевые технические выводы:
* масштабирование во время вывода значительно повышает точность;
* Aletheia достигла точности 95,1% на IMO-Proof Bench Advanced;
* использование инструментов, таких как Google Search и веб-браузер, помогает предотвратить галлюцинации с цитированием.

Эти выводы указывают на значительный прогресс в области ИИ и его потенциал для научных исследований.

4. Какие уровни автономности ИИ были предложены DeepMind и как они классифицируются?

DeepMind предложила стандарт для классификации математических вкладов ИИ, аналогичный уровням, используемым для автономных транспортных средств. Уровни автономности включают:
* Уровень 0: в основном человеческий (незначительная новизна).
* Уровень 1: человеко-ИИ сотрудничество (незначительная новизна).
* Уровень 2: по сути автономный (публикуемые исследования).

Эта классификация позволяет стандартизировать результаты, полученные с помощью ИИ, и оценить их автономность.

5. Какие примеры использования Aletheia в научных исследованиях были приведены в статье?

В статье приведены следующие примеры использования Aletheia:
* полностью автономный (Feng26): Aletheia сгенерировала исследовательскую статью без участия человека;
* совместная работа (LeeSeo26): агент предоставил общую дорожную карту и стратегию для доказательства границ независимых множеств, которые авторы-люди затем превратили в строгое доказательство;
* гипотезы Эрдеша: Aletheia была задействована для решения 700 открытых задач, нашла 63 технически правильных решения и самостоятельно разрешила 4 открытых вопроса.

Эти примеры демонстрируют потенциал Aletheia для научных исследований и её способность генерировать, проверять и исправлять математические доказательства.

Источник