Meta против обмана: Топ-менеджер опровергает подтасовку результатов Llama 4

Топ-менеджер Meta опроверг слухи о том, что компания искусственно завысила результаты тестов своей новой ИИ-модели **Llama 4**. Ахмад Аль-Дале, вице-президент Meta по генеративному ИИ, в понедельник в соцсети X (ранее Twitter) заявил, что информация о специальной подгонке модели под бенчмарки не соответствует действительности. Он подчеркнул, что утверждения о целенаправленном обучении модели для хороших показателей в тестах при сокрытии ее слабостей — «просто неправда».

Подробности обвинений против Meta

Слухи, которые Аль-Дале опровергает, появились ранее. Анонимный источник утверждал, что Meta якобы использовала специфические методы для улучшения результатов **Llama 4** в стандартных отраслевых тестах, таких как MMLU (для проверки широких знаний) и HumanEval (для оценки навыков программирования).

Суть претензий

Утверждалось, что компания:

  • Использовала синтетические данные, специально созданные для конкретных бенчмарков.
  • Занималась «переобучением» (overfitting) модели под эти тесты. То есть, модель настраивалась так, чтобы хорошо справляться именно с тестовыми заданиями, а не с общими задачами.
  • Сознательно скрывала слабые стороны модели, в частности, в областях логического мышления и безопасности.
  • Такие действия, если бы они имели место, могли бы ввести в заблуждение исследователей и пользователей относительно реальных возможностей ИИ.

    Ответ Meta: Стандартные практики и прозрачность

    Ахмад Аль-Дале подробно изложил позицию компании. Он заявил, что процесс разработки и обучения ИИ в Meta следует общепринятым в индустрии практикам.

    Как обучают Llama 4?

    По словам Аль-Дале, обучение модели включает:

    1. Использование разнообразного набора данных: он состоит как из общедоступной информации из интернета, так и из синтетических данных. Но синтетические данные, как утверждает Meta, применяются для улучшения общих способностей модели, а не для подгонки под тесты.
    2. Фокус на общих возможностях: главная цель — создать универсальную и полезную модель, а не просто добиться высоких цифр в бенчмарках.
    3. Признание ограничений бенчмарков: Аль-Дале отметил, что тесты важны для сравнения моделей, но они не могут охватить весь спектр задач и нюансов реального мира. Поэтому высокие баллы в тестах не всегда означают превосходство модели во всех ситуациях.

    Он также подчеркнул стремление Meta к прозрачности и открытости в исследованиях ИИ. Компания регулярно публикует свои модели и научные статьи, позволяя сообществу изучать их работу.

    Конкуренция и давление в мире ИИ

    Ситуация вокруг **Llama 4** разворачивается на фоне интенсивной конкуренции между технологическими гигантами в области искусственного интеллекта. Компании находятся под постоянным давлением – им необходимо демонстрировать прорывные результаты и превосходство своих моделей.

    В прошлом уже возникали споры относительно достоверности демонстраций ИИ. Например, Google критиковали за презентацию возможностей модели Gemini, которая, по мнению некоторых экспертов, была отредактирована для большего эффекта.

    Важно понимать, что оценка ИИ — сложный процесс. Бенчмарки являются полезным инструментом, но имеют свои ограничения. “Переобучение” под тесты (overfitting) — известная техническая проблема, с которой сталкиваются все разработчики. У любой существующей модели есть свои сильные и слабые стороны.

    Заключение

    На данный момент Meta категорически отрицает обвинения в манипуляциях с тестами модели **Llama 4**. Компания настаивает на стандартных методах разработки и приверженности открытости. Однако, без независимого аудита или доступа к полным данным об обучении, проверить эти утверждения на 100% сложно. Дискуссия о надежности бенчмарков и честности в гонке ИИ-технологий, вероятно, будет продолжаться.

    Источник

    Оставьте комментарий