Команда исследователей из Института искусственного интеллекта Аллена (Ai2), Вашингтонского университета и CMU представляет гибкий бенчмаркинг — адаптивный метод оценки больших языковых моделей (LLM), который заменяет статическую точность оценкой способностей на основе двухпараметрической модели IRT и выбором элементов на основе информационной функции Фишера.
Как работает гибкий бенчмаркинг?
1. Оценка способностей, а не точности.
Исследователи используют двухпараметрическую логистическую модель IRT для анализа исторических ответов LM. Для каждого элемента j с дискриминацией aj и сложностью bj вероятность того, что модель с определёнными способностями θi ответит правильно, рассчитывается следующим образом:
$p(uij=1)=logistic(aj(θi−bj))$
При оценке модель оценивает способность MAP θ^i для кандидата LM, максимизируя правдоподобие 2PL по его наблюдаемым правильным/неправильным ответам по введённым элементам. Элементы взвешиваются по их дискриминации и сложности, в отличие от точности, которая взвешивает все элементы одинаково.
2. Динамический выбор элементов на основе информационной функции Фишера.
На каждом шаге t выбирается следующий элемент qj, который максимизирует информационную функцию Фишера при текущей оценке способности θ^(t):
$I(θi,aj,bj)=aj2logistic(aj(θi−bj))(1−logistic(aj(θi−bj)))$
Элементы с высокой информационной ценностью минимизируют дисперсию оценки способности. По мере обучения наиболее информативные элементы меняются с лёгких на сложные, поэтому вводимый набор меняется вместе с возможностями модели.
Что означает «улучшенная оценка»?
Гибкий бенчмаркинг оценивает четыре параметра с помощью конкретных метрик:
* Валидность: внешнее соответствие «истинной» модели ранжирования; измеряется средним ранговым расстоянием (чем меньше, тем лучше).
* Дисперсия: нормализованная общая вариативность кривой обучения по контрольным точкам (чем меньше, тем лучше).
* Насыщение: монотонность (корреляция Спирмена между индексом контрольной точки и прогнозируемой производительностью; чем выше, тем лучше).
* Эффективность: качество при небольших бюджетах по количеству элементов.
Каковы результаты?
Исследователи провели эксперименты на шести бенчмарках (например, ARC-C, GSM8K, HellaSwag, MMLU, TruthfulQA, WinoGrande) и шести LM с 61–94 контрольными точками в каждом. Результаты показали значительное улучшение по всем четырём параметрам.
Где гибкий бенчмаркинг применяется в стеке оценки?
Гибкий бенчмаркинг — это усовершенствование бенчмарков: он не изобретает новые задачи, а перераспределяет и изменяет порядок существующих элементов, чтобы максимизировать информацию по скрытому показателю способностей. Он применим не только для предварительного обучения, но и для пост-тренинга и других модальностей, при условии наличия достаточного количества ответов для подгонки модели IRT.
Резюме
Гибкий бенчмаркинг делает оценку LLM более экономичной и стабильной за счёт оценки моделей в пространстве способностей и выбора элементов по информационной функции Фишера, что снижает дисперсию, повышает валидность ранжирования и задерживает насыщение с гораздо меньшим количеством вопросов.
🔍 Проверьте статью, страницу GitHub и технические подробности. Не стесняйтесь посетить нашу страницу GitHub для ознакомления с учебными пособиями, кодами и ноутбуками. Подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в ML SubReddit с более чем 100 тысячами участников и подписывайтесь на нашу рассылку.
1. Какие параметры оценивает гибкий бенчмаркинг и как он это делает?
Гибкий бенчмаркинг оценивает четыре параметра: валидность, дисперсию, насыщение и эффективность. Для оценки валидности используется среднее ранговое расстояние (чем меньше, тем лучше). Дисперсия измеряется через нормализованную общую вариативность кривой обучения по контрольным точкам (чем меньше, тем лучше). Насыщение оценивается через корреляцию Спирмена между индексом контрольной точки и прогнозируемой производительностью (чем выше, тем лучше). Эффективность определяется качеством при небольших бюджетах по количеству элементов.
2. В чём преимущество гибкого бенчмаркинга перед традиционными методами оценки больших языковых моделей?
Преимущество гибкого бенчмаркинга заключается в его способности делать оценку более экономичной и стабильной. Он оценивает модели в пространстве способностей и выбирает элементы по информационной функции Фишера, что снижает дисперсию, повышает валидность ранжирования и задерживает насыщение с гораздо меньшим количеством вопросов.
3. Какие эксперименты были проведены для демонстрации эффективности гибкого бенчмаркинга?
Исследователи провели эксперименты на шести бенчмарках (например, ARC-C, GSM8K, HellaSwag, MMLU, TruthfulQA, WinoGrande) и шести больших языковых моделях с 61–94 контрольными точками в каждом. Результаты показали значительное улучшение по всем четырём параметрам.
4. В каких случаях гибкий бенчмаркинг может быть применён для оценки языковых моделей?
Гибкий бенчмаркинг может быть применён не только для предварительного обучения, но и для пост-тренинга и других модальностей, при условии наличия достаточного количества ответов для подгонки модели IRT.
5. Какие метрики используются для измерения эффективности гибкого бенчмаркинга?
Для измерения эффективности гибкого бенчмаркинга используются следующие метрики:
* Валидность: среднее ранговое расстояние.
* Дисперсия: нормализованная общая вариативность кривой обучения по контрольным точкам.
* Насыщение: корреляция Спирмена между индексом контрольной точки и прогнозируемой производительностью.
* Эффективность: качество при небольших бюджетах по количеству элементов.