Компания, которая хочет использовать большую языковую модель (LLM) для обобщения отчётов о продажах или сортировки запросов клиентов, может выбрать между сотнями уникальных LLM с десятками вариаций моделей, каждая из которых имеет немного отличающиеся характеристики.
Чтобы сузить выбор, компании часто полагаются на платформы ранжирования LLM, которые собирают отзывы пользователей о взаимодействии с моделями и ранжируют новейшие LLM на основе их производительности при выполнении определённых задач.
Но исследователи MIT обнаружили, что несколько взаимодействий пользователей могут исказить результаты, заставляя кого-то ошибочно полагать, что одна LLM является идеальным выбором для конкретного случая использования. Их исследование показывает, что удаление небольшой части краудсорсинговых данных может изменить рейтинг моделей.
Методы исследования
Исследователи разработали быстрый метод для тестирования платформ ранжирования и определения того, подвержены ли они этой проблеме. Методика оценки выявляет отдельные голоса, наиболее ответственные за искажение результатов, чтобы пользователи могли проверить эти влиятельные голоса.
Они говорят, что эта работа подчёркивает необходимость более строгих стратегий для оценки рейтингов моделей. Хотя в этом исследовании они не сосредоточились на смягчении проблемы, они предлагают способы повышения надёжности этих платформ, например, сбор более детальной обратной связи для составления рейтингов.
Выводы исследования
Исследование также предупреждает пользователей, которые могут полагаться на рейтинги при принятии решений о LLM, которые могут иметь далеко идущие и дорогостоящие последствия для бизнеса или организации.
«Мы были удивлены, что эти платформы ранжирования оказались настолько чувствительны к этой проблеме. Если окажется, что рейтинг LLM с наивысшим рейтингом зависит только от двух или трёх отзывов пользователей из десятков тысяч, то нельзя предполагать, что LLM с наивысшим рейтингом будет последовательно превосходить все остальные LLM при их внедрении», — говорит Тамара Бродерик, доцент кафедры электротехники и компьютерных наук MIT (EECS).
Удаление данных
Хотя существует множество типов платформ ранжирования LLM, наиболее популярные варианты предлагают пользователям отправить запрос двум моделям и выбрать, какая LLM даёт лучший ответ.
Платформы объединяют результаты этих соревнований, чтобы составить рейтинги, которые показывают, какая LLM показала лучшие результаты при выполнении определённых задач, таких как кодирование или визуальное понимание.
Выбрав LLM с наивысшей производительностью, пользователь, вероятно, ожидает, что рейтинг этой модели будет обобщён, то есть она должна превосходить другие модели в их аналогичном, но не идентичном применении с набором новых данных.
Исследователи MIT ранее изучали обобщение в таких областях, как статистика и экономика. Эта работа выявила некоторые случаи, когда удаление небольшого процента данных может изменить результаты модели, что указывает на то, что выводы этих исследований могут быть неприменимы за пределами их узких рамок.
Исследователи хотели увидеть, можно ли применить тот же анализ к платформам ранжирования LLM.
Чувствительность к данным
Когда исследователи применили свою технику к популярным платформам ранжирования, они были удивлены, увидев, как мало данных нужно было удалить, чтобы вызвать значительные изменения в рейтинге LLM. В одном случае удаление всего двух голосов из более чем 57 000, что составляет 0,0035%, изменило рейтинг модели.
Другая платформа ранжирования, которая использует экспертов-аннотаторов и более качественные запросы, оказалась более надёжной. Здесь удаление 83 из 2 575 оценок (около 3%) изменило рейтинг моделей.
Их исследование показало, что многие влиятельные голоса могли быть результатом ошибки пользователя. В некоторых случаях было очевидно, какая LLM работала лучше, но пользователь выбрал другую модель, говорит Бродерик.
«Мы никогда не узнаем, что было в голове пользователя в то время, но, возможно, он случайно нажал не туда или не обратил внимания, или он честно не знал, какая модель лучше. Главный вывод здесь заключается в том, что вы не хотите, чтобы шум, ошибка пользователя или какой-то выброс определяли, какая модель является LLM с наивысшим рейтингом», — добавляет она.
Исследование частично финансировалось Управлением военно-морских исследований, MIT-IBM Watson AI Lab, Национальным научным фондом, Amazon и CSAIL.
1. Какие проблемы могут возникнуть при использовании платформ ранжирования LLM для выбора модели для бизнес-задач?
В статье указано, что несколько взаимодействий пользователей могут исказить результаты, заставляя ошибочно полагать, что одна LLM является идеальным выбором для конкретного случая использования. Удаление небольшой части краудсорсинговых данных может изменить рейтинг моделей.
2. Какие методы исследования использовали авторы для тестирования платформ ранжирования LLM?
Авторы разработали быстрый метод для тестирования платформ ранжирования и определения того, подвержены ли они проблеме искажения результатов. Методика оценки выявляет отдельные голоса, наиболее ответственные за искажение результатов, чтобы пользователи могли проверить эти влиятельные голоса.
3. Какие выводы можно сделать из исследования о надёжности платформ ранжирования LLM?
Исследование показывает, что платформы ранжирования LLM могут быть чувствительны к небольшим изменениям в данных. Удаление небольшого процента данных может изменить рейтинг модели. Это подчёркивает необходимость более строгих стратегий для оценки рейтингов моделей.
4. Какие рекомендации дают авторы для повышения надёжности платформ ранжирования LLM?
Авторы предлагают собирать более детальную обратную связь для составления рейтингов. Это может помочь снизить влияние ошибок пользователя и повысить надёжность платформ ранжирования.
5. Какие последствия может иметь использование ненадёжных платформ ранжирования LLM для бизнеса или организации?
Использование ненадёжных платформ ранжирования может привести к выбору неподходящей модели для бизнес-задач. Это может иметь далеко идущие и дорогостоящие последствия для бизнеса или организации.